jikaixuan
/

zephyr-7b

@@ -2,10 +2,13 @@
 license: apache-2.0
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
 - name: zephyr-7b
   results: []
@@ -16,19 +19,19 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5769
-- Rewards/chosen: -0.6646
-- Rewards/rejected: -1.1353
-- Rewards/accuracies: 0.3711
-- Rewards/margins: 0.4707
-- Logps/rejected: -190.7267
-- Logps/chosen: -130.3719
-- Logits/rejected: 1.8500
-- Logits/chosen: 1.7576
-- Use Label: 6517.1875
-- Pred Label: 782.8125
 ## Model description

 license: apache-2.0
 library_name: peft
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
+datasets:
+- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: zephyr-7b
   results: []
 # zephyr-7b
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-qlora](https://huggingface.co/alignment-handbook/zephyr-7b-sft-qlora) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5775
+- Rewards/chosen: -0.6783
+- Rewards/rejected: -1.1531
+- Rewards/accuracies: 0.3672
+- Rewards/margins: 0.4748
+- Logps/rejected: -192.5041
+- Logps/chosen: -131.7414
+- Logits/rejected: 1.9235
+- Logits/chosen: 1.8283
+- Use Label: 7748.125
+- Pred Label: 1039.875
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,20 @@
 {
     "epoch": 1.0,
     "train_loss": 0.6110695428068533,
     "train_runtime": 9999.3279,
     "train_samples": 61135,

 {
     "epoch": 1.0,
+    "eval_logits/chosen": 1.828277349472046,
+    "eval_logits/rejected": 1.9234589338302612,
+    "eval_logps/chosen": -131.74139404296875,
+    "eval_logps/rejected": -192.50405883789062,
+    "eval_loss": 0.5775244235992432,
+    "eval_pred_label": 1039.875,
+    "eval_rewards/accuracies": 0.3671875,
+    "eval_rewards/chosen": -0.678291380405426,
+    "eval_rewards/margins": 0.47481971979141235,
+    "eval_rewards/rejected": -1.153111219406128,
+    "eval_runtime": 125.2019,
+    "eval_samples": 2000,
+    "eval_samples_per_second": 15.974,
+    "eval_steps_per_second": 0.256,
+    "eval_use_label": 7748.125,
     "train_loss": 0.6110695428068533,
     "train_runtime": 9999.3279,
     "train_samples": 61135,

eval_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": 1.507018804550171,
-    "eval_logits/rejected": 1.598363995552063,
-    "eval_logps/chosen": -114.45843505859375,
-    "eval_logps/rejected": -164.58822631835938,
-    "eval_loss": 0.6152364015579224,
-    "eval_pred_label": 0.0,
-    "eval_rewards/accuracies": 0.37890625,
-    "eval_rewards/chosen": -0.5054618120193481,
-    "eval_rewards/margins": 0.3684910833835602,
-    "eval_rewards/rejected": -0.8739528656005859,
-    "eval_runtime": 125.1233,
     "eval_samples": 2000,
-    "eval_samples_per_second": 15.984,
     "eval_steps_per_second": 0.256,
-    "eval_use_label": 0.0
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": 1.828277349472046,
+    "eval_logits/rejected": 1.9234589338302612,
+    "eval_logps/chosen": -131.74139404296875,
+    "eval_logps/rejected": -192.50405883789062,
+    "eval_loss": 0.5775244235992432,
+    "eval_pred_label": 1039.875,
+    "eval_rewards/accuracies": 0.3671875,
+    "eval_rewards/chosen": -0.678291380405426,
+    "eval_rewards/margins": 0.47481971979141235,
+    "eval_rewards/rejected": -1.153111219406128,
+    "eval_runtime": 125.2019,
     "eval_samples": 2000,
+    "eval_samples_per_second": 15.974,
     "eval_steps_per_second": 0.256,
+    "eval_use_label": 7748.125
 }