End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +12 -12
eval_results.json +7 -7
tokenizer.json +1 -6
train_results.json +6 -6
trainer_state.json +340 -12

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 5.3392
 - Accuracy: 0.4286

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3
+      type: tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.4286153846153846
 library_name: peft
 ---
 # lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 5.3392
 - Accuracy: 0.4286

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 9.985358711566619,
-    "eval_accuracy": 0.44876923076923075,
-    "eval_loss": 4.579395294189453,
-    "eval_runtime": 5.7694,
     "eval_samples": 500,
-    "eval_samples_per_second": 86.664,
-    "eval_steps_per_second": 10.92,
-    "perplexity": 97.45544451167304,
-    "total_flos": 2.928245903951135e+17,
-    "train_loss": 1.2971285638221897,
-    "train_runtime": 7961.3414,
     "train_samples": 10925,
-    "train_samples_per_second": 13.723,
-    "train_steps_per_second": 0.428
 }

 {
+    "epoch": 19.98535871156662,
+    "eval_accuracy": 0.4286153846153846,
+    "eval_loss": 5.339197635650635,
+    "eval_runtime": 7.9613,
     "eval_samples": 500,
+    "eval_samples_per_second": 62.804,
+    "eval_steps_per_second": 7.913,
+    "perplexity": 208.34547422507072,
+    "total_flos": 5.856533154721956e+17,
+    "train_loss": 0.12585465450091096,
+    "train_runtime": 12067.3128,
     "train_samples": 10925,
+    "train_samples_per_second": 18.107,
+    "train_steps_per_second": 0.565
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 9.985358711566619,
-    "eval_accuracy": 0.44876923076923075,
-    "eval_loss": 4.579395294189453,
-    "eval_runtime": 5.7694,
     "eval_samples": 500,
-    "eval_samples_per_second": 86.664,
-    "eval_steps_per_second": 10.92,
-    "perplexity": 97.45544451167304
 }

 {
+    "epoch": 19.98535871156662,
+    "eval_accuracy": 0.4286153846153846,
+    "eval_loss": 5.339197635650635,
+    "eval_runtime": 7.9613,
     "eval_samples": 500,
+    "eval_samples_per_second": 62.804,
+    "eval_steps_per_second": 7.913,
+    "perplexity": 208.34547422507072
 }

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 9.985358711566619,
-    "total_flos": 2.928245903951135e+17,
-    "train_loss": 1.2971285638221897,
-    "train_runtime": 7961.3414,
     "train_samples": 10925,
-    "train_samples_per_second": 13.723,
-    "train_steps_per_second": 0.428
 }

 {
+    "epoch": 19.98535871156662,
+    "total_flos": 5.856533154721956e+17,
+    "train_loss": 0.12585465450091096,
+    "train_runtime": 12067.3128,
     "train_samples": 10925,
+    "train_samples_per_second": 18.107,
+    "train_steps_per_second": 0.565
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.985358711566619,
   "eval_steps": 500,
-  "global_step": 3410,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -337,21 +337,349 @@
       "step": 3410
     },
     {
-      "epoch": 9.985358711566619,
-      "step": 3410,
-      "total_flos": 2.928245903951135e+17,
-      "train_loss": 1.2971285638221897,
-      "train_runtime": 7961.3414,
-      "train_samples_per_second": 13.723,
-      "train_steps_per_second": 0.428
     }
   ],
   "logging_steps": 100,
-  "max_steps": 3410,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2.928245903951135e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 19.98535871156662,
   "eval_steps": 500,
+  "global_step": 6820,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 3410
     },
     {
+      "epoch": 10.263543191800878,
+      "grad_norm": 1.5488256216049194,
+      "learning_rate": 0.0001,
+      "loss": 0.4245,
+      "step": 3500
+    },
+    {
+      "epoch": 10.556368960468522,
+      "grad_norm": 1.543874740600586,
+      "learning_rate": 0.0001,
+      "loss": 0.4474,
+      "step": 3600
+    },
+    {
+      "epoch": 10.849194729136164,
+      "grad_norm": 1.6338953971862793,
+      "learning_rate": 0.0001,
+      "loss": 0.4641,
+      "step": 3700
+    },
+    {
+      "epoch": 10.998535871156662,
+      "eval_accuracy": 0.4494871794871795,
+      "eval_loss": 4.709042549133301,
+      "eval_runtime": 6.1807,
+      "eval_samples_per_second": 80.898,
+      "eval_steps_per_second": 10.193,
+      "step": 3751
+    },
+    {
+      "epoch": 11.142020497803808,
+      "grad_norm": 1.4190610647201538,
+      "learning_rate": 0.0001,
+      "loss": 0.4121,
+      "step": 3800
+    },
+    {
+      "epoch": 11.43484626647145,
+      "grad_norm": 1.4251505136489868,
+      "learning_rate": 0.0001,
+      "loss": 0.3584,
+      "step": 3900
+    },
+    {
+      "epoch": 11.727672035139092,
+      "grad_norm": 1.4489820003509521,
+      "learning_rate": 0.0001,
+      "loss": 0.3755,
+      "step": 4000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.43543589743589745,
+      "eval_loss": 4.94539213180542,
+      "eval_runtime": 7.2389,
+      "eval_samples_per_second": 69.071,
+      "eval_steps_per_second": 8.703,
+      "step": 4093
+    },
+    {
+      "epoch": 12.020497803806736,
+      "grad_norm": 1.3672994375228882,
+      "learning_rate": 0.0001,
+      "loss": 0.3818,
+      "step": 4100
+    },
+    {
+      "epoch": 12.313323572474378,
+      "grad_norm": 1.3448461294174194,
+      "learning_rate": 0.0001,
+      "loss": 0.2861,
+      "step": 4200
+    },
+    {
+      "epoch": 12.60614934114202,
+      "grad_norm": 1.545249581336975,
+      "learning_rate": 0.0001,
+      "loss": 0.3069,
+      "step": 4300
+    },
+    {
+      "epoch": 12.898975109809664,
+      "grad_norm": 1.706429362297058,
+      "learning_rate": 0.0001,
+      "loss": 0.3235,
+      "step": 4400
+    },
+    {
+      "epoch": 12.998535871156662,
+      "eval_accuracy": 0.4379487179487179,
+      "eval_loss": 5.062421798706055,
+      "eval_runtime": 8.0039,
+      "eval_samples_per_second": 62.47,
+      "eval_steps_per_second": 7.871,
+      "step": 4434
+    },
+    {
+      "epoch": 13.191800878477306,
+      "grad_norm": 1.3922677040100098,
+      "learning_rate": 0.0001,
+      "loss": 0.2675,
+      "step": 4500
+    },
+    {
+      "epoch": 13.48462664714495,
+      "grad_norm": 1.5473686456680298,
+      "learning_rate": 0.0001,
+      "loss": 0.2568,
+      "step": 4600
+    },
+    {
+      "epoch": 13.777452415812592,
+      "grad_norm": 1.5473802089691162,
+      "learning_rate": 0.0001,
+      "loss": 0.2691,
+      "step": 4700
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.43446153846153845,
+      "eval_loss": 5.095705032348633,
+      "eval_runtime": 8.6359,
+      "eval_samples_per_second": 57.898,
+      "eval_steps_per_second": 7.295,
+      "step": 4776
+    },
+    {
+      "epoch": 14.070278184480234,
+      "grad_norm": 1.3755005598068237,
+      "learning_rate": 0.0001,
+      "loss": 0.2602,
+      "step": 4800
+    },
+    {
+      "epoch": 14.363103953147878,
+      "grad_norm": 1.5911964178085327,
+      "learning_rate": 0.0001,
+      "loss": 0.2195,
+      "step": 4900
+    },
+    {
+      "epoch": 14.65592972181552,
+      "grad_norm": 1.5082800388336182,
+      "learning_rate": 0.0001,
+      "loss": 0.2298,
+      "step": 5000
+    },
+    {
+      "epoch": 14.948755490483162,
+      "grad_norm": 1.9005481004714966,
+      "learning_rate": 0.0001,
+      "loss": 0.2394,
+      "step": 5100
+    },
+    {
+      "epoch": 14.998535871156662,
+      "eval_accuracy": 0.43676923076923074,
+      "eval_loss": 5.183106899261475,
+      "eval_runtime": 7.9023,
+      "eval_samples_per_second": 63.272,
+      "eval_steps_per_second": 7.972,
+      "step": 5117
+    },
+    {
+      "epoch": 15.241581259150806,
+      "grad_norm": 1.6176873445510864,
+      "learning_rate": 0.0001,
+      "loss": 0.1998,
+      "step": 5200
+    },
+    {
+      "epoch": 15.534407027818448,
+      "grad_norm": 1.5397286415100098,
+      "learning_rate": 0.0001,
+      "loss": 0.203,
+      "step": 5300
+    },
+    {
+      "epoch": 15.82723279648609,
+      "grad_norm": 1.572167992591858,
+      "learning_rate": 0.0001,
+      "loss": 0.2112,
+      "step": 5400
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.4326153846153846,
+      "eval_loss": 5.322297096252441,
+      "eval_runtime": 6.2388,
+      "eval_samples_per_second": 80.144,
+      "eval_steps_per_second": 10.098,
+      "step": 5459
+    },
+    {
+      "epoch": 16.120058565153734,
+      "grad_norm": 1.1185795068740845,
+      "learning_rate": 0.0001,
+      "loss": 0.1997,
+      "step": 5500
+    },
+    {
+      "epoch": 16.412884333821378,
+      "grad_norm": 1.3208354711532593,
+      "learning_rate": 0.0001,
+      "loss": 0.1826,
+      "step": 5600
+    },
+    {
+      "epoch": 16.705710102489018,
+      "grad_norm": 1.262676477432251,
+      "learning_rate": 0.0001,
+      "loss": 0.1928,
+      "step": 5700
+    },
+    {
+      "epoch": 16.998535871156662,
+      "grad_norm": 1.3489364385604858,
+      "learning_rate": 0.0001,
+      "loss": 0.1994,
+      "step": 5800
+    },
+    {
+      "epoch": 16.998535871156662,
+      "eval_accuracy": 0.4301025641025641,
+      "eval_loss": 5.383902072906494,
+      "eval_runtime": 6.4812,
+      "eval_samples_per_second": 77.146,
+      "eval_steps_per_second": 9.72,
+      "step": 5800
+    },
+    {
+      "epoch": 17.291361639824306,
+      "grad_norm": 1.4268001317977905,
+      "learning_rate": 0.0001,
+      "loss": 0.1674,
+      "step": 5900
+    },
+    {
+      "epoch": 17.584187408491946,
+      "grad_norm": 1.3584396839141846,
+      "learning_rate": 0.0001,
+      "loss": 0.1761,
+      "step": 6000
+    },
+    {
+      "epoch": 17.87701317715959,
+      "grad_norm": 1.5572041273117065,
+      "learning_rate": 0.0001,
+      "loss": 0.1834,
+      "step": 6100
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.42856410256410254,
+      "eval_loss": 5.423606872558594,
+      "eval_runtime": 6.3593,
+      "eval_samples_per_second": 78.625,
+      "eval_steps_per_second": 9.907,
+      "step": 6142
+    },
+    {
+      "epoch": 18.169838945827234,
+      "grad_norm": 1.573486328125,
+      "learning_rate": 0.0001,
+      "loss": 0.1687,
+      "step": 6200
+    },
+    {
+      "epoch": 18.462664714494874,
+      "grad_norm": 1.2936781644821167,
+      "learning_rate": 0.0001,
+      "loss": 0.1631,
+      "step": 6300
+    },
+    {
+      "epoch": 18.755490483162518,
+      "grad_norm": 1.4259896278381348,
+      "learning_rate": 0.0001,
+      "loss": 0.1709,
+      "step": 6400
+    },
+    {
+      "epoch": 18.998535871156662,
+      "eval_accuracy": 0.42912820512820515,
+      "eval_loss": 5.484007835388184,
+      "eval_runtime": 7.2298,
+      "eval_samples_per_second": 69.158,
+      "eval_steps_per_second": 8.714,
+      "step": 6483
+    },
+    {
+      "epoch": 19.048316251830162,
+      "grad_norm": 0.8712400197982788,
+      "learning_rate": 0.0001,
+      "loss": 0.1722,
+      "step": 6500
+    },
+    {
+      "epoch": 19.341142020497802,
+      "grad_norm": 1.1428442001342773,
+      "learning_rate": 0.0001,
+      "loss": 0.1513,
+      "step": 6600
+    },
+    {
+      "epoch": 19.633967789165446,
+      "grad_norm": 1.1861703395843506,
+      "learning_rate": 0.0001,
+      "loss": 0.161,
+      "step": 6700
+    },
+    {
+      "epoch": 19.92679355783309,
+      "grad_norm": 1.1480906009674072,
+      "learning_rate": 0.0001,
+      "loss": 0.166,
+      "step": 6800
+    },
+    {
+      "epoch": 19.98535871156662,
+      "eval_accuracy": 0.4286153846153846,
+      "eval_loss": 5.339197635650635,
+      "eval_runtime": 7.1865,
+      "eval_samples_per_second": 69.575,
+      "eval_steps_per_second": 8.766,
+      "step": 6820
+    },
+    {
+      "epoch": 19.98535871156662,
+      "step": 6820,
+      "total_flos": 5.856533154721956e+17,
+      "train_loss": 0.12585465450091096,
+      "train_runtime": 12067.3128,
+      "train_samples_per_second": 18.107,
+      "train_steps_per_second": 0.565
     }
   ],
   "logging_steps": 100,
+  "max_steps": 6820,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
+  "total_flos": 5.856533154721956e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null