Training in progress, epoch 0

Files changed (12) hide show

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # llama3_8b_baseline_instructskillmix
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.7085

 # llama3_8b_baseline_instructskillmix
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the PrincetonPLI/Instruct-SkillMix-SDD dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.7085

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 1.6,
-    "eval_loss": NaN,
-    "eval_runtime": 6.0974,
-    "eval_samples_per_second": 16.564,
-    "eval_steps_per_second": 0.656,
-    "total_flos": 2.833014287331492e+17,
-    "train_loss": 1.8229212760925293,
-    "train_runtime": 1331.3604,
-    "train_samples_per_second": 4.324,
     "train_steps_per_second": 0.002
 }

 {
     "epoch": 1.6,
+    "eval_loss": 1.7085474729537964,
+    "eval_runtime": 13.3752,
+    "eval_samples_per_second": 7.551,
+    "eval_steps_per_second": 0.299,
+    "total_flos": 1.9221024474136576e+16,
+    "train_loss": 1.8231021563212078,
+    "train_runtime": 1450.8496,
+    "train_samples_per_second": 3.968,
     "train_steps_per_second": 0.002
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 1.6,
-    "eval_loss": NaN,
-    "eval_runtime": 6.0974,
-    "eval_samples_per_second": 16.564,
-    "eval_steps_per_second": 0.656
 }

 {
     "epoch": 1.6,
+    "eval_loss": 1.7085474729537964,
+    "eval_runtime": 13.3752,
+    "eval_samples_per_second": 7.551,
+    "eval_steps_per_second": 0.299
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa7ddf40a53c01580113b725a0016eec9561e858e589517f9d83205265478d6b
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:80e898f686f91ca0491b32e277bfca0b81304d4522d569fe7481c19983dadd6d
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d362d83c2e9ba973e98cca23893617dd1bf3577389c0af075b784abd7f877f9d
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebde098b486f203fd01e807c2b6b0a84097d7212c0411c8a88f9e9fa8c651d74
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55b0d48a0edc756a4f62d053427ec9337fc67951899617d08adfc913344f0caa
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:723649201ed03575b92401a56585ed80868e56ccedd76a17987321cdadcc3692
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b229c76dc68a962cfcf861b4b833add51f486c85f418864f20b6ce72b2e7d061
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:482a33cd7718fe720f2f5641f13b3e589a85fbbe00478c2ec8bee820c7b59aff
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.6,
-    "total_flos": 2.833014287331492e+17,
-    "train_loss": 1.8229212760925293,
-    "train_runtime": 1331.3604,
-    "train_samples_per_second": 4.324,
     "train_steps_per_second": 0.002
 }

 {
     "epoch": 1.6,
+    "total_flos": 1.9221024474136576e+16,
+    "train_loss": 1.8231021563212078,
+    "train_runtime": 1450.8496,
+    "train_samples_per_second": 3.968,
     "train_steps_per_second": 0.002
 }

trainer_log.jsonl CHANGED Viewed

@@ -1,3 +1,2 @@
-{"current_steps": 1, "total_steps": 3, "eval_loss": 1.8345922231674194, "epoch": 0.5333333333333333, "percentage": 33.33, "elapsed_time": "0:14:04", "remaining_time": "0:28:08"}
-{"current_steps": 3, "total_steps": 3, "eval_loss": 1.7085474729537964, "epoch": 1.6, "percentage": 100.0, "elapsed_time": "0:23:22", "remaining_time": "0:00:00"}
-{"current_steps": 3, "total_steps": 3, "epoch": 1.6, "percentage": 100.0, "elapsed_time": "0:24:06", "remaining_time": "0:00:00"}


1	+ {"current_steps": 1, "total_steps": 3, "loss": 1.9079, "learning_rate": 5e-06, "epoch": 0.5333333333333333, "percentage": 33.33, "elapsed_time": "0:05:58", "remaining_time": "0:11:56"}
2	+ {"current_steps": 1, "total_steps": 3, "eval_loss": 1.8345922231674194, "epoch": 0.5333333333333333, "percentage": 33.33, "elapsed_time": "0:11:21", "remaining_time": "0:22:42"}

trainer_state.json CHANGED Viewed

@@ -10,27 +10,27 @@
   "log_history": [
     {
       "epoch": 0.5333333333333333,
-      "eval_loss": NaN,
-      "eval_runtime": 8.0544,
-      "eval_samples_per_second": 12.54,
-      "eval_steps_per_second": 0.497,
       "step": 1
     },
     {
       "epoch": 1.6,
-      "eval_loss": NaN,
-      "eval_runtime": 6.2762,
-      "eval_samples_per_second": 16.093,
-      "eval_steps_per_second": 0.637,
       "step": 3
     },
     {
       "epoch": 1.6,
       "step": 3,
-      "total_flos": 2.833014287331492e+17,
-      "train_loss": 1.8229212760925293,
-      "train_runtime": 1331.3604,
-      "train_samples_per_second": 4.324,
       "train_steps_per_second": 0.002
     }
   ],
@@ -51,7 +51,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.833014287331492e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.5333333333333333,
+      "eval_loss": 1.8345922231674194,
+      "eval_runtime": 13.5492,
+      "eval_samples_per_second": 7.454,
+      "eval_steps_per_second": 0.295,
       "step": 1
     },
     {
       "epoch": 1.6,
+      "eval_loss": 1.7085474729537964,
+      "eval_runtime": 13.4084,
+      "eval_samples_per_second": 7.533,
+      "eval_steps_per_second": 0.298,
       "step": 3
     },
     {
       "epoch": 1.6,
       "step": 3,
+      "total_flos": 1.9221024474136576e+16,
+      "train_loss": 1.8231021563212078,
+      "train_runtime": 1450.8496,
+      "train_samples_per_second": 3.968,
       "train_steps_per_second": 0.002
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.9221024474136576e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c7e21ca3d6a30f2def379a5fe7f65c58e5770aff15252585f83e16399930e95
 size 7224

 version https://git-lfs.github.com/spec/v1
+oid sha256:44c52cb12f2cf3c127f5b7a77a532618e060b34a9652507e284e6d7580705faf
 size 7224

training_eval_loss.png CHANGED Viewed