Training in progress, step 100

Browse files

Files changed (8) hide show

all_results.json +11 -11
eval_results.json +6 -6
model.safetensors +1 -1
runs/Dec04_11-46-10_l-hvjvvxgp4c.local/events.out.tfevents.1733330976.l-hvjvvxgp4c.local.19687.1 +3 -0
runs/Dec04_11-52-05_l-hvjvvxgp4c.local/events.out.tfevents.1733331126.l-hvjvvxgp4c.local.19687.2 +3 -0
train_results.json +6 -6
trainer_state.json +58 -158
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 4.0,
-    "eval_accuracy": 0.9473684210526315,
-    "eval_loss": 0.10724472999572754,
     "eval_model_preparation_time": 0.0027,
-    "eval_runtime": 4.3982,
-    "eval_samples_per_second": 30.24,
-    "eval_steps_per_second": 3.865,
-    "total_flos": 1.0280724304719053e+17,
-    "train_loss": 0.19260400934861258,
-    "train_runtime": 411.1303,
-    "train_samples_per_second": 10.06,
-    "train_steps_per_second": 0.632
 }

 {
+    "epoch": 2.0,
+    "eval_accuracy": 0.9774436090225563,
+    "eval_loss": 0.10054443776607513,
     "eval_model_preparation_time": 0.0027,
+    "eval_runtime": 4.4521,
+    "eval_samples_per_second": 29.874,
+    "eval_steps_per_second": 3.818,
+    "total_flos": 5.140362152359526e+16,
+    "train_loss": 0.4239132670255808,
+    "train_runtime": 196.2668,
+    "train_samples_per_second": 10.537,
+    "train_steps_per_second": 0.662
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "eval_accuracy": 0.9473684210526315,
-    "eval_loss": 0.10724472999572754,
-    "eval_runtime": 4.3982,
-    "eval_samples_per_second": 30.24,
-    "eval_steps_per_second": 3.865
 }

 {
+    "epoch": 2.0,
+    "eval_accuracy": 0.9774436090225563,
+    "eval_loss": 0.10054443776607513,
+    "eval_runtime": 4.4521,
+    "eval_samples_per_second": 29.874,
+    "eval_steps_per_second": 3.818
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a99098aa47336f9980bbdd2fee4d8adfdd583275ee12efe6dbb383b0f05ccd
 size 110345908

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4399eee272a4751bd7bc0cc01a962610eacb47f7ec0d99e454f020ef7b40927
 size 110345908

runs/Dec04_11-46-10_l-hvjvvxgp4c.local/events.out.tfevents.1733330976.l-hvjvvxgp4c.local.19687.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:028453e2e525c84e0fe3aa46ccb2f0039d7c195780ded7fbf28c398697daee06
+size 411

runs/Dec04_11-52-05_l-hvjvvxgp4c.local/events.out.tfevents.1733331126.l-hvjvvxgp4c.local.19687.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:088c47d38e6fe65893d52248ea61e4008c259e1211028fd965f4b038cedb2f7f
+size 7898

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "total_flos": 1.0280724304719053e+17,
-    "train_loss": 0.19260400934861258,
-    "train_runtime": 411.1303,
-    "train_samples_per_second": 10.06,
-    "train_steps_per_second": 0.632
 }

 {
+    "epoch": 2.0,
+    "total_flos": 5.140362152359526e+16,
+    "train_loss": 0.4239132670255808,
+    "train_runtime": 196.2668,
+    "train_samples_per_second": 10.537,
+    "train_steps_per_second": 0.662
 }

trainer_state.json CHANGED Viewed

@@ -1,227 +1,127 @@
 {
-  "best_metric": 0.046604182571172714,
-  "best_model_checkpoint": "plant_classification/checkpoint-200",
-  "epoch": 4.0,
   "eval_steps": 100,
-  "global_step": 260,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.15384615384615385,
-      "grad_norm": 0.22338886559009552,
-      "learning_rate": 7.692307692307693e-05,
-      "loss": 0.044,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
-      "grad_norm": 20.6887149810791,
-      "learning_rate": 0.00015384615384615385,
-      "loss": 0.1327,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
-      "grad_norm": 7.553480625152588,
-      "learning_rate": 0.00019658119658119659,
-      "loss": 0.3924,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
-      "grad_norm": 44.926761627197266,
-      "learning_rate": 0.00018803418803418803,
-      "loss": 0.2107,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 7.68371057510376,
-      "learning_rate": 0.0001794871794871795,
-      "loss": 0.2243,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
-      "grad_norm": 14.441496849060059,
-      "learning_rate": 0.00017094017094017094,
-      "loss": 0.2507,
       "step": 60
     },
     {
       "epoch": 1.0769230769230769,
-      "grad_norm": 14.163393020629883,
-      "learning_rate": 0.0001623931623931624,
-      "loss": 0.3464,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
-      "grad_norm": 0.6214488744735718,
-      "learning_rate": 0.00015384615384615385,
-      "loss": 0.2514,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
-      "grad_norm": 15.280985832214355,
-      "learning_rate": 0.0001452991452991453,
-      "loss": 0.3392,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 13.597776412963867,
-      "learning_rate": 0.00013675213675213676,
-      "loss": 0.3668,
       "step": 100
     },
     {
       "epoch": 1.5384615384615383,
-      "eval_accuracy": 0.924812030075188,
-      "eval_loss": 0.249382883310318,
-      "eval_runtime": 5.5701,
-      "eval_samples_per_second": 23.877,
-      "eval_steps_per_second": 3.052,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
-      "grad_norm": 0.9829044342041016,
-      "learning_rate": 0.00012820512820512823,
-      "loss": 0.2045,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
-      "grad_norm": 3.837667465209961,
-      "learning_rate": 0.00011965811965811966,
-      "loss": 0.3534,
       "step": 120
     },
     {
       "epoch": 2.0,
-      "grad_norm": 4.407589435577393,
-      "learning_rate": 0.00011111111111111112,
-      "loss": 0.0817,
-      "step": 130
-    },
-    {
-      "epoch": 2.1538461538461537,
-      "grad_norm": 11.72974967956543,
-      "learning_rate": 0.00010256410256410256,
-      "loss": 0.1323,
-      "step": 140
-    },
-    {
-      "epoch": 2.3076923076923075,
-      "grad_norm": 6.462613105773926,
-      "learning_rate": 9.401709401709401e-05,
-      "loss": 0.1889,
-      "step": 150
-    },
-    {
-      "epoch": 2.4615384615384617,
-      "grad_norm": 0.08825964480638504,
-      "learning_rate": 8.547008547008547e-05,
-      "loss": 0.0902,
-      "step": 160
-    },
-    {
-      "epoch": 2.6153846153846154,
-      "grad_norm": 21.940948486328125,
-      "learning_rate": 7.692307692307693e-05,
-      "loss": 0.1333,
-      "step": 170
-    },
-    {
-      "epoch": 2.769230769230769,
-      "grad_norm": 20.016550064086914,
-      "learning_rate": 6.837606837606838e-05,
-      "loss": 0.2801,
-      "step": 180
-    },
-    {
-      "epoch": 2.9230769230769234,
-      "grad_norm": 17.858781814575195,
-      "learning_rate": 5.982905982905983e-05,
-      "loss": 0.1068,
-      "step": 190
-    },
-    {
-      "epoch": 3.076923076923077,
-      "grad_norm": 0.7944952845573425,
-      "learning_rate": 5.128205128205128e-05,
-      "loss": 0.1412,
-      "step": 200
-    },
-    {
-      "epoch": 3.076923076923077,
-      "eval_accuracy": 0.9849624060150376,
-      "eval_loss": 0.046604182571172714,
-      "eval_runtime": 5.7449,
-      "eval_samples_per_second": 23.151,
-      "eval_steps_per_second": 2.959,
-      "step": 200
-    },
-    {
-      "epoch": 3.230769230769231,
-      "grad_norm": 0.06452557444572449,
-      "learning_rate": 4.2735042735042735e-05,
-      "loss": 0.0656,
-      "step": 210
-    },
-    {
-      "epoch": 3.3846153846153846,
-      "grad_norm": 7.774806499481201,
-      "learning_rate": 3.418803418803419e-05,
-      "loss": 0.1093,
-      "step": 220
-    },
-    {
-      "epoch": 3.5384615384615383,
-      "grad_norm": 6.5291666984558105,
-      "learning_rate": 2.564102564102564e-05,
-      "loss": 0.109,
-      "step": 230
-    },
-    {
-      "epoch": 3.6923076923076925,
-      "grad_norm": 10.082606315612793,
-      "learning_rate": 1.7094017094017095e-05,
-      "loss": 0.117,
-      "step": 240
-    },
-    {
-      "epoch": 3.8461538461538463,
-      "grad_norm": 18.175029754638672,
-      "learning_rate": 8.547008547008548e-06,
-      "loss": 0.1722,
-      "step": 250
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 13.180197715759277,
       "learning_rate": 0.0,
-      "loss": 0.1636,
-      "step": 260
     },
     {
-      "epoch": 4.0,
-      "step": 260,
-      "total_flos": 1.0280724304719053e+17,
-      "train_loss": 0.19260400934861258,
-      "train_runtime": 411.1303,
-      "train_samples_per_second": 10.06,
-      "train_steps_per_second": 0.632
     }
   ],
   "logging_steps": 10,
-  "max_steps": 260,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -235,7 +135,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0280724304719053e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.09293471276760101,
+  "best_model_checkpoint": "plant_classification/checkpoint-100",
+  "epoch": 2.0,
   "eval_steps": 100,
+  "global_step": 130,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.15384615384615385,
+      "grad_norm": 6.1695780754089355,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 1.1054,
       "step": 10
     },
     {
       "epoch": 0.3076923076923077,
+      "grad_norm": 5.371831893920898,
+      "learning_rate": 1.8803418803418804e-05,
+      "loss": 0.9481,
       "step": 20
     },
     {
       "epoch": 0.46153846153846156,
+      "grad_norm": 7.629484176635742,
+      "learning_rate": 1.7094017094017095e-05,
+      "loss": 0.738,
       "step": 30
     },
     {
       "epoch": 0.6153846153846154,
+      "grad_norm": 11.11859130859375,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 0.526,
       "step": 40
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 6.637124061584473,
+      "learning_rate": 1.3675213675213677e-05,
+      "loss": 0.3638,
       "step": 50
     },
     {
       "epoch": 0.9230769230769231,
+      "grad_norm": 8.50536823272705,
+      "learning_rate": 1.1965811965811966e-05,
+      "loss": 0.3301,
       "step": 60
     },
     {
       "epoch": 1.0769230769230769,
+      "grad_norm": 13.938777923583984,
+      "learning_rate": 1.0256410256410256e-05,
+      "loss": 0.2812,
       "step": 70
     },
     {
       "epoch": 1.2307692307692308,
+      "grad_norm": 7.3434648513793945,
+      "learning_rate": 8.547008547008548e-06,
+      "loss": 0.2431,
       "step": 80
     },
     {
       "epoch": 1.3846153846153846,
+      "grad_norm": 15.022695541381836,
+      "learning_rate": 6.837606837606839e-06,
+      "loss": 0.2091,
       "step": 90
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 9.071745872497559,
+      "learning_rate": 5.128205128205128e-06,
+      "loss": 0.192,
       "step": 100
     },
     {
       "epoch": 1.5384615384615383,
+      "eval_accuracy": 0.9774436090225563,
+      "eval_loss": 0.09293471276760101,
+      "eval_runtime": 4.5986,
+      "eval_samples_per_second": 28.922,
+      "eval_steps_per_second": 3.697,
       "step": 100
     },
     {
       "epoch": 1.6923076923076923,
+      "grad_norm": 2.740382432937622,
+      "learning_rate": 3.4188034188034193e-06,
+      "loss": 0.1832,
       "step": 110
     },
     {
       "epoch": 1.8461538461538463,
+      "grad_norm": 6.225354194641113,
+      "learning_rate": 1.7094017094017097e-06,
+      "loss": 0.2292,
       "step": 120
     },
     {
       "epoch": 2.0,
+      "grad_norm": 5.570672512054443,
       "learning_rate": 0.0,
+      "loss": 0.1619,
+      "step": 130
     },
     {
+      "epoch": 2.0,
+      "step": 130,
+      "total_flos": 5.140362152359526e+16,
+      "train_loss": 0.4239132670255808,
+      "train_runtime": 196.2668,
+      "train_samples_per_second": 10.537,
+      "train_steps_per_second": 0.662
     }
   ],
   "logging_steps": 10,
+  "max_steps": 130,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 5.140362152359526e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a647b258d44fa4b297d60d82aa5d3269ba7d12fb3709f3dca8db2a50c0089d1
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:b44019e633b9c081c5b871a03caca471c7694ebad28fb64475d88584b51750a5
 size 5304