Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3df6c12ab9b36c55e8194eacb733c475a8263ffcfe536af5c7fae57e64f34277
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:2491afc7899054421cd01f8c74898e2c0a46d9f56b00f9e456d1c497f922534f
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:798434cf7e67cfde51e3a5e6d1fb152d1fdd0518ffbd137be057e7e70814e505
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:b78e3d38f850a6dc108e93351f31f42023ad7ffb14c7e532ddd932f9ae44ac57
 size 671466706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b63555bf60f1cba6fee7133dee972b595e1c2c022d528cb7f76b58efcfaee86
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a38c81fb6f71f581fb8c6a5bb2c7d5fc836d7b2cef3b4addadecaad33ae0bc43
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a79beca52c7008c277cb76c3409af45fcbcb62cd3386d03180909e1399a839d4
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac677612b01d7760b57804232471337e054552d84dfc9caea8ebeda8a2de2cda
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75d4c60b60775e3327f1c47f14e0cf6736e1c60327941d40b809206e15c6133b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f43c9f5ad4230af3b63ce1d187691edf368806b028d313b0d705c5f45080fa82
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad21ceb65fa10b7bf6f4e6ac332ccf804f9be5373b316c169449ada8fdf5db90
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:66d283e5ba306a6ffe10ea2eb3bc4ae87c39e3e2305b27369a7d8df1dd5b74c9
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f37b2aa490ccb1598b01e14cda36e9081f7ce646deab4d3c2d03de0d2169a755
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0575916767120361,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.3091190108191654,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 20.235,
       "eval_steps_per_second": 2.562,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.965156805245665e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0366768836975098,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.6182380216383307,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.235,
       "eval_steps_per_second": 2.562,
       "step": 25
+    },
+    {
+      "epoch": 0.321483771251932,
+      "grad_norm": 16.3406925201416,
+      "learning_rate": 5e-05,
+      "loss": 1.2549,
+      "step": 26
+    },
+    {
+      "epoch": 0.33384853168469864,
+      "grad_norm": 16.444551467895508,
+      "learning_rate": 4.6729843538492847e-05,
+      "loss": 1.1318,
+      "step": 27
+    },
+    {
+      "epoch": 0.3462132921174652,
+      "grad_norm": 13.4830904006958,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 1.0617,
+      "step": 28
+    },
+    {
+      "epoch": 0.35857805255023184,
+      "grad_norm": 12.455841064453125,
+      "learning_rate": 4.0245483899193595e-05,
+      "loss": 1.1598,
+      "step": 29
+    },
+    {
+      "epoch": 0.37094281298299847,
+      "grad_norm": 11.875990867614746,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 1.0739,
+      "step": 30
+    },
+    {
+      "epoch": 0.38330757341576505,
+      "grad_norm": 11.694324493408203,
+      "learning_rate": 3.392802673484193e-05,
+      "loss": 1.0373,
+      "step": 31
+    },
+    {
+      "epoch": 0.3956723338485317,
+      "grad_norm": 11.970532417297363,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 1.0502,
+      "step": 32
+    },
+    {
+      "epoch": 0.4080370942812983,
+      "grad_norm": 10.727662086486816,
+      "learning_rate": 2.7885565489049946e-05,
+      "loss": 0.9645,
+      "step": 33
+    },
+    {
+      "epoch": 0.42040185471406494,
+      "grad_norm": 10.833939552307129,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.0353,
+      "step": 34
+    },
+    {
+      "epoch": 0.4327666151468315,
+      "grad_norm": 11.020498275756836,
+      "learning_rate": 2.2221488349019903e-05,
+      "loss": 0.9913,
+      "step": 35
+    },
+    {
+      "epoch": 0.44513137557959814,
+      "grad_norm": 12.134092330932617,
+      "learning_rate": 1.9561928549563968e-05,
+      "loss": 1.0053,
+      "step": 36
+    },
+    {
+      "epoch": 0.4574961360123648,
+      "grad_norm": 10.883689880371094,
+      "learning_rate": 1.703270924499656e-05,
+      "loss": 0.9774,
+      "step": 37
+    },
+    {
+      "epoch": 0.46986089644513135,
+      "grad_norm": 12.528717994689941,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 1.1039,
+      "step": 38
+    },
+    {
+      "epoch": 0.482225656877898,
+      "grad_norm": 11.433711051940918,
+      "learning_rate": 1.2408009626051137e-05,
+      "loss": 1.1971,
+      "step": 39
+    },
+    {
+      "epoch": 0.4945904173106646,
+      "grad_norm": 11.423758506774902,
+      "learning_rate": 1.0332332985438248e-05,
+      "loss": 1.0936,
+      "step": 40
+    },
+    {
+      "epoch": 0.5069551777434312,
+      "grad_norm": 11.761085510253906,
+      "learning_rate": 8.426519384872733e-06,
+      "loss": 1.1096,
+      "step": 41
+    },
+    {
+      "epoch": 0.5193199381761978,
+      "grad_norm": 12.4718656539917,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 1.0949,
+      "step": 42
+    },
+    {
+      "epoch": 0.5316846986089645,
+      "grad_norm": 13.768739700317383,
+      "learning_rate": 5.156362923365588e-06,
+      "loss": 1.1288,
+      "step": 43
+    },
+    {
+      "epoch": 0.5440494590417311,
+      "grad_norm": 11.708318710327148,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 1.029,
+      "step": 44
+    },
+    {
+      "epoch": 0.5564142194744977,
+      "grad_norm": 10.914255142211914,
+      "learning_rate": 2.653493525244721e-06,
+      "loss": 0.9911,
+      "step": 45
+    },
+    {
+      "epoch": 0.5687789799072643,
+      "grad_norm": 11.063331604003906,
+      "learning_rate": 1.70370868554659e-06,
+      "loss": 1.0098,
+      "step": 46
+    },
+    {
+      "epoch": 0.5811437403400309,
+      "grad_norm": 10.468307495117188,
+      "learning_rate": 9.607359798384785e-07,
+      "loss": 0.9338,
+      "step": 47
+    },
+    {
+      "epoch": 0.5935085007727975,
+      "grad_norm": 11.121742248535156,
+      "learning_rate": 4.277569313094809e-07,
+      "loss": 1.0023,
+      "step": 48
+    },
+    {
+      "epoch": 0.6058732612055642,
+      "grad_norm": 11.40208911895752,
+      "learning_rate": 1.0705383806982606e-07,
+      "loss": 0.9733,
+      "step": 49
+    },
+    {
+      "epoch": 0.6182380216383307,
+      "grad_norm": 14.250316619873047,
+      "learning_rate": 0.0,
+      "loss": 0.9199,
+      "step": 50
+    },
+    {
+      "epoch": 0.6182380216383307,
+      "eval_loss": 1.0366768836975098,
+      "eval_runtime": 26.9385,
+      "eval_samples_per_second": 20.231,
+      "eval_steps_per_second": 2.561,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.92854547982975e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null