Training in progress, step 207, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +494 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d64006a8240d0814491b2db4b937e17fb7b606088a33ab275a336effb5b52496
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:669a3e72f719737b15fab04bb2c0bb92048dfd22e9ef658a342e99d35c08129b
 size 335922386

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ac89b50eb49875d4fc6320c442b1f1a2bb0c6ca5dcf4534babea7e4fa581fbf
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b50dc51f8e724b3669be809cbc82ebe11f85d559dcac23ed00b062397afcd9e
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa2482d7eb8b9907f50055efed6d979a680e476b4380cec06a223fb30358eb52
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5ddb4f7d90f5558927f96b9e1767bd45cee0b3d26de04640235b5ab19fc8793
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05243bc9418b5d027b9cd58d0b804f8898dee9480e9cd6d09120cb4b16d4e2f3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:89e4cd8ea348bd2f82958df5383cd58880eb3efd1ec75ed70ce4064026b49560
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5025034137460173,
   "eval_steps": 69,
-  "global_step": 138,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -997,6 +997,497 @@
       "eval_samples_per_second": 8.378,
       "eval_steps_per_second": 2.099,
       "step": 138
     }
   ],
   "logging_steps": 1,
@@ -1016,7 +1507,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.88127927801217e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7537551206190259,
   "eval_steps": 69,
+  "global_step": 207,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.378,
       "eval_steps_per_second": 2.099,
       "step": 138
+    },
+    {
+      "epoch": 0.5061447428311333,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013170090808176883,
+      "loss": 0.0,
+      "step": 139
+    },
+    {
+      "epoch": 0.5097860719162495,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013036767451096148,
+      "loss": 0.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.5134274010013655,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012902846772544624,
+      "loss": 0.0,
+      "step": 141
+    },
+    {
+      "epoch": 0.5170687300864816,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012768355114248494,
+      "loss": 0.0,
+      "step": 142
+    },
+    {
+      "epoch": 0.5207100591715976,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012633318930243648,
+      "loss": 0.0,
+      "step": 143
+    },
+    {
+      "epoch": 0.5243513882567137,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001249776478167227,
+      "loss": 0.0,
+      "step": 144
+    },
+    {
+      "epoch": 0.5279927173418297,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012361719331558345,
+      "loss": 0.0,
+      "step": 145
+    },
+    {
+      "epoch": 0.5316340464269458,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012225209339563145,
+      "loss": 0.0,
+      "step": 146
+    },
+    {
+      "epoch": 0.535275375512062,
+      "grad_norm": NaN,
+      "learning_rate": 0.000120882616567217,
+      "loss": 0.0,
+      "step": 147
+    },
+    {
+      "epoch": 0.538916704597178,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011950903220161285,
+      "loss": 0.0,
+      "step": 148
+    },
+    {
+      "epoch": 0.542558033682294,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011813161047802985,
+      "loss": 0.0,
+      "step": 149
+    },
+    {
+      "epoch": 0.5461993627674101,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011675062233047364,
+      "loss": 0.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.5498406918525262,
+      "grad_norm": NaN,
+      "learning_rate": 0.000115366339394453,
+      "loss": 0.0,
+      "step": 151
+    },
+    {
+      "epoch": 0.5534820209376422,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011397903395354996,
+      "loss": 0.0,
+      "step": 152
+    },
+    {
+      "epoch": 0.5571233500227583,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011258897888586255,
+      "loss": 0.0,
+      "step": 153
+    },
+    {
+      "epoch": 0.5607646791078744,
+      "grad_norm": NaN,
+      "learning_rate": 0.00011119644761033078,
+      "loss": 0.0,
+      "step": 154
+    },
+    {
+      "epoch": 0.5644060081929905,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001098017140329561,
+      "loss": 0.0,
+      "step": 155
+    },
+    {
+      "epoch": 0.5680473372781065,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010840505249292476,
+      "loss": 0.0,
+      "step": 156
+    },
+    {
+      "epoch": 0.5716886663632226,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010700673770864673,
+      "loss": 0.0,
+      "step": 157
+    },
+    {
+      "epoch": 0.5753299954483386,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010560704472371919,
+      "loss": 0.0,
+      "step": 158
+    },
+    {
+      "epoch": 0.5789713245334547,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010420624885282653,
+      "loss": 0.0,
+      "step": 159
+    },
+    {
+      "epoch": 0.5826126536185707,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001028046256275869,
+      "loss": 0.0,
+      "step": 160
+    },
+    {
+      "epoch": 0.5862539827036869,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010140245074235624,
+      "loss": 0.0,
+      "step": 161
+    },
+    {
+      "epoch": 0.589895311788803,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001,
+      "loss": 0.0,
+      "step": 162
+    },
+    {
+      "epoch": 0.593536640873919,
+      "grad_norm": NaN,
+      "learning_rate": 9.859754925764378e-05,
+      "loss": 0.0,
+      "step": 163
+    },
+    {
+      "epoch": 0.597177969959035,
+      "grad_norm": NaN,
+      "learning_rate": 9.719537437241312e-05,
+      "loss": 0.0,
+      "step": 164
+    },
+    {
+      "epoch": 0.6008192990441511,
+      "grad_norm": NaN,
+      "learning_rate": 9.579375114717351e-05,
+      "loss": 0.0,
+      "step": 165
+    },
+    {
+      "epoch": 0.6044606281292672,
+      "grad_norm": NaN,
+      "learning_rate": 9.439295527628081e-05,
+      "loss": 0.0,
+      "step": 166
+    },
+    {
+      "epoch": 0.6081019572143832,
+      "grad_norm": NaN,
+      "learning_rate": 9.299326229135326e-05,
+      "loss": 0.0,
+      "step": 167
+    },
+    {
+      "epoch": 0.6117432862994994,
+      "grad_norm": NaN,
+      "learning_rate": 9.159494750707526e-05,
+      "loss": 0.0,
+      "step": 168
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": NaN,
+      "learning_rate": 9.019828596704394e-05,
+      "loss": 0.0,
+      "step": 169
+    },
+    {
+      "epoch": 0.6190259444697315,
+      "grad_norm": NaN,
+      "learning_rate": 8.880355238966923e-05,
+      "loss": 0.0,
+      "step": 170
+    },
+    {
+      "epoch": 0.6226672735548475,
+      "grad_norm": NaN,
+      "learning_rate": 8.741102111413748e-05,
+      "loss": 0.0,
+      "step": 171
+    },
+    {
+      "epoch": 0.6263086026399636,
+      "grad_norm": NaN,
+      "learning_rate": 8.602096604645009e-05,
+      "loss": 0.0,
+      "step": 172
+    },
+    {
+      "epoch": 0.6299499317250796,
+      "grad_norm": NaN,
+      "learning_rate": 8.463366060554698e-05,
+      "loss": 0.0,
+      "step": 173
+    },
+    {
+      "epoch": 0.6335912608101957,
+      "grad_norm": NaN,
+      "learning_rate": 8.324937766952638e-05,
+      "loss": 0.0,
+      "step": 174
+    },
+    {
+      "epoch": 0.6372325898953118,
+      "grad_norm": NaN,
+      "learning_rate": 8.186838952197018e-05,
+      "loss": 0.0,
+      "step": 175
+    },
+    {
+      "epoch": 0.6408739189804279,
+      "grad_norm": NaN,
+      "learning_rate": 8.049096779838719e-05,
+      "loss": 0.0,
+      "step": 176
+    },
+    {
+      "epoch": 0.6445152480655439,
+      "grad_norm": NaN,
+      "learning_rate": 7.911738343278304e-05,
+      "loss": 0.0,
+      "step": 177
+    },
+    {
+      "epoch": 0.64815657715066,
+      "grad_norm": NaN,
+      "learning_rate": 7.774790660436858e-05,
+      "loss": 0.0,
+      "step": 178
+    },
+    {
+      "epoch": 0.651797906235776,
+      "grad_norm": NaN,
+      "learning_rate": 7.63828066844166e-05,
+      "loss": 0.0,
+      "step": 179
+    },
+    {
+      "epoch": 0.6554392353208921,
+      "grad_norm": NaN,
+      "learning_rate": 7.502235218327731e-05,
+      "loss": 0.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.6590805644060082,
+      "grad_norm": NaN,
+      "learning_rate": 7.366681069756352e-05,
+      "loss": 0.0,
+      "step": 181
+    },
+    {
+      "epoch": 0.6627218934911243,
+      "grad_norm": NaN,
+      "learning_rate": 7.231644885751507e-05,
+      "loss": 0.0,
+      "step": 182
+    },
+    {
+      "epoch": 0.6663632225762404,
+      "grad_norm": NaN,
+      "learning_rate": 7.097153227455379e-05,
+      "loss": 0.0,
+      "step": 183
+    },
+    {
+      "epoch": 0.6700045516613564,
+      "grad_norm": NaN,
+      "learning_rate": 6.963232548903853e-05,
+      "loss": 0.0,
+      "step": 184
+    },
+    {
+      "epoch": 0.6736458807464725,
+      "grad_norm": NaN,
+      "learning_rate": 6.829909191823121e-05,
+      "loss": 0.0,
+      "step": 185
+    },
+    {
+      "epoch": 0.6772872098315885,
+      "grad_norm": NaN,
+      "learning_rate": 6.697209380448333e-05,
+      "loss": 0.0,
+      "step": 186
+    },
+    {
+      "epoch": 0.6809285389167046,
+      "grad_norm": NaN,
+      "learning_rate": 6.565159216365389e-05,
+      "loss": 0.0,
+      "step": 187
+    },
+    {
+      "epoch": 0.6845698680018206,
+      "grad_norm": NaN,
+      "learning_rate": 6.43378467337687e-05,
+      "loss": 0.0,
+      "step": 188
+    },
+    {
+      "epoch": 0.6882111970869367,
+      "grad_norm": NaN,
+      "learning_rate": 6.30311159239305e-05,
+      "loss": 0.0,
+      "step": 189
+    },
+    {
+      "epoch": 0.6918525261720528,
+      "grad_norm": NaN,
+      "learning_rate": 6.173165676349103e-05,
+      "loss": 0.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.6954938552571689,
+      "grad_norm": NaN,
+      "learning_rate": 6.043972485149414e-05,
+      "loss": 0.0,
+      "step": 191
+    },
+    {
+      "epoch": 0.6991351843422849,
+      "grad_norm": NaN,
+      "learning_rate": 5.9155574306400395e-05,
+      "loss": 0.0,
+      "step": 192
+    },
+    {
+      "epoch": 0.702776513427401,
+      "grad_norm": NaN,
+      "learning_rate": 5.787945771610296e-05,
+      "loss": 0.0,
+      "step": 193
+    },
+    {
+      "epoch": 0.706417842512517,
+      "grad_norm": NaN,
+      "learning_rate": 5.6611626088244194e-05,
+      "loss": 0.0,
+      "step": 194
+    },
+    {
+      "epoch": 0.7100591715976331,
+      "grad_norm": NaN,
+      "learning_rate": 5.5352328800843724e-05,
+      "loss": 0.0,
+      "step": 195
+    },
+    {
+      "epoch": 0.7137005006827492,
+      "grad_norm": NaN,
+      "learning_rate": 5.410181355324622e-05,
+      "loss": 0.0,
+      "step": 196
+    },
+    {
+      "epoch": 0.7173418297678653,
+      "grad_norm": NaN,
+      "learning_rate": 5.286032631740023e-05,
+      "loss": 0.0,
+      "step": 197
+    },
+    {
+      "epoch": 0.7209831588529814,
+      "grad_norm": NaN,
+      "learning_rate": 5.162811128947602e-05,
+      "loss": 0.0,
+      "step": 198
+    },
+    {
+      "epoch": 0.7246244879380974,
+      "grad_norm": NaN,
+      "learning_rate": 5.0405410841833253e-05,
+      "loss": 0.0,
+      "step": 199
+    },
+    {
+      "epoch": 0.7282658170232135,
+      "grad_norm": NaN,
+      "learning_rate": 4.919246547534708e-05,
+      "loss": 0.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.7319071461083295,
+      "grad_norm": NaN,
+      "learning_rate": 4.7989513772102537e-05,
+      "loss": 0.0,
+      "step": 201
+    },
+    {
+      "epoch": 0.7355484751934456,
+      "grad_norm": NaN,
+      "learning_rate": 4.6796792348466356e-05,
+      "loss": 0.0,
+      "step": 202
+    },
+    {
+      "epoch": 0.7391898042785616,
+      "grad_norm": NaN,
+      "learning_rate": 4.561453580854516e-05,
+      "loss": 0.0,
+      "step": 203
+    },
+    {
+      "epoch": 0.7428311333636778,
+      "grad_norm": NaN,
+      "learning_rate": 4.444297669803981e-05,
+      "loss": 0.0,
+      "step": 204
+    },
+    {
+      "epoch": 0.7464724624487938,
+      "grad_norm": NaN,
+      "learning_rate": 4.328234545850442e-05,
+      "loss": 0.0,
+      "step": 205
+    },
+    {
+      "epoch": 0.7501137915339099,
+      "grad_norm": NaN,
+      "learning_rate": 4.213287038201943e-05,
+      "loss": 0.0,
+      "step": 206
+    },
+    {
+      "epoch": 0.7537551206190259,
+      "grad_norm": NaN,
+      "learning_rate": 4.0994777566287204e-05,
+      "loss": 0.0,
+      "step": 207
+    },
+    {
+      "epoch": 0.7537551206190259,
+      "eval_loss": NaN,
+      "eval_runtime": 55.3157,
+      "eval_samples_per_second": 8.37,
+      "eval_steps_per_second": 2.097,
+      "step": 207
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.821918917018255e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null