End of training

Browse files

Files changed (5) hide show

all_results.json +11 -11
eval_results.json +6 -6
runs/Dec30_12-13-22_fc2ceb884ca6/events.out.tfevents.1672406840.fc2ceb884ca6.208.2 +3 -0
train_results.json +6 -6
trainer_state.json +405 -405

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 59.94,
-    "eval_accuracy": 1.0,
-    "eval_loss": 0.028991766273975372,
-    "eval_runtime": 3.8287,
-    "eval_samples_per_second": 15.41,
-    "eval_steps_per_second": 0.522,
-    "total_flos": 7.88616702456404e+17,
-    "train_loss": 0.267316605647405,
-    "train_runtime": 6314.82,
-    "train_samples_per_second": 5.026,
-    "train_steps_per_second": 0.038
 }

 {
+    "epoch": 59.89,
+    "eval_accuracy": 0.96875,
+    "eval_loss": 0.18353550136089325,
+    "eval_runtime": 4.1792,
+    "eval_samples_per_second": 15.314,
+    "eval_steps_per_second": 0.479,
+    "total_flos": 8.516851567051162e+17,
+    "train_loss": 0.5424989521503448,
+    "train_runtime": 4233.7913,
+    "train_samples_per_second": 8.106,
+    "train_steps_per_second": 0.057
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 59.94,
-    "eval_accuracy": 1.0,
-    "eval_loss": 0.028991766273975372,
-    "eval_runtime": 3.8287,
-    "eval_samples_per_second": 15.41,
-    "eval_steps_per_second": 0.522
 }

 {
+    "epoch": 59.89,
+    "eval_accuracy": 0.96875,
+    "eval_loss": 0.18353550136089325,
+    "eval_runtime": 4.1792,
+    "eval_samples_per_second": 15.314,
+    "eval_steps_per_second": 0.479
 }

runs/Dec30_12-13-22_fc2ceb884ca6/events.out.tfevents.1672406840.fc2ceb884ca6.208.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf987adecda7ba760ed36cd7fceeaa58e4f2c3c696b5e26ec9d441e6a375d97e
+size 363

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 59.94,
-    "total_flos": 7.88616702456404e+17,
-    "train_loss": 0.267316605647405,
-    "train_runtime": 6314.82,
-    "train_samples_per_second": 5.026,
-    "train_steps_per_second": 0.038
 }

 {
+    "epoch": 59.89,
+    "total_flos": 8.516851567051162e+17,
+    "train_loss": 0.5424989521503448,
+    "train_runtime": 4233.7913,
+    "train_samples_per_second": 8.106,
+    "train_steps_per_second": 0.057
 }

trainer_state.json CHANGED Viewed

@@ -1,637 +1,637 @@
 {
-  "best_metric": 1.0,
-  "best_model_checkpoint": "delivery_truck_classification/checkpoint-4",
-  "epoch": 59.94117647058823,
   "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7584,
-      "eval_samples_per_second": 15.698,
-      "eval_steps_per_second": 0.532,
       "step": 4
     },
     {
-      "epoch": 1.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.805,
-      "eval_samples_per_second": 15.506,
-      "eval_steps_per_second": 0.526,
       "step": 8
     },
     {
-      "epoch": 2.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7489,
-      "eval_samples_per_second": 15.738,
-      "eval_steps_per_second": 0.533,
       "step": 12
     },
     {
-      "epoch": 3.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.8228,
-      "eval_samples_per_second": 15.434,
-      "eval_steps_per_second": 0.523,
       "step": 16
     },
     {
-      "epoch": 4.94,
-      "learning_rate": 0.0,
-      "loss": 0.2595,
       "step": 20
     },
     {
-      "epoch": 4.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7534,
-      "eval_samples_per_second": 15.719,
-      "eval_steps_per_second": 0.533,
       "step": 20
     },
     {
-      "epoch": 5.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7496,
-      "eval_samples_per_second": 15.735,
-      "eval_steps_per_second": 0.533,
       "step": 24
     },
     {
-      "epoch": 6.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.798,
-      "eval_samples_per_second": 15.534,
-      "eval_steps_per_second": 0.527,
       "step": 28
     },
     {
-      "epoch": 7.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7322,
-      "eval_samples_per_second": 15.808,
-      "eval_steps_per_second": 0.536,
       "step": 32
     },
     {
-      "epoch": 8.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7416,
-      "eval_samples_per_second": 15.769,
-      "eval_steps_per_second": 0.535,
       "step": 36
     },
     {
-      "epoch": 9.94,
-      "learning_rate": 0.0,
-      "loss": 0.2679,
       "step": 40
     },
     {
-      "epoch": 9.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7284,
-      "eval_samples_per_second": 15.824,
-      "eval_steps_per_second": 0.536,
       "step": 40
     },
     {
-      "epoch": 10.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.726,
-      "eval_samples_per_second": 15.835,
-      "eval_steps_per_second": 0.537,
       "step": 44
     },
     {
-      "epoch": 11.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7864,
-      "eval_samples_per_second": 15.582,
-      "eval_steps_per_second": 0.528,
       "step": 48
     },
     {
-      "epoch": 12.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.8076,
-      "eval_samples_per_second": 15.495,
-      "eval_steps_per_second": 0.525,
       "step": 52
     },
     {
-      "epoch": 13.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7937,
-      "eval_samples_per_second": 15.552,
-      "eval_steps_per_second": 0.527,
       "step": 56
     },
     {
-      "epoch": 14.94,
-      "learning_rate": 0.0,
-      "loss": 0.275,
       "step": 60
     },
     {
-      "epoch": 14.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7461,
-      "eval_samples_per_second": 15.75,
-      "eval_steps_per_second": 0.534,
       "step": 60
     },
     {
-      "epoch": 15.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.8277,
-      "eval_samples_per_second": 15.414,
-      "eval_steps_per_second": 0.523,
       "step": 64
     },
     {
-      "epoch": 16.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.764,
-      "eval_samples_per_second": 15.675,
-      "eval_steps_per_second": 0.531,
       "step": 68
     },
     {
-      "epoch": 17.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7719,
-      "eval_samples_per_second": 15.642,
-      "eval_steps_per_second": 0.53,
       "step": 72
     },
     {
-      "epoch": 18.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.826,
-      "eval_samples_per_second": 15.421,
-      "eval_steps_per_second": 0.523,
       "step": 76
     },
     {
-      "epoch": 19.94,
-      "learning_rate": 0.0,
-      "loss": 0.248,
       "step": 80
     },
     {
-      "epoch": 19.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7289,
-      "eval_samples_per_second": 15.822,
-      "eval_steps_per_second": 0.536,
       "step": 80
     },
     {
-      "epoch": 20.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7427,
-      "eval_samples_per_second": 15.764,
-      "eval_steps_per_second": 0.534,
       "step": 84
     },
     {
-      "epoch": 21.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.6831,
-      "eval_samples_per_second": 16.019,
-      "eval_steps_per_second": 0.543,
       "step": 88
     },
     {
-      "epoch": 22.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.764,
-      "eval_samples_per_second": 15.675,
-      "eval_steps_per_second": 0.531,
       "step": 92
     },
     {
-      "epoch": 23.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7309,
-      "eval_samples_per_second": 15.814,
-      "eval_steps_per_second": 0.536,
       "step": 96
     },
     {
-      "epoch": 24.94,
-      "learning_rate": 0.0,
-      "loss": 0.2669,
       "step": 100
     },
     {
-      "epoch": 24.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7661,
-      "eval_samples_per_second": 15.666,
-      "eval_steps_per_second": 0.531,
       "step": 100
     },
     {
-      "epoch": 25.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.682,
-      "eval_samples_per_second": 16.024,
-      "eval_steps_per_second": 0.543,
       "step": 104
     },
     {
-      "epoch": 26.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7339,
-      "eval_samples_per_second": 15.801,
-      "eval_steps_per_second": 0.536,
       "step": 108
     },
     {
-      "epoch": 27.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.8015,
-      "eval_samples_per_second": 15.52,
-      "eval_steps_per_second": 0.526,
       "step": 112
     },
     {
-      "epoch": 28.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7232,
-      "eval_samples_per_second": 15.846,
-      "eval_steps_per_second": 0.537,
       "step": 116
     },
     {
-      "epoch": 29.94,
-      "learning_rate": 0.0,
-      "loss": 0.2589,
       "step": 120
     },
     {
-      "epoch": 29.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7329,
-      "eval_samples_per_second": 15.805,
-      "eval_steps_per_second": 0.536,
       "step": 120
     },
     {
-      "epoch": 30.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7815,
-      "eval_samples_per_second": 15.602,
-      "eval_steps_per_second": 0.529,
       "step": 124
     },
     {
-      "epoch": 31.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7496,
-      "eval_samples_per_second": 15.735,
-      "eval_steps_per_second": 0.533,
       "step": 128
     },
     {
-      "epoch": 32.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7126,
-      "eval_samples_per_second": 15.892,
-      "eval_steps_per_second": 0.539,
       "step": 132
     },
     {
-      "epoch": 33.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.6855,
-      "eval_samples_per_second": 16.009,
-      "eval_steps_per_second": 0.543,
       "step": 136
     },
     {
-      "epoch": 34.94,
-      "learning_rate": 0.0,
-      "loss": 0.278,
       "step": 140
     },
     {
-      "epoch": 34.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7784,
-      "eval_samples_per_second": 15.615,
-      "eval_steps_per_second": 0.529,
       "step": 140
     },
     {
-      "epoch": 35.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7189,
-      "eval_samples_per_second": 15.865,
-      "eval_steps_per_second": 0.538,
       "step": 144
     },
     {
-      "epoch": 36.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7865,
-      "eval_samples_per_second": 15.582,
-      "eval_steps_per_second": 0.528,
       "step": 148
     },
     {
-      "epoch": 37.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7161,
-      "eval_samples_per_second": 15.877,
-      "eval_steps_per_second": 0.538,
       "step": 152
     },
     {
-      "epoch": 38.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7413,
-      "eval_samples_per_second": 15.77,
-      "eval_steps_per_second": 0.535,
       "step": 156
     },
     {
-      "epoch": 39.94,
-      "learning_rate": 0.0,
-      "loss": 0.273,
       "step": 160
     },
     {
-      "epoch": 39.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7504,
-      "eval_samples_per_second": 15.732,
-      "eval_steps_per_second": 0.533,
       "step": 160
     },
     {
-      "epoch": 40.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7301,
-      "eval_samples_per_second": 15.817,
-      "eval_steps_per_second": 0.536,
       "step": 164
     },
     {
-      "epoch": 41.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.6896,
-      "eval_samples_per_second": 15.991,
-      "eval_steps_per_second": 0.542,
       "step": 168
     },
     {
-      "epoch": 42.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.8409,
-      "eval_samples_per_second": 15.361,
-      "eval_steps_per_second": 0.521,
       "step": 172
     },
     {
-      "epoch": 43.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7381,
-      "eval_samples_per_second": 15.783,
-      "eval_steps_per_second": 0.535,
       "step": 176
     },
     {
-      "epoch": 44.94,
-      "learning_rate": 0.0,
-      "loss": 0.2535,
       "step": 180
     },
     {
-      "epoch": 44.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7521,
-      "eval_samples_per_second": 15.724,
-      "eval_steps_per_second": 0.533,
       "step": 180
     },
     {
-      "epoch": 45.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7759,
-      "eval_samples_per_second": 15.625,
-      "eval_steps_per_second": 0.53,
       "step": 184
     },
     {
-      "epoch": 46.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7894,
-      "eval_samples_per_second": 15.57,
-      "eval_steps_per_second": 0.528,
       "step": 188
     },
     {
-      "epoch": 47.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7432,
-      "eval_samples_per_second": 15.762,
-      "eval_steps_per_second": 0.534,
       "step": 192
     },
     {
-      "epoch": 48.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7921,
-      "eval_samples_per_second": 15.559,
-      "eval_steps_per_second": 0.527,
       "step": 196
     },
     {
-      "epoch": 49.94,
-      "learning_rate": 0.0,
-      "loss": 0.2762,
       "step": 200
     },
     {
-      "epoch": 49.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.8149,
-      "eval_samples_per_second": 15.466,
-      "eval_steps_per_second": 0.524,
       "step": 200
     },
     {
-      "epoch": 50.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7494,
-      "eval_samples_per_second": 15.736,
-      "eval_steps_per_second": 0.533,
       "step": 204
     },
     {
-      "epoch": 51.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.758,
-      "eval_samples_per_second": 15.7,
-      "eval_steps_per_second": 0.532,
       "step": 208
     },
     {
-      "epoch": 52.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 4.5125,
-      "eval_samples_per_second": 13.075,
-      "eval_steps_per_second": 0.443,
       "step": 212
     },
     {
-      "epoch": 53.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.6913,
-      "eval_samples_per_second": 15.983,
-      "eval_steps_per_second": 0.542,
       "step": 216
     },
     {
-      "epoch": 54.94,
-      "learning_rate": 0.0,
-      "loss": 0.2798,
       "step": 220
     },
     {
-      "epoch": 54.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7635,
-      "eval_samples_per_second": 15.677,
-      "eval_steps_per_second": 0.531,
       "step": 220
     },
     {
-      "epoch": 55.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7464,
-      "eval_samples_per_second": 15.748,
-      "eval_steps_per_second": 0.534,
       "step": 224
     },
     {
-      "epoch": 56.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7621,
-      "eval_samples_per_second": 15.683,
-      "eval_steps_per_second": 0.532,
       "step": 228
     },
     {
-      "epoch": 57.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7552,
-      "eval_samples_per_second": 15.712,
-      "eval_steps_per_second": 0.533,
       "step": 232
     },
     {
-      "epoch": 58.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.8189,
-      "eval_samples_per_second": 15.449,
-      "eval_steps_per_second": 0.524,
       "step": 236
     },
     {
-      "epoch": 59.94,
       "learning_rate": 0.0,
-      "loss": 0.2709,
       "step": 240
     },
     {
-      "epoch": 59.94,
-      "eval_accuracy": 1.0,
-      "eval_loss": 0.028991766273975372,
-      "eval_runtime": 3.7206,
-      "eval_samples_per_second": 15.858,
-      "eval_steps_per_second": 0.538,
       "step": 240
     },
     {
-      "epoch": 59.94,
       "step": 240,
-      "total_flos": 7.88616702456404e+17,
-      "train_loss": 0.267316605647405,
-      "train_runtime": 6314.82,
-      "train_samples_per_second": 5.026,
-      "train_steps_per_second": 0.038
     }
   ],
   "max_steps": 240,
   "num_train_epochs": 60,
-  "total_flos": 7.88616702456404e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.96875,
+  "best_model_checkpoint": "delivery_truck_classification/checkpoint-52",
+  "epoch": 59.888888888888886,
   "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.89,
+      "eval_accuracy": 0.15625,
+      "eval_loss": 2.007406234741211,
+      "eval_runtime": 4.1284,
+      "eval_samples_per_second": 15.502,
+      "eval_steps_per_second": 0.484,
       "step": 4
     },
     {
+      "epoch": 1.89,
+      "eval_accuracy": 0.25,
+      "eval_loss": 1.8895925283432007,
+      "eval_runtime": 4.9483,
+      "eval_samples_per_second": 12.934,
+      "eval_steps_per_second": 0.404,
       "step": 8
     },
     {
+      "epoch": 2.89,
+      "eval_accuracy": 0.40625,
+      "eval_loss": 1.7421282529830933,
+      "eval_runtime": 4.1039,
+      "eval_samples_per_second": 15.595,
+      "eval_steps_per_second": 0.487,
       "step": 12
     },
     {
+      "epoch": 3.89,
+      "eval_accuracy": 0.4375,
+      "eval_loss": 1.5891958475112915,
+      "eval_runtime": 4.5489,
+      "eval_samples_per_second": 14.069,
+      "eval_steps_per_second": 0.44,
       "step": 16
     },
     {
+      "epoch": 4.89,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.973,
       "step": 20
     },
     {
+      "epoch": 4.89,
+      "eval_accuracy": 0.609375,
+      "eval_loss": 1.362261176109314,
+      "eval_runtime": 4.1743,
+      "eval_samples_per_second": 15.332,
+      "eval_steps_per_second": 0.479,
       "step": 20
     },
     {
+      "epoch": 5.89,
+      "eval_accuracy": 0.609375,
+      "eval_loss": 1.1093113422393799,
+      "eval_runtime": 4.4702,
+      "eval_samples_per_second": 14.317,
+      "eval_steps_per_second": 0.447,
       "step": 24
     },
     {
+      "epoch": 6.89,
+      "eval_accuracy": 0.78125,
+      "eval_loss": 0.7900974154472351,
+      "eval_runtime": 4.1973,
+      "eval_samples_per_second": 15.248,
+      "eval_steps_per_second": 0.476,
       "step": 28
     },
     {
+      "epoch": 7.89,
+      "eval_accuracy": 0.84375,
+      "eval_loss": 0.5773038268089294,
+      "eval_runtime": 4.6009,
+      "eval_samples_per_second": 13.91,
+      "eval_steps_per_second": 0.435,
       "step": 32
     },
     {
+      "epoch": 8.89,
+      "eval_accuracy": 0.890625,
+      "eval_loss": 0.38568082451820374,
+      "eval_runtime": 4.1614,
+      "eval_samples_per_second": 15.379,
+      "eval_steps_per_second": 0.481,
       "step": 36
     },
     {
+      "epoch": 9.89,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 1.0433,
       "step": 40
     },
     {
+      "epoch": 9.89,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.32543647289276123,
+      "eval_runtime": 4.5756,
+      "eval_samples_per_second": 13.987,
+      "eval_steps_per_second": 0.437,
       "step": 40
     },
     {
+      "epoch": 10.89,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.2461281269788742,
+      "eval_runtime": 4.2012,
+      "eval_samples_per_second": 15.234,
+      "eval_steps_per_second": 0.476,
       "step": 44
     },
     {
+      "epoch": 11.89,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.2339743673801422,
+      "eval_runtime": 4.5321,
+      "eval_samples_per_second": 14.121,
+      "eval_steps_per_second": 0.441,
       "step": 48
     },
     {
+      "epoch": 12.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.18353550136089325,
+      "eval_runtime": 4.3055,
+      "eval_samples_per_second": 14.865,
+      "eval_steps_per_second": 0.465,
       "step": 52
     },
     {
+      "epoch": 13.89,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.17793762683868408,
+      "eval_runtime": 4.4643,
+      "eval_samples_per_second": 14.336,
+      "eval_steps_per_second": 0.448,
       "step": 56
     },
     {
+      "epoch": 14.89,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.5842,
       "step": 60
     },
     {
+      "epoch": 14.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.15445110201835632,
+      "eval_runtime": 4.1434,
+      "eval_samples_per_second": 15.446,
+      "eval_steps_per_second": 0.483,
       "step": 60
     },
     {
+      "epoch": 15.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.14869830012321472,
+      "eval_runtime": 4.5456,
+      "eval_samples_per_second": 14.08,
+      "eval_steps_per_second": 0.44,
       "step": 64
     },
     {
+      "epoch": 16.89,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.19956862926483154,
+      "eval_runtime": 4.0021,
+      "eval_samples_per_second": 15.992,
+      "eval_steps_per_second": 0.5,
       "step": 68
     },
     {
+      "epoch": 17.89,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.1619431972503662,
+      "eval_runtime": 4.478,
+      "eval_samples_per_second": 14.292,
+      "eval_steps_per_second": 0.447,
       "step": 72
     },
     {
+      "epoch": 18.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.13495692610740662,
+      "eval_runtime": 4.1244,
+      "eval_samples_per_second": 15.517,
+      "eval_steps_per_second": 0.485,
       "step": 76
     },
     {
+      "epoch": 19.89,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.4616,
       "step": 80
     },
     {
+      "epoch": 19.89,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.17057114839553833,
+      "eval_runtime": 4.5586,
+      "eval_samples_per_second": 14.039,
+      "eval_steps_per_second": 0.439,
       "step": 80
     },
     {
+      "epoch": 20.89,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.15793055295944214,
+      "eval_runtime": 4.126,
+      "eval_samples_per_second": 15.511,
+      "eval_steps_per_second": 0.485,
       "step": 84
     },
     {
+      "epoch": 21.89,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.16296246647834778,
+      "eval_runtime": 4.5173,
+      "eval_samples_per_second": 14.168,
+      "eval_steps_per_second": 0.443,
       "step": 88
     },
     {
+      "epoch": 22.89,
+      "eval_accuracy": 0.90625,
+      "eval_loss": 0.20802505314350128,
+      "eval_runtime": 4.0833,
+      "eval_samples_per_second": 15.674,
+      "eval_steps_per_second": 0.49,
       "step": 92
     },
     {
+      "epoch": 23.89,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.14634451270103455,
+      "eval_runtime": 4.6059,
+      "eval_samples_per_second": 13.895,
+      "eval_steps_per_second": 0.434,
       "step": 96
     },
     {
+      "epoch": 24.89,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 0.3898,
       "step": 100
     },
     {
+      "epoch": 24.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.11846979707479477,
+      "eval_runtime": 4.1451,
+      "eval_samples_per_second": 15.44,
+      "eval_steps_per_second": 0.483,
       "step": 100
     },
     {
+      "epoch": 25.89,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.14448919892311096,
+      "eval_runtime": 4.4782,
+      "eval_samples_per_second": 14.291,
+      "eval_steps_per_second": 0.447,
       "step": 104
     },
     {
+      "epoch": 26.89,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.20514565706253052,
+      "eval_runtime": 4.0807,
+      "eval_samples_per_second": 15.683,
+      "eval_steps_per_second": 0.49,
       "step": 108
     },
     {
+      "epoch": 27.89,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.19281229376792908,
+      "eval_runtime": 4.457,
+      "eval_samples_per_second": 14.36,
+      "eval_steps_per_second": 0.449,
       "step": 112
     },
     {
+      "epoch": 28.89,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.13649864494800568,
+      "eval_runtime": 4.038,
+      "eval_samples_per_second": 15.849,
+      "eval_steps_per_second": 0.495,
       "step": 116
     },
     {
+      "epoch": 29.89,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.3511,
       "step": 120
     },
     {
+      "epoch": 29.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.10572843253612518,
+      "eval_runtime": 4.5443,
+      "eval_samples_per_second": 14.084,
+      "eval_steps_per_second": 0.44,
       "step": 120
     },
     {
+      "epoch": 30.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.10910199582576752,
+      "eval_runtime": 4.2535,
+      "eval_samples_per_second": 15.046,
+      "eval_steps_per_second": 0.47,
       "step": 124
     },
     {
+      "epoch": 31.89,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.1893911063671112,
+      "eval_runtime": 4.6955,
+      "eval_samples_per_second": 13.63,
+      "eval_steps_per_second": 0.426,
       "step": 128
     },
     {
+      "epoch": 32.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.12075338512659073,
+      "eval_runtime": 4.1214,
+      "eval_samples_per_second": 15.529,
+      "eval_steps_per_second": 0.485,
       "step": 132
     },
     {
+      "epoch": 33.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.11010686308145523,
+      "eval_runtime": 4.5267,
+      "eval_samples_per_second": 14.138,
+      "eval_steps_per_second": 0.442,
       "step": 136
     },
     {
+      "epoch": 34.89,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 0.3286,
       "step": 140
     },
     {
+      "epoch": 34.89,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.14093339443206787,
+      "eval_runtime": 4.119,
+      "eval_samples_per_second": 15.538,
+      "eval_steps_per_second": 0.486,
       "step": 140
     },
     {
+      "epoch": 35.89,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.18304279446601868,
+      "eval_runtime": 4.4932,
+      "eval_samples_per_second": 14.244,
+      "eval_steps_per_second": 0.445,
       "step": 144
     },
     {
+      "epoch": 36.89,
+      "eval_accuracy": 0.921875,
+      "eval_loss": 0.1518746018409729,
+      "eval_runtime": 4.1186,
+      "eval_samples_per_second": 15.539,
+      "eval_steps_per_second": 0.486,
       "step": 148
     },
     {
+      "epoch": 37.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.10309180617332458,
+      "eval_runtime": 4.5179,
+      "eval_samples_per_second": 14.166,
+      "eval_steps_per_second": 0.443,
       "step": 152
     },
     {
+      "epoch": 38.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.09621511399745941,
+      "eval_runtime": 4.2076,
+      "eval_samples_per_second": 15.211,
+      "eval_steps_per_second": 0.475,
       "step": 156
     },
     {
+      "epoch": 39.89,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.3095,
       "step": 160
     },
     {
+      "epoch": 39.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.09031268954277039,
+      "eval_runtime": 4.5982,
+      "eval_samples_per_second": 13.919,
+      "eval_steps_per_second": 0.435,
       "step": 160
     },
     {
+      "epoch": 40.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.08859497308731079,
+      "eval_runtime": 4.1937,
+      "eval_samples_per_second": 15.261,
+      "eval_steps_per_second": 0.477,
       "step": 164
     },
     {
+      "epoch": 41.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.10331027209758759,
+      "eval_runtime": 4.5829,
+      "eval_samples_per_second": 13.965,
+      "eval_steps_per_second": 0.436,
       "step": 168
     },
     {
+      "epoch": 42.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.11172451823949814,
+      "eval_runtime": 4.2291,
+      "eval_samples_per_second": 15.133,
+      "eval_steps_per_second": 0.473,
       "step": 172
     },
     {
+      "epoch": 43.89,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.11921519041061401,
+      "eval_runtime": 4.595,
+      "eval_samples_per_second": 13.928,
+      "eval_steps_per_second": 0.435,
       "step": 176
     },
     {
+      "epoch": 44.89,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.3056,
       "step": 180
     },
     {
+      "epoch": 44.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.09840899705886841,
+      "eval_runtime": 4.2775,
+      "eval_samples_per_second": 14.962,
+      "eval_steps_per_second": 0.468,
       "step": 180
     },
     {
+      "epoch": 45.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.08203314244747162,
+      "eval_runtime": 4.5543,
+      "eval_samples_per_second": 14.053,
+      "eval_steps_per_second": 0.439,
       "step": 184
     },
     {
+      "epoch": 46.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.08574767410755157,
+      "eval_runtime": 4.1553,
+      "eval_samples_per_second": 15.402,
+      "eval_steps_per_second": 0.481,
       "step": 188
     },
     {
+      "epoch": 47.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.10580457001924515,
+      "eval_runtime": 4.6204,
+      "eval_samples_per_second": 13.852,
+      "eval_steps_per_second": 0.433,
       "step": 192
     },
     {
+      "epoch": 48.89,
+      "eval_accuracy": 0.9375,
+      "eval_loss": 0.11630271375179291,
+      "eval_runtime": 4.1519,
+      "eval_samples_per_second": 15.415,
+      "eval_steps_per_second": 0.482,
       "step": 196
     },
     {
+      "epoch": 49.89,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.255,
       "step": 200
     },
     {
+      "epoch": 49.89,
+      "eval_accuracy": 0.953125,
+      "eval_loss": 0.11214150488376617,
+      "eval_runtime": 4.4888,
+      "eval_samples_per_second": 14.258,
+      "eval_steps_per_second": 0.446,
       "step": 200
     },
     {
+      "epoch": 50.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.10038581490516663,
+      "eval_runtime": 4.1624,
+      "eval_samples_per_second": 15.376,
+      "eval_steps_per_second": 0.48,
       "step": 204
     },
     {
+      "epoch": 51.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.09537401050329208,
+      "eval_runtime": 4.5154,
+      "eval_samples_per_second": 14.174,
+      "eval_steps_per_second": 0.443,
       "step": 208
     },
     {
+      "epoch": 52.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.0925481989979744,
+      "eval_runtime": 4.141,
+      "eval_samples_per_second": 15.455,
+      "eval_steps_per_second": 0.483,
       "step": 212
     },
     {
+      "epoch": 53.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.08920943737030029,
+      "eval_runtime": 4.5736,
+      "eval_samples_per_second": 13.993,
+      "eval_steps_per_second": 0.437,
       "step": 216
     },
     {
+      "epoch": 54.89,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 0.2494,
       "step": 220
     },
     {
+      "epoch": 54.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.08926128596067429,
+      "eval_runtime": 4.0979,
+      "eval_samples_per_second": 15.618,
+      "eval_steps_per_second": 0.488,
       "step": 220
     },
     {
+      "epoch": 55.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.0900685042142868,
+      "eval_runtime": 4.5713,
+      "eval_samples_per_second": 14.001,
+      "eval_steps_per_second": 0.438,
       "step": 224
     },
     {
+      "epoch": 56.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.08957040309906006,
+      "eval_runtime": 4.2031,
+      "eval_samples_per_second": 15.227,
+      "eval_steps_per_second": 0.476,
       "step": 228
     },
     {
+      "epoch": 57.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.09029233455657959,
+      "eval_runtime": 4.5507,
+      "eval_samples_per_second": 14.064,
+      "eval_steps_per_second": 0.439,
       "step": 232
     },
     {
+      "epoch": 58.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.09133943915367126,
+      "eval_runtime": 4.5211,
+      "eval_samples_per_second": 14.156,
+      "eval_steps_per_second": 0.442,
       "step": 236
     },
     {
+      "epoch": 59.89,
       "learning_rate": 0.0,
+      "loss": 0.2588,
       "step": 240
     },
     {
+      "epoch": 59.89,
+      "eval_accuracy": 0.96875,
+      "eval_loss": 0.09184324741363525,
+      "eval_runtime": 4.5891,
+      "eval_samples_per_second": 13.946,
+      "eval_steps_per_second": 0.436,
       "step": 240
     },
     {
+      "epoch": 59.89,
       "step": 240,
+      "total_flos": 8.516851567051162e+17,
+      "train_loss": 0.5424989521503448,
+      "train_runtime": 4233.7913,
+      "train_samples_per_second": 8.106,
+      "train_steps_per_second": 0.057
     }
   ],
   "max_steps": 240,
   "num_train_epochs": 60,
+  "total_flos": 8.516851567051162e+17,
   "trial_name": null,
   "trial_params": null
 }