End of training

Browse files

Files changed (5) hide show

all_results.json +11 -11
eval_results.json +6 -6
runs/Jan30_12-33-31_0740e744f9c3/events.out.tfevents.1675087790.0740e744f9c3.236.2 +3 -0
train_results.json +6 -6
trainer_state.json +400 -400

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 60.0,
-    "eval_accuracy": 0.9714285714285714,
-    "eval_loss": 0.11924324184656143,
-    "eval_runtime": 4.266,
-    "eval_samples_per_second": 16.409,
-    "eval_steps_per_second": 0.703,
-    "total_flos": 9.381960833056358e+17,
-    "train_loss": 0.48240819613138836,
-    "train_runtime": 5472.4354,
-    "train_samples_per_second": 6.896,
-    "train_steps_per_second": 0.055
 }

 {
+    "epoch": 59.91,
+    "eval_accuracy": 0.9733333333333334,
+    "eval_loss": 0.1787085384130478,
+    "eval_runtime": 4.6113,
+    "eval_samples_per_second": 16.265,
+    "eval_steps_per_second": 0.651,
+    "total_flos": 1.0044714081093673e+18,
+    "train_loss": 0.5910613632202149,
+    "train_runtime": 5579.9163,
+    "train_samples_per_second": 7.247,
+    "train_steps_per_second": 0.054
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 60.0,
-    "eval_accuracy": 0.9714285714285714,
-    "eval_loss": 0.11924324184656143,
-    "eval_runtime": 4.266,
-    "eval_samples_per_second": 16.409,
-    "eval_steps_per_second": 0.703
 }

 {
+    "epoch": 59.91,
+    "eval_accuracy": 0.9733333333333334,
+    "eval_loss": 0.1787085384130478,
+    "eval_runtime": 4.6113,
+    "eval_samples_per_second": 16.265,
+    "eval_steps_per_second": 0.651
 }

runs/Jan30_12-33-31_0740e744f9c3/events.out.tfevents.1675087790.0740e744f9c3.236.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adbbc1304f6b032cd83d9ee161fd46237a07294fccda33f1b47be2ea4b670ebc
+size 363

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 60.0,
-    "total_flos": 9.381960833056358e+17,
-    "train_loss": 0.48240819613138836,
-    "train_runtime": 5472.4354,
-    "train_samples_per_second": 6.896,
-    "train_steps_per_second": 0.055
 }

 {
+    "epoch": 59.91,
+    "total_flos": 1.0044714081093673e+18,
+    "train_loss": 0.5910613632202149,
+    "train_runtime": 5579.9163,
+    "train_samples_per_second": 7.247,
+    "train_steps_per_second": 0.054
 }

trainer_state.json CHANGED Viewed

@@ -1,655 +1,655 @@
 {
-  "best_metric": 0.9714285714285714,
-  "best_model_checkpoint": "delivery_truck_classification/checkpoint-120",
-  "epoch": 60.0,
   "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.12857142857142856,
-      "eval_loss": 1.9401942491531372,
-      "eval_runtime": 4.0508,
-      "eval_samples_per_second": 17.281,
-      "eval_steps_per_second": 0.741,
       "step": 5
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.24285714285714285,
-      "eval_loss": 1.8379000425338745,
-      "eval_runtime": 4.25,
-      "eval_samples_per_second": 16.47,
-      "eval_steps_per_second": 0.706,
       "step": 10
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.4,
-      "eval_loss": 1.6960197687149048,
-      "eval_runtime": 4.0325,
-      "eval_samples_per_second": 17.359,
-      "eval_steps_per_second": 0.744,
       "step": 15
     },
     {
-      "epoch": 4.0,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 1.7795,
       "step": 20
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.5142857142857142,
-      "eval_loss": 1.4422836303710938,
-      "eval_runtime": 4.0892,
-      "eval_samples_per_second": 17.118,
-      "eval_steps_per_second": 0.734,
       "step": 20
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 1.129531741142273,
-      "eval_runtime": 4.0522,
-      "eval_samples_per_second": 17.275,
-      "eval_steps_per_second": 0.74,
       "step": 25
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.7285714285714285,
-      "eval_loss": 0.8280124068260193,
-      "eval_runtime": 4.1393,
-      "eval_samples_per_second": 16.911,
-      "eval_steps_per_second": 0.725,
       "step": 30
     },
     {
-      "epoch": 7.0,
-      "eval_accuracy": 0.8428571428571429,
-      "eval_loss": 0.5571854710578918,
-      "eval_runtime": 4.1115,
-      "eval_samples_per_second": 17.026,
-      "eval_steps_per_second": 0.73,
       "step": 35
     },
     {
-      "epoch": 8.0,
       "learning_rate": 4.814814814814815e-05,
-      "loss": 1.0588,
       "step": 40
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.9285714285714286,
-      "eval_loss": 0.38549211621284485,
-      "eval_runtime": 4.081,
-      "eval_samples_per_second": 17.153,
-      "eval_steps_per_second": 0.735,
       "step": 40
     },
     {
-      "epoch": 9.0,
-      "eval_accuracy": 0.9142857142857143,
-      "eval_loss": 0.3106531500816345,
-      "eval_runtime": 4.0992,
-      "eval_samples_per_second": 17.076,
-      "eval_steps_per_second": 0.732,
       "step": 45
     },
     {
-      "epoch": 10.0,
-      "eval_accuracy": 0.9285714285714286,
-      "eval_loss": 0.25636935234069824,
-      "eval_runtime": 4.1866,
-      "eval_samples_per_second": 16.72,
-      "eval_steps_per_second": 0.717,
       "step": 50
     },
     {
-      "epoch": 11.0,
-      "eval_accuracy": 0.9285714285714286,
-      "eval_loss": 0.20498664677143097,
-      "eval_runtime": 4.0728,
-      "eval_samples_per_second": 17.187,
-      "eval_steps_per_second": 0.737,
       "step": 55
     },
     {
-      "epoch": 12.0,
       "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.591,
       "step": 60
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.19002115726470947,
-      "eval_runtime": 4.0628,
-      "eval_samples_per_second": 17.23,
-      "eval_steps_per_second": 0.738,
       "step": 60
     },
     {
-      "epoch": 13.0,
-      "eval_accuracy": 0.9285714285714286,
-      "eval_loss": 0.17195703089237213,
-      "eval_runtime": 4.0868,
-      "eval_samples_per_second": 17.128,
-      "eval_steps_per_second": 0.734,
       "step": 65
     },
     {
-      "epoch": 14.0,
-      "eval_accuracy": 0.9142857142857143,
-      "eval_loss": 0.188080832362175,
-      "eval_runtime": 4.0578,
-      "eval_samples_per_second": 17.251,
-      "eval_steps_per_second": 0.739,
       "step": 70
     },
     {
-      "epoch": 15.0,
-      "eval_accuracy": 0.9428571428571428,
-      "eval_loss": 0.1788831204175949,
-      "eval_runtime": 4.1273,
-      "eval_samples_per_second": 16.96,
-      "eval_steps_per_second": 0.727,
       "step": 75
     },
     {
-      "epoch": 16.0,
       "learning_rate": 4.074074074074074e-05,
-      "loss": 0.4609,
       "step": 80
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy": 0.9142857142857143,
-      "eval_loss": 0.199941948056221,
-      "eval_runtime": 4.0992,
-      "eval_samples_per_second": 17.076,
-      "eval_steps_per_second": 0.732,
       "step": 80
     },
     {
-      "epoch": 17.0,
-      "eval_accuracy": 0.9285714285714286,
-      "eval_loss": 0.1491808146238327,
-      "eval_runtime": 4.1379,
-      "eval_samples_per_second": 16.917,
-      "eval_steps_per_second": 0.725,
       "step": 85
     },
     {
-      "epoch": 18.0,
-      "eval_accuracy": 0.9285714285714286,
-      "eval_loss": 0.1648150235414505,
-      "eval_runtime": 4.0523,
-      "eval_samples_per_second": 17.274,
-      "eval_steps_per_second": 0.74,
       "step": 90
     },
     {
-      "epoch": 19.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.11947301775217056,
-      "eval_runtime": 4.0582,
-      "eval_samples_per_second": 17.249,
-      "eval_steps_per_second": 0.739,
       "step": 95
     },
     {
-      "epoch": 20.0,
       "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.3941,
       "step": 100
     },
     {
-      "epoch": 20.0,
-      "eval_accuracy": 0.9285714285714286,
-      "eval_loss": 0.13950331509113312,
-      "eval_runtime": 4.1018,
-      "eval_samples_per_second": 17.066,
-      "eval_steps_per_second": 0.731,
       "step": 100
     },
     {
-      "epoch": 21.0,
-      "eval_accuracy": 0.9285714285714286,
-      "eval_loss": 0.14757172763347626,
-      "eval_runtime": 4.0132,
-      "eval_samples_per_second": 17.443,
-      "eval_steps_per_second": 0.748,
       "step": 105
     },
     {
-      "epoch": 22.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.1113029271364212,
-      "eval_runtime": 4.0076,
-      "eval_samples_per_second": 17.467,
-      "eval_steps_per_second": 0.749,
       "step": 110
     },
     {
-      "epoch": 23.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.13283702731132507,
-      "eval_runtime": 4.0346,
-      "eval_samples_per_second": 17.35,
-      "eval_steps_per_second": 0.744,
       "step": 115
     },
     {
-      "epoch": 24.0,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.3475,
       "step": 120
     },
     {
-      "epoch": 24.0,
-      "eval_accuracy": 0.9714285714285714,
-      "eval_loss": 0.11924324184656143,
-      "eval_runtime": 4.026,
-      "eval_samples_per_second": 17.387,
-      "eval_steps_per_second": 0.745,
       "step": 120
     },
     {
-      "epoch": 25.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.11995943635702133,
-      "eval_runtime": 4.1096,
-      "eval_samples_per_second": 17.033,
-      "eval_steps_per_second": 0.73,
       "step": 125
     },
     {
-      "epoch": 26.0,
-      "eval_accuracy": 0.9714285714285714,
-      "eval_loss": 0.1360194832086563,
-      "eval_runtime": 4.1596,
-      "eval_samples_per_second": 16.828,
-      "eval_steps_per_second": 0.721,
       "step": 130
     },
     {
-      "epoch": 27.0,
-      "eval_accuracy": 0.9428571428571428,
-      "eval_loss": 0.14246320724487305,
-      "eval_runtime": 4.0478,
-      "eval_samples_per_second": 17.293,
-      "eval_steps_per_second": 0.741,
       "step": 135
     },
     {
-      "epoch": 28.0,
       "learning_rate": 2.962962962962963e-05,
-      "loss": 0.3542,
       "step": 140
     },
     {
-      "epoch": 28.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.11028776317834854,
-      "eval_runtime": 4.0318,
-      "eval_samples_per_second": 17.362,
-      "eval_steps_per_second": 0.744,
       "step": 140
     },
     {
-      "epoch": 29.0,
-      "eval_accuracy": 0.9428571428571428,
-      "eval_loss": 0.12440218031406403,
-      "eval_runtime": 4.038,
-      "eval_samples_per_second": 17.335,
-      "eval_steps_per_second": 0.743,
       "step": 145
     },
     {
-      "epoch": 30.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.11757094413042068,
-      "eval_runtime": 4.0522,
-      "eval_samples_per_second": 17.275,
-      "eval_steps_per_second": 0.74,
       "step": 150
     },
     {
-      "epoch": 31.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.10275254398584366,
-      "eval_runtime": 4.073,
-      "eval_samples_per_second": 17.186,
-      "eval_steps_per_second": 0.737,
       "step": 155
     },
     {
-      "epoch": 32.0,
       "learning_rate": 2.5925925925925925e-05,
-      "loss": 0.317,
       "step": 160
     },
     {
-      "epoch": 32.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.1084454134106636,
-      "eval_runtime": 4.0241,
-      "eval_samples_per_second": 17.395,
-      "eval_steps_per_second": 0.746,
       "step": 160
     },
     {
-      "epoch": 33.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.12689971923828125,
-      "eval_runtime": 4.0167,
-      "eval_samples_per_second": 17.427,
-      "eval_steps_per_second": 0.747,
       "step": 165
     },
     {
-      "epoch": 34.0,
-      "eval_accuracy": 0.9428571428571428,
-      "eval_loss": 0.12951645255088806,
-      "eval_runtime": 4.1051,
-      "eval_samples_per_second": 17.052,
-      "eval_steps_per_second": 0.731,
       "step": 170
     },
     {
-      "epoch": 35.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.1245197132229805,
-      "eval_runtime": 4.0579,
-      "eval_samples_per_second": 17.251,
-      "eval_steps_per_second": 0.739,
       "step": 175
     },
     {
-      "epoch": 36.0,
       "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.2947,
       "step": 180
     },
     {
-      "epoch": 36.0,
-      "eval_accuracy": 0.9428571428571428,
-      "eval_loss": 0.13154344260692596,
-      "eval_runtime": 4.0212,
-      "eval_samples_per_second": 17.408,
-      "eval_steps_per_second": 0.746,
       "step": 180
     },
     {
-      "epoch": 37.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.13128569722175598,
-      "eval_runtime": 4.0731,
-      "eval_samples_per_second": 17.186,
-      "eval_steps_per_second": 0.737,
       "step": 185
     },
     {
-      "epoch": 38.0,
-      "eval_accuracy": 0.9428571428571428,
-      "eval_loss": 0.14208073914051056,
-      "eval_runtime": 4.0445,
-      "eval_samples_per_second": 17.307,
-      "eval_steps_per_second": 0.742,
       "step": 190
     },
     {
-      "epoch": 39.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.1440354883670807,
-      "eval_runtime": 4.02,
-      "eval_samples_per_second": 17.413,
-      "eval_steps_per_second": 0.746,
       "step": 195
     },
     {
-      "epoch": 40.0,
       "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.3124,
       "step": 200
     },
     {
-      "epoch": 40.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.13390059769153595,
-      "eval_runtime": 4.0153,
-      "eval_samples_per_second": 17.433,
-      "eval_steps_per_second": 0.747,
       "step": 200
     },
     {
-      "epoch": 41.0,
-      "eval_accuracy": 0.9428571428571428,
-      "eval_loss": 0.15533578395843506,
-      "eval_runtime": 4.0821,
-      "eval_samples_per_second": 17.148,
-      "eval_steps_per_second": 0.735,
       "step": 205
     },
     {
-      "epoch": 42.0,
-      "eval_accuracy": 0.9428571428571428,
-      "eval_loss": 0.1547066867351532,
-      "eval_runtime": 4.0957,
-      "eval_samples_per_second": 17.091,
-      "eval_steps_per_second": 0.732,
       "step": 210
     },
     {
-      "epoch": 43.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.13160941004753113,
-      "eval_runtime": 4.1174,
-      "eval_samples_per_second": 17.001,
-      "eval_steps_per_second": 0.729,
       "step": 215
     },
     {
-      "epoch": 44.0,
       "learning_rate": 1.4814814814814815e-05,
-      "loss": 0.2843,
       "step": 220
     },
     {
-      "epoch": 44.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.12867721915245056,
-      "eval_runtime": 4.1356,
-      "eval_samples_per_second": 16.926,
-      "eval_steps_per_second": 0.725,
       "step": 220
     },
     {
-      "epoch": 45.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.13077586889266968,
-      "eval_runtime": 4.164,
-      "eval_samples_per_second": 16.811,
-      "eval_steps_per_second": 0.72,
       "step": 225
     },
     {
-      "epoch": 46.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.1401166319847107,
-      "eval_runtime": 4.0319,
-      "eval_samples_per_second": 17.362,
-      "eval_steps_per_second": 0.744,
       "step": 230
     },
     {
-      "epoch": 47.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.11855422705411911,
-      "eval_runtime": 4.0342,
-      "eval_samples_per_second": 17.351,
-      "eval_steps_per_second": 0.744,
       "step": 235
     },
     {
-      "epoch": 48.0,
       "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.2655,
       "step": 240
     },
     {
-      "epoch": 48.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.10567642003297806,
-      "eval_runtime": 4.0324,
-      "eval_samples_per_second": 17.359,
-      "eval_steps_per_second": 0.744,
       "step": 240
     },
     {
-      "epoch": 49.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.12025075405836105,
-      "eval_runtime": 4.0512,
-      "eval_samples_per_second": 17.279,
-      "eval_steps_per_second": 0.741,
       "step": 245
     },
     {
-      "epoch": 50.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.1373574286699295,
-      "eval_runtime": 4.0455,
-      "eval_samples_per_second": 17.303,
-      "eval_steps_per_second": 0.742,
       "step": 250
     },
     {
-      "epoch": 51.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.1361333578824997,
-      "eval_runtime": 4.0102,
-      "eval_samples_per_second": 17.455,
-      "eval_steps_per_second": 0.748,
       "step": 255
     },
     {
-      "epoch": 52.0,
       "learning_rate": 7.4074074074074075e-06,
-      "loss": 0.26,
       "step": 260
     },
     {
-      "epoch": 52.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.11978749185800552,
-      "eval_runtime": 4.1202,
-      "eval_samples_per_second": 16.989,
-      "eval_steps_per_second": 0.728,
       "step": 260
     },
     {
-      "epoch": 53.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.11752226948738098,
-      "eval_runtime": 4.0691,
-      "eval_samples_per_second": 17.203,
-      "eval_steps_per_second": 0.737,
       "step": 265
     },
     {
-      "epoch": 54.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.13132056593894958,
-      "eval_runtime": 4.068,
-      "eval_samples_per_second": 17.207,
-      "eval_steps_per_second": 0.737,
       "step": 270
     },
     {
-      "epoch": 55.0,
-      "eval_accuracy": 0.9428571428571428,
-      "eval_loss": 0.13983343541622162,
-      "eval_runtime": 4.0628,
-      "eval_samples_per_second": 17.229,
-      "eval_steps_per_second": 0.738,
       "step": 275
     },
     {
-      "epoch": 56.0,
       "learning_rate": 3.7037037037037037e-06,
-      "loss": 0.2601,
       "step": 280
     },
     {
-      "epoch": 56.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.13535180687904358,
-      "eval_runtime": 4.003,
-      "eval_samples_per_second": 17.487,
-      "eval_steps_per_second": 0.749,
       "step": 280
     },
     {
-      "epoch": 57.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.1271456480026245,
-      "eval_runtime": 4.0903,
-      "eval_samples_per_second": 17.113,
-      "eval_steps_per_second": 0.733,
       "step": 285
     },
     {
-      "epoch": 58.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.12419404834508896,
-      "eval_runtime": 3.995,
-      "eval_samples_per_second": 17.522,
-      "eval_steps_per_second": 0.751,
       "step": 290
     },
     {
-      "epoch": 59.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.12333472073078156,
-      "eval_runtime": 4.144,
-      "eval_samples_per_second": 16.892,
-      "eval_steps_per_second": 0.724,
       "step": 295
     },
     {
-      "epoch": 60.0,
       "learning_rate": 0.0,
-      "loss": 0.2562,
       "step": 300
     },
     {
-      "epoch": 60.0,
-      "eval_accuracy": 0.9571428571428572,
-      "eval_loss": 0.12345683574676514,
-      "eval_runtime": 4.0756,
-      "eval_samples_per_second": 17.176,
-      "eval_steps_per_second": 0.736,
       "step": 300
     },
     {
-      "epoch": 60.0,
       "step": 300,
-      "total_flos": 9.381960833056358e+17,
-      "train_loss": 0.48240819613138836,
-      "train_runtime": 5472.4354,
-      "train_samples_per_second": 6.896,
-      "train_steps_per_second": 0.055
     }
   ],
   "max_steps": 300,
   "num_train_epochs": 60,
-  "total_flos": 9.381960833056358e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.9733333333333334,
+  "best_model_checkpoint": "delivery_truck_classification/checkpoint-155",
+  "epoch": 59.90909090909091,
   "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.91,
+      "eval_accuracy": 0.06666666666666667,
+      "eval_loss": 2.124830722808838,
+      "eval_runtime": 4.5982,
+      "eval_samples_per_second": 16.311,
+      "eval_steps_per_second": 0.652,
       "step": 5
     },
     {
+      "epoch": 1.91,
+      "eval_accuracy": 0.24,
+      "eval_loss": 1.922129511833191,
+      "eval_runtime": 4.7321,
+      "eval_samples_per_second": 15.849,
+      "eval_steps_per_second": 0.634,
       "step": 10
     },
     {
+      "epoch": 2.91,
+      "eval_accuracy": 0.32,
+      "eval_loss": 1.7176545858383179,
+      "eval_runtime": 4.4837,
+      "eval_samples_per_second": 16.727,
+      "eval_steps_per_second": 0.669,
       "step": 15
     },
     {
+      "epoch": 3.91,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 2.0123,
       "step": 20
     },
     {
+      "epoch": 3.91,
+      "eval_accuracy": 0.4266666666666667,
+      "eval_loss": 1.5490375757217407,
+      "eval_runtime": 4.4804,
+      "eval_samples_per_second": 16.74,
+      "eval_steps_per_second": 0.67,
       "step": 20
     },
     {
+      "epoch": 4.91,
+      "eval_accuracy": 0.5333333333333333,
+      "eval_loss": 1.3192248344421387,
+      "eval_runtime": 4.5163,
+      "eval_samples_per_second": 16.607,
+      "eval_steps_per_second": 0.664,
       "step": 25
     },
     {
+      "epoch": 5.91,
+      "eval_accuracy": 0.64,
+      "eval_loss": 1.0764085054397583,
+      "eval_runtime": 4.4752,
+      "eval_samples_per_second": 16.759,
+      "eval_steps_per_second": 0.67,
       "step": 30
     },
     {
+      "epoch": 6.91,
+      "eval_accuracy": 0.76,
+      "eval_loss": 0.8421124219894409,
+      "eval_runtime": 4.5472,
+      "eval_samples_per_second": 16.494,
+      "eval_steps_per_second": 0.66,
       "step": 35
     },
     {
+      "epoch": 7.91,
       "learning_rate": 4.814814814814815e-05,
+      "loss": 1.3539,
       "step": 40
     },
     {
+      "epoch": 7.91,
+      "eval_accuracy": 0.8266666666666667,
+      "eval_loss": 0.6503960490226746,
+      "eval_runtime": 4.6022,
+      "eval_samples_per_second": 16.296,
+      "eval_steps_per_second": 0.652,
       "step": 40
     },
     {
+      "epoch": 8.91,
+      "eval_accuracy": 0.8666666666666667,
+      "eval_loss": 0.5242553949356079,
+      "eval_runtime": 4.4829,
+      "eval_samples_per_second": 16.73,
+      "eval_steps_per_second": 0.669,
       "step": 45
     },
     {
+      "epoch": 9.91,
+      "eval_accuracy": 0.88,
+      "eval_loss": 0.4281647205352783,
+      "eval_runtime": 4.4238,
+      "eval_samples_per_second": 16.954,
+      "eval_steps_per_second": 0.678,
       "step": 50
     },
     {
+      "epoch": 10.91,
+      "eval_accuracy": 0.9066666666666666,
+      "eval_loss": 0.3949722349643707,
+      "eval_runtime": 4.5638,
+      "eval_samples_per_second": 16.434,
+      "eval_steps_per_second": 0.657,
       "step": 55
     },
     {
+      "epoch": 11.91,
       "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.7315,
       "step": 60
     },
     {
+      "epoch": 11.91,
+      "eval_accuracy": 0.8933333333333333,
+      "eval_loss": 0.361709862947464,
+      "eval_runtime": 4.5199,
+      "eval_samples_per_second": 16.593,
+      "eval_steps_per_second": 0.664,
       "step": 60
     },
     {
+      "epoch": 12.91,
+      "eval_accuracy": 0.9066666666666666,
+      "eval_loss": 0.3166624903678894,
+      "eval_runtime": 4.4623,
+      "eval_samples_per_second": 16.807,
+      "eval_steps_per_second": 0.672,
       "step": 65
     },
     {
+      "epoch": 13.91,
+      "eval_accuracy": 0.9066666666666666,
+      "eval_loss": 0.3022773861885071,
+      "eval_runtime": 4.4075,
+      "eval_samples_per_second": 17.016,
+      "eval_steps_per_second": 0.681,
       "step": 70
     },
     {
+      "epoch": 14.91,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.24396675825119019,
+      "eval_runtime": 4.4157,
+      "eval_samples_per_second": 16.985,
+      "eval_steps_per_second": 0.679,
       "step": 75
     },
     {
+      "epoch": 15.91,
       "learning_rate": 4.074074074074074e-05,
+      "loss": 0.5713,
       "step": 80
     },
     {
+      "epoch": 15.91,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.24749578535556793,
+      "eval_runtime": 4.3849,
+      "eval_samples_per_second": 17.104,
+      "eval_steps_per_second": 0.684,
       "step": 80
     },
     {
+      "epoch": 16.91,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.2443261742591858,
+      "eval_runtime": 4.5173,
+      "eval_samples_per_second": 16.603,
+      "eval_steps_per_second": 0.664,
       "step": 85
     },
     {
+      "epoch": 17.91,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.20929811894893646,
+      "eval_runtime": 4.4498,
+      "eval_samples_per_second": 16.855,
+      "eval_steps_per_second": 0.674,
       "step": 90
     },
     {
+      "epoch": 18.91,
+      "eval_accuracy": 0.9466666666666667,
+      "eval_loss": 0.20770420134067535,
+      "eval_runtime": 4.481,
+      "eval_samples_per_second": 16.737,
+      "eval_steps_per_second": 0.669,
       "step": 95
     },
     {
+      "epoch": 19.91,
       "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.515,
       "step": 100
     },
     {
+      "epoch": 19.91,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.2124166041612625,
+      "eval_runtime": 4.6887,
+      "eval_samples_per_second": 15.996,
+      "eval_steps_per_second": 0.64,
       "step": 100
     },
     {
+      "epoch": 20.91,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.21663539111614227,
+      "eval_runtime": 4.4061,
+      "eval_samples_per_second": 17.022,
+      "eval_steps_per_second": 0.681,
       "step": 105
     },
     {
+      "epoch": 21.91,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.1939961463212967,
+      "eval_runtime": 4.4646,
+      "eval_samples_per_second": 16.799,
+      "eval_steps_per_second": 0.672,
       "step": 110
     },
     {
+      "epoch": 22.91,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.19843259453773499,
+      "eval_runtime": 4.5883,
+      "eval_samples_per_second": 16.346,
+      "eval_steps_per_second": 0.654,
       "step": 115
     },
     {
+      "epoch": 23.91,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.4582,
       "step": 120
     },
     {
+      "epoch": 23.91,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.23953679203987122,
+      "eval_runtime": 4.5302,
+      "eval_samples_per_second": 16.556,
+      "eval_steps_per_second": 0.662,
       "step": 120
     },
     {
+      "epoch": 24.91,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.24795593321323395,
+      "eval_runtime": 4.4621,
+      "eval_samples_per_second": 16.808,
+      "eval_steps_per_second": 0.672,
       "step": 125
     },
     {
+      "epoch": 25.91,
+      "eval_accuracy": 0.92,
+      "eval_loss": 0.2179584801197052,
+      "eval_runtime": 4.4204,
+      "eval_samples_per_second": 16.967,
+      "eval_steps_per_second": 0.679,
       "step": 130
     },
     {
+      "epoch": 26.91,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.2231944501399994,
+      "eval_runtime": 4.4482,
+      "eval_samples_per_second": 16.861,
+      "eval_steps_per_second": 0.674,
       "step": 135
     },
     {
+      "epoch": 27.91,
       "learning_rate": 2.962962962962963e-05,
+      "loss": 0.4279,
       "step": 140
     },
     {
+      "epoch": 27.91,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.1976775974035263,
+      "eval_runtime": 4.4409,
+      "eval_samples_per_second": 16.888,
+      "eval_steps_per_second": 0.676,
       "step": 140
     },
     {
+      "epoch": 28.91,
+      "eval_accuracy": 0.9466666666666667,
+      "eval_loss": 0.18473981320858002,
+      "eval_runtime": 4.4471,
+      "eval_samples_per_second": 16.865,
+      "eval_steps_per_second": 0.675,
       "step": 145
     },
     {
+      "epoch": 29.91,
+      "eval_accuracy": 0.9466666666666667,
+      "eval_loss": 0.19218212366104126,
+      "eval_runtime": 4.4988,
+      "eval_samples_per_second": 16.671,
+      "eval_steps_per_second": 0.667,
       "step": 150
     },
     {
+      "epoch": 30.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1787085384130478,
+      "eval_runtime": 4.4136,
+      "eval_samples_per_second": 16.993,
+      "eval_steps_per_second": 0.68,
       "step": 155
     },
     {
+      "epoch": 31.91,
       "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.4031,
       "step": 160
     },
     {
+      "epoch": 31.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.16259188950061798,
+      "eval_runtime": 4.4524,
+      "eval_samples_per_second": 16.845,
+      "eval_steps_per_second": 0.674,
       "step": 160
     },
     {
+      "epoch": 32.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.16668973863124847,
+      "eval_runtime": 4.4694,
+      "eval_samples_per_second": 16.781,
+      "eval_steps_per_second": 0.671,
       "step": 165
     },
     {
+      "epoch": 33.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.1871425062417984,
+      "eval_runtime": 4.4399,
+      "eval_samples_per_second": 16.892,
+      "eval_steps_per_second": 0.676,
       "step": 170
     },
     {
+      "epoch": 34.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.20150674879550934,
+      "eval_runtime": 4.4431,
+      "eval_samples_per_second": 16.88,
+      "eval_steps_per_second": 0.675,
       "step": 175
     },
     {
+      "epoch": 35.91,
       "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.3952,
       "step": 180
     },
     {
+      "epoch": 35.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.18359220027923584,
+      "eval_runtime": 4.5102,
+      "eval_samples_per_second": 16.629,
+      "eval_steps_per_second": 0.665,
       "step": 180
     },
     {
+      "epoch": 36.91,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.18555229902267456,
+      "eval_runtime": 4.5169,
+      "eval_samples_per_second": 16.604,
+      "eval_steps_per_second": 0.664,
       "step": 185
     },
     {
+      "epoch": 37.91,
+      "eval_accuracy": 0.9333333333333333,
+      "eval_loss": 0.1952236294746399,
+      "eval_runtime": 4.5438,
+      "eval_samples_per_second": 16.506,
+      "eval_steps_per_second": 0.66,
       "step": 190
     },
     {
+      "epoch": 38.91,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.1720731258392334,
+      "eval_runtime": 4.4501,
+      "eval_samples_per_second": 16.854,
+      "eval_steps_per_second": 0.674,
       "step": 195
     },
     {
+      "epoch": 39.91,
       "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.369,
       "step": 200
     },
     {
+      "epoch": 39.91,
+      "eval_accuracy": 0.9466666666666667,
+      "eval_loss": 0.1618812382221222,
+      "eval_runtime": 4.4486,
+      "eval_samples_per_second": 16.859,
+      "eval_steps_per_second": 0.674,
       "step": 200
     },
     {
+      "epoch": 40.91,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.16587452590465546,
+      "eval_runtime": 4.385,
+      "eval_samples_per_second": 17.104,
+      "eval_steps_per_second": 0.684,
       "step": 205
     },
     {
+      "epoch": 41.91,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.1568831503391266,
+      "eval_runtime": 4.5404,
+      "eval_samples_per_second": 16.518,
+      "eval_steps_per_second": 0.661,
       "step": 210
     },
     {
+      "epoch": 42.91,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.1357746571302414,
+      "eval_runtime": 4.4209,
+      "eval_samples_per_second": 16.965,
+      "eval_steps_per_second": 0.679,
       "step": 215
     },
     {
+      "epoch": 43.91,
       "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.3262,
       "step": 220
     },
     {
+      "epoch": 43.91,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.13711059093475342,
+      "eval_runtime": 4.5003,
+      "eval_samples_per_second": 16.665,
+      "eval_steps_per_second": 0.667,
       "step": 220
     },
     {
+      "epoch": 44.91,
+      "eval_accuracy": 0.9466666666666667,
+      "eval_loss": 0.1336827427148819,
+      "eval_runtime": 4.47,
+      "eval_samples_per_second": 16.779,
+      "eval_steps_per_second": 0.671,
       "step": 225
     },
     {
+      "epoch": 45.91,
+      "eval_accuracy": 0.9466666666666667,
+      "eval_loss": 0.13736897706985474,
+      "eval_runtime": 4.5693,
+      "eval_samples_per_second": 16.414,
+      "eval_steps_per_second": 0.657,
       "step": 230
     },
     {
+      "epoch": 46.91,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.17894567549228668,
+      "eval_runtime": 4.3355,
+      "eval_samples_per_second": 17.299,
+      "eval_steps_per_second": 0.692,
       "step": 235
     },
     {
+      "epoch": 47.91,
       "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.3616,
       "step": 240
     },
     {
+      "epoch": 47.91,
+      "eval_accuracy": 0.9466666666666667,
+      "eval_loss": 0.21668750047683716,
+      "eval_runtime": 4.4669,
+      "eval_samples_per_second": 16.79,
+      "eval_steps_per_second": 0.672,
       "step": 240
     },
     {
+      "epoch": 48.91,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.17571820318698883,
+      "eval_runtime": 4.4771,
+      "eval_samples_per_second": 16.752,
+      "eval_steps_per_second": 0.67,
       "step": 245
     },
     {
+      "epoch": 49.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.17293348908424377,
+      "eval_runtime": 4.4293,
+      "eval_samples_per_second": 16.933,
+      "eval_steps_per_second": 0.677,
       "step": 250
     },
     {
+      "epoch": 50.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.17224831879138947,
+      "eval_runtime": 4.4183,
+      "eval_samples_per_second": 16.975,
+      "eval_steps_per_second": 0.679,
       "step": 255
     },
     {
+      "epoch": 51.91,
       "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.303,
       "step": 260
     },
     {
+      "epoch": 51.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.16005316376686096,
+      "eval_runtime": 4.4073,
+      "eval_samples_per_second": 17.017,
+      "eval_steps_per_second": 0.681,
       "step": 260
     },
     {
+      "epoch": 52.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.15919166803359985,
+      "eval_runtime": 4.4398,
+      "eval_samples_per_second": 16.893,
+      "eval_steps_per_second": 0.676,
       "step": 265
     },
     {
+      "epoch": 53.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.16125422716140747,
+      "eval_runtime": 4.3899,
+      "eval_samples_per_second": 17.085,
+      "eval_steps_per_second": 0.683,
       "step": 270
     },
     {
+      "epoch": 54.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.15753033757209778,
+      "eval_runtime": 4.4684,
+      "eval_samples_per_second": 16.785,
+      "eval_steps_per_second": 0.671,
       "step": 275
     },
     {
+      "epoch": 55.91,
       "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.305,
       "step": 280
     },
     {
+      "epoch": 55.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.15587559342384338,
+      "eval_runtime": 4.3795,
+      "eval_samples_per_second": 17.125,
+      "eval_steps_per_second": 0.685,
       "step": 280
     },
     {
+      "epoch": 56.91,
+      "eval_accuracy": 0.9733333333333334,
+      "eval_loss": 0.14887748658657074,
+      "eval_runtime": 4.4449,
+      "eval_samples_per_second": 16.873,
+      "eval_steps_per_second": 0.675,
       "step": 285
     },
     {
+      "epoch": 57.91,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.14639350771903992,
+      "eval_runtime": 4.4527,
+      "eval_samples_per_second": 16.844,
+      "eval_steps_per_second": 0.674,
       "step": 290
     },
     {
+      "epoch": 58.91,
+      "eval_accuracy": 0.9466666666666667,
+      "eval_loss": 0.14625021815299988,
+      "eval_runtime": 4.4199,
+      "eval_samples_per_second": 16.969,
+      "eval_steps_per_second": 0.679,
       "step": 295
     },
     {
+      "epoch": 59.91,
       "learning_rate": 0.0,
+      "loss": 0.3328,
       "step": 300
     },
     {
+      "epoch": 59.91,
+      "eval_accuracy": 0.9466666666666667,
+      "eval_loss": 0.14626549184322357,
+      "eval_runtime": 4.4407,
+      "eval_samples_per_second": 16.889,
+      "eval_steps_per_second": 0.676,
       "step": 300
     },
     {
+      "epoch": 59.91,
       "step": 300,
+      "total_flos": 1.0044714081093673e+18,
+      "train_loss": 0.5910613632202149,
+      "train_runtime": 5579.9163,
+      "train_samples_per_second": 7.247,
+      "train_steps_per_second": 0.054
     }
   ],
   "max_steps": 300,
   "num_train_epochs": 60,
+  "total_flos": 1.0044714081093673e+18,
   "trial_name": null,
   "trial_params": null
 }