End of training

Browse files

Files changed (6) hide show

README.md +3 -3
all_results.json +11 -6
eval_results.json +6 -6
runs/Dec09_18-28-48_c9ba084c85bf/events.out.tfevents.1733769728.c9ba084c85bf.5668.3 +3 -0
train_results.json +6 -6
trainer_state.json +609 -390

README.md CHANGED Viewed

@@ -23,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7395626242544732
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -33,8 +33,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5320
-- Accuracy: 0.7396
 ## Model description

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8071570576540755
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4697
+- Accuracy: 0.8072
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,13 @@
 {
-    "epoch": 38.4,
-    "total_flos": 7.390182645274706e+17,
-    "train_loss": 0.35739548206329347,
-    "train_runtime": 377.1425,
-    "train_samples_per_second": 82.091,
-    "train_steps_per_second": 0.636
 }

 {
+    "epoch": 53.333333333333336,
+    "eval_accuracy": 0.8071570576540755,
+    "eval_loss": 0.46969088912010193,
+    "eval_runtime": 3.0372,
+    "eval_samples_per_second": 165.611,
+    "eval_steps_per_second": 5.268,
+    "total_flos": 1.140094502803243e+18,
+    "train_loss": 0.34168325927522447,
+    "train_runtime": 709.0525,
+    "train_samples_per_second": 72.773,
+    "train_steps_per_second": 0.508
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.9936034115138592,
-    "eval_accuracy": 0.9696,
-    "eval_loss": 0.08869826793670654,
-    "eval_runtime": 29.3551,
-    "eval_samples_per_second": 170.328,
-    "eval_steps_per_second": 5.348
 }

 {
+    "epoch": 53.333333333333336,
+    "eval_accuracy": 0.8071570576540755,
+    "eval_loss": 0.46969088912010193,
+    "eval_runtime": 3.0372,
+    "eval_samples_per_second": 165.611,
+    "eval_steps_per_second": 5.268
 }

runs/Dec09_18-28-48_c9ba084c85bf/events.out.tfevents.1733769728.c9ba084c85bf.5668.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:566e64b29ae31d91cbd718c6da762c24c347a2cf668ad17054c84f497b0a6681
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 38.4,
-    "total_flos": 7.390182645274706e+17,
-    "train_loss": 0.35739548206329347,
-    "train_runtime": 377.1425,
-    "train_samples_per_second": 82.091,
-    "train_steps_per_second": 0.636
 }

 {
+    "epoch": 53.333333333333336,
+    "total_flos": 1.140094502803243e+18,
+    "train_loss": 0.34168325927522447,
+    "train_runtime": 709.0525,
+    "train_samples_per_second": 72.773,
+    "train_steps_per_second": 0.508
 }

trainer_state.json CHANGED Viewed

@@ -1,546 +1,765 @@
 {
-  "best_metric": 0.8023255813953488,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-100",
-  "epoch": 38.4,
   "eval_steps": 500,
-  "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.96,
-      "eval_accuracy": 0.686046511627907,
-      "eval_loss": 0.5580831170082092,
-      "eval_runtime": 0.4689,
-      "eval_samples_per_second": 183.412,
-      "eval_steps_per_second": 6.398,
       "step": 6
     },
     {
-      "epoch": 1.6,
-      "grad_norm": 11.4143648147583,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 0.5082,
       "step": 10
     },
     {
-      "epoch": 1.92,
-      "eval_accuracy": 0.6627906976744186,
-      "eval_loss": 0.5865343809127808,
-      "eval_runtime": 0.4656,
-      "eval_samples_per_second": 184.706,
-      "eval_steps_per_second": 6.443,
-      "step": 12
     },
     {
-      "epoch": 2.88,
-      "eval_accuracy": 0.686046511627907,
-      "eval_loss": 0.5983394980430603,
-      "eval_runtime": 0.457,
-      "eval_samples_per_second": 188.165,
-      "eval_steps_per_second": 6.564,
-      "step": 18
     },
     {
-      "epoch": 3.2,
-      "grad_norm": 43.284976959228516,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.4618,
       "step": 20
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.6744186046511628,
-      "eval_loss": 0.6791186928749084,
-      "eval_runtime": 0.4897,
-      "eval_samples_per_second": 175.601,
-      "eval_steps_per_second": 6.126,
-      "step": 25
-    },
-    {
-      "epoch": 4.8,
-      "grad_norm": 52.168453216552734,
-      "learning_rate": 4.8611111111111115e-05,
-      "loss": 0.3901,
-      "step": 30
     },
     {
-      "epoch": 4.96,
-      "eval_accuracy": 0.7325581395348837,
-      "eval_loss": 0.5641953945159912,
-      "eval_runtime": 0.4579,
-      "eval_samples_per_second": 187.798,
-      "eval_steps_per_second": 6.551,
-      "step": 31
     },
     {
-      "epoch": 5.92,
-      "eval_accuracy": 0.7093023255813954,
-      "eval_loss": 0.5044412612915039,
-      "eval_runtime": 0.4414,
-      "eval_samples_per_second": 194.839,
-      "eval_steps_per_second": 6.797,
-      "step": 37
     },
     {
-      "epoch": 6.4,
-      "grad_norm": 144.19395446777344,
-      "learning_rate": 4.62962962962963e-05,
-      "loss": 0.4175,
       "step": 40
     },
     {
-      "epoch": 6.88,
-      "eval_accuracy": 0.6976744186046512,
-      "eval_loss": 0.5285409688949585,
-      "eval_runtime": 0.4518,
-      "eval_samples_per_second": 190.363,
-      "eval_steps_per_second": 6.641,
-      "step": 43
     },
     {
-      "epoch": 8.0,
-      "grad_norm": 22.712488174438477,
-      "learning_rate": 4.3981481481481486e-05,
-      "loss": 0.4308,
-      "step": 50
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.7093023255813954,
-      "eval_loss": 0.5152430534362793,
-      "eval_runtime": 0.4733,
-      "eval_samples_per_second": 181.688,
-      "eval_steps_per_second": 6.338,
       "step": 50
     },
     {
-      "epoch": 8.96,
-      "eval_accuracy": 0.7209302325581395,
-      "eval_loss": 0.5627985000610352,
-      "eval_runtime": 0.4653,
-      "eval_samples_per_second": 184.819,
-      "eval_steps_per_second": 6.447,
-      "step": 56
     },
     {
-      "epoch": 9.6,
-      "grad_norm": 19.49258041381836,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.3998,
       "step": 60
     },
     {
-      "epoch": 9.92,
-      "eval_accuracy": 0.7674418604651163,
-      "eval_loss": 0.5401325821876526,
-      "eval_runtime": 0.4492,
-      "eval_samples_per_second": 191.442,
-      "eval_steps_per_second": 6.678,
-      "step": 62
     },
     {
-      "epoch": 10.88,
-      "eval_accuracy": 0.7790697674418605,
-      "eval_loss": 0.5199148654937744,
-      "eval_runtime": 0.4492,
-      "eval_samples_per_second": 191.438,
-      "eval_steps_per_second": 6.678,
-      "step": 68
     },
     {
-      "epoch": 11.2,
-      "grad_norm": 16.36634063720703,
-      "learning_rate": 3.935185185185186e-05,
-      "loss": 0.3682,
       "step": 70
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.7906976744186046,
-      "eval_loss": 0.5042721033096313,
-      "eval_runtime": 0.4513,
-      "eval_samples_per_second": 190.572,
-      "eval_steps_per_second": 6.648,
-      "step": 75
     },
     {
-      "epoch": 12.8,
-      "grad_norm": 20.526153564453125,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.3528,
       "step": 80
     },
     {
-      "epoch": 12.96,
-      "eval_accuracy": 0.7790697674418605,
-      "eval_loss": 0.47959619760513306,
-      "eval_runtime": 0.4571,
-      "eval_samples_per_second": 188.126,
-      "eval_steps_per_second": 6.563,
       "step": 81
     },
     {
-      "epoch": 13.92,
-      "eval_accuracy": 0.7790697674418605,
-      "eval_loss": 0.4937508702278137,
-      "eval_runtime": 0.4685,
-      "eval_samples_per_second": 183.563,
-      "eval_steps_per_second": 6.403,
       "step": 87
     },
     {
-      "epoch": 14.4,
-      "grad_norm": 24.452070236206055,
-      "learning_rate": 3.472222222222222e-05,
-      "loss": 0.3324,
       "step": 90
     },
     {
-      "epoch": 14.88,
-      "eval_accuracy": 0.7558139534883721,
-      "eval_loss": 0.4879016876220703,
-      "eval_runtime": 0.461,
-      "eval_samples_per_second": 186.569,
-      "eval_steps_per_second": 6.508,
-      "step": 93
     },
     {
-      "epoch": 16.0,
-      "grad_norm": 20.879064559936523,
-      "learning_rate": 3.240740740740741e-05,
-      "loss": 0.3579,
       "step": 100
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy": 0.8023255813953488,
-      "eval_loss": 0.4972393214702606,
-      "eval_runtime": 0.4593,
-      "eval_samples_per_second": 187.231,
-      "eval_steps_per_second": 6.531,
-      "step": 100
     },
     {
-      "epoch": 16.96,
-      "eval_accuracy": 0.7674418604651163,
-      "eval_loss": 0.45788562297821045,
-      "eval_runtime": 0.4452,
-      "eval_samples_per_second": 193.187,
-      "eval_steps_per_second": 6.739,
-      "step": 106
-    },
-    {
-      "epoch": 17.6,
-      "grad_norm": 30.157981872558594,
-      "learning_rate": 3.0092592592592593e-05,
-      "loss": 0.3566,
       "step": 110
     },
     {
-      "epoch": 17.92,
-      "eval_accuracy": 0.7790697674418605,
-      "eval_loss": 0.48914143443107605,
-      "eval_runtime": 0.4757,
-      "eval_samples_per_second": 180.776,
-      "eval_steps_per_second": 6.306,
-      "step": 112
     },
     {
-      "epoch": 18.88,
-      "eval_accuracy": 0.8023255813953488,
-      "eval_loss": 0.4653853178024292,
-      "eval_runtime": 0.4882,
-      "eval_samples_per_second": 176.154,
-      "eval_steps_per_second": 6.145,
-      "step": 118
-    },
-    {
-      "epoch": 19.2,
-      "grad_norm": 18.67655372619629,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.3382,
       "step": 120
     },
     {
-      "epoch": 20.0,
-      "eval_accuracy": 0.7906976744186046,
-      "eval_loss": 0.46721386909484863,
-      "eval_runtime": 0.4644,
-      "eval_samples_per_second": 185.204,
-      "eval_steps_per_second": 6.461,
-      "step": 125
-    },
-    {
-      "epoch": 20.8,
-      "grad_norm": 16.18861198425293,
-      "learning_rate": 2.5462962962962965e-05,
-      "loss": 0.3534,
-      "step": 130
     },
     {
-      "epoch": 20.96,
-      "eval_accuracy": 0.7790697674418605,
-      "eval_loss": 0.4687628149986267,
-      "eval_runtime": 0.4743,
-      "eval_samples_per_second": 181.318,
-      "eval_steps_per_second": 6.325,
-      "step": 131
     },
     {
-      "epoch": 21.92,
-      "eval_accuracy": 0.7558139534883721,
-      "eval_loss": 0.48910030722618103,
-      "eval_runtime": 0.4909,
-      "eval_samples_per_second": 175.174,
-      "eval_steps_per_second": 6.111,
-      "step": 137
     },
     {
-      "epoch": 22.4,
-      "grad_norm": 16.807844161987305,
-      "learning_rate": 2.314814814814815e-05,
-      "loss": 0.3462,
       "step": 140
     },
     {
-      "epoch": 22.88,
-      "eval_accuracy": 0.7441860465116279,
-      "eval_loss": 0.502510130405426,
-      "eval_runtime": 0.4792,
-      "eval_samples_per_second": 179.482,
-      "eval_steps_per_second": 6.261,
-      "step": 143
     },
     {
-      "epoch": 24.0,
-      "grad_norm": 37.028865814208984,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 0.3208,
-      "step": 150
     },
     {
-      "epoch": 24.0,
-      "eval_accuracy": 0.7674418604651163,
-      "eval_loss": 0.5026240944862366,
-      "eval_runtime": 0.4788,
-      "eval_samples_per_second": 179.607,
-      "eval_steps_per_second": 6.265,
       "step": 150
     },
     {
-      "epoch": 24.96,
-      "eval_accuracy": 0.7674418604651163,
-      "eval_loss": 0.493563175201416,
-      "eval_runtime": 0.4917,
-      "eval_samples_per_second": 174.896,
-      "eval_steps_per_second": 6.101,
-      "step": 156
     },
     {
-      "epoch": 25.6,
-      "grad_norm": 10.407114028930664,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.3408,
       "step": 160
     },
     {
-      "epoch": 25.92,
-      "eval_accuracy": 0.7790697674418605,
-      "eval_loss": 0.46066081523895264,
-      "eval_runtime": 0.4807,
-      "eval_samples_per_second": 178.913,
-      "eval_steps_per_second": 6.241,
       "step": 162
     },
     {
-      "epoch": 26.88,
-      "eval_accuracy": 0.7906976744186046,
-      "eval_loss": 0.4420366883277893,
-      "eval_runtime": 0.4813,
-      "eval_samples_per_second": 178.692,
-      "eval_steps_per_second": 6.233,
       "step": 168
     },
     {
-      "epoch": 27.2,
-      "grad_norm": 10.114925384521484,
-      "learning_rate": 1.6203703703703704e-05,
-      "loss": 0.333,
       "step": 170
     },
     {
-      "epoch": 28.0,
-      "eval_accuracy": 0.7906976744186046,
-      "eval_loss": 0.4296189248561859,
-      "eval_runtime": 0.4717,
-      "eval_samples_per_second": 182.312,
-      "eval_steps_per_second": 6.36,
       "step": 175
     },
     {
-      "epoch": 28.8,
-      "grad_norm": 16.923192977905273,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.3169,
       "step": 180
     },
     {
-      "epoch": 28.96,
-      "eval_accuracy": 0.7906976744186046,
-      "eval_loss": 0.4503108263015747,
-      "eval_runtime": 0.4671,
-      "eval_samples_per_second": 184.114,
-      "eval_steps_per_second": 6.423,
-      "step": 181
     },
     {
-      "epoch": 29.92,
-      "eval_accuracy": 0.8023255813953488,
-      "eval_loss": 0.4894145727157593,
-      "eval_runtime": 0.4851,
-      "eval_samples_per_second": 177.272,
-      "eval_steps_per_second": 6.184,
-      "step": 187
     },
     {
-      "epoch": 30.4,
-      "grad_norm": 16.85201072692871,
-      "learning_rate": 1.1574074074074075e-05,
-      "loss": 0.3267,
       "step": 190
     },
     {
-      "epoch": 30.88,
-      "eval_accuracy": 0.7906976744186046,
-      "eval_loss": 0.4838241636753082,
-      "eval_runtime": 0.4795,
-      "eval_samples_per_second": 179.37,
-      "eval_steps_per_second": 6.257,
-      "step": 193
     },
     {
-      "epoch": 32.0,
-      "grad_norm": 19.141088485717773,
-      "learning_rate": 9.259259259259259e-06,
-      "loss": 0.3114,
       "step": 200
     },
     {
-      "epoch": 32.0,
-      "eval_accuracy": 0.7790697674418605,
-      "eval_loss": 0.5220069289207458,
-      "eval_runtime": 0.5078,
-      "eval_samples_per_second": 169.353,
-      "eval_steps_per_second": 5.908,
-      "step": 200
     },
     {
-      "epoch": 32.96,
-      "eval_accuracy": 0.7790697674418605,
-      "eval_loss": 0.49199116230010986,
-      "eval_runtime": 0.4644,
-      "eval_samples_per_second": 185.186,
-      "eval_steps_per_second": 6.46,
-      "step": 206
     },
     {
-      "epoch": 33.6,
-      "grad_norm": 27.817716598510742,
-      "learning_rate": 6.944444444444445e-06,
-      "loss": 0.3143,
       "step": 210
     },
     {
-      "epoch": 33.92,
-      "eval_accuracy": 0.7441860465116279,
-      "eval_loss": 0.48098844289779663,
-      "eval_runtime": 0.4803,
-      "eval_samples_per_second": 179.049,
-      "eval_steps_per_second": 6.246,
-      "step": 212
     },
     {
-      "epoch": 34.88,
-      "eval_accuracy": 0.7558139534883721,
-      "eval_loss": 0.4828723073005676,
-      "eval_runtime": 0.492,
-      "eval_samples_per_second": 174.781,
-      "eval_steps_per_second": 6.097,
-      "step": 218
     },
     {
-      "epoch": 35.2,
-      "grad_norm": 46.449974060058594,
-      "learning_rate": 4.6296296296296296e-06,
-      "loss": 0.3034,
-      "step": 220
     },
     {
-      "epoch": 36.0,
-      "eval_accuracy": 0.7674418604651163,
-      "eval_loss": 0.4835253953933716,
-      "eval_runtime": 0.496,
-      "eval_samples_per_second": 173.392,
-      "eval_steps_per_second": 6.049,
-      "step": 225
-    },
-    {
-      "epoch": 36.8,
-      "grad_norm": 18.135772705078125,
-      "learning_rate": 2.3148148148148148e-06,
-      "loss": 0.2944,
       "step": 230
     },
     {
-      "epoch": 36.96,
-      "eval_accuracy": 0.7790697674418605,
-      "eval_loss": 0.4811899960041046,
-      "eval_runtime": 0.4612,
-      "eval_samples_per_second": 186.468,
-      "eval_steps_per_second": 6.505,
-      "step": 231
     },
     {
-      "epoch": 37.92,
-      "eval_accuracy": 0.7674418604651163,
-      "eval_loss": 0.47796696424484253,
-      "eval_runtime": 0.4674,
-      "eval_samples_per_second": 183.98,
-      "eval_steps_per_second": 6.418,
-      "step": 237
     },
     {
-      "epoch": 38.4,
-      "grad_norm": 20.760650634765625,
-      "learning_rate": 0.0,
-      "loss": 0.3018,
-      "step": 240
     },
     {
-      "epoch": 38.4,
-      "eval_accuracy": 0.7674418604651163,
-      "eval_loss": 0.4778375029563904,
-      "eval_runtime": 0.4679,
-      "eval_samples_per_second": 183.798,
-      "eval_steps_per_second": 6.412,
-      "step": 240
     },
     {
-      "epoch": 38.4,
-      "step": 240,
-      "total_flos": 7.390182645274706e+17,
-      "train_loss": 0.35739548206329347,
-      "train_runtime": 377.1425,
-      "train_samples_per_second": 82.091,
-      "train_steps_per_second": 0.636
     }
   ],
   "logging_steps": 10,
-  "max_steps": 240,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 40,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -554,7 +773,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.390182645274706e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8071570576540755,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-101",
+  "epoch": 53.333333333333336,
   "eval_steps": 500,
+  "global_step": 360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.8888888888888888,
+      "eval_accuracy": 0.6898608349900597,
+      "eval_loss": 0.6376240849494934,
+      "eval_runtime": 2.8661,
+      "eval_samples_per_second": 175.501,
+      "eval_steps_per_second": 5.583,
       "step": 6
     },
     {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 9.892236709594727,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.6757,
       "step": 10
     },
     {
+      "epoch": 1.925925925925926,
+      "eval_accuracy": 0.6938369781312127,
+      "eval_loss": 0.6052560806274414,
+      "eval_runtime": 2.8417,
+      "eval_samples_per_second": 177.006,
+      "eval_steps_per_second": 5.63,
+      "step": 13
     },
     {
+      "epoch": 2.962962962962963,
+      "grad_norm": 8.984474182128906,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.5472,
+      "step": 20
     },
     {
+      "epoch": 2.962962962962963,
+      "eval_accuracy": 0.7256461232604374,
+      "eval_loss": 0.5903410315513611,
+      "eval_runtime": 2.7461,
+      "eval_samples_per_second": 183.169,
+      "eval_steps_per_second": 5.826,
       "step": 20
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.731610337972167,
+      "eval_loss": 0.5782421827316284,
+      "eval_runtime": 2.7061,
+      "eval_samples_per_second": 185.878,
+      "eval_steps_per_second": 5.913,
+      "step": 27
     },
     {
+      "epoch": 4.444444444444445,
+      "grad_norm": 13.92780590057373,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.4628,
+      "step": 30
     },
     {
+      "epoch": 4.888888888888889,
+      "eval_accuracy": 0.7455268389662028,
+      "eval_loss": 0.5979239344596863,
+      "eval_runtime": 2.6102,
+      "eval_samples_per_second": 192.706,
+      "eval_steps_per_second": 6.13,
+      "step": 33
     },
     {
+      "epoch": 5.925925925925926,
+      "grad_norm": 25.355466842651367,
+      "learning_rate": 4.938271604938271e-05,
+      "loss": 0.4181,
       "step": 40
     },
     {
+      "epoch": 5.925925925925926,
+      "eval_accuracy": 0.7614314115308151,
+      "eval_loss": 0.5735302567481995,
+      "eval_runtime": 2.7235,
+      "eval_samples_per_second": 184.688,
+      "eval_steps_per_second": 5.875,
+      "step": 40
     },
     {
+      "epoch": 6.962962962962963,
+      "eval_accuracy": 0.7495029821073559,
+      "eval_loss": 0.5251761078834534,
+      "eval_runtime": 2.662,
+      "eval_samples_per_second": 188.956,
+      "eval_steps_per_second": 6.011,
+      "step": 47
     },
     {
+      "epoch": 7.407407407407407,
+      "grad_norm": 46.14825439453125,
+      "learning_rate": 4.783950617283951e-05,
+      "loss": 0.4079,
       "step": 50
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7475149105367793,
+      "eval_loss": 0.5362666249275208,
+      "eval_runtime": 2.6877,
+      "eval_samples_per_second": 187.151,
+      "eval_steps_per_second": 5.953,
+      "step": 54
     },
     {
+      "epoch": 8.88888888888889,
+      "grad_norm": 22.70941925048828,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.4102,
       "step": 60
     },
     {
+      "epoch": 8.88888888888889,
+      "eval_accuracy": 0.7495029821073559,
+      "eval_loss": 0.5288791060447693,
+      "eval_runtime": 2.7002,
+      "eval_samples_per_second": 186.285,
+      "eval_steps_per_second": 5.926,
+      "step": 60
     },
     {
+      "epoch": 9.925925925925926,
+      "eval_accuracy": 0.7534791252485089,
+      "eval_loss": 0.522729754447937,
+      "eval_runtime": 2.7539,
+      "eval_samples_per_second": 182.652,
+      "eval_steps_per_second": 5.81,
+      "step": 67
     },
     {
+      "epoch": 10.37037037037037,
+      "grad_norm": 92.61900329589844,
+      "learning_rate": 4.4753086419753084e-05,
+      "loss": 0.373,
       "step": 70
     },
     {
+      "epoch": 10.962962962962964,
+      "eval_accuracy": 0.7773359840954275,
+      "eval_loss": 0.46767404675483704,
+      "eval_runtime": 2.7441,
+      "eval_samples_per_second": 183.301,
+      "eval_steps_per_second": 5.831,
+      "step": 74
     },
     {
+      "epoch": 11.851851851851851,
+      "grad_norm": 13.839974403381348,
+      "learning_rate": 4.3209876543209875e-05,
+      "loss": 0.3639,
       "step": 80
     },
     {
+      "epoch": 12.0,
+      "eval_accuracy": 0.7813121272365805,
+      "eval_loss": 0.4978141188621521,
+      "eval_runtime": 2.7627,
+      "eval_samples_per_second": 182.069,
+      "eval_steps_per_second": 5.791,
       "step": 81
     },
     {
+      "epoch": 12.88888888888889,
+      "eval_accuracy": 0.7992047713717694,
+      "eval_loss": 0.465084969997406,
+      "eval_runtime": 2.7393,
+      "eval_samples_per_second": 183.625,
+      "eval_steps_per_second": 5.841,
       "step": 87
     },
     {
+      "epoch": 13.333333333333334,
+      "grad_norm": 12.678291320800781,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.3779,
       "step": 90
     },
     {
+      "epoch": 13.925925925925926,
+      "eval_accuracy": 0.7912524850894632,
+      "eval_loss": 0.4737919569015503,
+      "eval_runtime": 2.7321,
+      "eval_samples_per_second": 184.107,
+      "eval_steps_per_second": 5.856,
+      "step": 94
     },
     {
+      "epoch": 14.814814814814815,
+      "grad_norm": 13.37376594543457,
+      "learning_rate": 4.012345679012346e-05,
+      "loss": 0.3476,
       "step": 100
     },
     {
+      "epoch": 14.962962962962964,
+      "eval_accuracy": 0.8071570576540755,
+      "eval_loss": 0.46969088912010193,
+      "eval_runtime": 2.704,
+      "eval_samples_per_second": 186.017,
+      "eval_steps_per_second": 5.917,
+      "step": 101
     },
     {
+      "epoch": 16.0,
+      "eval_accuracy": 0.7952286282306164,
+      "eval_loss": 0.47190144658088684,
+      "eval_runtime": 2.651,
+      "eval_samples_per_second": 189.741,
+      "eval_steps_per_second": 6.036,
+      "step": 108
+    },
+    {
+      "epoch": 16.296296296296298,
+      "grad_norm": 36.415714263916016,
+      "learning_rate": 3.8580246913580246e-05,
+      "loss": 0.3467,
       "step": 110
     },
     {
+      "epoch": 16.88888888888889,
+      "eval_accuracy": 0.7892644135188867,
+      "eval_loss": 0.4551805257797241,
+      "eval_runtime": 2.7016,
+      "eval_samples_per_second": 186.184,
+      "eval_steps_per_second": 5.922,
+      "step": 114
     },
     {
+      "epoch": 17.77777777777778,
+      "grad_norm": 21.425716400146484,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.3496,
       "step": 120
     },
     {
+      "epoch": 17.925925925925927,
+      "eval_accuracy": 0.7713717693836978,
+      "eval_loss": 0.5186495780944824,
+      "eval_runtime": 2.9189,
+      "eval_samples_per_second": 172.324,
+      "eval_steps_per_second": 5.481,
+      "step": 121
     },
     {
+      "epoch": 18.962962962962962,
+      "eval_accuracy": 0.7952286282306164,
+      "eval_loss": 0.4575484097003937,
+      "eval_runtime": 2.8214,
+      "eval_samples_per_second": 178.277,
+      "eval_steps_per_second": 5.671,
+      "step": 128
     },
     {
+      "epoch": 19.25925925925926,
+      "grad_norm": 25.632354736328125,
+      "learning_rate": 3.5493827160493834e-05,
+      "loss": 0.3657,
+      "step": 130
     },
     {
+      "epoch": 20.0,
+      "eval_accuracy": 0.7793240556660039,
+      "eval_loss": 0.476377010345459,
+      "eval_runtime": 2.6973,
+      "eval_samples_per_second": 186.481,
+      "eval_steps_per_second": 5.932,
+      "step": 135
+    },
+    {
+      "epoch": 20.74074074074074,
+      "grad_norm": 37.57546615600586,
+      "learning_rate": 3.395061728395062e-05,
+      "loss": 0.3888,
       "step": 140
     },
     {
+      "epoch": 20.88888888888889,
+      "eval_accuracy": 0.7713717693836978,
+      "eval_loss": 0.5008699297904968,
+      "eval_runtime": 2.7366,
+      "eval_samples_per_second": 183.807,
+      "eval_steps_per_second": 5.847,
+      "step": 141
     },
     {
+      "epoch": 21.925925925925927,
+      "eval_accuracy": 0.7813121272365805,
+      "eval_loss": 0.46731534600257874,
+      "eval_runtime": 2.8548,
+      "eval_samples_per_second": 176.192,
+      "eval_steps_per_second": 5.605,
+      "step": 148
     },
     {
+      "epoch": 22.22222222222222,
+      "grad_norm": 23.367645263671875,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 0.3236,
       "step": 150
     },
     {
+      "epoch": 22.962962962962962,
+      "eval_accuracy": 0.7753479125248509,
+      "eval_loss": 0.493118554353714,
+      "eval_runtime": 2.8057,
+      "eval_samples_per_second": 179.277,
+      "eval_steps_per_second": 5.703,
+      "step": 155
     },
     {
+      "epoch": 23.703703703703702,
+      "grad_norm": 41.31706237792969,
+      "learning_rate": 3.08641975308642e-05,
+      "loss": 0.3179,
       "step": 160
     },
     {
+      "epoch": 24.0,
+      "eval_accuracy": 0.7654075546719682,
+      "eval_loss": 0.4837174415588379,
+      "eval_runtime": 2.8061,
+      "eval_samples_per_second": 179.252,
+      "eval_steps_per_second": 5.702,
       "step": 162
     },
     {
+      "epoch": 24.88888888888889,
+      "eval_accuracy": 0.7693836978131213,
+      "eval_loss": 0.4651556611061096,
+      "eval_runtime": 2.7801,
+      "eval_samples_per_second": 180.927,
+      "eval_steps_per_second": 5.755,
       "step": 168
     },
     {
+      "epoch": 25.185185185185187,
+      "grad_norm": 48.94294357299805,
+      "learning_rate": 2.9320987654320992e-05,
+      "loss": 0.327,
       "step": 170
     },
     {
+      "epoch": 25.925925925925927,
+      "eval_accuracy": 0.7495029821073559,
+      "eval_loss": 0.5107513070106506,
+      "eval_runtime": 2.746,
+      "eval_samples_per_second": 183.173,
+      "eval_steps_per_second": 5.827,
       "step": 175
     },
     {
+      "epoch": 26.666666666666668,
+      "grad_norm": 17.72180938720703,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.3253,
       "step": 180
     },
     {
+      "epoch": 26.962962962962962,
+      "eval_accuracy": 0.7833001988071571,
+      "eval_loss": 0.4423621594905853,
+      "eval_runtime": 2.851,
+      "eval_samples_per_second": 176.432,
+      "eval_steps_per_second": 5.612,
+      "step": 182
     },
     {
+      "epoch": 28.0,
+      "eval_accuracy": 0.7335984095427436,
+      "eval_loss": 0.5621975064277649,
+      "eval_runtime": 2.8441,
+      "eval_samples_per_second": 176.859,
+      "eval_steps_per_second": 5.626,
+      "step": 189
     },
     {
+      "epoch": 28.14814814814815,
+      "grad_norm": 26.241844177246094,
+      "learning_rate": 2.623456790123457e-05,
+      "loss": 0.3382,
       "step": 190
     },
     {
+      "epoch": 28.88888888888889,
+      "eval_accuracy": 0.7693836978131213,
+      "eval_loss": 0.5067819952964783,
+      "eval_runtime": 2.8675,
+      "eval_samples_per_second": 175.415,
+      "eval_steps_per_second": 5.58,
+      "step": 195
     },
     {
+      "epoch": 29.62962962962963,
+      "grad_norm": 12.02319049835205,
+      "learning_rate": 2.4691358024691357e-05,
+      "loss": 0.331,
       "step": 200
     },
     {
+      "epoch": 29.925925925925927,
+      "eval_accuracy": 0.7693836978131213,
+      "eval_loss": 0.45300325751304626,
+      "eval_runtime": 2.7755,
+      "eval_samples_per_second": 181.232,
+      "eval_steps_per_second": 5.765,
+      "step": 202
     },
     {
+      "epoch": 30.962962962962962,
+      "eval_accuracy": 0.731610337972167,
+      "eval_loss": 0.5205386877059937,
+      "eval_runtime": 2.8057,
+      "eval_samples_per_second": 179.276,
+      "eval_steps_per_second": 5.703,
+      "step": 209
     },
     {
+      "epoch": 31.11111111111111,
+      "grad_norm": 14.40517807006836,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 0.3302,
       "step": 210
     },
     {
+      "epoch": 32.0,
+      "eval_accuracy": 0.7852882703777336,
+      "eval_loss": 0.4385511875152588,
+      "eval_runtime": 2.8045,
+      "eval_samples_per_second": 179.357,
+      "eval_steps_per_second": 5.705,
+      "step": 216
+    },
+    {
+      "epoch": 32.592592592592595,
+      "grad_norm": 18.574872970581055,
+      "learning_rate": 2.1604938271604937e-05,
+      "loss": 0.2972,
+      "step": 220
     },
     {
+      "epoch": 32.888888888888886,
+      "eval_accuracy": 0.7773359840954275,
+      "eval_loss": 0.5030562281608582,
+      "eval_runtime": 2.6994,
+      "eval_samples_per_second": 186.336,
+      "eval_steps_per_second": 5.927,
+      "step": 222
     },
     {
+      "epoch": 33.925925925925924,
+      "eval_accuracy": 0.757455268389662,
+      "eval_loss": 0.49088525772094727,
+      "eval_runtime": 2.709,
+      "eval_samples_per_second": 185.676,
+      "eval_steps_per_second": 5.906,
+      "step": 229
     },
     {
+      "epoch": 34.074074074074076,
+      "grad_norm": 21.681509017944336,
+      "learning_rate": 2.006172839506173e-05,
+      "loss": 0.3121,
       "step": 230
     },
     {
+      "epoch": 34.96296296296296,
+      "eval_accuracy": 0.7793240556660039,
+      "eval_loss": 0.47658684849739075,
+      "eval_runtime": 2.7374,
+      "eval_samples_per_second": 183.751,
+      "eval_steps_per_second": 5.845,
+      "step": 236
     },
     {
+      "epoch": 35.55555555555556,
+      "grad_norm": 29.247716903686523,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.2956,
+      "step": 240
     },
     {
+      "epoch": 36.0,
+      "eval_accuracy": 0.7415506958250497,
+      "eval_loss": 0.5262213945388794,
+      "eval_runtime": 2.8701,
+      "eval_samples_per_second": 175.256,
+      "eval_steps_per_second": 5.575,
+      "step": 243
     },
     {
+      "epoch": 36.888888888888886,
+      "eval_accuracy": 0.731610337972167,
+      "eval_loss": 0.5373868942260742,
+      "eval_runtime": 2.878,
+      "eval_samples_per_second": 174.771,
+      "eval_steps_per_second": 5.559,
+      "step": 249
+    },
+    {
+      "epoch": 37.03703703703704,
+      "grad_norm": 13.55726146697998,
+      "learning_rate": 1.697530864197531e-05,
+      "loss": 0.2947,
+      "step": 250
+    },
+    {
+      "epoch": 37.925925925925924,
+      "eval_accuracy": 0.7673956262425448,
+      "eval_loss": 0.48880261182785034,
+      "eval_runtime": 2.7134,
+      "eval_samples_per_second": 185.373,
+      "eval_steps_per_second": 5.897,
+      "step": 256
+    },
+    {
+      "epoch": 38.51851851851852,
+      "grad_norm": 8.393943786621094,
+      "learning_rate": 1.54320987654321e-05,
+      "loss": 0.2662,
+      "step": 260
+    },
+    {
+      "epoch": 38.96296296296296,
+      "eval_accuracy": 0.7693836978131213,
+      "eval_loss": 0.4880698323249817,
+      "eval_runtime": 2.7354,
+      "eval_samples_per_second": 183.888,
+      "eval_steps_per_second": 5.849,
+      "step": 263
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 24.057205200195312,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.2826,
+      "step": 270
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.7892644135188867,
+      "eval_loss": 0.46687519550323486,
+      "eval_runtime": 2.7865,
+      "eval_samples_per_second": 180.514,
+      "eval_steps_per_second": 5.742,
+      "step": 270
+    },
+    {
+      "epoch": 40.888888888888886,
+      "eval_accuracy": 0.7972166998011928,
+      "eval_loss": 0.45914533734321594,
+      "eval_runtime": 2.8041,
+      "eval_samples_per_second": 179.381,
+      "eval_steps_per_second": 5.706,
+      "step": 276
+    },
+    {
+      "epoch": 41.48148148148148,
+      "grad_norm": 20.68549346923828,
+      "learning_rate": 1.2345679012345678e-05,
+      "loss": 0.2768,
+      "step": 280
+    },
+    {
+      "epoch": 41.925925925925924,
+      "eval_accuracy": 0.757455268389662,
+      "eval_loss": 0.5089908838272095,
+      "eval_runtime": 2.9736,
+      "eval_samples_per_second": 169.157,
+      "eval_steps_per_second": 5.381,
+      "step": 283
+    },
+    {
+      "epoch": 42.96296296296296,
+      "grad_norm": 9.9234619140625,
+      "learning_rate": 1.0802469135802469e-05,
+      "loss": 0.2836,
+      "step": 290
+    },
+    {
+      "epoch": 42.96296296296296,
+      "eval_accuracy": 0.7495029821073559,
+      "eval_loss": 0.5249876379966736,
+      "eval_runtime": 2.8985,
+      "eval_samples_per_second": 173.54,
+      "eval_steps_per_second": 5.52,
+      "step": 290
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.7654075546719682,
+      "eval_loss": 0.4747855067253113,
+      "eval_runtime": 2.9057,
+      "eval_samples_per_second": 173.108,
+      "eval_steps_per_second": 5.506,
+      "step": 297
+    },
+    {
+      "epoch": 44.44444444444444,
+      "grad_norm": 19.76637840270996,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.2724,
+      "step": 300
     },
     {
+      "epoch": 44.888888888888886,
+      "eval_accuracy": 0.7833001988071571,
+      "eval_loss": 0.44288724660873413,
+      "eval_runtime": 2.7865,
+      "eval_samples_per_second": 180.51,
+      "eval_steps_per_second": 5.742,
+      "step": 303
+    },
+    {
+      "epoch": 45.925925925925924,
+      "grad_norm": 12.390064239501953,
+      "learning_rate": 7.71604938271605e-06,
+      "loss": 0.2498,
+      "step": 310
+    },
+    {
+      "epoch": 45.925925925925924,
+      "eval_accuracy": 0.7892644135188867,
+      "eval_loss": 0.4459961950778961,
+      "eval_runtime": 2.8017,
+      "eval_samples_per_second": 179.537,
+      "eval_steps_per_second": 5.711,
+      "step": 310
+    },
+    {
+      "epoch": 46.96296296296296,
+      "eval_accuracy": 0.7793240556660039,
+      "eval_loss": 0.4721997082233429,
+      "eval_runtime": 2.8302,
+      "eval_samples_per_second": 177.729,
+      "eval_steps_per_second": 5.653,
+      "step": 317
+    },
+    {
+      "epoch": 47.407407407407405,
+      "grad_norm": 11.559773445129395,
+      "learning_rate": 6.172839506172839e-06,
+      "loss": 0.2893,
+      "step": 320
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.7713717693836978,
+      "eval_loss": 0.47993555665016174,
+      "eval_runtime": 2.9229,
+      "eval_samples_per_second": 172.087,
+      "eval_steps_per_second": 5.474,
+      "step": 324
+    },
+    {
+      "epoch": 48.888888888888886,
+      "grad_norm": 11.171250343322754,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 0.2618,
+      "step": 330
+    },
+    {
+      "epoch": 48.888888888888886,
+      "eval_accuracy": 0.7713717693836978,
+      "eval_loss": 0.4849596321582794,
+      "eval_runtime": 2.8546,
+      "eval_samples_per_second": 176.209,
+      "eval_steps_per_second": 5.605,
+      "step": 330
+    },
+    {
+      "epoch": 49.925925925925924,
+      "eval_accuracy": 0.7495029821073559,
+      "eval_loss": 0.5151545405387878,
+      "eval_runtime": 2.8154,
+      "eval_samples_per_second": 178.658,
+      "eval_steps_per_second": 5.683,
+      "step": 337
+    },
+    {
+      "epoch": 50.370370370370374,
+      "grad_norm": 16.287992477416992,
+      "learning_rate": 3.0864197530864196e-06,
+      "loss": 0.2664,
+      "step": 340
+    },
+    {
+      "epoch": 50.96296296296296,
+      "eval_accuracy": 0.7395626242544732,
+      "eval_loss": 0.5347036123275757,
+      "eval_runtime": 2.8326,
+      "eval_samples_per_second": 177.574,
+      "eval_steps_per_second": 5.648,
+      "step": 344
+    },
+    {
+      "epoch": 51.851851851851855,
+      "grad_norm": 15.289400100708008,
+      "learning_rate": 1.5432098765432098e-06,
+      "loss": 0.27,
+      "step": 350
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.7415506958250497,
+      "eval_loss": 0.5342876315116882,
+      "eval_runtime": 2.8365,
+      "eval_samples_per_second": 177.329,
+      "eval_steps_per_second": 5.641,
+      "step": 351
+    },
+    {
+      "epoch": 52.888888888888886,
+      "eval_accuracy": 0.7415506958250497,
+      "eval_loss": 0.5330411195755005,
+      "eval_runtime": 2.823,
+      "eval_samples_per_second": 178.181,
+      "eval_steps_per_second": 5.668,
+      "step": 357
+    },
+    {
+      "epoch": 53.333333333333336,
+      "grad_norm": 15.15584945678711,
+      "learning_rate": 0.0,
+      "loss": 0.2539,
+      "step": 360
+    },
+    {
+      "epoch": 53.333333333333336,
+      "eval_accuracy": 0.7395626242544732,
+      "eval_loss": 0.5319550037384033,
+      "eval_runtime": 2.8191,
+      "eval_samples_per_second": 178.427,
+      "eval_steps_per_second": 5.676,
+      "step": 360
+    },
+    {
+      "epoch": 53.333333333333336,
+      "step": 360,
+      "total_flos": 1.140094502803243e+18,
+      "train_loss": 0.34168325927522447,
+      "train_runtime": 709.0525,
+      "train_samples_per_second": 72.773,
+      "train_steps_per_second": 0.508
     }
   ],
   "logging_steps": 10,
+  "max_steps": 360,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 60,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.140094502803243e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null