Training in progress, epoch 0

Browse files

Files changed (6) hide show

all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +184 -184
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 2.9918404351767904,
-    "eval_accuracy": 0.45,
-    "eval_loss": 1.8726001977920532,
-    "eval_runtime": 14.5467,
-    "eval_samples_per_second": 269.476,
-    "eval_steps_per_second": 8.455,
     "total_flos": 2.6244369700391485e+18,
-    "train_loss": 0.38805453755638813,
-    "train_runtime": 888.6407,
-    "train_samples_per_second": 119.103,
-    "train_steps_per_second": 0.928
 }

 {
     "epoch": 2.9918404351767904,
+    "eval_accuracy": 0.5242346938775511,
+    "eval_loss": 1.3872867822647095,
+    "eval_runtime": 14.9938,
+    "eval_samples_per_second": 261.442,
+    "eval_steps_per_second": 8.203,
     "total_flos": 2.6244369700391485e+18,
+    "train_loss": 0.26469580238515683,
+    "train_runtime": 846.2486,
+    "train_samples_per_second": 125.07,
+    "train_steps_per_second": 0.975
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.9918404351767904,
-    "eval_accuracy": 0.45,
-    "eval_loss": 1.8726001977920532,
-    "eval_runtime": 14.5467,
-    "eval_samples_per_second": 269.476,
-    "eval_steps_per_second": 8.455
 }

 {
     "epoch": 2.9918404351767904,
+    "eval_accuracy": 0.5242346938775511,
+    "eval_loss": 1.3872867822647095,
+    "eval_runtime": 14.9938,
+    "eval_samples_per_second": 261.442,
+    "eval_steps_per_second": 8.203
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c6a15bb95415941597a628576b95115fa6d5879e3753213b6529831fe24a203
 size 110361288

 version https://git-lfs.github.com/spec/v1
+oid sha256:beb20f00e454e7258299c3194ba829eae8d403661b817d5d5deeb7fb2e5304d3
 size 110361288

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.9918404351767904,
     "total_flos": 2.6244369700391485e+18,
-    "train_loss": 0.38805453755638813,
-    "train_runtime": 888.6407,
-    "train_samples_per_second": 119.103,
-    "train_steps_per_second": 0.928
 }

 {
     "epoch": 2.9918404351767904,
     "total_flos": 2.6244369700391485e+18,
+    "train_loss": 0.26469580238515683,
+    "train_runtime": 846.2486,
+    "train_samples_per_second": 125.07,
+    "train_steps_per_second": 0.975
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.45,
   "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-ginger\\checkpoint-551",
   "epoch": 2.9918404351767904,
   "eval_steps": 500,
@@ -10,613 +10,613 @@
   "log_history": [
     {
       "epoch": 0.03626473254759746,
-      "grad_norm": 33.50652313232422,
       "learning_rate": 6.024096385542169e-06,
-      "loss": 2.0565,
       "step": 10
     },
     {
       "epoch": 0.07252946509519492,
-      "grad_norm": 123.1854248046875,
       "learning_rate": 1.2048192771084338e-05,
-      "loss": 1.9305,
       "step": 20
     },
     {
       "epoch": 0.10879419764279238,
-      "grad_norm": 129.15440368652344,
       "learning_rate": 1.8072289156626505e-05,
-      "loss": 1.657,
       "step": 30
     },
     {
       "epoch": 0.14505893019038985,
-      "grad_norm": 243.6415252685547,
       "learning_rate": 2.4096385542168677e-05,
-      "loss": 1.221,
       "step": 40
     },
     {
       "epoch": 0.1813236627379873,
-      "grad_norm": 439.5745849609375,
       "learning_rate": 3.012048192771085e-05,
-      "loss": 0.9468,
       "step": 50
     },
     {
       "epoch": 0.21758839528558477,
-      "grad_norm": 667.8916625976562,
       "learning_rate": 3.614457831325301e-05,
-      "loss": 0.8172,
       "step": 60
     },
     {
       "epoch": 0.25385312783318226,
-      "grad_norm": 428.6040344238281,
       "learning_rate": 4.2168674698795186e-05,
-      "loss": 0.7226,
       "step": 70
     },
     {
       "epoch": 0.2901178603807797,
-      "grad_norm": 560.4403686523438,
       "learning_rate": 4.8192771084337354e-05,
-      "loss": 0.66,
       "step": 80
     },
     {
       "epoch": 0.3263825929283772,
-      "grad_norm": 479.2410888671875,
       "learning_rate": 4.952830188679246e-05,
-      "loss": 0.6481,
       "step": 90
     },
     {
       "epoch": 0.3626473254759746,
-      "grad_norm": 610.5564575195312,
       "learning_rate": 4.88544474393531e-05,
-      "loss": 0.5897,
       "step": 100
     },
     {
       "epoch": 0.3989120580235721,
-      "grad_norm": 220.13214111328125,
       "learning_rate": 4.818059299191375e-05,
-      "loss": 0.577,
       "step": 110
     },
     {
       "epoch": 0.43517679057116954,
-      "grad_norm": 380.0888366699219,
       "learning_rate": 4.750673854447439e-05,
-      "loss": 0.5937,
       "step": 120
     },
     {
       "epoch": 0.471441523118767,
-      "grad_norm": 213.3901824951172,
       "learning_rate": 4.683288409703504e-05,
-      "loss": 0.4978,
       "step": 130
     },
     {
       "epoch": 0.5077062556663645,
-      "grad_norm": 513.8497314453125,
       "learning_rate": 4.615902964959569e-05,
-      "loss": 0.5274,
       "step": 140
     },
     {
       "epoch": 0.543970988213962,
-      "grad_norm": 299.3127136230469,
       "learning_rate": 4.548517520215634e-05,
-      "loss": 0.4712,
       "step": 150
     },
     {
       "epoch": 0.5802357207615594,
-      "grad_norm": 143.81353759765625,
       "learning_rate": 4.4811320754716985e-05,
-      "loss": 0.473,
       "step": 160
     },
     {
       "epoch": 0.6165004533091568,
-      "grad_norm": 420.0848693847656,
       "learning_rate": 4.413746630727763e-05,
-      "loss": 0.4134,
       "step": 170
     },
     {
       "epoch": 0.6527651858567544,
-      "grad_norm": 365.6310119628906,
       "learning_rate": 4.3463611859838275e-05,
-      "loss": 0.4046,
       "step": 180
     },
     {
       "epoch": 0.6890299184043518,
-      "grad_norm": 259.5730285644531,
       "learning_rate": 4.2789757412398926e-05,
-      "loss": 0.36,
       "step": 190
     },
     {
       "epoch": 0.7252946509519492,
-      "grad_norm": 220.11085510253906,
       "learning_rate": 4.211590296495957e-05,
-      "loss": 0.4181,
       "step": 200
     },
     {
       "epoch": 0.7615593834995467,
-      "grad_norm": 1192.25732421875,
       "learning_rate": 4.1442048517520216e-05,
-      "loss": 0.4025,
       "step": 210
     },
     {
       "epoch": 0.7978241160471442,
-      "grad_norm": 228.13970947265625,
       "learning_rate": 4.076819407008086e-05,
-      "loss": 0.3847,
       "step": 220
     },
     {
       "epoch": 0.8340888485947416,
-      "grad_norm": 420.40789794921875,
       "learning_rate": 4.009433962264151e-05,
-      "loss": 0.3677,
       "step": 230
     },
     {
       "epoch": 0.8703535811423391,
-      "grad_norm": 495.6370849609375,
       "learning_rate": 3.942048517520216e-05,
-      "loss": 0.3645,
       "step": 240
     },
     {
       "epoch": 0.9066183136899365,
-      "grad_norm": 554.6434936523438,
       "learning_rate": 3.874663072776281e-05,
-      "loss": 0.3892,
       "step": 250
     },
     {
       "epoch": 0.942883046237534,
-      "grad_norm": 310.8186950683594,
       "learning_rate": 3.807277628032345e-05,
-      "loss": 0.3135,
       "step": 260
     },
     {
       "epoch": 0.9791477787851315,
-      "grad_norm": 613.1405029296875,
       "learning_rate": 3.73989218328841e-05,
-      "loss": 0.3419,
       "step": 270
     },
     {
       "epoch": 0.9972801450589301,
-      "eval_accuracy": 0.3704081632653061,
-      "eval_loss": 1.927472710609436,
-      "eval_runtime": 17.4792,
-      "eval_samples_per_second": 224.267,
-      "eval_steps_per_second": 7.037,
       "step": 275
     },
     {
       "epoch": 1.015412511332729,
-      "grad_norm": 207.4573211669922,
       "learning_rate": 3.672506738544474e-05,
-      "loss": 0.3532,
       "step": 280
     },
     {
       "epoch": 1.0516772438803264,
-      "grad_norm": 457.7559509277344,
       "learning_rate": 3.605121293800539e-05,
-      "loss": 0.3507,
       "step": 290
     },
     {
       "epoch": 1.087941976427924,
-      "grad_norm": 121.54537200927734,
       "learning_rate": 3.537735849056604e-05,
-      "loss": 0.3277,
       "step": 300
     },
     {
       "epoch": 1.1242067089755212,
-      "grad_norm": 320.1291198730469,
       "learning_rate": 3.470350404312669e-05,
-      "loss": 0.2949,
       "step": 310
     },
     {
       "epoch": 1.1604714415231188,
-      "grad_norm": 212.68765258789062,
       "learning_rate": 3.4029649595687336e-05,
-      "loss": 0.312,
       "step": 320
     },
     {
       "epoch": 1.1967361740707163,
-      "grad_norm": 588.8690185546875,
       "learning_rate": 3.335579514824798e-05,
-      "loss": 0.2919,
       "step": 330
     },
     {
       "epoch": 1.2330009066183136,
-      "grad_norm": 174.75848388671875,
       "learning_rate": 3.2681940700808625e-05,
-      "loss": 0.2844,
       "step": 340
     },
     {
       "epoch": 1.2692656391659112,
-      "grad_norm": 211.03993225097656,
       "learning_rate": 3.200808625336928e-05,
-      "loss": 0.3096,
       "step": 350
     },
     {
       "epoch": 1.3055303717135085,
-      "grad_norm": 592.6405029296875,
       "learning_rate": 3.133423180592992e-05,
-      "loss": 0.3195,
       "step": 360
     },
     {
       "epoch": 1.341795104261106,
-      "grad_norm": 297.369384765625,
       "learning_rate": 3.0660377358490567e-05,
-      "loss": 0.2699,
       "step": 370
     },
     {
       "epoch": 1.3780598368087036,
-      "grad_norm": 131.08090209960938,
       "learning_rate": 2.998652291105121e-05,
-      "loss": 0.2723,
       "step": 380
     },
     {
       "epoch": 1.414324569356301,
-      "grad_norm": 378.4498291015625,
       "learning_rate": 2.931266846361186e-05,
-      "loss": 0.2602,
       "step": 390
     },
     {
       "epoch": 1.4505893019038985,
-      "grad_norm": 297.8955383300781,
       "learning_rate": 2.863881401617251e-05,
-      "loss": 0.324,
       "step": 400
     },
     {
       "epoch": 1.486854034451496,
-      "grad_norm": 277.98309326171875,
       "learning_rate": 2.7964959568733156e-05,
-      "loss": 0.2682,
       "step": 410
     },
     {
       "epoch": 1.5231187669990933,
-      "grad_norm": 528.5087890625,
       "learning_rate": 2.7291105121293804e-05,
-      "loss": 0.2986,
       "step": 420
     },
     {
       "epoch": 1.5593834995466909,
-      "grad_norm": 445.7499084472656,
       "learning_rate": 2.661725067385445e-05,
-      "loss": 0.2864,
       "step": 430
     },
     {
       "epoch": 1.5956482320942884,
-      "grad_norm": 292.2099914550781,
       "learning_rate": 2.5943396226415094e-05,
-      "loss": 0.2598,
       "step": 440
     },
     {
       "epoch": 1.6319129646418857,
-      "grad_norm": 540.9222412109375,
       "learning_rate": 2.5269541778975742e-05,
-      "loss": 0.2441,
       "step": 450
     },
     {
       "epoch": 1.6681776971894833,
-      "grad_norm": 215.79940795898438,
       "learning_rate": 2.459568733153639e-05,
-      "loss": 0.2635,
       "step": 460
     },
     {
       "epoch": 1.7044424297370808,
-      "grad_norm": 278.9331359863281,
       "learning_rate": 2.3921832884097038e-05,
-      "loss": 0.2584,
       "step": 470
     },
     {
       "epoch": 1.7407071622846781,
-      "grad_norm": 313.8738098144531,
       "learning_rate": 2.3247978436657683e-05,
-      "loss": 0.2563,
       "step": 480
     },
     {
       "epoch": 1.7769718948322755,
-      "grad_norm": 269.33984375,
       "learning_rate": 2.2574123989218328e-05,
-      "loss": 0.2452,
       "step": 490
     },
     {
       "epoch": 1.8132366273798732,
-      "grad_norm": 219.2152099609375,
       "learning_rate": 2.1900269541778976e-05,
-      "loss": 0.2439,
       "step": 500
     },
     {
       "epoch": 1.8495013599274706,
-      "grad_norm": 566.9930419921875,
       "learning_rate": 2.1226415094339624e-05,
-      "loss": 0.2262,
       "step": 510
     },
     {
       "epoch": 1.8857660924750679,
-      "grad_norm": 355.5133056640625,
       "learning_rate": 2.055256064690027e-05,
-      "loss": 0.2727,
       "step": 520
     },
     {
       "epoch": 1.9220308250226654,
-      "grad_norm": 123.38850402832031,
       "learning_rate": 1.9878706199460917e-05,
-      "loss": 0.2318,
       "step": 530
     },
     {
       "epoch": 1.958295557570263,
-      "grad_norm": 451.4879150390625,
       "learning_rate": 1.9204851752021562e-05,
-      "loss": 0.2715,
       "step": 540
     },
     {
       "epoch": 1.9945602901178603,
-      "grad_norm": 105.41907501220703,
       "learning_rate": 1.8530997304582214e-05,
-      "loss": 0.2402,
       "step": 550
     },
     {
       "epoch": 1.9981867633726202,
-      "eval_accuracy": 0.45,
-      "eval_loss": 1.8726001977920532,
-      "eval_runtime": 14.3162,
-      "eval_samples_per_second": 273.815,
-      "eval_steps_per_second": 8.592,
       "step": 551
     },
     {
       "epoch": 2.030825022665458,
-      "grad_norm": 179.87648010253906,
       "learning_rate": 1.785714285714286e-05,
-      "loss": 0.2354,
       "step": 560
     },
     {
       "epoch": 2.0670897552130554,
-      "grad_norm": 144.1634063720703,
       "learning_rate": 1.7183288409703503e-05,
-      "loss": 0.2269,
       "step": 570
     },
     {
       "epoch": 2.1033544877606527,
-      "grad_norm": 217.34768676757812,
       "learning_rate": 1.650943396226415e-05,
-      "loss": 0.2245,
       "step": 580
     },
     {
       "epoch": 2.13961922030825,
-      "grad_norm": 289.987548828125,
       "learning_rate": 1.58355795148248e-05,
-      "loss": 0.2301,
       "step": 590
     },
     {
       "epoch": 2.175883952855848,
-      "grad_norm": 509.3897705078125,
       "learning_rate": 1.5161725067385446e-05,
-      "loss": 0.2029,
       "step": 600
     },
     {
       "epoch": 2.212148685403445,
-      "grad_norm": 772.5884399414062,
       "learning_rate": 1.4487870619946093e-05,
-      "loss": 0.2547,
       "step": 610
     },
     {
       "epoch": 2.2484134179510424,
-      "grad_norm": 143.57704162597656,
       "learning_rate": 1.381401617250674e-05,
-      "loss": 0.2337,
       "step": 620
     },
     {
       "epoch": 2.28467815049864,
-      "grad_norm": 139.83460998535156,
       "learning_rate": 1.3140161725067384e-05,
-      "loss": 0.2306,
       "step": 630
     },
     {
       "epoch": 2.3209428830462375,
-      "grad_norm": 102.90089416503906,
       "learning_rate": 1.2466307277628032e-05,
-      "loss": 0.2282,
       "step": 640
     },
     {
       "epoch": 2.357207615593835,
-      "grad_norm": 218.74929809570312,
       "learning_rate": 1.179245283018868e-05,
-      "loss": 0.2098,
       "step": 650
     },
     {
       "epoch": 2.3934723481414326,
-      "grad_norm": 236.75039672851562,
       "learning_rate": 1.1118598382749327e-05,
-      "loss": 0.2054,
       "step": 660
     },
     {
       "epoch": 2.42973708068903,
-      "grad_norm": 248.0030975341797,
       "learning_rate": 1.0444743935309973e-05,
-      "loss": 0.1875,
       "step": 670
     },
     {
       "epoch": 2.4660018132366273,
-      "grad_norm": 120.9859390258789,
       "learning_rate": 9.77088948787062e-06,
-      "loss": 0.2062,
       "step": 680
     },
     {
       "epoch": 2.5022665457842246,
-      "grad_norm": 346.58111572265625,
       "learning_rate": 9.097035040431268e-06,
-      "loss": 0.2082,
       "step": 690
     },
     {
       "epoch": 2.5385312783318223,
-      "grad_norm": 299.8227844238281,
       "learning_rate": 8.423180592991915e-06,
-      "loss": 0.2111,
       "step": 700
     },
     {
       "epoch": 2.5747960108794197,
-      "grad_norm": 423.92626953125,
       "learning_rate": 7.749326145552561e-06,
-      "loss": 0.1825,
       "step": 710
     },
     {
       "epoch": 2.611060743427017,
-      "grad_norm": 270.41375732421875,
       "learning_rate": 7.0754716981132075e-06,
-      "loss": 0.18,
       "step": 720
     },
     {
       "epoch": 2.6473254759746148,
-      "grad_norm": 236.77076721191406,
       "learning_rate": 6.401617250673856e-06,
-      "loss": 0.1985,
       "step": 730
     },
     {
       "epoch": 2.683590208522212,
-      "grad_norm": 121.75785827636719,
       "learning_rate": 5.727762803234501e-06,
-      "loss": 0.196,
       "step": 740
     },
     {
       "epoch": 2.7198549410698094,
-      "grad_norm": 134.50650024414062,
       "learning_rate": 5.053908355795149e-06,
-      "loss": 0.1948,
       "step": 750
     },
     {
       "epoch": 2.756119673617407,
-      "grad_norm": 142.56356811523438,
       "learning_rate": 4.380053908355795e-06,
-      "loss": 0.1804,
       "step": 760
     },
     {
       "epoch": 2.7923844061650045,
-      "grad_norm": 106.05587005615234,
       "learning_rate": 3.706199460916442e-06,
-      "loss": 0.1722,
       "step": 770
     },
     {
       "epoch": 2.828649138712602,
-      "grad_norm": 216.68280029296875,
       "learning_rate": 3.032345013477089e-06,
-      "loss": 0.2002,
       "step": 780
     },
     {
       "epoch": 2.8649138712601996,
-      "grad_norm": 270.9617004394531,
       "learning_rate": 2.358490566037736e-06,
-      "loss": 0.199,
       "step": 790
     },
     {
       "epoch": 2.901178603807797,
-      "grad_norm": 147.06790161132812,
       "learning_rate": 1.6846361185983827e-06,
-      "loss": 0.1859,
       "step": 800
     },
     {
       "epoch": 2.9374433363553942,
-      "grad_norm": 224.23472595214844,
       "learning_rate": 1.0107816711590296e-06,
-      "loss": 0.1857,
       "step": 810
     },
     {
       "epoch": 2.973708068902992,
-      "grad_norm": 73.98612213134766,
       "learning_rate": 3.369272237196766e-07,
-      "loss": 0.1841,
       "step": 820
     },
     {
       "epoch": 2.9918404351767904,
-      "eval_accuracy": 0.3683673469387755,
-      "eval_loss": 2.2334840297698975,
-      "eval_runtime": 14.2473,
-      "eval_samples_per_second": 275.139,
-      "eval_steps_per_second": 8.633,
       "step": 825
     },
     {
       "epoch": 2.9918404351767904,
       "step": 825,
       "total_flos": 2.6244369700391485e+18,
-      "train_loss": 0.38805453755638813,
-      "train_runtime": 888.6407,
-      "train_samples_per_second": 119.103,
-      "train_steps_per_second": 0.928
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.5242346938775511,
   "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-ginger\\checkpoint-551",
   "epoch": 2.9918404351767904,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.03626473254759746,
+      "grad_norm": 66.77265930175781,
       "learning_rate": 6.024096385542169e-06,
+      "loss": 2.0316,
       "step": 10
     },
     {
       "epoch": 0.07252946509519492,
+      "grad_norm": 98.40676879882812,
       "learning_rate": 1.2048192771084338e-05,
+      "loss": 1.8051,
       "step": 20
     },
     {
       "epoch": 0.10879419764279238,
+      "grad_norm": 75.0258560180664,
       "learning_rate": 1.8072289156626505e-05,
+      "loss": 1.2977,
       "step": 30
     },
     {
       "epoch": 0.14505893019038985,
+      "grad_norm": 193.25062561035156,
       "learning_rate": 2.4096385542168677e-05,
+      "loss": 0.7561,
       "step": 40
     },
     {
       "epoch": 0.1813236627379873,
+      "grad_norm": 448.8358459472656,
       "learning_rate": 3.012048192771085e-05,
+      "loss": 0.5479,
       "step": 50
     },
     {
       "epoch": 0.21758839528558477,
+      "grad_norm": 450.2969970703125,
       "learning_rate": 3.614457831325301e-05,
+      "loss": 0.5176,
       "step": 60
     },
     {
       "epoch": 0.25385312783318226,
+      "grad_norm": 179.40008544921875,
       "learning_rate": 4.2168674698795186e-05,
+      "loss": 0.4498,
       "step": 70
     },
     {
       "epoch": 0.2901178603807797,
+      "grad_norm": 431.70550537109375,
       "learning_rate": 4.8192771084337354e-05,
+      "loss": 0.3653,
       "step": 80
     },
     {
       "epoch": 0.3263825929283772,
+      "grad_norm": 448.7202453613281,
       "learning_rate": 4.952830188679246e-05,
+      "loss": 0.3826,
       "step": 90
     },
     {
       "epoch": 0.3626473254759746,
+      "grad_norm": 146.0322723388672,
       "learning_rate": 4.88544474393531e-05,
+      "loss": 0.3937,
       "step": 100
     },
     {
       "epoch": 0.3989120580235721,
+      "grad_norm": 230.89141845703125,
       "learning_rate": 4.818059299191375e-05,
+      "loss": 0.3891,
       "step": 110
     },
     {
       "epoch": 0.43517679057116954,
+      "grad_norm": 291.6907043457031,
       "learning_rate": 4.750673854447439e-05,
+      "loss": 0.4013,
       "step": 120
     },
     {
       "epoch": 0.471441523118767,
+      "grad_norm": 299.92999267578125,
       "learning_rate": 4.683288409703504e-05,
+      "loss": 0.3297,
       "step": 130
     },
     {
       "epoch": 0.5077062556663645,
+      "grad_norm": 158.54531860351562,
       "learning_rate": 4.615902964959569e-05,
+      "loss": 0.317,
       "step": 140
     },
     {
       "epoch": 0.543970988213962,
+      "grad_norm": 171.34927368164062,
       "learning_rate": 4.548517520215634e-05,
+      "loss": 0.3041,
       "step": 150
     },
     {
       "epoch": 0.5802357207615594,
+      "grad_norm": 359.9927978515625,
       "learning_rate": 4.4811320754716985e-05,
+      "loss": 0.3252,
       "step": 160
     },
     {
       "epoch": 0.6165004533091568,
+      "grad_norm": 191.6513671875,
       "learning_rate": 4.413746630727763e-05,
+      "loss": 0.3096,
       "step": 170
     },
     {
       "epoch": 0.6527651858567544,
+      "grad_norm": 212.29483032226562,
       "learning_rate": 4.3463611859838275e-05,
+      "loss": 0.2636,
       "step": 180
     },
     {
       "epoch": 0.6890299184043518,
+      "grad_norm": 141.14498901367188,
       "learning_rate": 4.2789757412398926e-05,
+      "loss": 0.2549,
       "step": 190
     },
     {
       "epoch": 0.7252946509519492,
+      "grad_norm": 146.6569061279297,
       "learning_rate": 4.211590296495957e-05,
+      "loss": 0.2518,
       "step": 200
     },
     {
       "epoch": 0.7615593834995467,
+      "grad_norm": 126.00825500488281,
       "learning_rate": 4.1442048517520216e-05,
+      "loss": 0.2204,
       "step": 210
     },
     {
       "epoch": 0.7978241160471442,
+      "grad_norm": 181.69412231445312,
       "learning_rate": 4.076819407008086e-05,
+      "loss": 0.2087,
       "step": 220
     },
     {
       "epoch": 0.8340888485947416,
+      "grad_norm": 555.3983154296875,
       "learning_rate": 4.009433962264151e-05,
+      "loss": 0.2254,
       "step": 230
     },
     {
       "epoch": 0.8703535811423391,
+      "grad_norm": 289.5895690917969,
       "learning_rate": 3.942048517520216e-05,
+      "loss": 0.2591,
       "step": 240
     },
     {
       "epoch": 0.9066183136899365,
+      "grad_norm": 171.5518798828125,
       "learning_rate": 3.874663072776281e-05,
+      "loss": 0.2474,
       "step": 250
     },
     {
       "epoch": 0.942883046237534,
+      "grad_norm": 245.42327880859375,
       "learning_rate": 3.807277628032345e-05,
+      "loss": 0.249,
       "step": 260
     },
     {
       "epoch": 0.9791477787851315,
+      "grad_norm": 481.2547302246094,
       "learning_rate": 3.73989218328841e-05,
+      "loss": 0.241,
       "step": 270
     },
     {
       "epoch": 0.9972801450589301,
+      "eval_accuracy": 0.510969387755102,
+      "eval_loss": 1.5232751369476318,
+      "eval_runtime": 14.3392,
+      "eval_samples_per_second": 273.376,
+      "eval_steps_per_second": 8.578,
       "step": 275
     },
     {
       "epoch": 1.015412511332729,
+      "grad_norm": 127.02649688720703,
       "learning_rate": 3.672506738544474e-05,
+      "loss": 0.2281,
       "step": 280
     },
     {
       "epoch": 1.0516772438803264,
+      "grad_norm": 288.0721130371094,
       "learning_rate": 3.605121293800539e-05,
+      "loss": 0.2058,
       "step": 290
     },
     {
       "epoch": 1.087941976427924,
+      "grad_norm": 349.9566345214844,
       "learning_rate": 3.537735849056604e-05,
+      "loss": 0.2228,
       "step": 300
     },
     {
       "epoch": 1.1242067089755212,
+      "grad_norm": 268.7991027832031,
       "learning_rate": 3.470350404312669e-05,
+      "loss": 0.2157,
       "step": 310
     },
     {
       "epoch": 1.1604714415231188,
+      "grad_norm": 119.46910858154297,
       "learning_rate": 3.4029649595687336e-05,
+      "loss": 0.1892,
       "step": 320
     },
     {
       "epoch": 1.1967361740707163,
+      "grad_norm": 151.6316680908203,
       "learning_rate": 3.335579514824798e-05,
+      "loss": 0.2094,
       "step": 330
     },
     {
       "epoch": 1.2330009066183136,
+      "grad_norm": 179.56629943847656,
       "learning_rate": 3.2681940700808625e-05,
+      "loss": 0.2061,
       "step": 340
     },
     {
       "epoch": 1.2692656391659112,
+      "grad_norm": 111.70588684082031,
       "learning_rate": 3.200808625336928e-05,
+      "loss": 0.2413,
       "step": 350
     },
     {
       "epoch": 1.3055303717135085,
+      "grad_norm": 349.2808837890625,
       "learning_rate": 3.133423180592992e-05,
+      "loss": 0.1837,
       "step": 360
     },
     {
       "epoch": 1.341795104261106,
+      "grad_norm": 188.50990295410156,
       "learning_rate": 3.0660377358490567e-05,
+      "loss": 0.2154,
       "step": 370
     },
     {
       "epoch": 1.3780598368087036,
+      "grad_norm": 190.62208557128906,
       "learning_rate": 2.998652291105121e-05,
+      "loss": 0.1856,
       "step": 380
     },
     {
       "epoch": 1.414324569356301,
+      "grad_norm": 493.2279968261719,
       "learning_rate": 2.931266846361186e-05,
+      "loss": 0.1999,
       "step": 390
     },
     {
       "epoch": 1.4505893019038985,
+      "grad_norm": 244.08197021484375,
       "learning_rate": 2.863881401617251e-05,
+      "loss": 0.1687,
       "step": 400
     },
     {
       "epoch": 1.486854034451496,
+      "grad_norm": 85.91020965576172,
       "learning_rate": 2.7964959568733156e-05,
+      "loss": 0.1607,
       "step": 410
     },
     {
       "epoch": 1.5231187669990933,
+      "grad_norm": 80.52980041503906,
       "learning_rate": 2.7291105121293804e-05,
+      "loss": 0.1967,
       "step": 420
     },
     {
       "epoch": 1.5593834995466909,
+      "grad_norm": 623.0601806640625,
       "learning_rate": 2.661725067385445e-05,
+      "loss": 0.1779,
       "step": 430
     },
     {
       "epoch": 1.5956482320942884,
+      "grad_norm": 77.6041488647461,
       "learning_rate": 2.5943396226415094e-05,
+      "loss": 0.1588,
       "step": 440
     },
     {
       "epoch": 1.6319129646418857,
+      "grad_norm": 126.40304565429688,
       "learning_rate": 2.5269541778975742e-05,
+      "loss": 0.1516,
       "step": 450
     },
     {
       "epoch": 1.6681776971894833,
+      "grad_norm": 219.29595947265625,
       "learning_rate": 2.459568733153639e-05,
+      "loss": 0.1477,
       "step": 460
     },
     {
       "epoch": 1.7044424297370808,
+      "grad_norm": 144.26341247558594,
       "learning_rate": 2.3921832884097038e-05,
+      "loss": 0.1714,
       "step": 470
     },
     {
       "epoch": 1.7407071622846781,
+      "grad_norm": 177.91326904296875,
       "learning_rate": 2.3247978436657683e-05,
+      "loss": 0.1446,
       "step": 480
     },
     {
       "epoch": 1.7769718948322755,
+      "grad_norm": 160.88905334472656,
       "learning_rate": 2.2574123989218328e-05,
+      "loss": 0.1681,
       "step": 490
     },
     {
       "epoch": 1.8132366273798732,
+      "grad_norm": 118.04940032958984,
       "learning_rate": 2.1900269541778976e-05,
+      "loss": 0.153,
       "step": 500
     },
     {
       "epoch": 1.8495013599274706,
+      "grad_norm": 42.61888122558594,
       "learning_rate": 2.1226415094339624e-05,
+      "loss": 0.1268,
       "step": 510
     },
     {
       "epoch": 1.8857660924750679,
+      "grad_norm": 383.0787353515625,
       "learning_rate": 2.055256064690027e-05,
+      "loss": 0.1489,
       "step": 520
     },
     {
       "epoch": 1.9220308250226654,
+      "grad_norm": 281.9739685058594,
       "learning_rate": 1.9878706199460917e-05,
+      "loss": 0.1966,
       "step": 530
     },
     {
       "epoch": 1.958295557570263,
+      "grad_norm": 175.12257385253906,
       "learning_rate": 1.9204851752021562e-05,
+      "loss": 0.1479,
       "step": 540
     },
     {
       "epoch": 1.9945602901178603,
+      "grad_norm": 250.56533813476562,
       "learning_rate": 1.8530997304582214e-05,
+      "loss": 0.1661,
       "step": 550
     },
     {
       "epoch": 1.9981867633726202,
+      "eval_accuracy": 0.5242346938775511,
+      "eval_loss": 1.3872867822647095,
+      "eval_runtime": 14.3219,
+      "eval_samples_per_second": 273.707,
+      "eval_steps_per_second": 8.588,
       "step": 551
     },
     {
       "epoch": 2.030825022665458,
+      "grad_norm": 128.275146484375,
       "learning_rate": 1.785714285714286e-05,
+      "loss": 0.1605,
       "step": 560
     },
     {
       "epoch": 2.0670897552130554,
+      "grad_norm": 267.3365478515625,
       "learning_rate": 1.7183288409703503e-05,
+      "loss": 0.1295,
       "step": 570
     },
     {
       "epoch": 2.1033544877606527,
+      "grad_norm": 62.166568756103516,
       "learning_rate": 1.650943396226415e-05,
+      "loss": 0.1209,
       "step": 580
     },
     {
       "epoch": 2.13961922030825,
+      "grad_norm": 398.4904479980469,
       "learning_rate": 1.58355795148248e-05,
+      "loss": 0.1541,
       "step": 590
     },
     {
       "epoch": 2.175883952855848,
+      "grad_norm": 89.24071502685547,
       "learning_rate": 1.5161725067385446e-05,
+      "loss": 0.1427,
       "step": 600
     },
     {
       "epoch": 2.212148685403445,
+      "grad_norm": 227.34228515625,
       "learning_rate": 1.4487870619946093e-05,
+      "loss": 0.1557,
       "step": 610
     },
     {
       "epoch": 2.2484134179510424,
+      "grad_norm": 333.01739501953125,
       "learning_rate": 1.381401617250674e-05,
+      "loss": 0.1194,
       "step": 620
     },
     {
       "epoch": 2.28467815049864,
+      "grad_norm": 250.48745727539062,
       "learning_rate": 1.3140161725067384e-05,
+      "loss": 0.1585,
       "step": 630
     },
     {
       "epoch": 2.3209428830462375,
+      "grad_norm": 48.325416564941406,
       "learning_rate": 1.2466307277628032e-05,
+      "loss": 0.1384,
       "step": 640
     },
     {
       "epoch": 2.357207615593835,
+      "grad_norm": 111.5351791381836,
       "learning_rate": 1.179245283018868e-05,
+      "loss": 0.1096,
       "step": 650
     },
     {
       "epoch": 2.3934723481414326,
+      "grad_norm": 149.7464141845703,
       "learning_rate": 1.1118598382749327e-05,
+      "loss": 0.1327,
       "step": 660
     },
     {
       "epoch": 2.42973708068903,
+      "grad_norm": 145.99148559570312,
       "learning_rate": 1.0444743935309973e-05,
+      "loss": 0.099,
       "step": 670
     },
     {
       "epoch": 2.4660018132366273,
+      "grad_norm": 67.97899627685547,
       "learning_rate": 9.77088948787062e-06,
+      "loss": 0.1545,
       "step": 680
     },
     {
       "epoch": 2.5022665457842246,
+      "grad_norm": 288.68731689453125,
       "learning_rate": 9.097035040431268e-06,
+      "loss": 0.1155,
       "step": 690
     },
     {
       "epoch": 2.5385312783318223,
+      "grad_norm": 70.22994232177734,
       "learning_rate": 8.423180592991915e-06,
+      "loss": 0.1244,
       "step": 700
     },
     {
       "epoch": 2.5747960108794197,
+      "grad_norm": 98.32154083251953,
       "learning_rate": 7.749326145552561e-06,
+      "loss": 0.1182,
       "step": 710
     },
     {
       "epoch": 2.611060743427017,
+      "grad_norm": 107.6678466796875,
       "learning_rate": 7.0754716981132075e-06,
+      "loss": 0.1247,
       "step": 720
     },
     {
       "epoch": 2.6473254759746148,
+      "grad_norm": 61.7956657409668,
       "learning_rate": 6.401617250673856e-06,
+      "loss": 0.1066,
       "step": 730
     },
     {
       "epoch": 2.683590208522212,
+      "grad_norm": 105.1893539428711,
       "learning_rate": 5.727762803234501e-06,
+      "loss": 0.1216,
       "step": 740
     },
     {
       "epoch": 2.7198549410698094,
+      "grad_norm": 170.1961212158203,
       "learning_rate": 5.053908355795149e-06,
+      "loss": 0.1394,
       "step": 750
     },
     {
       "epoch": 2.756119673617407,
+      "grad_norm": 202.67616271972656,
       "learning_rate": 4.380053908355795e-06,
+      "loss": 0.0923,
       "step": 760
     },
     {
       "epoch": 2.7923844061650045,
+      "grad_norm": 73.72498321533203,
       "learning_rate": 3.706199460916442e-06,
+      "loss": 0.112,
       "step": 770
     },
     {
       "epoch": 2.828649138712602,
+      "grad_norm": 50.71122741699219,
       "learning_rate": 3.032345013477089e-06,
+      "loss": 0.1025,
       "step": 780
     },
     {
       "epoch": 2.8649138712601996,
+      "grad_norm": 65.91510009765625,
       "learning_rate": 2.358490566037736e-06,
+      "loss": 0.0911,
       "step": 790
     },
     {
       "epoch": 2.901178603807797,
+      "grad_norm": 72.48229217529297,
       "learning_rate": 1.6846361185983827e-06,
+      "loss": 0.1068,
       "step": 800
     },
     {
       "epoch": 2.9374433363553942,
+      "grad_norm": 156.2762451171875,
       "learning_rate": 1.0107816711590296e-06,
+      "loss": 0.1022,
       "step": 810
     },
     {
       "epoch": 2.973708068902992,
+      "grad_norm": 270.1289367675781,
       "learning_rate": 3.369272237196766e-07,
+      "loss": 0.1177,
       "step": 820
     },
     {
       "epoch": 2.9918404351767904,
+      "eval_accuracy": 0.5104591836734694,
+      "eval_loss": 1.3372142314910889,
+      "eval_runtime": 14.3839,
+      "eval_samples_per_second": 272.527,
+      "eval_steps_per_second": 8.551,
       "step": 825
     },
     {
       "epoch": 2.9918404351767904,
       "step": 825,
       "total_flos": 2.6244369700391485e+18,
+      "train_loss": 0.26469580238515683,
+      "train_runtime": 846.2486,
+      "train_samples_per_second": 125.07,
+      "train_steps_per_second": 0.975
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:172c6a3fa7c2f542ca19b97c7bf3d9c39587e357496558e45a67c14ca7104778
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c0cbed784c599b1c9edec1045bf523b5b71aaf97708fcf7e53655a5a0a9ec75
 size 5304