MAE-CT-CPC-Dicotomized-v7-tricot / trainer_state.json

End of training

df6f230 verified 3 months ago

164 kB

	{
	"best_metric": 0.5319148936170213,
	"best_model_checkpoint": "MAE-CT-CPC-Dicotomized-v7-tricot/checkpoint-3840",
	"epoch": 98.00759493670886,
	"eval_steps": 500,
	"global_step": 7900,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0012658227848101266,
	"grad_norm": 3.648193836212158,
	"learning_rate": 1.2658227848101266e-07,
	"loss": 1.0945,
	"step": 10
	},
	{
	"epoch": 0.002531645569620253,
	"grad_norm": 3.2326066493988037,
	"learning_rate": 2.5316455696202533e-07,
	"loss": 1.0964,
	"step": 20
	},
	{
	"epoch": 0.0037974683544303796,
	"grad_norm": 4.472383975982666,
	"learning_rate": 3.79746835443038e-07,
	"loss": 1.1085,
	"step": 30
	},
	{
	"epoch": 0.005063291139240506,
	"grad_norm": 2.293823003768921,
	"learning_rate": 5.063291139240507e-07,
	"loss": 1.0936,
	"step": 40
	},
	{
	"epoch": 0.006329113924050633,
	"grad_norm": 5.018352508544922,
	"learning_rate": 6.329113924050634e-07,
	"loss": 1.0804,
	"step": 50
	},
	{
	"epoch": 0.007594936708860759,
	"grad_norm": 3.437401533126831,
	"learning_rate": 7.59493670886076e-07,
	"loss": 1.1052,
	"step": 60
	},
	{
	"epoch": 0.008860759493670886,
	"grad_norm": 2.633840322494507,
	"learning_rate": 8.860759493670887e-07,
	"loss": 1.1041,
	"step": 70
	},
	{
	"epoch": 0.010126582278481013,
	"grad_norm": 8.326930046081543,
	"learning_rate": 1.0126582278481013e-06,
	"loss": 1.0989,
	"step": 80
	},
	{
	"epoch": 0.010126582278481013,
	"eval_accuracy": 0.3191489361702128,
	"eval_loss": 1.1030582189559937,
	"eval_runtime": 10.2981,
	"eval_samples_per_second": 4.564,
	"eval_steps_per_second": 1.165,
	"step": 80
	},
	{
	"epoch": 1.0012658227848101,
	"grad_norm": 5.40225076675415,
	"learning_rate": 1.139240506329114e-06,
	"loss": 1.0679,
	"step": 90
	},
	{
	"epoch": 1.0025316455696203,
	"grad_norm": 2.765038013458252,
	"learning_rate": 1.2658227848101267e-06,
	"loss": 1.1039,
	"step": 100
	},
	{
	"epoch": 1.0037974683544304,
	"grad_norm": 4.477443695068359,
	"learning_rate": 1.3924050632911392e-06,
	"loss": 1.0935,
	"step": 110
	},
	{
	"epoch": 1.0050632911392405,
	"grad_norm": 4.2104573249816895,
	"learning_rate": 1.518987341772152e-06,
	"loss": 1.0694,
	"step": 120
	},
	{
	"epoch": 1.0063291139240507,
	"grad_norm": 3.7104029655456543,
	"learning_rate": 1.6455696202531647e-06,
	"loss": 1.1194,
	"step": 130
	},
	{
	"epoch": 1.0075949367088608,
	"grad_norm": 6.592172622680664,
	"learning_rate": 1.7721518987341774e-06,
	"loss": 1.1171,
	"step": 140
	},
	{
	"epoch": 1.008860759493671,
	"grad_norm": 5.555737018585205,
	"learning_rate": 1.8987341772151901e-06,
	"loss": 1.0965,
	"step": 150
	},
	{
	"epoch": 1.010126582278481,
	"grad_norm": 6.766844749450684,
	"learning_rate": 2.0253164556962026e-06,
	"loss": 1.0889,
	"step": 160
	},
	{
	"epoch": 1.010126582278481,
	"eval_accuracy": 0.3404255319148936,
	"eval_loss": 1.1057974100112915,
	"eval_runtime": 9.1496,
	"eval_samples_per_second": 5.137,
	"eval_steps_per_second": 1.312,
	"step": 160
	},
	{
	"epoch": 2.00126582278481,
	"grad_norm": 5.130347728729248,
	"learning_rate": 2.1518987341772153e-06,
	"loss": 1.0725,
	"step": 170
	},
	{
	"epoch": 2.0025316455696203,
	"grad_norm": 5.7678070068359375,
	"learning_rate": 2.278481012658228e-06,
	"loss": 1.0791,
	"step": 180
	},
	{
	"epoch": 2.0037974683544304,
	"grad_norm": 6.685475826263428,
	"learning_rate": 2.4050632911392408e-06,
	"loss": 1.0906,
	"step": 190
	},
	{
	"epoch": 2.0050632911392405,
	"grad_norm": 4.179187774658203,
	"learning_rate": 2.5316455696202535e-06,
	"loss": 1.0754,
	"step": 200
	},
	{
	"epoch": 2.0063291139240507,
	"grad_norm": 7.93744421005249,
	"learning_rate": 2.6582278481012658e-06,
	"loss": 1.0612,
	"step": 210
	},
	{
	"epoch": 2.007594936708861,
	"grad_norm": 5.547979354858398,
	"learning_rate": 2.7848101265822785e-06,
	"loss": 1.0703,
	"step": 220
	},
	{
	"epoch": 2.008860759493671,
	"grad_norm": 6.917874813079834,
	"learning_rate": 2.9113924050632912e-06,
	"loss": 1.0648,
	"step": 230
	},
	{
	"epoch": 2.010126582278481,
	"grad_norm": 14.24355697631836,
	"learning_rate": 3.037974683544304e-06,
	"loss": 1.0739,
	"step": 240
	},
	{
	"epoch": 2.010126582278481,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 1.1232898235321045,
	"eval_runtime": 8.996,
	"eval_samples_per_second": 5.225,
	"eval_steps_per_second": 1.334,
	"step": 240
	},
	{
	"epoch": 3.00126582278481,
	"grad_norm": 11.271843910217285,
	"learning_rate": 3.164556962025317e-06,
	"loss": 1.0305,
	"step": 250
	},
	{
	"epoch": 3.0025316455696203,
	"grad_norm": 12.815051078796387,
	"learning_rate": 3.2911392405063294e-06,
	"loss": 1.0576,
	"step": 260
	},
	{
	"epoch": 3.0037974683544304,
	"grad_norm": 19.665115356445312,
	"learning_rate": 3.417721518987342e-06,
	"loss": 0.9806,
	"step": 270
	},
	{
	"epoch": 3.0050632911392405,
	"grad_norm": 11.805643081665039,
	"learning_rate": 3.544303797468355e-06,
	"loss": 1.0493,
	"step": 280
	},
	{
	"epoch": 3.0063291139240507,
	"grad_norm": 17.121118545532227,
	"learning_rate": 3.6708860759493675e-06,
	"loss": 1.0728,
	"step": 290
	},
	{
	"epoch": 3.007594936708861,
	"grad_norm": 18.008495330810547,
	"learning_rate": 3.7974683544303802e-06,
	"loss": 1.0749,
	"step": 300
	},
	{
	"epoch": 3.008860759493671,
	"grad_norm": 7.478245735168457,
	"learning_rate": 3.924050632911393e-06,
	"loss": 1.0579,
	"step": 310
	},
	{
	"epoch": 3.010126582278481,
	"grad_norm": 29.086742401123047,
	"learning_rate": 4.050632911392405e-06,
	"loss": 1.0036,
	"step": 320
	},
	{
	"epoch": 3.010126582278481,
	"eval_accuracy": 0.2765957446808511,
	"eval_loss": 1.1595509052276611,
	"eval_runtime": 9.1259,
	"eval_samples_per_second": 5.15,
	"eval_steps_per_second": 1.315,
	"step": 320
	},
	{
	"epoch": 4.00126582278481,
	"grad_norm": 14.256952285766602,
	"learning_rate": 4.177215189873418e-06,
	"loss": 1.0293,
	"step": 330
	},
	{
	"epoch": 4.00253164556962,
	"grad_norm": 14.238683700561523,
	"learning_rate": 4.303797468354431e-06,
	"loss": 0.9938,
	"step": 340
	},
	{
	"epoch": 4.00379746835443,
	"grad_norm": 15.750340461730957,
	"learning_rate": 4.430379746835443e-06,
	"loss": 1.0362,
	"step": 350
	},
	{
	"epoch": 4.0050632911392405,
	"grad_norm": 24.7191219329834,
	"learning_rate": 4.556962025316456e-06,
	"loss": 0.9665,
	"step": 360
	},
	{
	"epoch": 4.006329113924051,
	"grad_norm": 17.434118270874023,
	"learning_rate": 4.683544303797468e-06,
	"loss": 0.9927,
	"step": 370
	},
	{
	"epoch": 4.007594936708861,
	"grad_norm": 5.921336650848389,
	"learning_rate": 4.8101265822784815e-06,
	"loss": 0.9862,
	"step": 380
	},
	{
	"epoch": 4.008860759493671,
	"grad_norm": 6.861782550811768,
	"learning_rate": 4.936708860759495e-06,
	"loss": 1.1099,
	"step": 390
	},
	{
	"epoch": 4.010126582278481,
	"grad_norm": 26.024229049682617,
	"learning_rate": 5.063291139240507e-06,
	"loss": 1.0706,
	"step": 400
	},
	{
	"epoch": 4.010126582278481,
	"eval_accuracy": 0.2553191489361702,
	"eval_loss": 1.1730738878250122,
	"eval_runtime": 9.0971,
	"eval_samples_per_second": 5.166,
	"eval_steps_per_second": 1.319,
	"step": 400
	},
	{
	"epoch": 5.00126582278481,
	"grad_norm": 13.2531099319458,
	"learning_rate": 5.189873417721519e-06,
	"loss": 0.8603,
	"step": 410
	},
	{
	"epoch": 5.00253164556962,
	"grad_norm": 11.527708053588867,
	"learning_rate": 5.3164556962025316e-06,
	"loss": 0.9762,
	"step": 420
	},
	{
	"epoch": 5.00379746835443,
	"grad_norm": 25.327789306640625,
	"learning_rate": 5.443037974683545e-06,
	"loss": 0.9512,
	"step": 430
	},
	{
	"epoch": 5.0050632911392405,
	"grad_norm": 24.11504554748535,
	"learning_rate": 5.569620253164557e-06,
	"loss": 0.9437,
	"step": 440
	},
	{
	"epoch": 5.006329113924051,
	"grad_norm": 26.003135681152344,
	"learning_rate": 5.69620253164557e-06,
	"loss": 0.9311,
	"step": 450
	},
	{
	"epoch": 5.007594936708861,
	"grad_norm": 22.07634735107422,
	"learning_rate": 5.8227848101265824e-06,
	"loss": 0.9741,
	"step": 460
	},
	{
	"epoch": 5.008860759493671,
	"grad_norm": 19.476099014282227,
	"learning_rate": 5.949367088607595e-06,
	"loss": 0.9916,
	"step": 470
	},
	{
	"epoch": 5.010126582278481,
	"grad_norm": 24.048255920410156,
	"learning_rate": 6.075949367088608e-06,
	"loss": 0.9669,
	"step": 480
	},
	{
	"epoch": 5.010126582278481,
	"eval_accuracy": 0.3191489361702128,
	"eval_loss": 1.1227548122406006,
	"eval_runtime": 9.13,
	"eval_samples_per_second": 5.148,
	"eval_steps_per_second": 1.314,
	"step": 480
	},
	{
	"epoch": 6.00126582278481,
	"grad_norm": 21.775312423706055,
	"learning_rate": 6.20253164556962e-06,
	"loss": 0.8955,
	"step": 490
	},
	{
	"epoch": 6.00253164556962,
	"grad_norm": 10.735696792602539,
	"learning_rate": 6.329113924050634e-06,
	"loss": 0.9152,
	"step": 500
	},
	{
	"epoch": 6.00379746835443,
	"grad_norm": 29.428773880004883,
	"learning_rate": 6.4556962025316464e-06,
	"loss": 0.9614,
	"step": 510
	},
	{
	"epoch": 6.0050632911392405,
	"grad_norm": 21.473602294921875,
	"learning_rate": 6.582278481012659e-06,
	"loss": 0.9911,
	"step": 520
	},
	{
	"epoch": 6.006329113924051,
	"grad_norm": 22.8590087890625,
	"learning_rate": 6.708860759493672e-06,
	"loss": 0.9406,
	"step": 530
	},
	{
	"epoch": 6.007594936708861,
	"grad_norm": 25.129230499267578,
	"learning_rate": 6.835443037974684e-06,
	"loss": 0.9051,
	"step": 540
	},
	{
	"epoch": 6.008860759493671,
	"grad_norm": 34.37338638305664,
	"learning_rate": 6.962025316455697e-06,
	"loss": 0.8215,
	"step": 550
	},
	{
	"epoch": 6.010126582278481,
	"grad_norm": 33.80929946899414,
	"learning_rate": 7.08860759493671e-06,
	"loss": 1.0233,
	"step": 560
	},
	{
	"epoch": 6.010126582278481,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 1.1490142345428467,
	"eval_runtime": 9.1478,
	"eval_samples_per_second": 5.138,
	"eval_steps_per_second": 1.312,
	"step": 560
	},
	{
	"epoch": 7.00126582278481,
	"grad_norm": 10.804941177368164,
	"learning_rate": 7.215189873417722e-06,
	"loss": 0.8237,
	"step": 570
	},
	{
	"epoch": 7.00253164556962,
	"grad_norm": 14.405462265014648,
	"learning_rate": 7.341772151898735e-06,
	"loss": 0.8341,
	"step": 580
	},
	{
	"epoch": 7.00379746835443,
	"grad_norm": 33.400726318359375,
	"learning_rate": 7.468354430379747e-06,
	"loss": 0.8029,
	"step": 590
	},
	{
	"epoch": 7.0050632911392405,
	"grad_norm": 11.047707557678223,
	"learning_rate": 7.5949367088607605e-06,
	"loss": 0.935,
	"step": 600
	},
	{
	"epoch": 7.006329113924051,
	"grad_norm": 30.89590072631836,
	"learning_rate": 7.721518987341773e-06,
	"loss": 0.901,
	"step": 610
	},
	{
	"epoch": 7.007594936708861,
	"grad_norm": 14.323598861694336,
	"learning_rate": 7.848101265822786e-06,
	"loss": 0.8399,
	"step": 620
	},
	{
	"epoch": 7.008860759493671,
	"grad_norm": 25.75128173828125,
	"learning_rate": 7.974683544303799e-06,
	"loss": 0.8836,
	"step": 630
	},
	{
	"epoch": 7.010126582278481,
	"grad_norm": 28.034568786621094,
	"learning_rate": 8.10126582278481e-06,
	"loss": 0.8492,
	"step": 640
	},
	{
	"epoch": 7.010126582278481,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 1.263619303703308,
	"eval_runtime": 8.888,
	"eval_samples_per_second": 5.288,
	"eval_steps_per_second": 1.35,
	"step": 640
	},
	{
	"epoch": 8.00126582278481,
	"grad_norm": 27.309749603271484,
	"learning_rate": 8.227848101265824e-06,
	"loss": 0.7993,
	"step": 650
	},
	{
	"epoch": 8.00253164556962,
	"grad_norm": 23.6923770904541,
	"learning_rate": 8.354430379746837e-06,
	"loss": 0.8733,
	"step": 660
	},
	{
	"epoch": 8.00379746835443,
	"grad_norm": 27.559850692749023,
	"learning_rate": 8.481012658227848e-06,
	"loss": 0.8727,
	"step": 670
	},
	{
	"epoch": 8.00506329113924,
	"grad_norm": 13.756896018981934,
	"learning_rate": 8.607594936708861e-06,
	"loss": 0.7896,
	"step": 680
	},
	{
	"epoch": 8.00632911392405,
	"grad_norm": 17.663959503173828,
	"learning_rate": 8.734177215189874e-06,
	"loss": 0.718,
	"step": 690
	},
	{
	"epoch": 8.00759493670886,
	"grad_norm": 11.68373966217041,
	"learning_rate": 8.860759493670886e-06,
	"loss": 0.6608,
	"step": 700
	},
	{
	"epoch": 8.00886075949367,
	"grad_norm": 15.120232582092285,
	"learning_rate": 8.987341772151899e-06,
	"loss": 0.7421,
	"step": 710
	},
	{
	"epoch": 8.010126582278481,
	"grad_norm": 12.948484420776367,
	"learning_rate": 9.113924050632912e-06,
	"loss": 0.8842,
	"step": 720
	},
	{
	"epoch": 8.010126582278481,
	"eval_accuracy": 0.3617021276595745,
	"eval_loss": 1.4060986042022705,
	"eval_runtime": 8.8573,
	"eval_samples_per_second": 5.306,
	"eval_steps_per_second": 1.355,
	"step": 720
	},
	{
	"epoch": 9.00126582278481,
	"grad_norm": 17.29895782470703,
	"learning_rate": 9.240506329113925e-06,
	"loss": 0.7192,
	"step": 730
	},
	{
	"epoch": 9.00253164556962,
	"grad_norm": 16.932331085205078,
	"learning_rate": 9.367088607594937e-06,
	"loss": 0.8571,
	"step": 740
	},
	{
	"epoch": 9.00379746835443,
	"grad_norm": 27.8249454498291,
	"learning_rate": 9.49367088607595e-06,
	"loss": 0.6975,
	"step": 750
	},
	{
	"epoch": 9.00506329113924,
	"grad_norm": 19.709556579589844,
	"learning_rate": 9.620253164556963e-06,
	"loss": 0.7901,
	"step": 760
	},
	{
	"epoch": 9.00632911392405,
	"grad_norm": 27.908536911010742,
	"learning_rate": 9.746835443037975e-06,
	"loss": 0.7778,
	"step": 770
	},
	{
	"epoch": 9.00759493670886,
	"grad_norm": 11.295394897460938,
	"learning_rate": 9.87341772151899e-06,
	"loss": 0.6872,
	"step": 780
	},
	{
	"epoch": 9.00886075949367,
	"grad_norm": 19.349098205566406,
	"learning_rate": 1e-05,
	"loss": 0.7879,
	"step": 790
	},
	{
	"epoch": 9.010126582278481,
	"grad_norm": 17.75351333618164,
	"learning_rate": 9.985935302391e-06,
	"loss": 0.6599,
	"step": 800
	},
	{
	"epoch": 9.010126582278481,
	"eval_accuracy": 0.2978723404255319,
	"eval_loss": 1.3445005416870117,
	"eval_runtime": 8.6196,
	"eval_samples_per_second": 5.453,
	"eval_steps_per_second": 1.392,
	"step": 800
	},
	{
	"epoch": 10.00126582278481,
	"grad_norm": 21.275543212890625,
	"learning_rate": 9.971870604781998e-06,
	"loss": 0.6019,
	"step": 810
	},
	{
	"epoch": 10.00253164556962,
	"grad_norm": 29.977495193481445,
	"learning_rate": 9.957805907172996e-06,
	"loss": 0.724,
	"step": 820
	},
	{
	"epoch": 10.00379746835443,
	"grad_norm": 33.56300354003906,
	"learning_rate": 9.943741209563994e-06,
	"loss": 0.6457,
	"step": 830
	},
	{
	"epoch": 10.00506329113924,
	"grad_norm": 38.13019943237305,
	"learning_rate": 9.929676511954994e-06,
	"loss": 0.6331,
	"step": 840
	},
	{
	"epoch": 10.00632911392405,
	"grad_norm": 42.173423767089844,
	"learning_rate": 9.915611814345992e-06,
	"loss": 0.5996,
	"step": 850
	},
	{
	"epoch": 10.00759493670886,
	"grad_norm": 11.129090309143066,
	"learning_rate": 9.901547116736992e-06,
	"loss": 0.615,
	"step": 860
	},
	{
	"epoch": 10.00886075949367,
	"grad_norm": 37.42063903808594,
	"learning_rate": 9.88748241912799e-06,
	"loss": 0.6022,
	"step": 870
	},
	{
	"epoch": 10.010126582278481,
	"grad_norm": 55.16875457763672,
	"learning_rate": 9.87341772151899e-06,
	"loss": 0.6723,
	"step": 880
	},
	{
	"epoch": 10.010126582278481,
	"eval_accuracy": 0.3617021276595745,
	"eval_loss": 1.4071933031082153,
	"eval_runtime": 8.6355,
	"eval_samples_per_second": 5.443,
	"eval_steps_per_second": 1.39,
	"step": 880
	},
	{
	"epoch": 11.00126582278481,
	"grad_norm": 14.047639846801758,
	"learning_rate": 9.859353023909987e-06,
	"loss": 0.5122,
	"step": 890
	},
	{
	"epoch": 11.00253164556962,
	"grad_norm": 14.567192077636719,
	"learning_rate": 9.845288326300985e-06,
	"loss": 0.5763,
	"step": 900
	},
	{
	"epoch": 11.00379746835443,
	"grad_norm": 31.18760871887207,
	"learning_rate": 9.831223628691983e-06,
	"loss": 0.6611,
	"step": 910
	},
	{
	"epoch": 11.00506329113924,
	"grad_norm": 49.245513916015625,
	"learning_rate": 9.817158931082983e-06,
	"loss": 0.7129,
	"step": 920
	},
	{
	"epoch": 11.00632911392405,
	"grad_norm": 25.506393432617188,
	"learning_rate": 9.803094233473981e-06,
	"loss": 0.4678,
	"step": 930
	},
	{
	"epoch": 11.00759493670886,
	"grad_norm": 16.567678451538086,
	"learning_rate": 9.78902953586498e-06,
	"loss": 0.6464,
	"step": 940
	},
	{
	"epoch": 11.00886075949367,
	"grad_norm": 45.41640090942383,
	"learning_rate": 9.774964838255979e-06,
	"loss": 0.6556,
	"step": 950
	},
	{
	"epoch": 11.010126582278481,
	"grad_norm": 53.20558166503906,
	"learning_rate": 9.760900140646977e-06,
	"loss": 0.604,
	"step": 960
	},
	{
	"epoch": 11.010126582278481,
	"eval_accuracy": 0.3617021276595745,
	"eval_loss": 1.4198564291000366,
	"eval_runtime": 8.4854,
	"eval_samples_per_second": 5.539,
	"eval_steps_per_second": 1.414,
	"step": 960
	},
	{
	"epoch": 12.00126582278481,
	"grad_norm": 13.426566123962402,
	"learning_rate": 9.746835443037975e-06,
	"loss": 0.3598,
	"step": 970
	},
	{
	"epoch": 12.00253164556962,
	"grad_norm": 48.93745422363281,
	"learning_rate": 9.732770745428974e-06,
	"loss": 0.5107,
	"step": 980
	},
	{
	"epoch": 12.00379746835443,
	"grad_norm": 33.23870849609375,
	"learning_rate": 9.718706047819972e-06,
	"loss": 0.629,
	"step": 990
	},
	{
	"epoch": 12.00506329113924,
	"grad_norm": 75.58332061767578,
	"learning_rate": 9.704641350210972e-06,
	"loss": 0.4616,
	"step": 1000
	},
	{
	"epoch": 12.00632911392405,
	"grad_norm": 29.726964950561523,
	"learning_rate": 9.69057665260197e-06,
	"loss": 0.6597,
	"step": 1010
	},
	{
	"epoch": 12.00759493670886,
	"grad_norm": 41.4447135925293,
	"learning_rate": 9.67651195499297e-06,
	"loss": 0.67,
	"step": 1020
	},
	{
	"epoch": 12.00886075949367,
	"grad_norm": 59.76002502441406,
	"learning_rate": 9.662447257383967e-06,
	"loss": 0.6902,
	"step": 1030
	},
	{
	"epoch": 12.010126582278481,
	"grad_norm": 25.5214786529541,
	"learning_rate": 9.648382559774965e-06,
	"loss": 0.4959,
	"step": 1040
	},
	{
	"epoch": 12.010126582278481,
	"eval_accuracy": 0.3617021276595745,
	"eval_loss": 1.5688742399215698,
	"eval_runtime": 8.4949,
	"eval_samples_per_second": 5.533,
	"eval_steps_per_second": 1.413,
	"step": 1040
	},
	{
	"epoch": 13.00126582278481,
	"grad_norm": 17.342782974243164,
	"learning_rate": 9.634317862165963e-06,
	"loss": 0.4443,
	"step": 1050
	},
	{
	"epoch": 13.00253164556962,
	"grad_norm": 6.651524066925049,
	"learning_rate": 9.620253164556963e-06,
	"loss": 0.4626,
	"step": 1060
	},
	{
	"epoch": 13.00379746835443,
	"grad_norm": 59.05470275878906,
	"learning_rate": 9.606188466947961e-06,
	"loss": 0.5051,
	"step": 1070
	},
	{
	"epoch": 13.00506329113924,
	"grad_norm": 12.133808135986328,
	"learning_rate": 9.59212376933896e-06,
	"loss": 0.4063,
	"step": 1080
	},
	{
	"epoch": 13.00632911392405,
	"grad_norm": 5.521517753601074,
	"learning_rate": 9.578059071729959e-06,
	"loss": 0.3626,
	"step": 1090
	},
	{
	"epoch": 13.00759493670886,
	"grad_norm": 39.51848220825195,
	"learning_rate": 9.563994374120957e-06,
	"loss": 0.4715,
	"step": 1100
	},
	{
	"epoch": 13.00886075949367,
	"grad_norm": 17.837867736816406,
	"learning_rate": 9.549929676511955e-06,
	"loss": 0.4161,
	"step": 1110
	},
	{
	"epoch": 13.010126582278481,
	"grad_norm": 10.324262619018555,
	"learning_rate": 9.535864978902954e-06,
	"loss": 0.3758,
	"step": 1120
	},
	{
	"epoch": 13.010126582278481,
	"eval_accuracy": 0.3617021276595745,
	"eval_loss": 1.7867138385772705,
	"eval_runtime": 8.632,
	"eval_samples_per_second": 5.445,
	"eval_steps_per_second": 1.39,
	"step": 1120
	},
	{
	"epoch": 14.00126582278481,
	"grad_norm": 3.8076212406158447,
	"learning_rate": 9.521800281293952e-06,
	"loss": 0.2181,
	"step": 1130
	},
	{
	"epoch": 14.00253164556962,
	"grad_norm": 7.90512752532959,
	"learning_rate": 9.507735583684952e-06,
	"loss": 0.4037,
	"step": 1140
	},
	{
	"epoch": 14.00379746835443,
	"grad_norm": 6.371408462524414,
	"learning_rate": 9.49367088607595e-06,
	"loss": 0.7414,
	"step": 1150
	},
	{
	"epoch": 14.00506329113924,
	"grad_norm": 21.530675888061523,
	"learning_rate": 9.47960618846695e-06,
	"loss": 0.2786,
	"step": 1160
	},
	{
	"epoch": 14.00632911392405,
	"grad_norm": 1.7298585176467896,
	"learning_rate": 9.465541490857948e-06,
	"loss": 0.2941,
	"step": 1170
	},
	{
	"epoch": 14.00759493670886,
	"grad_norm": 14.179819107055664,
	"learning_rate": 9.451476793248946e-06,
	"loss": 0.6105,
	"step": 1180
	},
	{
	"epoch": 14.00886075949367,
	"grad_norm": 35.71600341796875,
	"learning_rate": 9.437412095639944e-06,
	"loss": 0.4703,
	"step": 1190
	},
	{
	"epoch": 14.010126582278481,
	"grad_norm": 7.779309272766113,
	"learning_rate": 9.423347398030943e-06,
	"loss": 0.6257,
	"step": 1200
	},
	{
	"epoch": 14.010126582278481,
	"eval_accuracy": 0.3617021276595745,
	"eval_loss": 1.921836018562317,
	"eval_runtime": 8.7081,
	"eval_samples_per_second": 5.397,
	"eval_steps_per_second": 1.378,
	"step": 1200
	},
	{
	"epoch": 15.00126582278481,
	"grad_norm": 90.20023345947266,
	"learning_rate": 9.409282700421943e-06,
	"loss": 0.3217,
	"step": 1210
	},
	{
	"epoch": 15.00253164556962,
	"grad_norm": 6.699902534484863,
	"learning_rate": 9.395218002812941e-06,
	"loss": 0.2383,
	"step": 1220
	},
	{
	"epoch": 15.00379746835443,
	"grad_norm": 15.322399139404297,
	"learning_rate": 9.381153305203939e-06,
	"loss": 0.2347,
	"step": 1230
	},
	{
	"epoch": 15.00506329113924,
	"grad_norm": 4.224050998687744,
	"learning_rate": 9.367088607594937e-06,
	"loss": 0.1293,
	"step": 1240
	},
	{
	"epoch": 15.00632911392405,
	"grad_norm": 3.2699191570281982,
	"learning_rate": 9.353023909985936e-06,
	"loss": 0.203,
	"step": 1250
	},
	{
	"epoch": 15.00759493670886,
	"grad_norm": 69.02498626708984,
	"learning_rate": 9.338959212376934e-06,
	"loss": 0.3505,
	"step": 1260
	},
	{
	"epoch": 15.00886075949367,
	"grad_norm": 148.28306579589844,
	"learning_rate": 9.324894514767934e-06,
	"loss": 0.3983,
	"step": 1270
	},
	{
	"epoch": 15.010126582278481,
	"grad_norm": 26.6025447845459,
	"learning_rate": 9.310829817158932e-06,
	"loss": 0.3693,
	"step": 1280
	},
	{
	"epoch": 15.010126582278481,
	"eval_accuracy": 0.3191489361702128,
	"eval_loss": 2.09875750541687,
	"eval_runtime": 9.0724,
	"eval_samples_per_second": 5.181,
	"eval_steps_per_second": 1.323,
	"step": 1280
	},
	{
	"epoch": 16.00126582278481,
	"grad_norm": 34.19914627075195,
	"learning_rate": 9.29676511954993e-06,
	"loss": 0.3708,
	"step": 1290
	},
	{
	"epoch": 16.00253164556962,
	"grad_norm": 57.25946807861328,
	"learning_rate": 9.28270042194093e-06,
	"loss": 0.5632,
	"step": 1300
	},
	{
	"epoch": 16.00379746835443,
	"grad_norm": 1.7772458791732788,
	"learning_rate": 9.268635724331928e-06,
	"loss": 0.2617,
	"step": 1310
	},
	{
	"epoch": 16.00506329113924,
	"grad_norm": 56.837650299072266,
	"learning_rate": 9.254571026722926e-06,
	"loss": 0.3024,
	"step": 1320
	},
	{
	"epoch": 16.00632911392405,
	"grad_norm": 0.5459592342376709,
	"learning_rate": 9.240506329113925e-06,
	"loss": 0.2552,
	"step": 1330
	},
	{
	"epoch": 16.00759493670886,
	"grad_norm": 153.30613708496094,
	"learning_rate": 9.226441631504923e-06,
	"loss": 0.659,
	"step": 1340
	},
	{
	"epoch": 16.008860759493672,
	"grad_norm": 47.839324951171875,
	"learning_rate": 9.212376933895923e-06,
	"loss": 0.3776,
	"step": 1350
	},
	{
	"epoch": 16.01012658227848,
	"grad_norm": 57.103763580322266,
	"learning_rate": 9.198312236286921e-06,
	"loss": 0.5933,
	"step": 1360
	},
	{
	"epoch": 16.01012658227848,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 1.8412983417510986,
	"eval_runtime": 8.4821,
	"eval_samples_per_second": 5.541,
	"eval_steps_per_second": 1.415,
	"step": 1360
	},
	{
	"epoch": 17.00126582278481,
	"grad_norm": 0.2360084503889084,
	"learning_rate": 9.184247538677919e-06,
	"loss": 0.0993,
	"step": 1370
	},
	{
	"epoch": 17.00253164556962,
	"grad_norm": 1.5083540678024292,
	"learning_rate": 9.170182841068917e-06,
	"loss": 0.2528,
	"step": 1380
	},
	{
	"epoch": 17.00379746835443,
	"grad_norm": 7.469198226928711,
	"learning_rate": 9.156118143459917e-06,
	"loss": 0.3329,
	"step": 1390
	},
	{
	"epoch": 17.00506329113924,
	"grad_norm": 100.13819885253906,
	"learning_rate": 9.142053445850915e-06,
	"loss": 0.2834,
	"step": 1400
	},
	{
	"epoch": 17.00632911392405,
	"grad_norm": 110.03264617919922,
	"learning_rate": 9.127988748241914e-06,
	"loss": 0.6402,
	"step": 1410
	},
	{
	"epoch": 17.00759493670886,
	"grad_norm": 116.64907836914062,
	"learning_rate": 9.113924050632912e-06,
	"loss": 0.4343,
	"step": 1420
	},
	{
	"epoch": 17.008860759493672,
	"grad_norm": 13.220937728881836,
	"learning_rate": 9.09985935302391e-06,
	"loss": 0.3556,
	"step": 1430
	},
	{
	"epoch": 17.01012658227848,
	"grad_norm": 63.16554260253906,
	"learning_rate": 9.085794655414908e-06,
	"loss": 0.202,
	"step": 1440
	},
	{
	"epoch": 17.01012658227848,
	"eval_accuracy": 0.3191489361702128,
	"eval_loss": 2.753727436065674,
	"eval_runtime": 8.441,
	"eval_samples_per_second": 5.568,
	"eval_steps_per_second": 1.422,
	"step": 1440
	},
	{
	"epoch": 18.00126582278481,
	"grad_norm": 6.848087310791016,
	"learning_rate": 9.071729957805908e-06,
	"loss": 0.2198,
	"step": 1450
	},
	{
	"epoch": 18.00253164556962,
	"grad_norm": 24.780672073364258,
	"learning_rate": 9.057665260196906e-06,
	"loss": 0.2974,
	"step": 1460
	},
	{
	"epoch": 18.00379746835443,
	"grad_norm": 28.783912658691406,
	"learning_rate": 9.043600562587905e-06,
	"loss": 0.2387,
	"step": 1470
	},
	{
	"epoch": 18.00506329113924,
	"grad_norm": 0.49766799807548523,
	"learning_rate": 9.029535864978903e-06,
	"loss": 0.2592,
	"step": 1480
	},
	{
	"epoch": 18.00632911392405,
	"grad_norm": 107.1086196899414,
	"learning_rate": 9.015471167369903e-06,
	"loss": 0.2736,
	"step": 1490
	},
	{
	"epoch": 18.00759493670886,
	"grad_norm": 1.34207284450531,
	"learning_rate": 9.001406469760901e-06,
	"loss": 0.3996,
	"step": 1500
	},
	{
	"epoch": 18.008860759493672,
	"grad_norm": 0.8816600441932678,
	"learning_rate": 8.987341772151899e-06,
	"loss": 0.3255,
	"step": 1510
	},
	{
	"epoch": 18.01012658227848,
	"grad_norm": 0.2845398187637329,
	"learning_rate": 8.973277074542897e-06,
	"loss": 0.1454,
	"step": 1520
	},
	{
	"epoch": 18.01012658227848,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 2.461174964904785,
	"eval_runtime": 8.4461,
	"eval_samples_per_second": 5.565,
	"eval_steps_per_second": 1.421,
	"step": 1520
	},
	{
	"epoch": 19.00126582278481,
	"grad_norm": 7.336277961730957,
	"learning_rate": 8.959212376933897e-06,
	"loss": 0.1073,
	"step": 1530
	},
	{
	"epoch": 19.00253164556962,
	"grad_norm": 1.7120882272720337,
	"learning_rate": 8.945147679324895e-06,
	"loss": 0.286,
	"step": 1540
	},
	{
	"epoch": 19.00379746835443,
	"grad_norm": 5.534066677093506,
	"learning_rate": 8.931082981715894e-06,
	"loss": 0.0711,
	"step": 1550
	},
	{
	"epoch": 19.00506329113924,
	"grad_norm": 0.4742295742034912,
	"learning_rate": 8.917018284106892e-06,
	"loss": 0.0344,
	"step": 1560
	},
	{
	"epoch": 19.00632911392405,
	"grad_norm": 7.864910125732422,
	"learning_rate": 8.90295358649789e-06,
	"loss": 0.4488,
	"step": 1570
	},
	{
	"epoch": 19.00759493670886,
	"grad_norm": 29.55208396911621,
	"learning_rate": 8.888888888888888e-06,
	"loss": 0.0769,
	"step": 1580
	},
	{
	"epoch": 19.008860759493672,
	"grad_norm": 6.9868597984313965,
	"learning_rate": 8.874824191279888e-06,
	"loss": 0.2275,
	"step": 1590
	},
	{
	"epoch": 19.01012658227848,
	"grad_norm": 0.9346122741699219,
	"learning_rate": 8.860759493670886e-06,
	"loss": 0.1332,
	"step": 1600
	},
	{
	"epoch": 19.01012658227848,
	"eval_accuracy": 0.3404255319148936,
	"eval_loss": 3.094426155090332,
	"eval_runtime": 8.4844,
	"eval_samples_per_second": 5.54,
	"eval_steps_per_second": 1.414,
	"step": 1600
	},
	{
	"epoch": 20.00126582278481,
	"grad_norm": 0.2495788335800171,
	"learning_rate": 8.846694796061886e-06,
	"loss": 0.0054,
	"step": 1610
	},
	{
	"epoch": 20.00253164556962,
	"grad_norm": 0.9110737442970276,
	"learning_rate": 8.832630098452884e-06,
	"loss": 0.1922,
	"step": 1620
	},
	{
	"epoch": 20.00379746835443,
	"grad_norm": 18.964305877685547,
	"learning_rate": 8.818565400843883e-06,
	"loss": 0.0081,
	"step": 1630
	},
	{
	"epoch": 20.00506329113924,
	"grad_norm": 32.764984130859375,
	"learning_rate": 8.804500703234881e-06,
	"loss": 0.1649,
	"step": 1640
	},
	{
	"epoch": 20.00632911392405,
	"grad_norm": 0.6211456060409546,
	"learning_rate": 8.79043600562588e-06,
	"loss": 0.267,
	"step": 1650
	},
	{
	"epoch": 20.00759493670886,
	"grad_norm": 11.705927848815918,
	"learning_rate": 8.776371308016879e-06,
	"loss": 0.0885,
	"step": 1660
	},
	{
	"epoch": 20.008860759493672,
	"grad_norm": 4.711695194244385,
	"learning_rate": 8.762306610407877e-06,
	"loss": 0.1366,
	"step": 1670
	},
	{
	"epoch": 20.01012658227848,
	"grad_norm": 1.115964412689209,
	"learning_rate": 8.748241912798877e-06,
	"loss": 0.9193,
	"step": 1680
	},
	{
	"epoch": 20.01012658227848,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 2.869112491607666,
	"eval_runtime": 8.4747,
	"eval_samples_per_second": 5.546,
	"eval_steps_per_second": 1.416,
	"step": 1680
	},
	{
	"epoch": 21.00126582278481,
	"grad_norm": 0.7912726998329163,
	"learning_rate": 8.734177215189874e-06,
	"loss": 0.0675,
	"step": 1690
	},
	{
	"epoch": 21.00253164556962,
	"grad_norm": 1.868703007698059,
	"learning_rate": 8.720112517580872e-06,
	"loss": 0.0215,
	"step": 1700
	},
	{
	"epoch": 21.00379746835443,
	"grad_norm": 0.07253948599100113,
	"learning_rate": 8.70604781997187e-06,
	"loss": 0.1879,
	"step": 1710
	},
	{
	"epoch": 21.00506329113924,
	"grad_norm": 0.07606098800897598,
	"learning_rate": 8.69198312236287e-06,
	"loss": 0.2937,
	"step": 1720
	},
	{
	"epoch": 21.00632911392405,
	"grad_norm": 4.814393520355225,
	"learning_rate": 8.677918424753868e-06,
	"loss": 0.1223,
	"step": 1730
	},
	{
	"epoch": 21.00759493670886,
	"grad_norm": 0.052608225494623184,
	"learning_rate": 8.663853727144868e-06,
	"loss": 0.1895,
	"step": 1740
	},
	{
	"epoch": 21.008860759493672,
	"grad_norm": 6.358555316925049,
	"learning_rate": 8.649789029535866e-06,
	"loss": 0.2224,
	"step": 1750
	},
	{
	"epoch": 21.01012658227848,
	"grad_norm": 0.10539772361516953,
	"learning_rate": 8.635724331926865e-06,
	"loss": 0.1201,
	"step": 1760
	},
	{
	"epoch": 21.01012658227848,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 3.0563912391662598,
	"eval_runtime": 8.5749,
	"eval_samples_per_second": 5.481,
	"eval_steps_per_second": 1.399,
	"step": 1760
	},
	{
	"epoch": 22.00126582278481,
	"grad_norm": 3.320700168609619,
	"learning_rate": 8.621659634317863e-06,
	"loss": 0.0066,
	"step": 1770
	},
	{
	"epoch": 22.00253164556962,
	"grad_norm": 77.03856658935547,
	"learning_rate": 8.607594936708861e-06,
	"loss": 0.0985,
	"step": 1780
	},
	{
	"epoch": 22.00379746835443,
	"grad_norm": 0.06309456378221512,
	"learning_rate": 8.59353023909986e-06,
	"loss": 0.0229,
	"step": 1790
	},
	{
	"epoch": 22.00506329113924,
	"grad_norm": 81.78655242919922,
	"learning_rate": 8.579465541490859e-06,
	"loss": 0.1983,
	"step": 1800
	},
	{
	"epoch": 22.00632911392405,
	"grad_norm": 0.15561726689338684,
	"learning_rate": 8.565400843881857e-06,
	"loss": 0.1817,
	"step": 1810
	},
	{
	"epoch": 22.00759493670886,
	"grad_norm": 10.21172046661377,
	"learning_rate": 8.551336146272857e-06,
	"loss": 0.0148,
	"step": 1820
	},
	{
	"epoch": 22.008860759493672,
	"grad_norm": 0.5883349180221558,
	"learning_rate": 8.537271448663855e-06,
	"loss": 0.0018,
	"step": 1830
	},
	{
	"epoch": 22.01012658227848,
	"grad_norm": 0.019595500081777573,
	"learning_rate": 8.523206751054853e-06,
	"loss": 0.1716,
	"step": 1840
	},
	{
	"epoch": 22.01012658227848,
	"eval_accuracy": 0.3404255319148936,
	"eval_loss": 3.390719175338745,
	"eval_runtime": 8.6187,
	"eval_samples_per_second": 5.453,
	"eval_steps_per_second": 1.392,
	"step": 1840
	},
	{
	"epoch": 23.00126582278481,
	"grad_norm": 0.025295179337263107,
	"learning_rate": 8.50914205344585e-06,
	"loss": 0.0037,
	"step": 1850
	},
	{
	"epoch": 23.00253164556962,
	"grad_norm": 0.1332973688840866,
	"learning_rate": 8.49507735583685e-06,
	"loss": 0.0026,
	"step": 1860
	},
	{
	"epoch": 23.00379746835443,
	"grad_norm": 0.08286605030298233,
	"learning_rate": 8.481012658227848e-06,
	"loss": 0.1337,
	"step": 1870
	},
	{
	"epoch": 23.00506329113924,
	"grad_norm": 0.11277411133050919,
	"learning_rate": 8.466947960618848e-06,
	"loss": 0.1286,
	"step": 1880
	},
	{
	"epoch": 23.00632911392405,
	"grad_norm": 0.047154348343610764,
	"learning_rate": 8.452883263009846e-06,
	"loss": 0.0068,
	"step": 1890
	},
	{
	"epoch": 23.00759493670886,
	"grad_norm": 0.02648848481476307,
	"learning_rate": 8.438818565400846e-06,
	"loss": 0.0168,
	"step": 1900
	},
	{
	"epoch": 23.008860759493672,
	"grad_norm": 0.0498431995511055,
	"learning_rate": 8.424753867791844e-06,
	"loss": 0.0048,
	"step": 1910
	},
	{
	"epoch": 23.01012658227848,
	"grad_norm": 0.11999885737895966,
	"learning_rate": 8.410689170182841e-06,
	"loss": 0.0402,
	"step": 1920
	},
	{
	"epoch": 23.01012658227848,
	"eval_accuracy": 0.3191489361702128,
	"eval_loss": 3.7917425632476807,
	"eval_runtime": 8.7081,
	"eval_samples_per_second": 5.397,
	"eval_steps_per_second": 1.378,
	"step": 1920
	},
	{
	"epoch": 24.00126582278481,
	"grad_norm": 0.034499507397413254,
	"learning_rate": 8.39662447257384e-06,
	"loss": 0.012,
	"step": 1930
	},
	{
	"epoch": 24.00253164556962,
	"grad_norm": 42.179473876953125,
	"learning_rate": 8.382559774964839e-06,
	"loss": 0.2346,
	"step": 1940
	},
	{
	"epoch": 24.00379746835443,
	"grad_norm": 0.6478450298309326,
	"learning_rate": 8.368495077355837e-06,
	"loss": 0.008,
	"step": 1950
	},
	{
	"epoch": 24.00506329113924,
	"grad_norm": 0.04269712418317795,
	"learning_rate": 8.354430379746837e-06,
	"loss": 0.004,
	"step": 1960
	},
	{
	"epoch": 24.00632911392405,
	"grad_norm": 29.495561599731445,
	"learning_rate": 8.340365682137835e-06,
	"loss": 0.1656,
	"step": 1970
	},
	{
	"epoch": 24.00759493670886,
	"grad_norm": 0.09528925269842148,
	"learning_rate": 8.326300984528833e-06,
	"loss": 0.0268,
	"step": 1980
	},
	{
	"epoch": 24.008860759493672,
	"grad_norm": 0.023056741803884506,
	"learning_rate": 8.31223628691983e-06,
	"loss": 0.0095,
	"step": 1990
	},
	{
	"epoch": 24.01012658227848,
	"grad_norm": 2.2930028438568115,
	"learning_rate": 8.29817158931083e-06,
	"loss": 0.0709,
	"step": 2000
	},
	{
	"epoch": 24.01012658227848,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 3.5486884117126465,
	"eval_runtime": 8.9153,
	"eval_samples_per_second": 5.272,
	"eval_steps_per_second": 1.346,
	"step": 2000
	},
	{
	"epoch": 25.00126582278481,
	"grad_norm": 0.614183783531189,
	"learning_rate": 8.284106891701828e-06,
	"loss": 0.0297,
	"step": 2010
	},
	{
	"epoch": 25.00253164556962,
	"grad_norm": 243.75750732421875,
	"learning_rate": 8.270042194092828e-06,
	"loss": 0.1049,
	"step": 2020
	},
	{
	"epoch": 25.00379746835443,
	"grad_norm": 210.3068389892578,
	"learning_rate": 8.255977496483826e-06,
	"loss": 0.0886,
	"step": 2030
	},
	{
	"epoch": 25.00506329113924,
	"grad_norm": 2.261234760284424,
	"learning_rate": 8.241912798874826e-06,
	"loss": 0.0027,
	"step": 2040
	},
	{
	"epoch": 25.00632911392405,
	"grad_norm": 6.479150772094727,
	"learning_rate": 8.227848101265824e-06,
	"loss": 0.1408,
	"step": 2050
	},
	{
	"epoch": 25.00759493670886,
	"grad_norm": 0.04374171420931816,
	"learning_rate": 8.213783403656822e-06,
	"loss": 0.0659,
	"step": 2060
	},
	{
	"epoch": 25.008860759493672,
	"grad_norm": 0.19435258209705353,
	"learning_rate": 8.199718706047821e-06,
	"loss": 0.0016,
	"step": 2070
	},
	{
	"epoch": 25.01012658227848,
	"grad_norm": 0.020269129425287247,
	"learning_rate": 8.18565400843882e-06,
	"loss": 0.1021,
	"step": 2080
	},
	{
	"epoch": 25.01012658227848,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 3.9004390239715576,
	"eval_runtime": 8.7333,
	"eval_samples_per_second": 5.382,
	"eval_steps_per_second": 1.374,
	"step": 2080
	},
	{
	"epoch": 26.00126582278481,
	"grad_norm": 0.07372234761714935,
	"learning_rate": 8.171589310829819e-06,
	"loss": 0.0096,
	"step": 2090
	},
	{
	"epoch": 26.00253164556962,
	"grad_norm": 0.9319536089897156,
	"learning_rate": 8.157524613220817e-06,
	"loss": 0.0877,
	"step": 2100
	},
	{
	"epoch": 26.00379746835443,
	"grad_norm": 1.9737757444381714,
	"learning_rate": 8.143459915611815e-06,
	"loss": 0.0105,
	"step": 2110
	},
	{
	"epoch": 26.00506329113924,
	"grad_norm": 0.010359777137637138,
	"learning_rate": 8.129395218002813e-06,
	"loss": 0.0019,
	"step": 2120
	},
	{
	"epoch": 26.00632911392405,
	"grad_norm": 0.16365653276443481,
	"learning_rate": 8.115330520393813e-06,
	"loss": 0.0006,
	"step": 2130
	},
	{
	"epoch": 26.00759493670886,
	"grad_norm": 184.18040466308594,
	"learning_rate": 8.10126582278481e-06,
	"loss": 0.1279,
	"step": 2140
	},
	{
	"epoch": 26.008860759493672,
	"grad_norm": 0.01543757226318121,
	"learning_rate": 8.08720112517581e-06,
	"loss": 0.0289,
	"step": 2150
	},
	{
	"epoch": 26.01012658227848,
	"grad_norm": 0.02343440055847168,
	"learning_rate": 8.073136427566808e-06,
	"loss": 0.0029,
	"step": 2160
	},
	{
	"epoch": 26.01012658227848,
	"eval_accuracy": 0.3617021276595745,
	"eval_loss": 4.194858551025391,
	"eval_runtime": 9.0554,
	"eval_samples_per_second": 5.19,
	"eval_steps_per_second": 1.325,
	"step": 2160
	},
	{
	"epoch": 27.00126582278481,
	"grad_norm": 0.163554847240448,
	"learning_rate": 8.059071729957806e-06,
	"loss": 0.0027,
	"step": 2170
	},
	{
	"epoch": 27.00253164556962,
	"grad_norm": 64.04247283935547,
	"learning_rate": 8.045007032348806e-06,
	"loss": 0.0081,
	"step": 2180
	},
	{
	"epoch": 27.00379746835443,
	"grad_norm": 0.2571711242198944,
	"learning_rate": 8.030942334739804e-06,
	"loss": 0.0059,
	"step": 2190
	},
	{
	"epoch": 27.00506329113924,
	"grad_norm": 0.015557597391307354,
	"learning_rate": 8.016877637130802e-06,
	"loss": 0.0709,
	"step": 2200
	},
	{
	"epoch": 27.00632911392405,
	"grad_norm": 0.05058155208826065,
	"learning_rate": 8.002812939521801e-06,
	"loss": 0.0016,
	"step": 2210
	},
	{
	"epoch": 27.00759493670886,
	"grad_norm": 0.06934946775436401,
	"learning_rate": 7.9887482419128e-06,
	"loss": 0.0048,
	"step": 2220
	},
	{
	"epoch": 27.008860759493672,
	"grad_norm": 0.06157020479440689,
	"learning_rate": 7.974683544303799e-06,
	"loss": 0.0006,
	"step": 2230
	},
	{
	"epoch": 27.01012658227848,
	"grad_norm": 0.016570130363106728,
	"learning_rate": 7.960618846694797e-06,
	"loss": 0.1352,
	"step": 2240
	},
	{
	"epoch": 27.01012658227848,
	"eval_accuracy": 0.3617021276595745,
	"eval_loss": 4.503756999969482,
	"eval_runtime": 8.4591,
	"eval_samples_per_second": 5.556,
	"eval_steps_per_second": 1.419,
	"step": 2240
	},
	{
	"epoch": 28.00126582278481,
	"grad_norm": 0.05582532659173012,
	"learning_rate": 7.946554149085795e-06,
	"loss": 0.0875,
	"step": 2250
	},
	{
	"epoch": 28.00253164556962,
	"grad_norm": 0.04096909984946251,
	"learning_rate": 7.932489451476793e-06,
	"loss": 0.0003,
	"step": 2260
	},
	{
	"epoch": 28.00379746835443,
	"grad_norm": 0.9817273616790771,
	"learning_rate": 7.918424753867793e-06,
	"loss": 0.0012,
	"step": 2270
	},
	{
	"epoch": 28.00506329113924,
	"grad_norm": 0.07687732577323914,
	"learning_rate": 7.90436005625879e-06,
	"loss": 0.0023,
	"step": 2280
	},
	{
	"epoch": 28.00632911392405,
	"grad_norm": 18.15758514404297,
	"learning_rate": 7.89029535864979e-06,
	"loss": 0.1754,
	"step": 2290
	},
	{
	"epoch": 28.00759493670886,
	"grad_norm": 0.007940283045172691,
	"learning_rate": 7.876230661040788e-06,
	"loss": 0.3378,
	"step": 2300
	},
	{
	"epoch": 28.008860759493672,
	"grad_norm": 165.2981414794922,
	"learning_rate": 7.862165963431786e-06,
	"loss": 0.2031,
	"step": 2310
	},
	{
	"epoch": 28.01012658227848,
	"grad_norm": 0.009227721951901913,
	"learning_rate": 7.848101265822786e-06,
	"loss": 0.0173,
	"step": 2320
	},
	{
	"epoch": 28.01012658227848,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 3.935215473175049,
	"eval_runtime": 8.4766,
	"eval_samples_per_second": 5.545,
	"eval_steps_per_second": 1.416,
	"step": 2320
	},
	{
	"epoch": 29.00126582278481,
	"grad_norm": 0.01626473106443882,
	"learning_rate": 7.834036568213784e-06,
	"loss": 0.0544,
	"step": 2330
	},
	{
	"epoch": 29.00253164556962,
	"grad_norm": 0.018083002418279648,
	"learning_rate": 7.819971870604782e-06,
	"loss": 0.0064,
	"step": 2340
	},
	{
	"epoch": 29.00379746835443,
	"grad_norm": 0.2154766470193863,
	"learning_rate": 7.805907172995782e-06,
	"loss": 0.0006,
	"step": 2350
	},
	{
	"epoch": 29.00506329113924,
	"grad_norm": 220.96780395507812,
	"learning_rate": 7.79184247538678e-06,
	"loss": 0.1229,
	"step": 2360
	},
	{
	"epoch": 29.00632911392405,
	"grad_norm": 0.17289696633815765,
	"learning_rate": 7.77777777777778e-06,
	"loss": 0.0005,
	"step": 2370
	},
	{
	"epoch": 29.00759493670886,
	"grad_norm": 1.7889928817749023,
	"learning_rate": 7.763713080168777e-06,
	"loss": 0.1407,
	"step": 2380
	},
	{
	"epoch": 29.008860759493672,
	"grad_norm": 0.008173462934792042,
	"learning_rate": 7.749648382559775e-06,
	"loss": 0.1463,
	"step": 2390
	},
	{
	"epoch": 29.01012658227848,
	"grad_norm": 0.011393209919333458,
	"learning_rate": 7.735583684950773e-06,
	"loss": 0.0012,
	"step": 2400
	},
	{
	"epoch": 29.01012658227848,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 4.323361873626709,
	"eval_runtime": 8.4682,
	"eval_samples_per_second": 5.55,
	"eval_steps_per_second": 1.417,
	"step": 2400
	},
	{
	"epoch": 30.00126582278481,
	"grad_norm": 0.011178904213011265,
	"learning_rate": 7.721518987341773e-06,
	"loss": 0.0004,
	"step": 2410
	},
	{
	"epoch": 30.00253164556962,
	"grad_norm": 0.0153023237362504,
	"learning_rate": 7.70745428973277e-06,
	"loss": 0.0008,
	"step": 2420
	},
	{
	"epoch": 30.00379746835443,
	"grad_norm": 0.010914456099271774,
	"learning_rate": 7.69338959212377e-06,
	"loss": 0.0004,
	"step": 2430
	},
	{
	"epoch": 30.00506329113924,
	"grad_norm": 0.007891859859228134,
	"learning_rate": 7.679324894514768e-06,
	"loss": 0.0005,
	"step": 2440
	},
	{
	"epoch": 30.00632911392405,
	"grad_norm": 87.5243911743164,
	"learning_rate": 7.665260196905766e-06,
	"loss": 0.0081,
	"step": 2450
	},
	{
	"epoch": 30.00759493670886,
	"grad_norm": 1.0978916883468628,
	"learning_rate": 7.651195499296766e-06,
	"loss": 0.0004,
	"step": 2460
	},
	{
	"epoch": 30.008860759493672,
	"grad_norm": 12.773395538330078,
	"learning_rate": 7.637130801687764e-06,
	"loss": 0.0024,
	"step": 2470
	},
	{
	"epoch": 30.01012658227848,
	"grad_norm": 0.03179134428501129,
	"learning_rate": 7.623066104078764e-06,
	"loss": 0.0007,
	"step": 2480
	},
	{
	"epoch": 30.01012658227848,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 4.287741661071777,
	"eval_runtime": 8.4651,
	"eval_samples_per_second": 5.552,
	"eval_steps_per_second": 1.418,
	"step": 2480
	},
	{
	"epoch": 31.00126582278481,
	"grad_norm": 0.005546510685235262,
	"learning_rate": 7.609001406469762e-06,
	"loss": 0.0003,
	"step": 2490
	},
	{
	"epoch": 31.00253164556962,
	"grad_norm": 0.013632872141897678,
	"learning_rate": 7.5949367088607605e-06,
	"loss": 0.1395,
	"step": 2500
	},
	{
	"epoch": 31.00379746835443,
	"grad_norm": 0.006918332539498806,
	"learning_rate": 7.5808720112517584e-06,
	"loss": 0.0027,
	"step": 2510
	},
	{
	"epoch": 31.00506329113924,
	"grad_norm": 0.012666971422731876,
	"learning_rate": 7.566807313642758e-06,
	"loss": 0.0004,
	"step": 2520
	},
	{
	"epoch": 31.00632911392405,
	"grad_norm": 0.005221995059400797,
	"learning_rate": 7.552742616033756e-06,
	"loss": 0.0009,
	"step": 2530
	},
	{
	"epoch": 31.00759493670886,
	"grad_norm": 0.013362145982682705,
	"learning_rate": 7.538677918424755e-06,
	"loss": 0.0012,
	"step": 2540
	},
	{
	"epoch": 31.008860759493672,
	"grad_norm": 0.035756830126047134,
	"learning_rate": 7.524613220815753e-06,
	"loss": 0.0004,
	"step": 2550
	},
	{
	"epoch": 31.01012658227848,
	"grad_norm": 0.08822837471961975,
	"learning_rate": 7.510548523206752e-06,
	"loss": 0.2292,
	"step": 2560
	},
	{
	"epoch": 31.01012658227848,
	"eval_accuracy": 0.3191489361702128,
	"eval_loss": 4.729736804962158,
	"eval_runtime": 8.4818,
	"eval_samples_per_second": 5.541,
	"eval_steps_per_second": 1.415,
	"step": 2560
	},
	{
	"epoch": 32.00126582278481,
	"grad_norm": 6.84944486618042,
	"learning_rate": 7.4964838255977505e-06,
	"loss": 0.001,
	"step": 2570
	},
	{
	"epoch": 32.00253164556962,
	"grad_norm": 0.025634169578552246,
	"learning_rate": 7.482419127988749e-06,
	"loss": 0.0002,
	"step": 2580
	},
	{
	"epoch": 32.00379746835443,
	"grad_norm": 0.026997152715921402,
	"learning_rate": 7.468354430379747e-06,
	"loss": 0.0089,
	"step": 2590
	},
	{
	"epoch": 32.00506329113924,
	"grad_norm": 0.008302225731313229,
	"learning_rate": 7.454289732770746e-06,
	"loss": 0.0005,
	"step": 2600
	},
	{
	"epoch": 32.00632911392405,
	"grad_norm": 0.033620625734329224,
	"learning_rate": 7.440225035161744e-06,
	"loss": 0.0081,
	"step": 2610
	},
	{
	"epoch": 32.00759493670886,
	"grad_norm": 0.022618619725108147,
	"learning_rate": 7.426160337552744e-06,
	"loss": 0.0548,
	"step": 2620
	},
	{
	"epoch": 32.00886075949367,
	"grad_norm": 0.0314350426197052,
	"learning_rate": 7.412095639943742e-06,
	"loss": 0.0003,
	"step": 2630
	},
	{
	"epoch": 32.01012658227848,
	"grad_norm": 0.007120281923562288,
	"learning_rate": 7.398030942334741e-06,
	"loss": 0.0004,
	"step": 2640
	},
	{
	"epoch": 32.01012658227848,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 4.471046447753906,
	"eval_runtime": 8.9073,
	"eval_samples_per_second": 5.277,
	"eval_steps_per_second": 1.347,
	"step": 2640
	},
	{
	"epoch": 33.00126582278481,
	"grad_norm": 0.3721332550048828,
	"learning_rate": 7.3839662447257386e-06,
	"loss": 0.1564,
	"step": 2650
	},
	{
	"epoch": 33.00253164556962,
	"grad_norm": 0.052768442779779434,
	"learning_rate": 7.369901547116738e-06,
	"loss": 0.0022,
	"step": 2660
	},
	{
	"epoch": 33.00379746835443,
	"grad_norm": 93.05609130859375,
	"learning_rate": 7.355836849507736e-06,
	"loss": 0.2399,
	"step": 2670
	},
	{
	"epoch": 33.00506329113924,
	"grad_norm": 0.0038992296904325485,
	"learning_rate": 7.341772151898735e-06,
	"loss": 0.0088,
	"step": 2680
	},
	{
	"epoch": 33.00632911392405,
	"grad_norm": 0.020863041281700134,
	"learning_rate": 7.327707454289733e-06,
	"loss": 0.0002,
	"step": 2690
	},
	{
	"epoch": 33.00759493670886,
	"grad_norm": 0.006648873444646597,
	"learning_rate": 7.313642756680732e-06,
	"loss": 0.0388,
	"step": 2700
	},
	{
	"epoch": 33.00886075949367,
	"grad_norm": 156.20700073242188,
	"learning_rate": 7.29957805907173e-06,
	"loss": 0.2333,
	"step": 2710
	},
	{
	"epoch": 33.01012658227848,
	"grad_norm": 0.008939997293055058,
	"learning_rate": 7.2855133614627295e-06,
	"loss": 0.0361,
	"step": 2720
	},
	{
	"epoch": 33.01012658227848,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.239119529724121,
	"eval_runtime": 8.9548,
	"eval_samples_per_second": 5.249,
	"eval_steps_per_second": 1.34,
	"step": 2720
	},
	{
	"epoch": 34.00126582278481,
	"grad_norm": 15.270977020263672,
	"learning_rate": 7.2714486638537275e-06,
	"loss": 0.1088,
	"step": 2730
	},
	{
	"epoch": 34.00253164556962,
	"grad_norm": 14.447574615478516,
	"learning_rate": 7.257383966244726e-06,
	"loss": 0.002,
	"step": 2740
	},
	{
	"epoch": 34.00379746835443,
	"grad_norm": 0.009641851298511028,
	"learning_rate": 7.243319268635724e-06,
	"loss": 0.0003,
	"step": 2750
	},
	{
	"epoch": 34.00506329113924,
	"grad_norm": 3.5248186588287354,
	"learning_rate": 7.229254571026724e-06,
	"loss": 0.0007,
	"step": 2760
	},
	{
	"epoch": 34.00632911392405,
	"grad_norm": 0.06941874325275421,
	"learning_rate": 7.215189873417722e-06,
	"loss": 0.106,
	"step": 2770
	},
	{
	"epoch": 34.00759493670886,
	"grad_norm": 0.0060513801872730255,
	"learning_rate": 7.201125175808721e-06,
	"loss": 0.0003,
	"step": 2780
	},
	{
	"epoch": 34.00886075949367,
	"grad_norm": 0.03698160871863365,
	"learning_rate": 7.187060478199719e-06,
	"loss": 0.0003,
	"step": 2790
	},
	{
	"epoch": 34.01012658227848,
	"grad_norm": 0.021343868225812912,
	"learning_rate": 7.172995780590718e-06,
	"loss": 0.0002,
	"step": 2800
	},
	{
	"epoch": 34.01012658227848,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 4.2255730628967285,
	"eval_runtime": 9.1143,
	"eval_samples_per_second": 5.157,
	"eval_steps_per_second": 1.317,
	"step": 2800
	},
	{
	"epoch": 35.00126582278481,
	"grad_norm": 0.02194453403353691,
	"learning_rate": 7.158931082981716e-06,
	"loss": 0.0002,
	"step": 2810
	},
	{
	"epoch": 35.00253164556962,
	"grad_norm": 0.008681000210344791,
	"learning_rate": 7.144866385372715e-06,
	"loss": 0.0017,
	"step": 2820
	},
	{
	"epoch": 35.00379746835443,
	"grad_norm": 0.003180101979523897,
	"learning_rate": 7.130801687763713e-06,
	"loss": 0.0002,
	"step": 2830
	},
	{
	"epoch": 35.00506329113924,
	"grad_norm": 0.00399158988147974,
	"learning_rate": 7.116736990154712e-06,
	"loss": 0.0851,
	"step": 2840
	},
	{
	"epoch": 35.00632911392405,
	"grad_norm": 317.16937255859375,
	"learning_rate": 7.10267229254571e-06,
	"loss": 0.1581,
	"step": 2850
	},
	{
	"epoch": 35.00759493670886,
	"grad_norm": 0.006524229887872934,
	"learning_rate": 7.08860759493671e-06,
	"loss": 0.0002,
	"step": 2860
	},
	{
	"epoch": 35.00886075949367,
	"grad_norm": 230.1353759765625,
	"learning_rate": 7.074542897327708e-06,
	"loss": 0.1746,
	"step": 2870
	},
	{
	"epoch": 35.01012658227848,
	"grad_norm": 89.08749389648438,
	"learning_rate": 7.060478199718706e-06,
	"loss": 0.0082,
	"step": 2880
	},
	{
	"epoch": 35.01012658227848,
	"eval_accuracy": 0.3404255319148936,
	"eval_loss": 5.073359489440918,
	"eval_runtime": 8.501,
	"eval_samples_per_second": 5.529,
	"eval_steps_per_second": 1.412,
	"step": 2880
	},
	{
	"epoch": 36.00126582278481,
	"grad_norm": 0.014753330498933792,
	"learning_rate": 7.046413502109706e-06,
	"loss": 0.0002,
	"step": 2890
	},
	{
	"epoch": 36.00253164556962,
	"grad_norm": 3.0008251667022705,
	"learning_rate": 7.032348804500704e-06,
	"loss": 0.0373,
	"step": 2900
	},
	{
	"epoch": 36.00379746835443,
	"grad_norm": 0.010498768649995327,
	"learning_rate": 7.018284106891703e-06,
	"loss": 0.009,
	"step": 2910
	},
	{
	"epoch": 36.00506329113924,
	"grad_norm": 0.06089121848344803,
	"learning_rate": 7.004219409282701e-06,
	"loss": 0.0003,
	"step": 2920
	},
	{
	"epoch": 36.00632911392405,
	"grad_norm": 0.009548901580274105,
	"learning_rate": 6.9901547116737e-06,
	"loss": 0.1971,
	"step": 2930
	},
	{
	"epoch": 36.00759493670886,
	"grad_norm": 0.11378785222768784,
	"learning_rate": 6.9760900140646985e-06,
	"loss": 0.0021,
	"step": 2940
	},
	{
	"epoch": 36.00886075949367,
	"grad_norm": 0.004684086889028549,
	"learning_rate": 6.962025316455697e-06,
	"loss": 0.0879,
	"step": 2950
	},
	{
	"epoch": 36.01012658227848,
	"grad_norm": 0.005387377459555864,
	"learning_rate": 6.947960618846695e-06,
	"loss": 0.0318,
	"step": 2960
	},
	{
	"epoch": 36.01012658227848,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.073455333709717,
	"eval_runtime": 8.491,
	"eval_samples_per_second": 5.535,
	"eval_steps_per_second": 1.413,
	"step": 2960
	},
	{
	"epoch": 37.00126582278481,
	"grad_norm": 0.0073117660358548164,
	"learning_rate": 6.933895921237694e-06,
	"loss": 0.0002,
	"step": 2970
	},
	{
	"epoch": 37.00253164556962,
	"grad_norm": 0.01575954630970955,
	"learning_rate": 6.919831223628692e-06,
	"loss": 0.0051,
	"step": 2980
	},
	{
	"epoch": 37.00379746835443,
	"grad_norm": 0.005418274085968733,
	"learning_rate": 6.905766526019692e-06,
	"loss": 0.0003,
	"step": 2990
	},
	{
	"epoch": 37.00506329113924,
	"grad_norm": 0.004269735421985388,
	"learning_rate": 6.89170182841069e-06,
	"loss": 0.0658,
	"step": 3000
	},
	{
	"epoch": 37.00632911392405,
	"grad_norm": 0.004627808462828398,
	"learning_rate": 6.8776371308016885e-06,
	"loss": 0.0001,
	"step": 3010
	},
	{
	"epoch": 37.00759493670886,
	"grad_norm": 0.008293317630887032,
	"learning_rate": 6.8635724331926865e-06,
	"loss": 0.0904,
	"step": 3020
	},
	{
	"epoch": 37.00886075949367,
	"grad_norm": 0.013359429314732552,
	"learning_rate": 6.849507735583686e-06,
	"loss": 0.1007,
	"step": 3030
	},
	{
	"epoch": 37.01012658227848,
	"grad_norm": 0.006999185774475336,
	"learning_rate": 6.835443037974684e-06,
	"loss": 0.0002,
	"step": 3040
	},
	{
	"epoch": 37.01012658227848,
	"eval_accuracy": 0.2553191489361702,
	"eval_loss": 5.146430492401123,
	"eval_runtime": 8.4797,
	"eval_samples_per_second": 5.543,
	"eval_steps_per_second": 1.415,
	"step": 3040
	},
	{
	"epoch": 38.00126582278481,
	"grad_norm": 0.005403840448707342,
	"learning_rate": 6.821378340365683e-06,
	"loss": 0.0003,
	"step": 3050
	},
	{
	"epoch": 38.00253164556962,
	"grad_norm": 0.01304860319942236,
	"learning_rate": 6.807313642756681e-06,
	"loss": 0.0003,
	"step": 3060
	},
	{
	"epoch": 38.00379746835443,
	"grad_norm": 0.29351142048835754,
	"learning_rate": 6.79324894514768e-06,
	"loss": 0.0004,
	"step": 3070
	},
	{
	"epoch": 38.00506329113924,
	"grad_norm": 0.0071726636961102486,
	"learning_rate": 6.779184247538679e-06,
	"loss": 0.0002,
	"step": 3080
	},
	{
	"epoch": 38.00632911392405,
	"grad_norm": 0.8798180222511292,
	"learning_rate": 6.7651195499296774e-06,
	"loss": 0.0578,
	"step": 3090
	},
	{
	"epoch": 38.00759493670886,
	"grad_norm": 0.01378143671900034,
	"learning_rate": 6.751054852320675e-06,
	"loss": 0.0004,
	"step": 3100
	},
	{
	"epoch": 38.00886075949367,
	"grad_norm": 0.005133031401783228,
	"learning_rate": 6.736990154711674e-06,
	"loss": 0.0062,
	"step": 3110
	},
	{
	"epoch": 38.01012658227848,
	"grad_norm": 0.01705407164990902,
	"learning_rate": 6.722925457102672e-06,
	"loss": 0.0003,
	"step": 3120
	},
	{
	"epoch": 38.01012658227848,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 4.634023189544678,
	"eval_runtime": 8.7121,
	"eval_samples_per_second": 5.395,
	"eval_steps_per_second": 1.377,
	"step": 3120
	},
	{
	"epoch": 39.00126582278481,
	"grad_norm": 0.005898992531001568,
	"learning_rate": 6.708860759493672e-06,
	"loss": 0.0008,
	"step": 3130
	},
	{
	"epoch": 39.00253164556962,
	"grad_norm": 0.40792742371559143,
	"learning_rate": 6.69479606188467e-06,
	"loss": 0.0003,
	"step": 3140
	},
	{
	"epoch": 39.00379746835443,
	"grad_norm": 0.019352609291672707,
	"learning_rate": 6.680731364275669e-06,
	"loss": 0.0002,
	"step": 3150
	},
	{
	"epoch": 39.00506329113924,
	"grad_norm": 0.0045697493478655815,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.0001,
	"step": 3160
	},
	{
	"epoch": 39.00632911392405,
	"grad_norm": 0.005903047509491444,
	"learning_rate": 6.652601969057666e-06,
	"loss": 0.0001,
	"step": 3170
	},
	{
	"epoch": 39.00759493670886,
	"grad_norm": 0.01714833825826645,
	"learning_rate": 6.638537271448664e-06,
	"loss": 0.1579,
	"step": 3180
	},
	{
	"epoch": 39.00886075949367,
	"grad_norm": 0.07012953609228134,
	"learning_rate": 6.624472573839663e-06,
	"loss": 0.0002,
	"step": 3190
	},
	{
	"epoch": 39.01012658227848,
	"grad_norm": 0.022253967821598053,
	"learning_rate": 6.610407876230661e-06,
	"loss": 0.48,
	"step": 3200
	},
	{
	"epoch": 39.01012658227848,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.337032794952393,
	"eval_runtime": 8.4914,
	"eval_samples_per_second": 5.535,
	"eval_steps_per_second": 1.413,
	"step": 3200
	},
	{
	"epoch": 40.00126582278481,
	"grad_norm": 233.1455535888672,
	"learning_rate": 6.59634317862166e-06,
	"loss": 0.0365,
	"step": 3210
	},
	{
	"epoch": 40.00253164556962,
	"grad_norm": 0.008999134413897991,
	"learning_rate": 6.582278481012659e-06,
	"loss": 0.1475,
	"step": 3220
	},
	{
	"epoch": 40.00379746835443,
	"grad_norm": 0.0032340127509087324,
	"learning_rate": 6.5682137834036576e-06,
	"loss": 0.1164,
	"step": 3230
	},
	{
	"epoch": 40.00506329113924,
	"grad_norm": 0.014319919049739838,
	"learning_rate": 6.5541490857946555e-06,
	"loss": 0.0008,
	"step": 3240
	},
	{
	"epoch": 40.00632911392405,
	"grad_norm": 0.019842559471726418,
	"learning_rate": 6.540084388185654e-06,
	"loss": 0.0006,
	"step": 3250
	},
	{
	"epoch": 40.00759493670886,
	"grad_norm": 0.018094390630722046,
	"learning_rate": 6.526019690576652e-06,
	"loss": 0.0005,
	"step": 3260
	},
	{
	"epoch": 40.00886075949367,
	"grad_norm": 0.00912653561681509,
	"learning_rate": 6.511954992967652e-06,
	"loss": 0.049,
	"step": 3270
	},
	{
	"epoch": 40.01012658227848,
	"grad_norm": 0.03302593529224396,
	"learning_rate": 6.49789029535865e-06,
	"loss": 0.0002,
	"step": 3280
	},
	{
	"epoch": 40.01012658227848,
	"eval_accuracy": 0.3617021276595745,
	"eval_loss": 4.582009315490723,
	"eval_runtime": 8.4753,
	"eval_samples_per_second": 5.546,
	"eval_steps_per_second": 1.416,
	"step": 3280
	},
	{
	"epoch": 41.00126582278481,
	"grad_norm": 10.000889778137207,
	"learning_rate": 6.483825597749649e-06,
	"loss": 0.0011,
	"step": 3290
	},
	{
	"epoch": 41.00253164556962,
	"grad_norm": 0.009547159075737,
	"learning_rate": 6.4697609001406485e-06,
	"loss": 0.0002,
	"step": 3300
	},
	{
	"epoch": 41.00379746835443,
	"grad_norm": 0.005821730941534042,
	"learning_rate": 6.4556962025316464e-06,
	"loss": 0.0001,
	"step": 3310
	},
	{
	"epoch": 41.00506329113924,
	"grad_norm": 0.00588320242241025,
	"learning_rate": 6.441631504922645e-06,
	"loss": 0.0025,
	"step": 3320
	},
	{
	"epoch": 41.00632911392405,
	"grad_norm": 298.84820556640625,
	"learning_rate": 6.427566807313643e-06,
	"loss": 0.2948,
	"step": 3330
	},
	{
	"epoch": 41.00759493670886,
	"grad_norm": 0.00702635245397687,
	"learning_rate": 6.413502109704642e-06,
	"loss": 0.0002,
	"step": 3340
	},
	{
	"epoch": 41.00886075949367,
	"grad_norm": 0.003056429559364915,
	"learning_rate": 6.39943741209564e-06,
	"loss": 0.0259,
	"step": 3350
	},
	{
	"epoch": 41.01012658227848,
	"grad_norm": 0.011072452180087566,
	"learning_rate": 6.38537271448664e-06,
	"loss": 0.0002,
	"step": 3360
	},
	{
	"epoch": 41.01012658227848,
	"eval_accuracy": 0.3191489361702128,
	"eval_loss": 5.0156683921813965,
	"eval_runtime": 8.468,
	"eval_samples_per_second": 5.55,
	"eval_steps_per_second": 1.417,
	"step": 3360
	},
	{
	"epoch": 42.00126582278481,
	"grad_norm": 0.022217601537704468,
	"learning_rate": 6.371308016877638e-06,
	"loss": 0.0002,
	"step": 3370
	},
	{
	"epoch": 42.00253164556962,
	"grad_norm": 65.69084167480469,
	"learning_rate": 6.3572433192686365e-06,
	"loss": 0.0037,
	"step": 3380
	},
	{
	"epoch": 42.00379746835443,
	"grad_norm": 0.07589118182659149,
	"learning_rate": 6.3431786216596345e-06,
	"loss": 0.0002,
	"step": 3390
	},
	{
	"epoch": 42.00506329113924,
	"grad_norm": 0.003494243137538433,
	"learning_rate": 6.329113924050634e-06,
	"loss": 0.0013,
	"step": 3400
	},
	{
	"epoch": 42.00632911392405,
	"grad_norm": 0.0027374387718737125,
	"learning_rate": 6.315049226441632e-06,
	"loss": 0.2015,
	"step": 3410
	},
	{
	"epoch": 42.00759493670886,
	"grad_norm": 0.0055436789989471436,
	"learning_rate": 6.300984528832631e-06,
	"loss": 0.0001,
	"step": 3420
	},
	{
	"epoch": 42.00886075949367,
	"grad_norm": 0.006678999401628971,
	"learning_rate": 6.286919831223629e-06,
	"loss": 0.0016,
	"step": 3430
	},
	{
	"epoch": 42.01012658227848,
	"grad_norm": 0.006669959519058466,
	"learning_rate": 6.272855133614629e-06,
	"loss": 0.1209,
	"step": 3440
	},
	{
	"epoch": 42.01012658227848,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 4.310915946960449,
	"eval_runtime": 8.4948,
	"eval_samples_per_second": 5.533,
	"eval_steps_per_second": 1.413,
	"step": 3440
	},
	{
	"epoch": 43.00126582278481,
	"grad_norm": 36.991024017333984,
	"learning_rate": 6.2587904360056266e-06,
	"loss": 0.0031,
	"step": 3450
	},
	{
	"epoch": 43.00253164556962,
	"grad_norm": 0.03218389302492142,
	"learning_rate": 6.244725738396625e-06,
	"loss": 0.0003,
	"step": 3460
	},
	{
	"epoch": 43.00379746835443,
	"grad_norm": 0.0067522223107516766,
	"learning_rate": 6.230661040787623e-06,
	"loss": 0.0002,
	"step": 3470
	},
	{
	"epoch": 43.00506329113924,
	"grad_norm": 0.09478826075792313,
	"learning_rate": 6.216596343178622e-06,
	"loss": 0.0001,
	"step": 3480
	},
	{
	"epoch": 43.00632911392405,
	"grad_norm": 0.006108371540904045,
	"learning_rate": 6.20253164556962e-06,
	"loss": 0.0001,
	"step": 3490
	},
	{
	"epoch": 43.00759493670886,
	"grad_norm": 0.004173735156655312,
	"learning_rate": 6.18846694796062e-06,
	"loss": 0.0002,
	"step": 3500
	},
	{
	"epoch": 43.00886075949367,
	"grad_norm": 0.004864380694925785,
	"learning_rate": 6.174402250351618e-06,
	"loss": 0.0001,
	"step": 3510
	},
	{
	"epoch": 43.01012658227848,
	"grad_norm": 0.006738508120179176,
	"learning_rate": 6.160337552742617e-06,
	"loss": 0.0001,
	"step": 3520
	},
	{
	"epoch": 43.01012658227848,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 4.459574222564697,
	"eval_runtime": 8.4737,
	"eval_samples_per_second": 5.547,
	"eval_steps_per_second": 1.416,
	"step": 3520
	},
	{
	"epoch": 44.00126582278481,
	"grad_norm": 0.00519252335652709,
	"learning_rate": 6.146272855133615e-06,
	"loss": 0.0001,
	"step": 3530
	},
	{
	"epoch": 44.00253164556962,
	"grad_norm": 0.0036063846200704575,
	"learning_rate": 6.132208157524614e-06,
	"loss": 0.0001,
	"step": 3540
	},
	{
	"epoch": 44.00379746835443,
	"grad_norm": 0.004207131918519735,
	"learning_rate": 6.118143459915612e-06,
	"loss": 0.0001,
	"step": 3550
	},
	{
	"epoch": 44.00506329113924,
	"grad_norm": 0.0024055996909737587,
	"learning_rate": 6.104078762306611e-06,
	"loss": 0.0001,
	"step": 3560
	},
	{
	"epoch": 44.00632911392405,
	"grad_norm": 0.004374026786535978,
	"learning_rate": 6.090014064697609e-06,
	"loss": 0.0001,
	"step": 3570
	},
	{
	"epoch": 44.00759493670886,
	"grad_norm": 0.0027957686688750982,
	"learning_rate": 6.075949367088608e-06,
	"loss": 0.0002,
	"step": 3580
	},
	{
	"epoch": 44.00886075949367,
	"grad_norm": 0.008639072068035603,
	"learning_rate": 6.061884669479607e-06,
	"loss": 0.004,
	"step": 3590
	},
	{
	"epoch": 44.01012658227848,
	"grad_norm": 0.011701129376888275,
	"learning_rate": 6.0478199718706055e-06,
	"loss": 0.0109,
	"step": 3600
	},
	{
	"epoch": 44.01012658227848,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 4.425137996673584,
	"eval_runtime": 8.4694,
	"eval_samples_per_second": 5.549,
	"eval_steps_per_second": 1.417,
	"step": 3600
	},
	{
	"epoch": 45.00126582278481,
	"grad_norm": 0.017412984743714333,
	"learning_rate": 6.0337552742616035e-06,
	"loss": 0.0001,
	"step": 3610
	},
	{
	"epoch": 45.00253164556962,
	"grad_norm": 0.007230939343571663,
	"learning_rate": 6.019690576652602e-06,
	"loss": 0.0698,
	"step": 3620
	},
	{
	"epoch": 45.00379746835443,
	"grad_norm": 0.014825068414211273,
	"learning_rate": 6.0056258790436e-06,
	"loss": 0.0001,
	"step": 3630
	},
	{
	"epoch": 45.00506329113924,
	"grad_norm": 0.013121239840984344,
	"learning_rate": 5.9915611814346e-06,
	"loss": 0.0001,
	"step": 3640
	},
	{
	"epoch": 45.00632911392405,
	"grad_norm": 0.013468984514474869,
	"learning_rate": 5.977496483825598e-06,
	"loss": 0.0001,
	"step": 3650
	},
	{
	"epoch": 45.00759493670886,
	"grad_norm": 0.06317138671875,
	"learning_rate": 5.963431786216597e-06,
	"loss": 0.0001,
	"step": 3660
	},
	{
	"epoch": 45.00886075949367,
	"grad_norm": 0.003630951512604952,
	"learning_rate": 5.949367088607595e-06,
	"loss": 0.1698,
	"step": 3670
	},
	{
	"epoch": 45.01012658227848,
	"grad_norm": 0.005787010304629803,
	"learning_rate": 5.935302390998594e-06,
	"loss": 0.0001,
	"step": 3680
	},
	{
	"epoch": 45.01012658227848,
	"eval_accuracy": 0.2978723404255319,
	"eval_loss": 5.296198844909668,
	"eval_runtime": 8.4784,
	"eval_samples_per_second": 5.543,
	"eval_steps_per_second": 1.415,
	"step": 3680
	},
	{
	"epoch": 46.00126582278481,
	"grad_norm": 0.00311860884539783,
	"learning_rate": 5.921237693389592e-06,
	"loss": 0.0553,
	"step": 3690
	},
	{
	"epoch": 46.00253164556962,
	"grad_norm": 0.005304061342030764,
	"learning_rate": 5.907172995780591e-06,
	"loss": 0.0002,
	"step": 3700
	},
	{
	"epoch": 46.00379746835443,
	"grad_norm": 0.015418877825140953,
	"learning_rate": 5.893108298171589e-06,
	"loss": 0.0001,
	"step": 3710
	},
	{
	"epoch": 46.00506329113924,
	"grad_norm": 0.018117068335413933,
	"learning_rate": 5.879043600562588e-06,
	"loss": 0.0024,
	"step": 3720
	},
	{
	"epoch": 46.00632911392405,
	"grad_norm": 0.004327620379626751,
	"learning_rate": 5.864978902953588e-06,
	"loss": 0.0003,
	"step": 3730
	},
	{
	"epoch": 46.00759493670886,
	"grad_norm": 0.024266647174954414,
	"learning_rate": 5.850914205344586e-06,
	"loss": 0.0001,
	"step": 3740
	},
	{
	"epoch": 46.00886075949367,
	"grad_norm": 414.96563720703125,
	"learning_rate": 5.8368495077355845e-06,
	"loss": 0.0487,
	"step": 3750
	},
	{
	"epoch": 46.01012658227848,
	"grad_norm": 0.008569066412746906,
	"learning_rate": 5.8227848101265824e-06,
	"loss": 0.1516,
	"step": 3760
	},
	{
	"epoch": 46.01012658227848,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 4.23142147064209,
	"eval_runtime": 8.4548,
	"eval_samples_per_second": 5.559,
	"eval_steps_per_second": 1.419,
	"step": 3760
	},
	{
	"epoch": 47.00126582278481,
	"grad_norm": 5.414425849914551,
	"learning_rate": 5.808720112517582e-06,
	"loss": 0.0007,
	"step": 3770
	},
	{
	"epoch": 47.00253164556962,
	"grad_norm": 0.0027215760201215744,
	"learning_rate": 5.79465541490858e-06,
	"loss": 0.0002,
	"step": 3780
	},
	{
	"epoch": 47.00379746835443,
	"grad_norm": 0.15611502528190613,
	"learning_rate": 5.780590717299579e-06,
	"loss": 0.0073,
	"step": 3790
	},
	{
	"epoch": 47.00506329113924,
	"grad_norm": 0.0019717360846698284,
	"learning_rate": 5.766526019690577e-06,
	"loss": 0.0003,
	"step": 3800
	},
	{
	"epoch": 47.00632911392405,
	"grad_norm": 0.005944707430899143,
	"learning_rate": 5.7524613220815765e-06,
	"loss": 0.0035,
	"step": 3810
	},
	{
	"epoch": 47.00759493670886,
	"grad_norm": 0.00346226803958416,
	"learning_rate": 5.7383966244725745e-06,
	"loss": 0.0001,
	"step": 3820
	},
	{
	"epoch": 47.00886075949367,
	"grad_norm": 0.024175411090254784,
	"learning_rate": 5.724331926863573e-06,
	"loss": 0.0193,
	"step": 3830
	},
	{
	"epoch": 47.01012658227848,
	"grad_norm": 0.03984224796295166,
	"learning_rate": 5.710267229254571e-06,
	"loss": 0.0001,
	"step": 3840
	},
	{
	"epoch": 47.01012658227848,
	"eval_accuracy": 0.5319148936170213,
	"eval_loss": 4.070488929748535,
	"eval_runtime": 8.5074,
	"eval_samples_per_second": 5.525,
	"eval_steps_per_second": 1.411,
	"step": 3840
	},
	{
	"epoch": 48.00126582278481,
	"grad_norm": 0.012625842355191708,
	"learning_rate": 5.69620253164557e-06,
	"loss": 0.0218,
	"step": 3850
	},
	{
	"epoch": 48.00253164556962,
	"grad_norm": 0.008255310356616974,
	"learning_rate": 5.682137834036568e-06,
	"loss": 0.012,
	"step": 3860
	},
	{
	"epoch": 48.00379746835443,
	"grad_norm": 0.019036876037716866,
	"learning_rate": 5.668073136427568e-06,
	"loss": 0.001,
	"step": 3870
	},
	{
	"epoch": 48.00506329113924,
	"grad_norm": 0.013268685899674892,
	"learning_rate": 5.654008438818566e-06,
	"loss": 0.0002,
	"step": 3880
	},
	{
	"epoch": 48.00632911392405,
	"grad_norm": 0.01589319296181202,
	"learning_rate": 5.639943741209565e-06,
	"loss": 0.0756,
	"step": 3890
	},
	{
	"epoch": 48.00759493670886,
	"grad_norm": 0.0036217246670275927,
	"learning_rate": 5.6258790436005626e-06,
	"loss": 0.1435,
	"step": 3900
	},
	{
	"epoch": 48.00886075949367,
	"grad_norm": 0.002351459814235568,
	"learning_rate": 5.611814345991562e-06,
	"loss": 0.0001,
	"step": 3910
	},
	{
	"epoch": 48.01012658227848,
	"grad_norm": 0.0023628135677427053,
	"learning_rate": 5.59774964838256e-06,
	"loss": 0.0001,
	"step": 3920
	},
	{
	"epoch": 48.01012658227848,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.55861234664917,
	"eval_runtime": 8.4995,
	"eval_samples_per_second": 5.53,
	"eval_steps_per_second": 1.412,
	"step": 3920
	},
	{
	"epoch": 49.00126582278481,
	"grad_norm": 0.003683815710246563,
	"learning_rate": 5.583684950773559e-06,
	"loss": 0.0001,
	"step": 3930
	},
	{
	"epoch": 49.00253164556962,
	"grad_norm": 0.004656449891626835,
	"learning_rate": 5.569620253164557e-06,
	"loss": 0.0001,
	"step": 3940
	},
	{
	"epoch": 49.00379746835443,
	"grad_norm": 0.012214281596243382,
	"learning_rate": 5.555555555555557e-06,
	"loss": 0.0052,
	"step": 3950
	},
	{
	"epoch": 49.00506329113924,
	"grad_norm": 0.009479358792304993,
	"learning_rate": 5.541490857946555e-06,
	"loss": 0.012,
	"step": 3960
	},
	{
	"epoch": 49.00632911392405,
	"grad_norm": 0.008819793350994587,
	"learning_rate": 5.5274261603375535e-06,
	"loss": 0.0001,
	"step": 3970
	},
	{
	"epoch": 49.00759493670886,
	"grad_norm": 0.04174829646945,
	"learning_rate": 5.5133614627285514e-06,
	"loss": 0.0001,
	"step": 3980
	},
	{
	"epoch": 49.00886075949367,
	"grad_norm": 0.0032157686073333025,
	"learning_rate": 5.49929676511955e-06,
	"loss": 0.1845,
	"step": 3990
	},
	{
	"epoch": 49.01012658227848,
	"grad_norm": 0.010618672706186771,
	"learning_rate": 5.485232067510548e-06,
	"loss": 0.0266,
	"step": 4000
	},
	{
	"epoch": 49.01012658227848,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 4.947876453399658,
	"eval_runtime": 8.5288,
	"eval_samples_per_second": 5.511,
	"eval_steps_per_second": 1.407,
	"step": 4000
	},
	{
	"epoch": 50.00126582278481,
	"grad_norm": 0.056022197008132935,
	"learning_rate": 5.471167369901548e-06,
	"loss": 0.2505,
	"step": 4010
	},
	{
	"epoch": 50.00253164556962,
	"grad_norm": 0.004495659377425909,
	"learning_rate": 5.457102672292546e-06,
	"loss": 0.053,
	"step": 4020
	},
	{
	"epoch": 50.00379746835443,
	"grad_norm": 0.003035302273929119,
	"learning_rate": 5.443037974683545e-06,
	"loss": 0.0001,
	"step": 4030
	},
	{
	"epoch": 50.00506329113924,
	"grad_norm": 0.006570629775524139,
	"learning_rate": 5.428973277074543e-06,
	"loss": 0.0002,
	"step": 4040
	},
	{
	"epoch": 50.00632911392405,
	"grad_norm": 323.4715881347656,
	"learning_rate": 5.414908579465542e-06,
	"loss": 0.055,
	"step": 4050
	},
	{
	"epoch": 50.00759493670886,
	"grad_norm": 0.002824920229613781,
	"learning_rate": 5.40084388185654e-06,
	"loss": 0.0001,
	"step": 4060
	},
	{
	"epoch": 50.00886075949367,
	"grad_norm": 0.06357023864984512,
	"learning_rate": 5.386779184247539e-06,
	"loss": 0.0001,
	"step": 4070
	},
	{
	"epoch": 50.01012658227848,
	"grad_norm": 0.004729899112135172,
	"learning_rate": 5.372714486638537e-06,
	"loss": 0.0001,
	"step": 4080
	},
	{
	"epoch": 50.01012658227848,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 4.32703161239624,
	"eval_runtime": 8.4715,
	"eval_samples_per_second": 5.548,
	"eval_steps_per_second": 1.417,
	"step": 4080
	},
	{
	"epoch": 51.00126582278481,
	"grad_norm": 0.008333638310432434,
	"learning_rate": 5.358649789029536e-06,
	"loss": 0.0002,
	"step": 4090
	},
	{
	"epoch": 51.00253164556962,
	"grad_norm": 0.009458293206989765,
	"learning_rate": 5.344585091420535e-06,
	"loss": 0.0001,
	"step": 4100
	},
	{
	"epoch": 51.00379746835443,
	"grad_norm": 0.0024418376851826906,
	"learning_rate": 5.330520393811534e-06,
	"loss": 0.0002,
	"step": 4110
	},
	{
	"epoch": 51.00506329113924,
	"grad_norm": 0.004669019021093845,
	"learning_rate": 5.3164556962025316e-06,
	"loss": 0.0001,
	"step": 4120
	},
	{
	"epoch": 51.00632911392405,
	"grad_norm": 0.003113614860922098,
	"learning_rate": 5.30239099859353e-06,
	"loss": 0.0012,
	"step": 4130
	},
	{
	"epoch": 51.00759493670886,
	"grad_norm": 0.003157148603349924,
	"learning_rate": 5.28832630098453e-06,
	"loss": 0.0001,
	"step": 4140
	},
	{
	"epoch": 51.00886075949367,
	"grad_norm": 0.004666858818382025,
	"learning_rate": 5.274261603375528e-06,
	"loss": 0.1445,
	"step": 4150
	},
	{
	"epoch": 51.01012658227848,
	"grad_norm": 0.002661221195012331,
	"learning_rate": 5.260196905766527e-06,
	"loss": 0.1307,
	"step": 4160
	},
	{
	"epoch": 51.01012658227848,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 4.794792175292969,
	"eval_runtime": 8.4848,
	"eval_samples_per_second": 5.539,
	"eval_steps_per_second": 1.414,
	"step": 4160
	},
	{
	"epoch": 52.00126582278481,
	"grad_norm": 0.001836895477026701,
	"learning_rate": 5.246132208157525e-06,
	"loss": 0.0002,
	"step": 4170
	},
	{
	"epoch": 52.00253164556962,
	"grad_norm": 2.3909878730773926,
	"learning_rate": 5.2320675105485245e-06,
	"loss": 0.0084,
	"step": 4180
	},
	{
	"epoch": 52.00379746835443,
	"grad_norm": 0.0022460331674665213,
	"learning_rate": 5.2180028129395225e-06,
	"loss": 0.0005,
	"step": 4190
	},
	{
	"epoch": 52.00506329113924,
	"grad_norm": 0.7268118858337402,
	"learning_rate": 5.203938115330521e-06,
	"loss": 0.0008,
	"step": 4200
	},
	{
	"epoch": 52.00632911392405,
	"grad_norm": 0.0033825428690761328,
	"learning_rate": 5.189873417721519e-06,
	"loss": 0.0001,
	"step": 4210
	},
	{
	"epoch": 52.00759493670886,
	"grad_norm": 0.006189883220940828,
	"learning_rate": 5.175808720112518e-06,
	"loss": 0.0001,
	"step": 4220
	},
	{
	"epoch": 52.00886075949367,
	"grad_norm": 0.006958500016480684,
	"learning_rate": 5.161744022503516e-06,
	"loss": 0.0002,
	"step": 4230
	},
	{
	"epoch": 52.01012658227848,
	"grad_norm": 0.003031873842701316,
	"learning_rate": 5.147679324894516e-06,
	"loss": 0.0019,
	"step": 4240
	},
	{
	"epoch": 52.01012658227848,
	"eval_accuracy": 0.3617021276595745,
	"eval_loss": 4.363827705383301,
	"eval_runtime": 8.6439,
	"eval_samples_per_second": 5.437,
	"eval_steps_per_second": 1.388,
	"step": 4240
	},
	{
	"epoch": 53.00126582278481,
	"grad_norm": 0.09558191895484924,
	"learning_rate": 5.133614627285514e-06,
	"loss": 0.0001,
	"step": 4250
	},
	{
	"epoch": 53.00253164556962,
	"grad_norm": 0.002434414578601718,
	"learning_rate": 5.1195499296765125e-06,
	"loss": 0.0007,
	"step": 4260
	},
	{
	"epoch": 53.00379746835443,
	"grad_norm": 0.018281536176800728,
	"learning_rate": 5.1054852320675105e-06,
	"loss": 0.0004,
	"step": 4270
	},
	{
	"epoch": 53.00506329113924,
	"grad_norm": 0.003481107298284769,
	"learning_rate": 5.09142053445851e-06,
	"loss": 0.0001,
	"step": 4280
	},
	{
	"epoch": 53.00632911392405,
	"grad_norm": 0.0011617491254583001,
	"learning_rate": 5.077355836849508e-06,
	"loss": 0.0001,
	"step": 4290
	},
	{
	"epoch": 53.00759493670886,
	"grad_norm": 0.007551996968686581,
	"learning_rate": 5.063291139240507e-06,
	"loss": 0.0001,
	"step": 4300
	},
	{
	"epoch": 53.00886075949367,
	"grad_norm": 0.003541940590366721,
	"learning_rate": 5.049226441631505e-06,
	"loss": 0.0001,
	"step": 4310
	},
	{
	"epoch": 53.01012658227848,
	"grad_norm": 0.0031788817141205072,
	"learning_rate": 5.035161744022505e-06,
	"loss": 0.0001,
	"step": 4320
	},
	{
	"epoch": 53.01012658227848,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.586310386657715,
	"eval_runtime": 8.4934,
	"eval_samples_per_second": 5.534,
	"eval_steps_per_second": 1.413,
	"step": 4320
	},
	{
	"epoch": 54.00126582278481,
	"grad_norm": 0.0024340234231203794,
	"learning_rate": 5.021097046413503e-06,
	"loss": 0.0001,
	"step": 4330
	},
	{
	"epoch": 54.00253164556962,
	"grad_norm": 0.0034480541944503784,
	"learning_rate": 5.007032348804501e-06,
	"loss": 0.0001,
	"step": 4340
	},
	{
	"epoch": 54.00379746835443,
	"grad_norm": 0.0023180190473794937,
	"learning_rate": 4.9929676511955e-06,
	"loss": 0.0001,
	"step": 4350
	},
	{
	"epoch": 54.00506329113924,
	"grad_norm": 0.0015061123995110393,
	"learning_rate": 4.978902953586498e-06,
	"loss": 0.0001,
	"step": 4360
	},
	{
	"epoch": 54.00632911392405,
	"grad_norm": 0.013990904204547405,
	"learning_rate": 4.964838255977497e-06,
	"loss": 0.0001,
	"step": 4370
	},
	{
	"epoch": 54.00759493670886,
	"grad_norm": 0.0013285009190440178,
	"learning_rate": 4.950773558368496e-06,
	"loss": 0.0001,
	"step": 4380
	},
	{
	"epoch": 54.00886075949367,
	"grad_norm": 0.00343449623323977,
	"learning_rate": 4.936708860759495e-06,
	"loss": 0.0001,
	"step": 4390
	},
	{
	"epoch": 54.01012658227848,
	"grad_norm": 0.003100321162492037,
	"learning_rate": 4.922644163150493e-06,
	"loss": 0.0001,
	"step": 4400
	},
	{
	"epoch": 54.01012658227848,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.737309455871582,
	"eval_runtime": 8.4983,
	"eval_samples_per_second": 5.53,
	"eval_steps_per_second": 1.412,
	"step": 4400
	},
	{
	"epoch": 55.00126582278481,
	"grad_norm": 0.0022656081710010767,
	"learning_rate": 4.9085794655414915e-06,
	"loss": 0.0001,
	"step": 4410
	},
	{
	"epoch": 55.00253164556962,
	"grad_norm": 0.002674259478226304,
	"learning_rate": 4.89451476793249e-06,
	"loss": 0.0001,
	"step": 4420
	},
	{
	"epoch": 55.00379746835443,
	"grad_norm": 0.0027046040631830692,
	"learning_rate": 4.880450070323488e-06,
	"loss": 0.0024,
	"step": 4430
	},
	{
	"epoch": 55.00506329113924,
	"grad_norm": 0.003956619184464216,
	"learning_rate": 4.866385372714487e-06,
	"loss": 0.0001,
	"step": 4440
	},
	{
	"epoch": 55.00632911392405,
	"grad_norm": 0.03139903396368027,
	"learning_rate": 4.852320675105486e-06,
	"loss": 0.0742,
	"step": 4450
	},
	{
	"epoch": 55.00759493670886,
	"grad_norm": 0.00574122928082943,
	"learning_rate": 4.838255977496485e-06,
	"loss": 0.2666,
	"step": 4460
	},
	{
	"epoch": 55.00886075949367,
	"grad_norm": 0.012300165370106697,
	"learning_rate": 4.824191279887483e-06,
	"loss": 0.0001,
	"step": 4470
	},
	{
	"epoch": 55.01012658227848,
	"grad_norm": 5.114750385284424,
	"learning_rate": 4.8101265822784815e-06,
	"loss": 0.0006,
	"step": 4480
	},
	{
	"epoch": 55.01012658227848,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 3.9066474437713623,
	"eval_runtime": 8.5347,
	"eval_samples_per_second": 5.507,
	"eval_steps_per_second": 1.406,
	"step": 4480
	},
	{
	"epoch": 56.00126582278481,
	"grad_norm": 11.49494457244873,
	"learning_rate": 4.79606188466948e-06,
	"loss": 0.0011,
	"step": 4490
	},
	{
	"epoch": 56.00253164556962,
	"grad_norm": 0.005774380173534155,
	"learning_rate": 4.781997187060478e-06,
	"loss": 0.0001,
	"step": 4500
	},
	{
	"epoch": 56.00379746835443,
	"grad_norm": 0.006357602309435606,
	"learning_rate": 4.767932489451477e-06,
	"loss": 0.0001,
	"step": 4510
	},
	{
	"epoch": 56.00506329113924,
	"grad_norm": 0.002659859601408243,
	"learning_rate": 4.753867791842476e-06,
	"loss": 0.0017,
	"step": 4520
	},
	{
	"epoch": 56.00632911392405,
	"grad_norm": 0.013889423571527004,
	"learning_rate": 4.739803094233475e-06,
	"loss": 0.0001,
	"step": 4530
	},
	{
	"epoch": 56.00759493670886,
	"grad_norm": 0.002410717075690627,
	"learning_rate": 4.725738396624473e-06,
	"loss": 0.0001,
	"step": 4540
	},
	{
	"epoch": 56.00886075949367,
	"grad_norm": 0.0023062098771333694,
	"learning_rate": 4.711673699015472e-06,
	"loss": 0.0001,
	"step": 4550
	},
	{
	"epoch": 56.01012658227848,
	"grad_norm": 0.0023318820167332888,
	"learning_rate": 4.6976090014064704e-06,
	"loss": 0.0001,
	"step": 4560
	},
	{
	"epoch": 56.01012658227848,
	"eval_accuracy": 0.46808510638297873,
	"eval_loss": 4.031365394592285,
	"eval_runtime": 8.457,
	"eval_samples_per_second": 5.558,
	"eval_steps_per_second": 1.419,
	"step": 4560
	},
	{
	"epoch": 57.00126582278481,
	"grad_norm": 0.004980940837413073,
	"learning_rate": 4.683544303797468e-06,
	"loss": 0.0001,
	"step": 4570
	},
	{
	"epoch": 57.00253164556962,
	"grad_norm": 0.0019251375924795866,
	"learning_rate": 4.669479606188467e-06,
	"loss": 0.0001,
	"step": 4580
	},
	{
	"epoch": 57.00379746835443,
	"grad_norm": 0.0028012413531541824,
	"learning_rate": 4.655414908579466e-06,
	"loss": 0.0174,
	"step": 4590
	},
	{
	"epoch": 57.00506329113924,
	"grad_norm": 143.03387451171875,
	"learning_rate": 4.641350210970465e-06,
	"loss": 0.0119,
	"step": 4600
	},
	{
	"epoch": 57.00632911392405,
	"grad_norm": 0.003186359303072095,
	"learning_rate": 4.627285513361463e-06,
	"loss": 0.0001,
	"step": 4610
	},
	{
	"epoch": 57.00759493670886,
	"grad_norm": 0.11152984201908112,
	"learning_rate": 4.613220815752462e-06,
	"loss": 0.0037,
	"step": 4620
	},
	{
	"epoch": 57.00886075949367,
	"grad_norm": 0.001349453697912395,
	"learning_rate": 4.5991561181434605e-06,
	"loss": 0.1545,
	"step": 4630
	},
	{
	"epoch": 57.01012658227848,
	"grad_norm": 0.05059582367539406,
	"learning_rate": 4.5850914205344585e-06,
	"loss": 0.0001,
	"step": 4640
	},
	{
	"epoch": 57.01012658227848,
	"eval_accuracy": 0.5106382978723404,
	"eval_loss": 4.058121204376221,
	"eval_runtime": 8.491,
	"eval_samples_per_second": 5.535,
	"eval_steps_per_second": 1.413,
	"step": 4640
	},
	{
	"epoch": 58.00126582278481,
	"grad_norm": 0.003746249247342348,
	"learning_rate": 4.571026722925457e-06,
	"loss": 0.0,
	"step": 4650
	},
	{
	"epoch": 58.00253164556962,
	"grad_norm": 0.0019692752975970507,
	"learning_rate": 4.556962025316456e-06,
	"loss": 0.0001,
	"step": 4660
	},
	{
	"epoch": 58.00379746835443,
	"grad_norm": 0.002934554358944297,
	"learning_rate": 4.542897327707454e-06,
	"loss": 0.0001,
	"step": 4670
	},
	{
	"epoch": 58.00506329113924,
	"grad_norm": 0.005108493380248547,
	"learning_rate": 4.528832630098453e-06,
	"loss": 0.0402,
	"step": 4680
	},
	{
	"epoch": 58.00632911392405,
	"grad_norm": 0.004260794725269079,
	"learning_rate": 4.514767932489452e-06,
	"loss": 0.0006,
	"step": 4690
	},
	{
	"epoch": 58.00759493670886,
	"grad_norm": 0.06016235053539276,
	"learning_rate": 4.5007032348804506e-06,
	"loss": 0.0004,
	"step": 4700
	},
	{
	"epoch": 58.00886075949367,
	"grad_norm": 0.0011827549897134304,
	"learning_rate": 4.4866385372714485e-06,
	"loss": 0.114,
	"step": 4710
	},
	{
	"epoch": 58.01012658227848,
	"grad_norm": 0.002215220592916012,
	"learning_rate": 4.472573839662447e-06,
	"loss": 0.0001,
	"step": 4720
	},
	{
	"epoch": 58.01012658227848,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 5.004458904266357,
	"eval_runtime": 8.4472,
	"eval_samples_per_second": 5.564,
	"eval_steps_per_second": 1.421,
	"step": 4720
	},
	{
	"epoch": 59.00126582278481,
	"grad_norm": 0.004406394902616739,
	"learning_rate": 4.458509142053446e-06,
	"loss": 0.0005,
	"step": 4730
	},
	{
	"epoch": 59.00253164556962,
	"grad_norm": 0.002640231978148222,
	"learning_rate": 4.444444444444444e-06,
	"loss": 0.0001,
	"step": 4740
	},
	{
	"epoch": 59.00379746835443,
	"grad_norm": 0.0029783693607896566,
	"learning_rate": 4.430379746835443e-06,
	"loss": 0.0001,
	"step": 4750
	},
	{
	"epoch": 59.00506329113924,
	"grad_norm": 0.013541797176003456,
	"learning_rate": 4.416315049226442e-06,
	"loss": 0.0004,
	"step": 4760
	},
	{
	"epoch": 59.00632911392405,
	"grad_norm": 0.0070534199476242065,
	"learning_rate": 4.402250351617441e-06,
	"loss": 0.0002,
	"step": 4770
	},
	{
	"epoch": 59.00759493670886,
	"grad_norm": 0.0034858768340200186,
	"learning_rate": 4.3881856540084394e-06,
	"loss": 0.0001,
	"step": 4780
	},
	{
	"epoch": 59.00886075949367,
	"grad_norm": 0.00406244769692421,
	"learning_rate": 4.374120956399438e-06,
	"loss": 0.0,
	"step": 4790
	},
	{
	"epoch": 59.01012658227848,
	"grad_norm": 0.0017109077889472246,
	"learning_rate": 4.360056258790436e-06,
	"loss": 0.0001,
	"step": 4800
	},
	{
	"epoch": 59.01012658227848,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.089483737945557,
	"eval_runtime": 8.467,
	"eval_samples_per_second": 5.551,
	"eval_steps_per_second": 1.417,
	"step": 4800
	},
	{
	"epoch": 60.00126582278481,
	"grad_norm": 0.0024315589107573032,
	"learning_rate": 4.345991561181435e-06,
	"loss": 0.0,
	"step": 4810
	},
	{
	"epoch": 60.00253164556962,
	"grad_norm": 0.0012313745683059096,
	"learning_rate": 4.331926863572434e-06,
	"loss": 0.0001,
	"step": 4820
	},
	{
	"epoch": 60.00379746835443,
	"grad_norm": 0.0019479021430015564,
	"learning_rate": 4.317862165963433e-06,
	"loss": 0.0004,
	"step": 4830
	},
	{
	"epoch": 60.00506329113924,
	"grad_norm": 0.00494040735065937,
	"learning_rate": 4.303797468354431e-06,
	"loss": 0.0872,
	"step": 4840
	},
	{
	"epoch": 60.00632911392405,
	"grad_norm": 0.012567605823278427,
	"learning_rate": 4.2897327707454295e-06,
	"loss": 0.0011,
	"step": 4850
	},
	{
	"epoch": 60.00759493670886,
	"grad_norm": 0.002357608638703823,
	"learning_rate": 4.275668073136428e-06,
	"loss": 0.0296,
	"step": 4860
	},
	{
	"epoch": 60.00886075949367,
	"grad_norm": 0.0030609623063355684,
	"learning_rate": 4.261603375527426e-06,
	"loss": 0.0243,
	"step": 4870
	},
	{
	"epoch": 60.01012658227848,
	"grad_norm": 0.0016012099804356694,
	"learning_rate": 4.247538677918425e-06,
	"loss": 0.0713,
	"step": 4880
	},
	{
	"epoch": 60.01012658227848,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 5.042915344238281,
	"eval_runtime": 8.491,
	"eval_samples_per_second": 5.535,
	"eval_steps_per_second": 1.413,
	"step": 4880
	},
	{
	"epoch": 61.00126582278481,
	"grad_norm": 0.004251533187925816,
	"learning_rate": 4.233473980309424e-06,
	"loss": 0.0766,
	"step": 4890
	},
	{
	"epoch": 61.00253164556962,
	"grad_norm": 0.0019293460063636303,
	"learning_rate": 4.219409282700423e-06,
	"loss": 0.0006,
	"step": 4900
	},
	{
	"epoch": 61.00379746835443,
	"grad_norm": 0.004420694895088673,
	"learning_rate": 4.205344585091421e-06,
	"loss": 0.0567,
	"step": 4910
	},
	{
	"epoch": 61.00506329113924,
	"grad_norm": 0.2990714907646179,
	"learning_rate": 4.1912798874824196e-06,
	"loss": 0.0274,
	"step": 4920
	},
	{
	"epoch": 61.00632911392405,
	"grad_norm": 0.004468689672648907,
	"learning_rate": 4.177215189873418e-06,
	"loss": 0.0001,
	"step": 4930
	},
	{
	"epoch": 61.00759493670886,
	"grad_norm": 0.004564017057418823,
	"learning_rate": 4.163150492264416e-06,
	"loss": 0.2423,
	"step": 4940
	},
	{
	"epoch": 61.00886075949367,
	"grad_norm": 93.79319763183594,
	"learning_rate": 4.149085794655415e-06,
	"loss": 0.0517,
	"step": 4950
	},
	{
	"epoch": 61.01012658227848,
	"grad_norm": 0.004615637473762035,
	"learning_rate": 4.135021097046414e-06,
	"loss": 0.0017,
	"step": 4960
	},
	{
	"epoch": 61.01012658227848,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.786965370178223,
	"eval_runtime": 8.4752,
	"eval_samples_per_second": 5.546,
	"eval_steps_per_second": 1.416,
	"step": 4960
	},
	{
	"epoch": 62.00126582278481,
	"grad_norm": 0.061868444085121155,
	"learning_rate": 4.120956399437413e-06,
	"loss": 0.0001,
	"step": 4970
	},
	{
	"epoch": 62.00253164556962,
	"grad_norm": 0.006057640537619591,
	"learning_rate": 4.106891701828411e-06,
	"loss": 0.0013,
	"step": 4980
	},
	{
	"epoch": 62.00379746835443,
	"grad_norm": 4.027284145355225,
	"learning_rate": 4.09282700421941e-06,
	"loss": 0.0004,
	"step": 4990
	},
	{
	"epoch": 62.00506329113924,
	"grad_norm": 0.00944253709167242,
	"learning_rate": 4.0787623066104084e-06,
	"loss": 0.0001,
	"step": 5000
	},
	{
	"epoch": 62.00632911392405,
	"grad_norm": 0.0035694832913577557,
	"learning_rate": 4.064697609001406e-06,
	"loss": 0.0001,
	"step": 5010
	},
	{
	"epoch": 62.00759493670886,
	"grad_norm": 0.0015398276736959815,
	"learning_rate": 4.050632911392405e-06,
	"loss": 0.0671,
	"step": 5020
	},
	{
	"epoch": 62.00886075949367,
	"grad_norm": 0.002066017361357808,
	"learning_rate": 4.036568213783404e-06,
	"loss": 0.0009,
	"step": 5030
	},
	{
	"epoch": 62.01012658227848,
	"grad_norm": 0.003685934003442526,
	"learning_rate": 4.022503516174403e-06,
	"loss": 0.0676,
	"step": 5040
	},
	{
	"epoch": 62.01012658227848,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 5.095708847045898,
	"eval_runtime": 8.4925,
	"eval_samples_per_second": 5.534,
	"eval_steps_per_second": 1.413,
	"step": 5040
	},
	{
	"epoch": 63.00126582278481,
	"grad_norm": 0.0065714651718735695,
	"learning_rate": 4.008438818565401e-06,
	"loss": 0.0001,
	"step": 5050
	},
	{
	"epoch": 63.00253164556962,
	"grad_norm": 0.003956567496061325,
	"learning_rate": 3.9943741209564e-06,
	"loss": 0.0001,
	"step": 5060
	},
	{
	"epoch": 63.00379746835443,
	"grad_norm": 0.008157577365636826,
	"learning_rate": 3.9803094233473985e-06,
	"loss": 0.0,
	"step": 5070
	},
	{
	"epoch": 63.00506329113924,
	"grad_norm": 0.0031191923189908266,
	"learning_rate": 3.9662447257383965e-06,
	"loss": 0.0,
	"step": 5080
	},
	{
	"epoch": 63.00632911392405,
	"grad_norm": 0.0020041377283632755,
	"learning_rate": 3.952180028129395e-06,
	"loss": 0.0001,
	"step": 5090
	},
	{
	"epoch": 63.00759493670886,
	"grad_norm": 0.004067094065248966,
	"learning_rate": 3.938115330520394e-06,
	"loss": 0.0001,
	"step": 5100
	},
	{
	"epoch": 63.00886075949367,
	"grad_norm": 0.0008815817418508232,
	"learning_rate": 3.924050632911393e-06,
	"loss": 0.0,
	"step": 5110
	},
	{
	"epoch": 63.01012658227848,
	"grad_norm": 0.008889904245734215,
	"learning_rate": 3.909985935302391e-06,
	"loss": 0.0,
	"step": 5120
	},
	{
	"epoch": 63.01012658227848,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 4.606178283691406,
	"eval_runtime": 8.459,
	"eval_samples_per_second": 5.556,
	"eval_steps_per_second": 1.419,
	"step": 5120
	},
	{
	"epoch": 64.00126582278482,
	"grad_norm": 0.0015669207787141204,
	"learning_rate": 3.89592123769339e-06,
	"loss": 0.0,
	"step": 5130
	},
	{
	"epoch": 64.00253164556962,
	"grad_norm": 0.0011807240080088377,
	"learning_rate": 3.8818565400843886e-06,
	"loss": 0.0,
	"step": 5140
	},
	{
	"epoch": 64.00379746835443,
	"grad_norm": 0.0015742299146950245,
	"learning_rate": 3.8677918424753865e-06,
	"loss": 0.0,
	"step": 5150
	},
	{
	"epoch": 64.00506329113924,
	"grad_norm": 0.004820580128580332,
	"learning_rate": 3.853727144866385e-06,
	"loss": 0.0,
	"step": 5160
	},
	{
	"epoch": 64.00632911392405,
	"grad_norm": 0.0032741015311330557,
	"learning_rate": 3.839662447257384e-06,
	"loss": 0.0008,
	"step": 5170
	},
	{
	"epoch": 64.00759493670886,
	"grad_norm": 0.0036417359951883554,
	"learning_rate": 3.825597749648383e-06,
	"loss": 0.0,
	"step": 5180
	},
	{
	"epoch": 64.00886075949367,
	"grad_norm": 0.008372402749955654,
	"learning_rate": 3.811533052039382e-06,
	"loss": 0.0001,
	"step": 5190
	},
	{
	"epoch": 64.01012658227847,
	"grad_norm": 0.003397272201254964,
	"learning_rate": 3.7974683544303802e-06,
	"loss": 0.0045,
	"step": 5200
	},
	{
	"epoch": 64.01012658227847,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 5.245887756347656,
	"eval_runtime": 8.4656,
	"eval_samples_per_second": 5.552,
	"eval_steps_per_second": 1.418,
	"step": 5200
	},
	{
	"epoch": 65.00126582278482,
	"grad_norm": 0.0019356166012585163,
	"learning_rate": 3.783403656821379e-06,
	"loss": 0.0014,
	"step": 5210
	},
	{
	"epoch": 65.00253164556962,
	"grad_norm": 0.0013496861793100834,
	"learning_rate": 3.7693389592123775e-06,
	"loss": 0.0267,
	"step": 5220
	},
	{
	"epoch": 65.00379746835443,
	"grad_norm": 0.04248461872339249,
	"learning_rate": 3.755274261603376e-06,
	"loss": 0.0002,
	"step": 5230
	},
	{
	"epoch": 65.00506329113924,
	"grad_norm": 0.004868203774094582,
	"learning_rate": 3.7412095639943747e-06,
	"loss": 0.002,
	"step": 5240
	},
	{
	"epoch": 65.00632911392405,
	"grad_norm": 0.0008925410802476108,
	"learning_rate": 3.727144866385373e-06,
	"loss": 0.0,
	"step": 5250
	},
	{
	"epoch": 65.00759493670886,
	"grad_norm": 0.0019144342513754964,
	"learning_rate": 3.713080168776372e-06,
	"loss": 0.0,
	"step": 5260
	},
	{
	"epoch": 65.00886075949367,
	"grad_norm": 0.001448463648557663,
	"learning_rate": 3.6990154711673703e-06,
	"loss": 0.0001,
	"step": 5270
	},
	{
	"epoch": 65.01012658227847,
	"grad_norm": 0.0024687196128070354,
	"learning_rate": 3.684950773558369e-06,
	"loss": 0.0943,
	"step": 5280
	},
	{
	"epoch": 65.01012658227847,
	"eval_accuracy": 0.3617021276595745,
	"eval_loss": 5.0856242179870605,
	"eval_runtime": 8.4623,
	"eval_samples_per_second": 5.554,
	"eval_steps_per_second": 1.418,
	"step": 5280
	},
	{
	"epoch": 66.00126582278482,
	"grad_norm": 0.0016155457124114037,
	"learning_rate": 3.6708860759493675e-06,
	"loss": 0.0001,
	"step": 5290
	},
	{
	"epoch": 66.00253164556962,
	"grad_norm": 0.17640484869480133,
	"learning_rate": 3.656821378340366e-06,
	"loss": 0.0001,
	"step": 5300
	},
	{
	"epoch": 66.00379746835443,
	"grad_norm": 0.0015737387584522367,
	"learning_rate": 3.6427566807313647e-06,
	"loss": 0.0,
	"step": 5310
	},
	{
	"epoch": 66.00506329113924,
	"grad_norm": 0.015487028285861015,
	"learning_rate": 3.628691983122363e-06,
	"loss": 0.0001,
	"step": 5320
	},
	{
	"epoch": 66.00632911392405,
	"grad_norm": 0.0009026491898111999,
	"learning_rate": 3.614627285513362e-06,
	"loss": 0.0143,
	"step": 5330
	},
	{
	"epoch": 66.00759493670886,
	"grad_norm": 0.0015520367305725813,
	"learning_rate": 3.6005625879043604e-06,
	"loss": 0.0048,
	"step": 5340
	},
	{
	"epoch": 66.00886075949367,
	"grad_norm": 0.007421619724482298,
	"learning_rate": 3.586497890295359e-06,
	"loss": 0.0,
	"step": 5350
	},
	{
	"epoch": 66.01012658227847,
	"grad_norm": 0.0009921834571287036,
	"learning_rate": 3.5724331926863576e-06,
	"loss": 0.0002,
	"step": 5360
	},
	{
	"epoch": 66.01012658227847,
	"eval_accuracy": 0.48936170212765956,
	"eval_loss": 4.449216365814209,
	"eval_runtime": 8.455,
	"eval_samples_per_second": 5.559,
	"eval_steps_per_second": 1.419,
	"step": 5360
	},
	{
	"epoch": 67.00126582278482,
	"grad_norm": 0.009655151516199112,
	"learning_rate": 3.558368495077356e-06,
	"loss": 0.0001,
	"step": 5370
	},
	{
	"epoch": 67.00253164556962,
	"grad_norm": 0.004027712158858776,
	"learning_rate": 3.544303797468355e-06,
	"loss": 0.0001,
	"step": 5380
	},
	{
	"epoch": 67.00379746835443,
	"grad_norm": 0.002234363229945302,
	"learning_rate": 3.530239099859353e-06,
	"loss": 0.0001,
	"step": 5390
	},
	{
	"epoch": 67.00506329113924,
	"grad_norm": 0.001890279003418982,
	"learning_rate": 3.516174402250352e-06,
	"loss": 0.0001,
	"step": 5400
	},
	{
	"epoch": 67.00632911392405,
	"grad_norm": 0.0018905351171270013,
	"learning_rate": 3.5021097046413504e-06,
	"loss": 0.0,
	"step": 5410
	},
	{
	"epoch": 67.00759493670886,
	"grad_norm": 0.001428403309546411,
	"learning_rate": 3.4880450070323492e-06,
	"loss": 0.0001,
	"step": 5420
	},
	{
	"epoch": 67.00886075949367,
	"grad_norm": 0.001419195905327797,
	"learning_rate": 3.4739803094233476e-06,
	"loss": 0.0924,
	"step": 5430
	},
	{
	"epoch": 67.01012658227847,
	"grad_norm": 0.0011965942103415728,
	"learning_rate": 3.459915611814346e-06,
	"loss": 0.0002,
	"step": 5440
	},
	{
	"epoch": 67.01012658227847,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 5.17952299118042,
	"eval_runtime": 8.4394,
	"eval_samples_per_second": 5.569,
	"eval_steps_per_second": 1.422,
	"step": 5440
	},
	{
	"epoch": 68.00126582278482,
	"grad_norm": 0.004659404046833515,
	"learning_rate": 3.445850914205345e-06,
	"loss": 0.0001,
	"step": 5450
	},
	{
	"epoch": 68.00253164556962,
	"grad_norm": 282.0872497558594,
	"learning_rate": 3.4317862165963433e-06,
	"loss": 0.0246,
	"step": 5460
	},
	{
	"epoch": 68.00379746835443,
	"grad_norm": 0.19597108662128448,
	"learning_rate": 3.417721518987342e-06,
	"loss": 0.0001,
	"step": 5470
	},
	{
	"epoch": 68.00506329113924,
	"grad_norm": 0.0020114402286708355,
	"learning_rate": 3.4036568213783405e-06,
	"loss": 0.0449,
	"step": 5480
	},
	{
	"epoch": 68.00632911392405,
	"grad_norm": 0.0017703929916024208,
	"learning_rate": 3.3895921237693393e-06,
	"loss": 0.0001,
	"step": 5490
	},
	{
	"epoch": 68.00759493670886,
	"grad_norm": 0.005612295586615801,
	"learning_rate": 3.3755274261603377e-06,
	"loss": 0.0,
	"step": 5500
	},
	{
	"epoch": 68.00886075949367,
	"grad_norm": 0.002703710226342082,
	"learning_rate": 3.361462728551336e-06,
	"loss": 0.0001,
	"step": 5510
	},
	{
	"epoch": 68.01012658227847,
	"grad_norm": 0.0033236260060220957,
	"learning_rate": 3.347398030942335e-06,
	"loss": 0.0007,
	"step": 5520
	},
	{
	"epoch": 68.01012658227847,
	"eval_accuracy": 0.46808510638297873,
	"eval_loss": 4.3201751708984375,
	"eval_runtime": 8.4512,
	"eval_samples_per_second": 5.561,
	"eval_steps_per_second": 1.42,
	"step": 5520
	},
	{
	"epoch": 69.00126582278482,
	"grad_norm": 0.13362517952919006,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.0001,
	"step": 5530
	},
	{
	"epoch": 69.00253164556962,
	"grad_norm": 0.0022546211257576942,
	"learning_rate": 3.319268635724332e-06,
	"loss": 0.1001,
	"step": 5540
	},
	{
	"epoch": 69.00379746835443,
	"grad_norm": 0.002193002263084054,
	"learning_rate": 3.3052039381153305e-06,
	"loss": 0.0,
	"step": 5550
	},
	{
	"epoch": 69.00506329113924,
	"grad_norm": 0.0027829715982079506,
	"learning_rate": 3.2911392405063294e-06,
	"loss": 0.0061,
	"step": 5560
	},
	{
	"epoch": 69.00632911392405,
	"grad_norm": 0.0031120802741497755,
	"learning_rate": 3.2770745428973278e-06,
	"loss": 0.0001,
	"step": 5570
	},
	{
	"epoch": 69.00759493670886,
	"grad_norm": 0.001309010898694396,
	"learning_rate": 3.263009845288326e-06,
	"loss": 0.0001,
	"step": 5580
	},
	{
	"epoch": 69.00886075949367,
	"grad_norm": 0.028802473098039627,
	"learning_rate": 3.248945147679325e-06,
	"loss": 0.004,
	"step": 5590
	},
	{
	"epoch": 69.01012658227847,
	"grad_norm": 0.0005848377477377653,
	"learning_rate": 3.2348804500703242e-06,
	"loss": 0.1678,
	"step": 5600
	},
	{
	"epoch": 69.01012658227847,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 4.868789196014404,
	"eval_runtime": 8.4887,
	"eval_samples_per_second": 5.537,
	"eval_steps_per_second": 1.414,
	"step": 5600
	},
	{
	"epoch": 70.00126582278482,
	"grad_norm": 0.0012933706166222692,
	"learning_rate": 3.2208157524613226e-06,
	"loss": 0.0002,
	"step": 5610
	},
	{
	"epoch": 70.00253164556962,
	"grad_norm": 0.02926361933350563,
	"learning_rate": 3.206751054852321e-06,
	"loss": 0.0041,
	"step": 5620
	},
	{
	"epoch": 70.00379746835443,
	"grad_norm": 0.001349663594737649,
	"learning_rate": 3.19268635724332e-06,
	"loss": 0.0003,
	"step": 5630
	},
	{
	"epoch": 70.00506329113924,
	"grad_norm": 0.002003163332119584,
	"learning_rate": 3.1786216596343183e-06,
	"loss": 0.0,
	"step": 5640
	},
	{
	"epoch": 70.00632911392405,
	"grad_norm": 0.011114409193396568,
	"learning_rate": 3.164556962025317e-06,
	"loss": 0.0001,
	"step": 5650
	},
	{
	"epoch": 70.00759493670886,
	"grad_norm": 0.004937044810503721,
	"learning_rate": 3.1504922644163155e-06,
	"loss": 0.0,
	"step": 5660
	},
	{
	"epoch": 70.00886075949367,
	"grad_norm": 0.01026509702205658,
	"learning_rate": 3.1364275668073143e-06,
	"loss": 0.0001,
	"step": 5670
	},
	{
	"epoch": 70.01012658227847,
	"grad_norm": 0.00430481368675828,
	"learning_rate": 3.1223628691983127e-06,
	"loss": 0.0001,
	"step": 5680
	},
	{
	"epoch": 70.01012658227847,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 5.288034439086914,
	"eval_runtime": 8.477,
	"eval_samples_per_second": 5.544,
	"eval_steps_per_second": 1.416,
	"step": 5680
	},
	{
	"epoch": 71.00126582278482,
	"grad_norm": 0.0036116482224315405,
	"learning_rate": 3.108298171589311e-06,
	"loss": 0.0,
	"step": 5690
	},
	{
	"epoch": 71.00253164556962,
	"grad_norm": 0.015287871472537518,
	"learning_rate": 3.09423347398031e-06,
	"loss": 0.0001,
	"step": 5700
	},
	{
	"epoch": 71.00379746835443,
	"grad_norm": 0.008669455535709858,
	"learning_rate": 3.0801687763713083e-06,
	"loss": 0.0,
	"step": 5710
	},
	{
	"epoch": 71.00506329113924,
	"grad_norm": 0.019757656380534172,
	"learning_rate": 3.066104078762307e-06,
	"loss": 0.0001,
	"step": 5720
	},
	{
	"epoch": 71.00632911392405,
	"grad_norm": 0.012890863232314587,
	"learning_rate": 3.0520393811533055e-06,
	"loss": 0.0,
	"step": 5730
	},
	{
	"epoch": 71.00759493670886,
	"grad_norm": 0.0019587704446166754,
	"learning_rate": 3.037974683544304e-06,
	"loss": 0.0,
	"step": 5740
	},
	{
	"epoch": 71.00886075949367,
	"grad_norm": 0.0018708609277382493,
	"learning_rate": 3.0239099859353028e-06,
	"loss": 0.0,
	"step": 5750
	},
	{
	"epoch": 71.01012658227847,
	"grad_norm": 0.003253462491557002,
	"learning_rate": 3.009845288326301e-06,
	"loss": 0.0,
	"step": 5760
	},
	{
	"epoch": 71.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 5.115118503570557,
	"eval_runtime": 8.4566,
	"eval_samples_per_second": 5.558,
	"eval_steps_per_second": 1.419,
	"step": 5760
	},
	{
	"epoch": 72.00126582278482,
	"grad_norm": 0.001443624496459961,
	"learning_rate": 2.9957805907173e-06,
	"loss": 0.0,
	"step": 5770
	},
	{
	"epoch": 72.00253164556962,
	"grad_norm": 0.0025624725967645645,
	"learning_rate": 2.9817158931082984e-06,
	"loss": 0.0026,
	"step": 5780
	},
	{
	"epoch": 72.00379746835443,
	"grad_norm": 0.00680403271690011,
	"learning_rate": 2.967651195499297e-06,
	"loss": 0.0,
	"step": 5790
	},
	{
	"epoch": 72.00506329113924,
	"grad_norm": 0.0030975525733083487,
	"learning_rate": 2.9535864978902956e-06,
	"loss": 0.0,
	"step": 5800
	},
	{
	"epoch": 72.00632911392405,
	"grad_norm": 0.019320061430335045,
	"learning_rate": 2.939521800281294e-06,
	"loss": 0.2163,
	"step": 5810
	},
	{
	"epoch": 72.00759493670886,
	"grad_norm": 0.07163013517856598,
	"learning_rate": 2.925457102672293e-06,
	"loss": 0.0001,
	"step": 5820
	},
	{
	"epoch": 72.00886075949367,
	"grad_norm": 0.0038794104475528,
	"learning_rate": 2.9113924050632912e-06,
	"loss": 0.1065,
	"step": 5830
	},
	{
	"epoch": 72.01012658227847,
	"grad_norm": 0.0027189133688807487,
	"learning_rate": 2.89732770745429e-06,
	"loss": 0.0005,
	"step": 5840
	},
	{
	"epoch": 72.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.566655158996582,
	"eval_runtime": 8.4516,
	"eval_samples_per_second": 5.561,
	"eval_steps_per_second": 1.42,
	"step": 5840
	},
	{
	"epoch": 73.00126582278482,
	"grad_norm": 0.0017171819927170873,
	"learning_rate": 2.8832630098452884e-06,
	"loss": 0.0001,
	"step": 5850
	},
	{
	"epoch": 73.00253164556962,
	"grad_norm": 0.0033329855650663376,
	"learning_rate": 2.8691983122362873e-06,
	"loss": 0.0,
	"step": 5860
	},
	{
	"epoch": 73.00379746835443,
	"grad_norm": 0.008366705849766731,
	"learning_rate": 2.8551336146272857e-06,
	"loss": 0.0001,
	"step": 5870
	},
	{
	"epoch": 73.00506329113924,
	"grad_norm": 0.0013916816096752882,
	"learning_rate": 2.841068917018284e-06,
	"loss": 0.0001,
	"step": 5880
	},
	{
	"epoch": 73.00632911392405,
	"grad_norm": 0.001828556414693594,
	"learning_rate": 2.827004219409283e-06,
	"loss": 0.0,
	"step": 5890
	},
	{
	"epoch": 73.00759493670886,
	"grad_norm": 0.002120325807482004,
	"learning_rate": 2.8129395218002813e-06,
	"loss": 0.0,
	"step": 5900
	},
	{
	"epoch": 73.00886075949367,
	"grad_norm": 0.0018465804168954492,
	"learning_rate": 2.79887482419128e-06,
	"loss": 0.0,
	"step": 5910
	},
	{
	"epoch": 73.01012658227847,
	"grad_norm": 0.0017947384621948004,
	"learning_rate": 2.7848101265822785e-06,
	"loss": 0.0,
	"step": 5920
	},
	{
	"epoch": 73.01012658227847,
	"eval_accuracy": 0.46808510638297873,
	"eval_loss": 4.288333415985107,
	"eval_runtime": 8.4999,
	"eval_samples_per_second": 5.529,
	"eval_steps_per_second": 1.412,
	"step": 5920
	},
	{
	"epoch": 74.00126582278482,
	"grad_norm": 0.0011507548624649644,
	"learning_rate": 2.7707454289732773e-06,
	"loss": 0.0001,
	"step": 5930
	},
	{
	"epoch": 74.00253164556962,
	"grad_norm": 0.001057163462974131,
	"learning_rate": 2.7566807313642757e-06,
	"loss": 0.0002,
	"step": 5940
	},
	{
	"epoch": 74.00379746835443,
	"grad_norm": 0.001940654474310577,
	"learning_rate": 2.742616033755274e-06,
	"loss": 0.0001,
	"step": 5950
	},
	{
	"epoch": 74.00506329113924,
	"grad_norm": 0.013309543952345848,
	"learning_rate": 2.728551336146273e-06,
	"loss": 0.1043,
	"step": 5960
	},
	{
	"epoch": 74.00632911392405,
	"grad_norm": 0.003933705855160952,
	"learning_rate": 2.7144866385372713e-06,
	"loss": 0.0,
	"step": 5970
	},
	{
	"epoch": 74.00759493670886,
	"grad_norm": 0.0016960457433015108,
	"learning_rate": 2.70042194092827e-06,
	"loss": 0.0011,
	"step": 5980
	},
	{
	"epoch": 74.00886075949367,
	"grad_norm": 0.0025782466400414705,
	"learning_rate": 2.6863572433192686e-06,
	"loss": 0.0001,
	"step": 5990
	},
	{
	"epoch": 74.01012658227847,
	"grad_norm": 0.0025307261385023594,
	"learning_rate": 2.6722925457102674e-06,
	"loss": 0.0,
	"step": 6000
	},
	{
	"epoch": 74.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.684779167175293,
	"eval_runtime": 8.5153,
	"eval_samples_per_second": 5.519,
	"eval_steps_per_second": 1.409,
	"step": 6000
	},
	{
	"epoch": 75.00126582278482,
	"grad_norm": 0.0016025023069232702,
	"learning_rate": 2.6582278481012658e-06,
	"loss": 0.1562,
	"step": 6010
	},
	{
	"epoch": 75.00253164556962,
	"grad_norm": 0.0006585910450667143,
	"learning_rate": 2.644163150492265e-06,
	"loss": 0.0001,
	"step": 6020
	},
	{
	"epoch": 75.00379746835443,
	"grad_norm": 0.0031663491390645504,
	"learning_rate": 2.6300984528832634e-06,
	"loss": 0.0,
	"step": 6030
	},
	{
	"epoch": 75.00506329113924,
	"grad_norm": 0.015673287212848663,
	"learning_rate": 2.6160337552742622e-06,
	"loss": 0.0,
	"step": 6040
	},
	{
	"epoch": 75.00632911392405,
	"grad_norm": 0.003231970127671957,
	"learning_rate": 2.6019690576652606e-06,
	"loss": 0.0,
	"step": 6050
	},
	{
	"epoch": 75.00759493670886,
	"grad_norm": 0.0015489223878830671,
	"learning_rate": 2.587904360056259e-06,
	"loss": 0.0,
	"step": 6060
	},
	{
	"epoch": 75.00886075949367,
	"grad_norm": 18.648025512695312,
	"learning_rate": 2.573839662447258e-06,
	"loss": 0.0019,
	"step": 6070
	},
	{
	"epoch": 75.01012658227847,
	"grad_norm": 0.00114185712300241,
	"learning_rate": 2.5597749648382563e-06,
	"loss": 0.0,
	"step": 6080
	},
	{
	"epoch": 75.01012658227847,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 4.815650939941406,
	"eval_runtime": 8.5452,
	"eval_samples_per_second": 5.5,
	"eval_steps_per_second": 1.404,
	"step": 6080
	},
	{
	"epoch": 76.00126582278482,
	"grad_norm": 0.20001061260700226,
	"learning_rate": 2.545710267229255e-06,
	"loss": 0.0001,
	"step": 6090
	},
	{
	"epoch": 76.00253164556962,
	"grad_norm": 0.002338194055482745,
	"learning_rate": 2.5316455696202535e-06,
	"loss": 0.0,
	"step": 6100
	},
	{
	"epoch": 76.00379746835443,
	"grad_norm": 0.004149795509874821,
	"learning_rate": 2.5175808720112523e-06,
	"loss": 0.0,
	"step": 6110
	},
	{
	"epoch": 76.00506329113924,
	"grad_norm": 0.0017416217597201467,
	"learning_rate": 2.5035161744022507e-06,
	"loss": 0.0003,
	"step": 6120
	},
	{
	"epoch": 76.00632911392405,
	"grad_norm": 0.0011654688278213143,
	"learning_rate": 2.489451476793249e-06,
	"loss": 0.0,
	"step": 6130
	},
	{
	"epoch": 76.00759493670886,
	"grad_norm": 0.0034060347825288773,
	"learning_rate": 2.475386779184248e-06,
	"loss": 0.0,
	"step": 6140
	},
	{
	"epoch": 76.00886075949367,
	"grad_norm": 0.0008188936626538634,
	"learning_rate": 2.4613220815752463e-06,
	"loss": 0.0,
	"step": 6150
	},
	{
	"epoch": 76.01012658227847,
	"grad_norm": 0.0015720352530479431,
	"learning_rate": 2.447257383966245e-06,
	"loss": 0.0,
	"step": 6160
	},
	{
	"epoch": 76.01012658227847,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 4.8248186111450195,
	"eval_runtime": 8.5505,
	"eval_samples_per_second": 5.497,
	"eval_steps_per_second": 1.403,
	"step": 6160
	},
	{
	"epoch": 77.00126582278482,
	"grad_norm": 0.007548962719738483,
	"learning_rate": 2.4331926863572436e-06,
	"loss": 0.0,
	"step": 6170
	},
	{
	"epoch": 77.00253164556962,
	"grad_norm": 0.00578302051872015,
	"learning_rate": 2.4191279887482424e-06,
	"loss": 0.0,
	"step": 6180
	},
	{
	"epoch": 77.00379746835443,
	"grad_norm": 0.0033245827071368694,
	"learning_rate": 2.4050632911392408e-06,
	"loss": 0.0,
	"step": 6190
	},
	{
	"epoch": 77.00506329113924,
	"grad_norm": 0.0008535035303793848,
	"learning_rate": 2.390998593530239e-06,
	"loss": 0.0015,
	"step": 6200
	},
	{
	"epoch": 77.00632911392405,
	"grad_norm": 0.0016984603134915233,
	"learning_rate": 2.376933895921238e-06,
	"loss": 0.0001,
	"step": 6210
	},
	{
	"epoch": 77.00759493670886,
	"grad_norm": 0.0014544576406478882,
	"learning_rate": 2.3628691983122364e-06,
	"loss": 0.0045,
	"step": 6220
	},
	{
	"epoch": 77.00886075949367,
	"grad_norm": 0.0007344476762227714,
	"learning_rate": 2.3488045007032352e-06,
	"loss": 0.0,
	"step": 6230
	},
	{
	"epoch": 77.01012658227847,
	"grad_norm": 0.014698284678161144,
	"learning_rate": 2.3347398030942336e-06,
	"loss": 0.0,
	"step": 6240
	},
	{
	"epoch": 77.01012658227847,
	"eval_accuracy": 0.48936170212765956,
	"eval_loss": 4.5635786056518555,
	"eval_runtime": 8.4512,
	"eval_samples_per_second": 5.561,
	"eval_steps_per_second": 1.42,
	"step": 6240
	},
	{
	"epoch": 78.00126582278482,
	"grad_norm": 0.0009909283835440874,
	"learning_rate": 2.3206751054852324e-06,
	"loss": 0.0019,
	"step": 6250
	},
	{
	"epoch": 78.00253164556962,
	"grad_norm": 0.020323097705841064,
	"learning_rate": 2.306610407876231e-06,
	"loss": 0.0,
	"step": 6260
	},
	{
	"epoch": 78.00379746835443,
	"grad_norm": 0.0027961665764451027,
	"learning_rate": 2.2925457102672292e-06,
	"loss": 0.0001,
	"step": 6270
	},
	{
	"epoch": 78.00506329113924,
	"grad_norm": 0.0009632346336729825,
	"learning_rate": 2.278481012658228e-06,
	"loss": 0.0,
	"step": 6280
	},
	{
	"epoch": 78.00632911392405,
	"grad_norm": 0.005322067067027092,
	"learning_rate": 2.2644163150492265e-06,
	"loss": 0.1958,
	"step": 6290
	},
	{
	"epoch": 78.00759493670886,
	"grad_norm": 0.002847396768629551,
	"learning_rate": 2.2503516174402253e-06,
	"loss": 0.0,
	"step": 6300
	},
	{
	"epoch": 78.00886075949367,
	"grad_norm": 0.002737447852268815,
	"learning_rate": 2.2362869198312237e-06,
	"loss": 0.0,
	"step": 6310
	},
	{
	"epoch": 78.01012658227847,
	"grad_norm": 0.036222778260707855,
	"learning_rate": 2.222222222222222e-06,
	"loss": 0.0,
	"step": 6320
	},
	{
	"epoch": 78.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.581666469573975,
	"eval_runtime": 8.4752,
	"eval_samples_per_second": 5.546,
	"eval_steps_per_second": 1.416,
	"step": 6320
	},
	{
	"epoch": 79.00126582278482,
	"grad_norm": 0.001555649214424193,
	"learning_rate": 2.208157524613221e-06,
	"loss": 0.0,
	"step": 6330
	},
	{
	"epoch": 79.00253164556962,
	"grad_norm": 0.0009841909632086754,
	"learning_rate": 2.1940928270042197e-06,
	"loss": 0.0,
	"step": 6340
	},
	{
	"epoch": 79.00379746835443,
	"grad_norm": 0.0069242678582668304,
	"learning_rate": 2.180028129395218e-06,
	"loss": 0.0,
	"step": 6350
	},
	{
	"epoch": 79.00506329113924,
	"grad_norm": 0.0031804998870939016,
	"learning_rate": 2.165963431786217e-06,
	"loss": 0.0,
	"step": 6360
	},
	{
	"epoch": 79.00632911392405,
	"grad_norm": 0.0010907890973612666,
	"learning_rate": 2.1518987341772153e-06,
	"loss": 0.0,
	"step": 6370
	},
	{
	"epoch": 79.00759493670886,
	"grad_norm": 0.0008229253580793738,
	"learning_rate": 2.137834036568214e-06,
	"loss": 0.0001,
	"step": 6380
	},
	{
	"epoch": 79.00886075949367,
	"grad_norm": 0.004569868091493845,
	"learning_rate": 2.1237693389592126e-06,
	"loss": 0.0,
	"step": 6390
	},
	{
	"epoch": 79.01012658227847,
	"grad_norm": 0.0017135925590991974,
	"learning_rate": 2.1097046413502114e-06,
	"loss": 0.0001,
	"step": 6400
	},
	{
	"epoch": 79.01012658227847,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 4.774336338043213,
	"eval_runtime": 8.469,
	"eval_samples_per_second": 5.55,
	"eval_steps_per_second": 1.417,
	"step": 6400
	},
	{
	"epoch": 80.00126582278482,
	"grad_norm": 0.0009415835957042873,
	"learning_rate": 2.0956399437412098e-06,
	"loss": 0.0,
	"step": 6410
	},
	{
	"epoch": 80.00253164556962,
	"grad_norm": 0.0011497698724269867,
	"learning_rate": 2.081575246132208e-06,
	"loss": 0.0,
	"step": 6420
	},
	{
	"epoch": 80.00379746835443,
	"grad_norm": 0.0016221057157963514,
	"learning_rate": 2.067510548523207e-06,
	"loss": 0.0,
	"step": 6430
	},
	{
	"epoch": 80.00506329113924,
	"grad_norm": 0.002268084790557623,
	"learning_rate": 2.0534458509142054e-06,
	"loss": 0.0,
	"step": 6440
	},
	{
	"epoch": 80.00632911392405,
	"grad_norm": 0.0011354024754837155,
	"learning_rate": 2.0393811533052042e-06,
	"loss": 0.0,
	"step": 6450
	},
	{
	"epoch": 80.00759493670886,
	"grad_norm": 0.002358433324843645,
	"learning_rate": 2.0253164556962026e-06,
	"loss": 0.0004,
	"step": 6460
	},
	{
	"epoch": 80.00886075949367,
	"grad_norm": 0.0013280572602525353,
	"learning_rate": 2.0112517580872014e-06,
	"loss": 0.0,
	"step": 6470
	},
	{
	"epoch": 80.01012658227847,
	"grad_norm": 0.006725861690938473,
	"learning_rate": 1.9971870604782e-06,
	"loss": 0.0001,
	"step": 6480
	},
	{
	"epoch": 80.01012658227847,
	"eval_accuracy": 0.40425531914893614,
	"eval_loss": 4.900009632110596,
	"eval_runtime": 8.4183,
	"eval_samples_per_second": 5.583,
	"eval_steps_per_second": 1.425,
	"step": 6480
	},
	{
	"epoch": 81.00126582278482,
	"grad_norm": 0.0010699324775487185,
	"learning_rate": 1.9831223628691982e-06,
	"loss": 0.1826,
	"step": 6490
	},
	{
	"epoch": 81.00253164556962,
	"grad_norm": 0.006973781157284975,
	"learning_rate": 1.969057665260197e-06,
	"loss": 0.0,
	"step": 6500
	},
	{
	"epoch": 81.00379746835443,
	"grad_norm": 0.003398946486413479,
	"learning_rate": 1.9549929676511955e-06,
	"loss": 0.0,
	"step": 6510
	},
	{
	"epoch": 81.00506329113924,
	"grad_norm": 0.009173160418868065,
	"learning_rate": 1.9409282700421943e-06,
	"loss": 0.0005,
	"step": 6520
	},
	{
	"epoch": 81.00632911392405,
	"grad_norm": 0.07392571866512299,
	"learning_rate": 1.9268635724331927e-06,
	"loss": 0.0361,
	"step": 6530
	},
	{
	"epoch": 81.00759493670886,
	"grad_norm": 0.001574037130922079,
	"learning_rate": 1.9127988748241915e-06,
	"loss": 0.0,
	"step": 6540
	},
	{
	"epoch": 81.00886075949367,
	"grad_norm": 0.0032889668364077806,
	"learning_rate": 1.8987341772151901e-06,
	"loss": 0.0,
	"step": 6550
	},
	{
	"epoch": 81.01012658227847,
	"grad_norm": 0.002083021914586425,
	"learning_rate": 1.8846694796061887e-06,
	"loss": 0.0002,
	"step": 6560
	},
	{
	"epoch": 81.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.766859531402588,
	"eval_runtime": 8.4247,
	"eval_samples_per_second": 5.579,
	"eval_steps_per_second": 1.424,
	"step": 6560
	},
	{
	"epoch": 82.00126582278482,
	"grad_norm": 0.001750531722791493,
	"learning_rate": 1.8706047819971873e-06,
	"loss": 0.0,
	"step": 6570
	},
	{
	"epoch": 82.00253164556962,
	"grad_norm": 0.0014307881938293576,
	"learning_rate": 1.856540084388186e-06,
	"loss": 0.0,
	"step": 6580
	},
	{
	"epoch": 82.00379746835443,
	"grad_norm": 0.0012166056549176574,
	"learning_rate": 1.8424753867791846e-06,
	"loss": 0.0,
	"step": 6590
	},
	{
	"epoch": 82.00506329113924,
	"grad_norm": 0.0018584979698061943,
	"learning_rate": 1.828410689170183e-06,
	"loss": 0.0,
	"step": 6600
	},
	{
	"epoch": 82.00632911392405,
	"grad_norm": 0.0007850803667679429,
	"learning_rate": 1.8143459915611816e-06,
	"loss": 0.0,
	"step": 6610
	},
	{
	"epoch": 82.00759493670886,
	"grad_norm": 0.00409714225679636,
	"learning_rate": 1.8002812939521802e-06,
	"loss": 0.0,
	"step": 6620
	},
	{
	"epoch": 82.00886075949367,
	"grad_norm": 0.0014620538568124175,
	"learning_rate": 1.7862165963431788e-06,
	"loss": 0.0,
	"step": 6630
	},
	{
	"epoch": 82.01012658227847,
	"grad_norm": 0.0011849668808281422,
	"learning_rate": 1.7721518987341774e-06,
	"loss": 0.0,
	"step": 6640
	},
	{
	"epoch": 82.01012658227847,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 4.8224687576293945,
	"eval_runtime": 8.4754,
	"eval_samples_per_second": 5.545,
	"eval_steps_per_second": 1.416,
	"step": 6640
	},
	{
	"epoch": 83.00126582278482,
	"grad_norm": 0.0014004989061504602,
	"learning_rate": 1.758087201125176e-06,
	"loss": 0.0,
	"step": 6650
	},
	{
	"epoch": 83.00253164556962,
	"grad_norm": 0.0015136294532567263,
	"learning_rate": 1.7440225035161746e-06,
	"loss": 0.0,
	"step": 6660
	},
	{
	"epoch": 83.00379746835443,
	"grad_norm": 0.00371897267177701,
	"learning_rate": 1.729957805907173e-06,
	"loss": 0.0,
	"step": 6670
	},
	{
	"epoch": 83.00506329113924,
	"grad_norm": 0.0008714126888662577,
	"learning_rate": 1.7158931082981716e-06,
	"loss": 0.0,
	"step": 6680
	},
	{
	"epoch": 83.00632911392405,
	"grad_norm": 0.003846103325486183,
	"learning_rate": 1.7018284106891702e-06,
	"loss": 0.0,
	"step": 6690
	},
	{
	"epoch": 83.00759493670886,
	"grad_norm": 0.0013878681929782033,
	"learning_rate": 1.6877637130801689e-06,
	"loss": 0.0,
	"step": 6700
	},
	{
	"epoch": 83.00886075949367,
	"grad_norm": 0.0011597294360399246,
	"learning_rate": 1.6736990154711675e-06,
	"loss": 0.0,
	"step": 6710
	},
	{
	"epoch": 83.01012658227847,
	"grad_norm": 0.0006404958548955619,
	"learning_rate": 1.659634317862166e-06,
	"loss": 0.0,
	"step": 6720
	},
	{
	"epoch": 83.01012658227847,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 4.833099842071533,
	"eval_runtime": 8.4872,
	"eval_samples_per_second": 5.538,
	"eval_steps_per_second": 1.414,
	"step": 6720
	},
	{
	"epoch": 84.00126582278482,
	"grad_norm": 0.0019264252623543143,
	"learning_rate": 1.6455696202531647e-06,
	"loss": 0.0,
	"step": 6730
	},
	{
	"epoch": 84.00253164556962,
	"grad_norm": 0.001029732171446085,
	"learning_rate": 1.631504922644163e-06,
	"loss": 0.0005,
	"step": 6740
	},
	{
	"epoch": 84.00379746835443,
	"grad_norm": 0.0017922447295859456,
	"learning_rate": 1.6174402250351621e-06,
	"loss": 0.0,
	"step": 6750
	},
	{
	"epoch": 84.00506329113924,
	"grad_norm": 0.0012487670173868537,
	"learning_rate": 1.6033755274261605e-06,
	"loss": 0.0,
	"step": 6760
	},
	{
	"epoch": 84.00632911392405,
	"grad_norm": 0.0014119717525318265,
	"learning_rate": 1.5893108298171591e-06,
	"loss": 0.0001,
	"step": 6770
	},
	{
	"epoch": 84.00759493670886,
	"grad_norm": 0.0006965138600207865,
	"learning_rate": 1.5752461322081577e-06,
	"loss": 0.0,
	"step": 6780
	},
	{
	"epoch": 84.00886075949367,
	"grad_norm": 0.0011428669095039368,
	"learning_rate": 1.5611814345991563e-06,
	"loss": 0.0,
	"step": 6790
	},
	{
	"epoch": 84.01012658227847,
	"grad_norm": 0.002268004696816206,
	"learning_rate": 1.547116736990155e-06,
	"loss": 0.0,
	"step": 6800
	},
	{
	"epoch": 84.01012658227847,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 4.715381145477295,
	"eval_runtime": 8.3979,
	"eval_samples_per_second": 5.597,
	"eval_steps_per_second": 1.429,
	"step": 6800
	},
	{
	"epoch": 85.00126582278482,
	"grad_norm": 0.002592705423012376,
	"learning_rate": 1.5330520393811536e-06,
	"loss": 0.0,
	"step": 6810
	},
	{
	"epoch": 85.00253164556962,
	"grad_norm": 0.04101519286632538,
	"learning_rate": 1.518987341772152e-06,
	"loss": 0.0,
	"step": 6820
	},
	{
	"epoch": 85.00379746835443,
	"grad_norm": 0.0005958875990472734,
	"learning_rate": 1.5049226441631506e-06,
	"loss": 0.0,
	"step": 6830
	},
	{
	"epoch": 85.00506329113924,
	"grad_norm": 0.0025226089637726545,
	"learning_rate": 1.4908579465541492e-06,
	"loss": 0.0,
	"step": 6840
	},
	{
	"epoch": 85.00632911392405,
	"grad_norm": 0.0008681220351718366,
	"learning_rate": 1.4767932489451478e-06,
	"loss": 0.0,
	"step": 6850
	},
	{
	"epoch": 85.00759493670886,
	"grad_norm": 0.0013401606120169163,
	"learning_rate": 1.4627285513361464e-06,
	"loss": 0.0,
	"step": 6860
	},
	{
	"epoch": 85.00886075949367,
	"grad_norm": 0.0010737047996371984,
	"learning_rate": 1.448663853727145e-06,
	"loss": 0.0,
	"step": 6870
	},
	{
	"epoch": 85.01012658227847,
	"grad_norm": 0.001385514042340219,
	"learning_rate": 1.4345991561181436e-06,
	"loss": 0.0,
	"step": 6880
	},
	{
	"epoch": 85.01012658227847,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 4.716861248016357,
	"eval_runtime": 8.4473,
	"eval_samples_per_second": 5.564,
	"eval_steps_per_second": 1.421,
	"step": 6880
	},
	{
	"epoch": 86.00126582278482,
	"grad_norm": 0.0020737305749207735,
	"learning_rate": 1.420534458509142e-06,
	"loss": 0.0,
	"step": 6890
	},
	{
	"epoch": 86.00253164556962,
	"grad_norm": 0.0013663348508998752,
	"learning_rate": 1.4064697609001406e-06,
	"loss": 0.0001,
	"step": 6900
	},
	{
	"epoch": 86.00379746835443,
	"grad_norm": 0.01127583533525467,
	"learning_rate": 1.3924050632911392e-06,
	"loss": 0.0,
	"step": 6910
	},
	{
	"epoch": 86.00506329113924,
	"grad_norm": 0.002084192121401429,
	"learning_rate": 1.3783403656821379e-06,
	"loss": 0.0,
	"step": 6920
	},
	{
	"epoch": 86.00632911392405,
	"grad_norm": 0.0009935207199305296,
	"learning_rate": 1.3642756680731365e-06,
	"loss": 0.0,
	"step": 6930
	},
	{
	"epoch": 86.00759493670886,
	"grad_norm": 0.0008619350846856833,
	"learning_rate": 1.350210970464135e-06,
	"loss": 0.0,
	"step": 6940
	},
	{
	"epoch": 86.00886075949367,
	"grad_norm": 0.000807570235338062,
	"learning_rate": 1.3361462728551337e-06,
	"loss": 0.0,
	"step": 6950
	},
	{
	"epoch": 86.01012658227847,
	"grad_norm": 0.001797909731976688,
	"learning_rate": 1.3220815752461325e-06,
	"loss": 0.0,
	"step": 6960
	},
	{
	"epoch": 86.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.900410175323486,
	"eval_runtime": 8.4167,
	"eval_samples_per_second": 5.584,
	"eval_steps_per_second": 1.426,
	"step": 6960
	},
	{
	"epoch": 87.00126582278482,
	"grad_norm": 0.0008401426021009684,
	"learning_rate": 1.3080168776371311e-06,
	"loss": 0.0,
	"step": 6970
	},
	{
	"epoch": 87.00253164556962,
	"grad_norm": 0.0014646663330495358,
	"learning_rate": 1.2939521800281295e-06,
	"loss": 0.0,
	"step": 6980
	},
	{
	"epoch": 87.00379746835443,
	"grad_norm": 0.0010633817873895168,
	"learning_rate": 1.2798874824191281e-06,
	"loss": 0.0,
	"step": 6990
	},
	{
	"epoch": 87.00506329113924,
	"grad_norm": 0.0017103515565395355,
	"learning_rate": 1.2658227848101267e-06,
	"loss": 0.0,
	"step": 7000
	},
	{
	"epoch": 87.00632911392405,
	"grad_norm": 0.001976841827854514,
	"learning_rate": 1.2517580872011254e-06,
	"loss": 0.0,
	"step": 7010
	},
	{
	"epoch": 87.00759493670886,
	"grad_norm": 0.000657711352687329,
	"learning_rate": 1.237693389592124e-06,
	"loss": 0.0,
	"step": 7020
	},
	{
	"epoch": 87.00886075949367,
	"grad_norm": 0.0006206512916833162,
	"learning_rate": 1.2236286919831226e-06,
	"loss": 0.0,
	"step": 7030
	},
	{
	"epoch": 87.01012658227847,
	"grad_norm": 0.0030793757177889347,
	"learning_rate": 1.2095639943741212e-06,
	"loss": 0.0,
	"step": 7040
	},
	{
	"epoch": 87.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.909188270568848,
	"eval_runtime": 8.4164,
	"eval_samples_per_second": 5.584,
	"eval_steps_per_second": 1.426,
	"step": 7040
	},
	{
	"epoch": 88.00126582278482,
	"grad_norm": 0.0011876953067258,
	"learning_rate": 1.1954992967651196e-06,
	"loss": 0.0,
	"step": 7050
	},
	{
	"epoch": 88.00253164556962,
	"grad_norm": 0.0019371965900063515,
	"learning_rate": 1.1814345991561182e-06,
	"loss": 0.0,
	"step": 7060
	},
	{
	"epoch": 88.00379746835443,
	"grad_norm": 0.001290988875553012,
	"learning_rate": 1.1673699015471168e-06,
	"loss": 0.0,
	"step": 7070
	},
	{
	"epoch": 88.00506329113924,
	"grad_norm": 0.003862161422148347,
	"learning_rate": 1.1533052039381154e-06,
	"loss": 0.0,
	"step": 7080
	},
	{
	"epoch": 88.00632911392405,
	"grad_norm": 0.0007267307373695076,
	"learning_rate": 1.139240506329114e-06,
	"loss": 0.0,
	"step": 7090
	},
	{
	"epoch": 88.00759493670886,
	"grad_norm": 0.0007938898052088916,
	"learning_rate": 1.1251758087201126e-06,
	"loss": 0.0,
	"step": 7100
	},
	{
	"epoch": 88.00886075949367,
	"grad_norm": 0.0006018871208652854,
	"learning_rate": 1.111111111111111e-06,
	"loss": 0.0,
	"step": 7110
	},
	{
	"epoch": 88.01012658227847,
	"grad_norm": 0.0017778057372197509,
	"learning_rate": 1.0970464135021099e-06,
	"loss": 0.0,
	"step": 7120
	},
	{
	"epoch": 88.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.89414119720459,
	"eval_runtime": 8.438,
	"eval_samples_per_second": 5.57,
	"eval_steps_per_second": 1.422,
	"step": 7120
	},
	{
	"epoch": 89.00126582278482,
	"grad_norm": 0.0007234832737594843,
	"learning_rate": 1.0829817158931085e-06,
	"loss": 0.0,
	"step": 7130
	},
	{
	"epoch": 89.00253164556962,
	"grad_norm": 0.0015409559709951282,
	"learning_rate": 1.068917018284107e-06,
	"loss": 0.0,
	"step": 7140
	},
	{
	"epoch": 89.00379746835443,
	"grad_norm": 0.0008910736651159823,
	"learning_rate": 1.0548523206751057e-06,
	"loss": 0.0,
	"step": 7150
	},
	{
	"epoch": 89.00506329113924,
	"grad_norm": 0.0020937921945005655,
	"learning_rate": 1.040787623066104e-06,
	"loss": 0.0,
	"step": 7160
	},
	{
	"epoch": 89.00632911392405,
	"grad_norm": 0.0014372824225574732,
	"learning_rate": 1.0267229254571027e-06,
	"loss": 0.0,
	"step": 7170
	},
	{
	"epoch": 89.00759493670886,
	"grad_norm": 0.003179526887834072,
	"learning_rate": 1.0126582278481013e-06,
	"loss": 0.0,
	"step": 7180
	},
	{
	"epoch": 89.00886075949367,
	"grad_norm": 0.0012057056883350015,
	"learning_rate": 9.985935302391e-07,
	"loss": 0.0001,
	"step": 7190
	},
	{
	"epoch": 89.01012658227847,
	"grad_norm": 0.005369286518543959,
	"learning_rate": 9.845288326300985e-07,
	"loss": 0.0,
	"step": 7200
	},
	{
	"epoch": 89.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.789796352386475,
	"eval_runtime": 8.4427,
	"eval_samples_per_second": 5.567,
	"eval_steps_per_second": 1.421,
	"step": 7200
	},
	{
	"epoch": 90.00126582278482,
	"grad_norm": 0.0017162526492029428,
	"learning_rate": 9.704641350210971e-07,
	"loss": 0.0,
	"step": 7210
	},
	{
	"epoch": 90.00253164556962,
	"grad_norm": 0.0009838847909122705,
	"learning_rate": 9.563994374120958e-07,
	"loss": 0.0,
	"step": 7220
	},
	{
	"epoch": 90.00379746835443,
	"grad_norm": 0.015449059195816517,
	"learning_rate": 9.423347398030944e-07,
	"loss": 0.0,
	"step": 7230
	},
	{
	"epoch": 90.00506329113924,
	"grad_norm": 0.0017991637578234076,
	"learning_rate": 9.28270042194093e-07,
	"loss": 0.0,
	"step": 7240
	},
	{
	"epoch": 90.00632911392405,
	"grad_norm": 0.0010769497603178024,
	"learning_rate": 9.142053445850915e-07,
	"loss": 0.0,
	"step": 7250
	},
	{
	"epoch": 90.00759493670886,
	"grad_norm": 0.0007212001946754754,
	"learning_rate": 9.001406469760901e-07,
	"loss": 0.0,
	"step": 7260
	},
	{
	"epoch": 90.00886075949367,
	"grad_norm": 0.000739375944249332,
	"learning_rate": 8.860759493670887e-07,
	"loss": 0.0,
	"step": 7270
	},
	{
	"epoch": 90.01012658227847,
	"grad_norm": 0.002124297898262739,
	"learning_rate": 8.720112517580873e-07,
	"loss": 0.0,
	"step": 7280
	},
	{
	"epoch": 90.01012658227847,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 4.827134132385254,
	"eval_runtime": 8.4657,
	"eval_samples_per_second": 5.552,
	"eval_steps_per_second": 1.417,
	"step": 7280
	},
	{
	"epoch": 91.00126582278482,
	"grad_norm": 0.00743636442348361,
	"learning_rate": 8.579465541490858e-07,
	"loss": 0.0,
	"step": 7290
	},
	{
	"epoch": 91.00253164556962,
	"grad_norm": 0.001242807717062533,
	"learning_rate": 8.438818565400844e-07,
	"loss": 0.0,
	"step": 7300
	},
	{
	"epoch": 91.00379746835443,
	"grad_norm": 0.017530538141727448,
	"learning_rate": 8.29817158931083e-07,
	"loss": 0.0,
	"step": 7310
	},
	{
	"epoch": 91.00506329113924,
	"grad_norm": 0.0027876682579517365,
	"learning_rate": 8.157524613220815e-07,
	"loss": 0.0,
	"step": 7320
	},
	{
	"epoch": 91.00632911392405,
	"grad_norm": 0.001038099406287074,
	"learning_rate": 8.016877637130803e-07,
	"loss": 0.0,
	"step": 7330
	},
	{
	"epoch": 91.00759493670886,
	"grad_norm": 0.0012997939484193921,
	"learning_rate": 7.876230661040789e-07,
	"loss": 0.0,
	"step": 7340
	},
	{
	"epoch": 91.00886075949367,
	"grad_norm": 0.00228080153465271,
	"learning_rate": 7.735583684950775e-07,
	"loss": 0.0,
	"step": 7350
	},
	{
	"epoch": 91.01012658227847,
	"grad_norm": 0.0014501850819215178,
	"learning_rate": 7.59493670886076e-07,
	"loss": 0.0,
	"step": 7360
	},
	{
	"epoch": 91.01012658227847,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 4.832017421722412,
	"eval_runtime": 8.6255,
	"eval_samples_per_second": 5.449,
	"eval_steps_per_second": 1.391,
	"step": 7360
	},
	{
	"epoch": 92.00126582278482,
	"grad_norm": 0.0007885429658927023,
	"learning_rate": 7.454289732770746e-07,
	"loss": 0.0,
	"step": 7370
	},
	{
	"epoch": 92.00253164556962,
	"grad_norm": 0.0009592593996785581,
	"learning_rate": 7.313642756680732e-07,
	"loss": 0.0,
	"step": 7380
	},
	{
	"epoch": 92.00379746835443,
	"grad_norm": 0.004812302067875862,
	"learning_rate": 7.172995780590718e-07,
	"loss": 0.0,
	"step": 7390
	},
	{
	"epoch": 92.00506329113924,
	"grad_norm": 0.0012065304908901453,
	"learning_rate": 7.032348804500703e-07,
	"loss": 0.0,
	"step": 7400
	},
	{
	"epoch": 92.00632911392405,
	"grad_norm": 0.0025038751773536205,
	"learning_rate": 6.891701828410689e-07,
	"loss": 0.0,
	"step": 7410
	},
	{
	"epoch": 92.00759493670886,
	"grad_norm": 0.0007439328473992646,
	"learning_rate": 6.751054852320675e-07,
	"loss": 0.0,
	"step": 7420
	},
	{
	"epoch": 92.00886075949367,
	"grad_norm": 0.040091563016176224,
	"learning_rate": 6.610407876230663e-07,
	"loss": 0.0,
	"step": 7430
	},
	{
	"epoch": 92.01012658227847,
	"grad_norm": 0.00362952146679163,
	"learning_rate": 6.469760900140648e-07,
	"loss": 0.0,
	"step": 7440
	},
	{
	"epoch": 92.01012658227847,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 4.827417850494385,
	"eval_runtime": 8.4772,
	"eval_samples_per_second": 5.544,
	"eval_steps_per_second": 1.416,
	"step": 7440
	},
	{
	"epoch": 93.00126582278482,
	"grad_norm": 0.0022241012193262577,
	"learning_rate": 6.329113924050634e-07,
	"loss": 0.0,
	"step": 7450
	},
	{
	"epoch": 93.00253164556962,
	"grad_norm": 0.025551510974764824,
	"learning_rate": 6.18846694796062e-07,
	"loss": 0.0,
	"step": 7460
	},
	{
	"epoch": 93.00379746835443,
	"grad_norm": 0.00078696379205212,
	"learning_rate": 6.047819971870606e-07,
	"loss": 0.0,
	"step": 7470
	},
	{
	"epoch": 93.00506329113924,
	"grad_norm": 0.0017261310713365674,
	"learning_rate": 5.907172995780591e-07,
	"loss": 0.0,
	"step": 7480
	},
	{
	"epoch": 93.00632911392405,
	"grad_norm": 0.003345273435115814,
	"learning_rate": 5.766526019690577e-07,
	"loss": 0.0,
	"step": 7490
	},
	{
	"epoch": 93.00759493670886,
	"grad_norm": 0.0011764048831537366,
	"learning_rate": 5.625879043600563e-07,
	"loss": 0.0,
	"step": 7500
	},
	{
	"epoch": 93.00886075949367,
	"grad_norm": 0.0013756465632468462,
	"learning_rate": 5.485232067510549e-07,
	"loss": 0.0,
	"step": 7510
	},
	{
	"epoch": 93.01012658227847,
	"grad_norm": 0.0011709831887856126,
	"learning_rate": 5.344585091420535e-07,
	"loss": 0.0,
	"step": 7520
	},
	{
	"epoch": 93.01012658227847,
	"eval_accuracy": 0.44680851063829785,
	"eval_loss": 4.826868057250977,
	"eval_runtime": 170.4429,
	"eval_samples_per_second": 0.276,
	"eval_steps_per_second": 0.07,
	"step": 7520
	},
	{
	"epoch": 94.00126582278482,
	"grad_norm": 0.002271972130984068,
	"learning_rate": 5.20393811533052e-07,
	"loss": 0.0001,
	"step": 7530
	},
	{
	"epoch": 94.00253164556962,
	"grad_norm": 12.584663391113281,
	"learning_rate": 5.063291139240507e-07,
	"loss": 0.0007,
	"step": 7540
	},
	{
	"epoch": 94.00379746835443,
	"grad_norm": 0.0010153332259505987,
	"learning_rate": 4.922644163150493e-07,
	"loss": 0.0,
	"step": 7550
	},
	{
	"epoch": 94.00506329113924,
	"grad_norm": 0.0019480427727103233,
	"learning_rate": 4.781997187060479e-07,
	"loss": 0.0,
	"step": 7560
	},
	{
	"epoch": 94.00632911392405,
	"grad_norm": 0.005996455904096365,
	"learning_rate": 4.641350210970465e-07,
	"loss": 0.0,
	"step": 7570
	},
	{
	"epoch": 94.00759493670886,
	"grad_norm": 0.0005868688458576798,
	"learning_rate": 4.5007032348804504e-07,
	"loss": 0.0,
	"step": 7580
	},
	{
	"epoch": 94.00886075949367,
	"grad_norm": 0.0008807959966361523,
	"learning_rate": 4.3600562587904366e-07,
	"loss": 0.0,
	"step": 7590
	},
	{
	"epoch": 94.01012658227847,
	"grad_norm": 0.0008403842803090811,
	"learning_rate": 4.219409282700422e-07,
	"loss": 0.0,
	"step": 7600
	},
	{
	"epoch": 94.01012658227847,
	"eval_accuracy": 0.3829787234042553,
	"eval_loss": 4.878473281860352,
	"eval_runtime": 8.411,
	"eval_samples_per_second": 5.588,
	"eval_steps_per_second": 1.427,
	"step": 7600
	},
	{
	"epoch": 95.00126582278482,
	"grad_norm": 0.005562290083616972,
	"learning_rate": 4.0787623066104077e-07,
	"loss": 0.0001,
	"step": 7610
	},
	{
	"epoch": 95.00253164556962,
	"grad_norm": 0.004410718102008104,
	"learning_rate": 3.9381153305203943e-07,
	"loss": 0.0,
	"step": 7620
	},
	{
	"epoch": 95.00379746835443,
	"grad_norm": 0.0042534684762358665,
	"learning_rate": 3.79746835443038e-07,
	"loss": 0.0,
	"step": 7630
	},
	{
	"epoch": 95.00506329113924,
	"grad_norm": 0.0012142916675657034,
	"learning_rate": 3.656821378340366e-07,
	"loss": 0.0,
	"step": 7640
	},
	{
	"epoch": 95.00632911392405,
	"grad_norm": 0.0007107236888259649,
	"learning_rate": 3.5161744022503516e-07,
	"loss": 0.0,
	"step": 7650
	},
	{
	"epoch": 95.00759493670886,
	"grad_norm": 0.0018182717030867934,
	"learning_rate": 3.3755274261603377e-07,
	"loss": 0.0,
	"step": 7660
	},
	{
	"epoch": 95.00886075949367,
	"grad_norm": 0.003002484329044819,
	"learning_rate": 3.234880450070324e-07,
	"loss": 0.0001,
	"step": 7670
	},
	{
	"epoch": 95.01012658227847,
	"grad_norm": 0.0012020288268104196,
	"learning_rate": 3.09423347398031e-07,
	"loss": 0.0,
	"step": 7680
	},
	{
	"epoch": 95.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.963972568511963,
	"eval_runtime": 8.4253,
	"eval_samples_per_second": 5.578,
	"eval_steps_per_second": 1.424,
	"step": 7680
	},
	{
	"epoch": 96.00126582278482,
	"grad_norm": 0.0024408556055277586,
	"learning_rate": 2.9535864978902955e-07,
	"loss": 0.0,
	"step": 7690
	},
	{
	"epoch": 96.00253164556962,
	"grad_norm": 329.71331787109375,
	"learning_rate": 2.8129395218002816e-07,
	"loss": 0.132,
	"step": 7700
	},
	{
	"epoch": 96.00379746835443,
	"grad_norm": 0.0019197100773453712,
	"learning_rate": 2.6722925457102677e-07,
	"loss": 0.0005,
	"step": 7710
	},
	{
	"epoch": 96.00506329113924,
	"grad_norm": 0.0013428219826892018,
	"learning_rate": 2.5316455696202533e-07,
	"loss": 0.0,
	"step": 7720
	},
	{
	"epoch": 96.00632911392405,
	"grad_norm": 0.0015475323889404535,
	"learning_rate": 2.3909985935302394e-07,
	"loss": 0.0,
	"step": 7730
	},
	{
	"epoch": 96.00759493670886,
	"grad_norm": 0.0013204860733821988,
	"learning_rate": 2.2503516174402252e-07,
	"loss": 0.0,
	"step": 7740
	},
	{
	"epoch": 96.00886075949367,
	"grad_norm": 0.0007807817310094833,
	"learning_rate": 2.109704641350211e-07,
	"loss": 0.0,
	"step": 7750
	},
	{
	"epoch": 96.01012658227847,
	"grad_norm": 0.0009276365744881332,
	"learning_rate": 1.9690576652601972e-07,
	"loss": 0.0,
	"step": 7760
	},
	{
	"epoch": 96.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.947977066040039,
	"eval_runtime": 8.4147,
	"eval_samples_per_second": 5.585,
	"eval_steps_per_second": 1.426,
	"step": 7760
	},
	{
	"epoch": 97.00126582278482,
	"grad_norm": 0.0013080050703138113,
	"learning_rate": 1.828410689170183e-07,
	"loss": 0.0,
	"step": 7770
	},
	{
	"epoch": 97.00253164556962,
	"grad_norm": 0.0018693221500143409,
	"learning_rate": 1.6877637130801689e-07,
	"loss": 0.0,
	"step": 7780
	},
	{
	"epoch": 97.00379746835443,
	"grad_norm": 0.0018208841793239117,
	"learning_rate": 1.547116736990155e-07,
	"loss": 0.0,
	"step": 7790
	},
	{
	"epoch": 97.00506329113924,
	"grad_norm": 0.0018955061677843332,
	"learning_rate": 1.4064697609001408e-07,
	"loss": 0.0,
	"step": 7800
	},
	{
	"epoch": 97.00632911392405,
	"grad_norm": 0.0007756951963528991,
	"learning_rate": 1.2658227848101266e-07,
	"loss": 0.0,
	"step": 7810
	},
	{
	"epoch": 97.00759493670886,
	"grad_norm": 0.0009716827771626413,
	"learning_rate": 1.1251758087201126e-07,
	"loss": 0.0,
	"step": 7820
	},
	{
	"epoch": 97.00886075949367,
	"grad_norm": 0.003705208422616124,
	"learning_rate": 9.845288326300986e-08,
	"loss": 0.0,
	"step": 7830
	},
	{
	"epoch": 97.01012658227847,
	"grad_norm": 0.013106240890920162,
	"learning_rate": 8.438818565400844e-08,
	"loss": 0.0,
	"step": 7840
	},
	{
	"epoch": 97.01012658227847,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.940354824066162,
	"eval_runtime": 8.4561,
	"eval_samples_per_second": 5.558,
	"eval_steps_per_second": 1.419,
	"step": 7840
	},
	{
	"epoch": 98.00126582278482,
	"grad_norm": 0.0024029065389186144,
	"learning_rate": 7.032348804500704e-08,
	"loss": 0.0,
	"step": 7850
	},
	{
	"epoch": 98.00253164556962,
	"grad_norm": 0.0011833859607577324,
	"learning_rate": 5.625879043600563e-08,
	"loss": 0.0,
	"step": 7860
	},
	{
	"epoch": 98.00379746835443,
	"grad_norm": 0.0013356610434129834,
	"learning_rate": 4.219409282700422e-08,
	"loss": 0.0,
	"step": 7870
	},
	{
	"epoch": 98.00506329113924,
	"grad_norm": 0.0007605087594129145,
	"learning_rate": 2.8129395218002815e-08,
	"loss": 0.0,
	"step": 7880
	},
	{
	"epoch": 98.00632911392405,
	"grad_norm": 0.0008561754948459566,
	"learning_rate": 1.4064697609001408e-08,
	"loss": 0.0011,
	"step": 7890
	},
	{
	"epoch": 98.00759493670886,
	"grad_norm": 0.0006674563628621399,
	"learning_rate": 0.0,
	"loss": 0.0,
	"step": 7900
	},
	{
	"epoch": 98.00759493670886,
	"eval_accuracy": 0.425531914893617,
	"eval_loss": 4.9351420402526855,
	"eval_runtime": 9.2926,
	"eval_samples_per_second": 5.058,
	"eval_steps_per_second": 1.291,
	"step": 7900
	},
	{
	"epoch": 98.00759493670886,
	"step": 7900,
	"total_flos": 1.378962555602208e+20,
	"train_loss": 0.1596812904629944,
	"train_runtime": 13780.8931,
	"train_samples_per_second": 2.293,
	"train_steps_per_second": 0.573
	},
	{
	"epoch": 98.00759493670886,
	"eval_accuracy": 0.3076923076923077,
	"eval_loss": 5.42232084274292,
	"eval_runtime": 8.1011,
	"eval_samples_per_second": 4.814,
	"eval_steps_per_second": 1.234,
	"step": 7900
	},
	{
	"epoch": 98.00759493670886,
	"eval_accuracy": 0.3076923076923077,
	"eval_loss": 5.422321319580078,
	"eval_runtime": 7.0644,
	"eval_samples_per_second": 5.521,
	"eval_steps_per_second": 1.416,
	"step": 7900
	}
	],
	"logging_steps": 10,
	"max_steps": 7900,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.378962555602208e+20,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}