Add files using upload-large-folder tool

33922fc verified 10 days ago

51.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 200,
	"global_step": 292,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00684931506849315,
	"grad_norm": 0.030539813126927277,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.1076,
	"step": 1
	},
	{
	"epoch": 0.0136986301369863,
	"grad_norm": 0.03492658058904307,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.1246,
	"step": 2
	},
	{
	"epoch": 0.02054794520547945,
	"grad_norm": 0.04865725802068095,
	"learning_rate": 1e-05,
	"loss": 0.1586,
	"step": 3
	},
	{
	"epoch": 0.0273972602739726,
	"grad_norm": 0.05113567210987629,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 0.1514,
	"step": 4
	},
	{
	"epoch": 0.03424657534246575,
	"grad_norm": 0.04332482337715696,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.1334,
	"step": 5
	},
	{
	"epoch": 0.0410958904109589,
	"grad_norm": 0.056501517819200174,
	"learning_rate": 2e-05,
	"loss": 0.162,
	"step": 6
	},
	{
	"epoch": 0.04794520547945205,
	"grad_norm": 0.02608028374746435,
	"learning_rate": 2.3333333333333336e-05,
	"loss": 0.1031,
	"step": 7
	},
	{
	"epoch": 0.0547945205479452,
	"grad_norm": 0.03653546691009632,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 0.1047,
	"step": 8
	},
	{
	"epoch": 0.06164383561643835,
	"grad_norm": 0.036654425448601695,
	"learning_rate": 3e-05,
	"loss": 0.1063,
	"step": 9
	},
	{
	"epoch": 0.0684931506849315,
	"grad_norm": 0.07120435117331021,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.1899,
	"step": 10
	},
	{
	"epoch": 0.07534246575342465,
	"grad_norm": 0.052020978283898525,
	"learning_rate": 3.6666666666666666e-05,
	"loss": 0.1369,
	"step": 11
	},
	{
	"epoch": 0.0821917808219178,
	"grad_norm": 0.05373108737583589,
	"learning_rate": 4e-05,
	"loss": 0.1232,
	"step": 12
	},
	{
	"epoch": 0.08904109589041095,
	"grad_norm": 0.04869530777109541,
	"learning_rate": 4.3333333333333334e-05,
	"loss": 0.1137,
	"step": 13
	},
	{
	"epoch": 0.0958904109589041,
	"grad_norm": 0.05909792067471564,
	"learning_rate": 4.666666666666667e-05,
	"loss": 0.1211,
	"step": 14
	},
	{
	"epoch": 0.10273972602739725,
	"grad_norm": 0.07782073062487518,
	"learning_rate": 5e-05,
	"loss": 0.1419,
	"step": 15
	},
	{
	"epoch": 0.1095890410958904,
	"grad_norm": 0.10068121599027634,
	"learning_rate": 5.333333333333333e-05,
	"loss": 0.1573,
	"step": 16
	},
	{
	"epoch": 0.11643835616438356,
	"grad_norm": 0.0794018071448985,
	"learning_rate": 5.666666666666667e-05,
	"loss": 0.1368,
	"step": 17
	},
	{
	"epoch": 0.1232876712328767,
	"grad_norm": 0.03925546794880312,
	"learning_rate": 6e-05,
	"loss": 0.0936,
	"step": 18
	},
	{
	"epoch": 0.13013698630136986,
	"grad_norm": 0.09398334893562084,
	"learning_rate": 6.333333333333333e-05,
	"loss": 0.1405,
	"step": 19
	},
	{
	"epoch": 0.136986301369863,
	"grad_norm": 0.03366472291998534,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.0939,
	"step": 20
	},
	{
	"epoch": 0.14383561643835616,
	"grad_norm": 0.03002583884373123,
	"learning_rate": 7e-05,
	"loss": 0.0857,
	"step": 21
	},
	{
	"epoch": 0.1506849315068493,
	"grad_norm": 0.04526244411827793,
	"learning_rate": 7.333333333333333e-05,
	"loss": 0.0932,
	"step": 22
	},
	{
	"epoch": 0.15753424657534246,
	"grad_norm": 0.0271467232481723,
	"learning_rate": 7.666666666666667e-05,
	"loss": 0.0926,
	"step": 23
	},
	{
	"epoch": 0.1643835616438356,
	"grad_norm": 0.036006533907184064,
	"learning_rate": 8e-05,
	"loss": 0.1092,
	"step": 24
	},
	{
	"epoch": 0.17123287671232876,
	"grad_norm": 0.03819263334586657,
	"learning_rate": 8.333333333333334e-05,
	"loss": 0.0967,
	"step": 25
	},
	{
	"epoch": 0.1780821917808219,
	"grad_norm": 0.04732574961540268,
	"learning_rate": 8.666666666666667e-05,
	"loss": 0.0933,
	"step": 26
	},
	{
	"epoch": 0.18493150684931506,
	"grad_norm": 0.04933244373512878,
	"learning_rate": 9e-05,
	"loss": 0.0964,
	"step": 27
	},
	{
	"epoch": 0.1917808219178082,
	"grad_norm": 0.05164570324383495,
	"learning_rate": 9.333333333333334e-05,
	"loss": 0.0893,
	"step": 28
	},
	{
	"epoch": 0.19863013698630136,
	"grad_norm": 0.06506455363157941,
	"learning_rate": 9.666666666666667e-05,
	"loss": 0.1099,
	"step": 29
	},
	{
	"epoch": 0.2054794520547945,
	"grad_norm": 0.05004738114863798,
	"learning_rate": 0.0001,
	"loss": 0.093,
	"step": 30
	},
	{
	"epoch": 0.21232876712328766,
	"grad_norm": 0.058372907031022096,
	"learning_rate": 9.999640555396404e-05,
	"loss": 0.0859,
	"step": 31
	},
	{
	"epoch": 0.2191780821917808,
	"grad_norm": 0.04214183460112646,
	"learning_rate": 9.998562273265785e-05,
	"loss": 0.0757,
	"step": 32
	},
	{
	"epoch": 0.22602739726027396,
	"grad_norm": 0.045590856190952045,
	"learning_rate": 9.996765308641218e-05,
	"loss": 0.0909,
	"step": 33
	},
	{
	"epoch": 0.2328767123287671,
	"grad_norm": 0.03615919142026033,
	"learning_rate": 9.994249919886402e-05,
	"loss": 0.0773,
	"step": 34
	},
	{
	"epoch": 0.23972602739726026,
	"grad_norm": 0.053734428778710715,
	"learning_rate": 9.991016468658499e-05,
	"loss": 0.0804,
	"step": 35
	},
	{
	"epoch": 0.2465753424657534,
	"grad_norm": 0.03350548900671173,
	"learning_rate": 9.98706541985615e-05,
	"loss": 0.0949,
	"step": 36
	},
	{
	"epoch": 0.2534246575342466,
	"grad_norm": 0.027043847680669336,
	"learning_rate": 9.98239734155262e-05,
	"loss": 0.0689,
	"step": 37
	},
	{
	"epoch": 0.2602739726027397,
	"grad_norm": 0.03089668501975604,
	"learning_rate": 9.977012904914133e-05,
	"loss": 0.0896,
	"step": 38
	},
	{
	"epoch": 0.2671232876712329,
	"grad_norm": 0.029975461306757812,
	"learning_rate": 9.970912884103364e-05,
	"loss": 0.0818,
	"step": 39
	},
	{
	"epoch": 0.273972602739726,
	"grad_norm": 0.029112303333024562,
	"learning_rate": 9.964098156168142e-05,
	"loss": 0.0764,
	"step": 40
	},
	{
	"epoch": 0.2808219178082192,
	"grad_norm": 0.03609528093820637,
	"learning_rate": 9.956569700915337e-05,
	"loss": 0.0896,
	"step": 41
	},
	{
	"epoch": 0.2876712328767123,
	"grad_norm": 0.02923285599907434,
	"learning_rate": 9.948328600769995e-05,
	"loss": 0.0687,
	"step": 42
	},
	{
	"epoch": 0.2945205479452055,
	"grad_norm": 0.03722889238353647,
	"learning_rate": 9.939376040619705e-05,
	"loss": 0.0904,
	"step": 43
	},
	{
	"epoch": 0.3013698630136986,
	"grad_norm": 0.032059757320644165,
	"learning_rate": 9.929713307644244e-05,
	"loss": 0.0834,
	"step": 44
	},
	{
	"epoch": 0.3082191780821918,
	"grad_norm": 0.04817854262074185,
	"learning_rate": 9.919341791130496e-05,
	"loss": 0.0913,
	"step": 45
	},
	{
	"epoch": 0.3150684931506849,
	"grad_norm": 0.027208193309115385,
	"learning_rate": 9.908262982272724e-05,
	"loss": 0.0783,
	"step": 46
	},
	{
	"epoch": 0.3219178082191781,
	"grad_norm": 0.03396529679519977,
	"learning_rate": 9.896478473958146e-05,
	"loss": 0.0788,
	"step": 47
	},
	{
	"epoch": 0.3287671232876712,
	"grad_norm": 0.03703807434511364,
	"learning_rate": 9.883989960537933e-05,
	"loss": 0.0737,
	"step": 48
	},
	{
	"epoch": 0.3356164383561644,
	"grad_norm": 0.037750701903354035,
	"learning_rate": 9.870799237583587e-05,
	"loss": 0.0879,
	"step": 49
	},
	{
	"epoch": 0.3424657534246575,
	"grad_norm": 0.0421005656051737,
	"learning_rate": 9.85690820162878e-05,
	"loss": 0.0762,
	"step": 50
	},
	{
	"epoch": 0.3493150684931507,
	"grad_norm": 0.02733701424368454,
	"learning_rate": 9.842318849896679e-05,
	"loss": 0.0716,
	"step": 51
	},
	{
	"epoch": 0.3561643835616438,
	"grad_norm": 0.027664399030788704,
	"learning_rate": 9.827033280012783e-05,
	"loss": 0.0783,
	"step": 52
	},
	{
	"epoch": 0.363013698630137,
	"grad_norm": 0.030867201947854212,
	"learning_rate": 9.811053689703334e-05,
	"loss": 0.0895,
	"step": 53
	},
	{
	"epoch": 0.3698630136986301,
	"grad_norm": 0.02445456343322928,
	"learning_rate": 9.794382376479334e-05,
	"loss": 0.0669,
	"step": 54
	},
	{
	"epoch": 0.3767123287671233,
	"grad_norm": 0.0355725180623145,
	"learning_rate": 9.777021737306214e-05,
	"loss": 0.0758,
	"step": 55
	},
	{
	"epoch": 0.3835616438356164,
	"grad_norm": 0.02787477968018966,
	"learning_rate": 9.7589742682592e-05,
	"loss": 0.0671,
	"step": 56
	},
	{
	"epoch": 0.3904109589041096,
	"grad_norm": 0.02917250086551862,
	"learning_rate": 9.740242564164434e-05,
	"loss": 0.0777,
	"step": 57
	},
	{
	"epoch": 0.3972602739726027,
	"grad_norm": 0.027367394927186293,
	"learning_rate": 9.720829318225897e-05,
	"loss": 0.0784,
	"step": 58
	},
	{
	"epoch": 0.4041095890410959,
	"grad_norm": 0.03404049628582292,
	"learning_rate": 9.700737321638185e-05,
	"loss": 0.0831,
	"step": 59
	},
	{
	"epoch": 0.410958904109589,
	"grad_norm": 0.03007296844683444,
	"learning_rate": 9.6799694631852e-05,
	"loss": 0.0666,
	"step": 60
	},
	{
	"epoch": 0.4178082191780822,
	"grad_norm": 0.02540452547965842,
	"learning_rate": 9.6585287288248e-05,
	"loss": 0.0661,
	"step": 61
	},
	{
	"epoch": 0.4246575342465753,
	"grad_norm": 0.026781782354160222,
	"learning_rate": 9.63641820125949e-05,
	"loss": 0.074,
	"step": 62
	},
	{
	"epoch": 0.4315068493150685,
	"grad_norm": 0.026783892217477907,
	"learning_rate": 9.613641059493197e-05,
	"loss": 0.066,
	"step": 63
	},
	{
	"epoch": 0.4383561643835616,
	"grad_norm": 0.03124681883629973,
	"learning_rate": 9.590200578374198e-05,
	"loss": 0.0704,
	"step": 64
	},
	{
	"epoch": 0.4452054794520548,
	"grad_norm": 0.03417198666061255,
	"learning_rate": 9.56610012812427e-05,
	"loss": 0.0809,
	"step": 65
	},
	{
	"epoch": 0.4520547945205479,
	"grad_norm": 0.03459134201897623,
	"learning_rate": 9.541343173854127e-05,
	"loss": 0.0775,
	"step": 66
	},
	{
	"epoch": 0.4589041095890411,
	"grad_norm": 0.028846468217507328,
	"learning_rate": 9.515933275065219e-05,
	"loss": 0.0683,
	"step": 67
	},
	{
	"epoch": 0.4657534246575342,
	"grad_norm": 0.02841488216076331,
	"learning_rate": 9.48987408513794e-05,
	"loss": 0.0682,
	"step": 68
	},
	{
	"epoch": 0.4726027397260274,
	"grad_norm": 0.038470702709475786,
	"learning_rate": 9.463169350806369e-05,
	"loss": 0.1041,
	"step": 69
	},
	{
	"epoch": 0.4794520547945205,
	"grad_norm": 0.05495636003850682,
	"learning_rate": 9.435822911619564e-05,
	"loss": 0.097,
	"step": 70
	},
	{
	"epoch": 0.4863013698630137,
	"grad_norm": 0.03142706228563173,
	"learning_rate": 9.407838699389524e-05,
	"loss": 0.0844,
	"step": 71
	},
	{
	"epoch": 0.4931506849315068,
	"grad_norm": 0.02769595486440407,
	"learning_rate": 9.379220737625877e-05,
	"loss": 0.0648,
	"step": 72
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.029889370715744733,
	"learning_rate": 9.34997314095739e-05,
	"loss": 0.0668,
	"step": 73
	},
	{
	"epoch": 0.5068493150684932,
	"grad_norm": 0.036383935533411724,
	"learning_rate": 9.320100114540382e-05,
	"loss": 0.0676,
	"step": 74
	},
	{
	"epoch": 0.5136986301369864,
	"grad_norm": 0.05144060226911856,
	"learning_rate": 9.289605953454107e-05,
	"loss": 0.0834,
	"step": 75
	},
	{
	"epoch": 0.5205479452054794,
	"grad_norm": 0.029231837833789662,
	"learning_rate": 9.258495042083221e-05,
	"loss": 0.067,
	"step": 76
	},
	{
	"epoch": 0.5273972602739726,
	"grad_norm": 0.030385743404608083,
	"learning_rate": 9.22677185348741e-05,
	"loss": 0.0809,
	"step": 77
	},
	{
	"epoch": 0.5342465753424658,
	"grad_norm": 0.031195055928310497,
	"learning_rate": 9.19444094875825e-05,
	"loss": 0.0735,
	"step": 78
	},
	{
	"epoch": 0.541095890410959,
	"grad_norm": 0.029330760873632865,
	"learning_rate": 9.161506976363437e-05,
	"loss": 0.0736,
	"step": 79
	},
	{
	"epoch": 0.547945205479452,
	"grad_norm": 0.0332541385460945,
	"learning_rate": 9.127974671478432e-05,
	"loss": 0.0812,
	"step": 80
	},
	{
	"epoch": 0.5547945205479452,
	"grad_norm": 0.03305866284735081,
	"learning_rate": 9.093848855305649e-05,
	"loss": 0.0822,
	"step": 81
	},
	{
	"epoch": 0.5616438356164384,
	"grad_norm": 0.03432894975247522,
	"learning_rate": 9.059134434381273e-05,
	"loss": 0.0783,
	"step": 82
	},
	{
	"epoch": 0.5684931506849316,
	"grad_norm": 0.039182983364365015,
	"learning_rate": 9.023836399869814e-05,
	"loss": 0.0815,
	"step": 83
	},
	{
	"epoch": 0.5753424657534246,
	"grad_norm": 0.02912164254908111,
	"learning_rate": 8.98795982684648e-05,
	"loss": 0.0715,
	"step": 84
	},
	{
	"epoch": 0.5821917808219178,
	"grad_norm": 0.029959446654787666,
	"learning_rate": 8.951509873567499e-05,
	"loss": 0.0754,
	"step": 85
	},
	{
	"epoch": 0.589041095890411,
	"grad_norm": 0.02955747281592669,
	"learning_rate": 8.914491780728471e-05,
	"loss": 0.0683,
	"step": 86
	},
	{
	"epoch": 0.5958904109589042,
	"grad_norm": 0.03207481946898706,
	"learning_rate": 8.876910870710884e-05,
	"loss": 0.0725,
	"step": 87
	},
	{
	"epoch": 0.6027397260273972,
	"grad_norm": 0.024590915698935577,
	"learning_rate": 8.838772546816856e-05,
	"loss": 0.0569,
	"step": 88
	},
	{
	"epoch": 0.6095890410958904,
	"grad_norm": 0.030750251732919592,
	"learning_rate": 8.800082292492273e-05,
	"loss": 0.0732,
	"step": 89
	},
	{
	"epoch": 0.6164383561643836,
	"grad_norm": 0.032945297540624904,
	"learning_rate": 8.760845670538387e-05,
	"loss": 0.0787,
	"step": 90
	},
	{
	"epoch": 0.6232876712328768,
	"grad_norm": 0.03778017209196359,
	"learning_rate": 8.721068322312007e-05,
	"loss": 0.0835,
	"step": 91
	},
	{
	"epoch": 0.6301369863013698,
	"grad_norm": 0.03507952393071719,
	"learning_rate": 8.680755966914401e-05,
	"loss": 0.0785,
	"step": 92
	},
	{
	"epoch": 0.636986301369863,
	"grad_norm": 0.03248195299567112,
	"learning_rate": 8.639914400369009e-05,
	"loss": 0.0769,
	"step": 93
	},
	{
	"epoch": 0.6438356164383562,
	"grad_norm": 0.03731653007913649,
	"learning_rate": 8.598549494788111e-05,
	"loss": 0.0863,
	"step": 94
	},
	{
	"epoch": 0.6506849315068494,
	"grad_norm": 0.03180106946934432,
	"learning_rate": 8.556667197528543e-05,
	"loss": 0.0601,
	"step": 95
	},
	{
	"epoch": 0.6575342465753424,
	"grad_norm": 0.03375769439746087,
	"learning_rate": 8.5142735303366e-05,
	"loss": 0.0833,
	"step": 96
	},
	{
	"epoch": 0.6643835616438356,
	"grad_norm": 0.03122748644136327,
	"learning_rate": 8.47137458848224e-05,
	"loss": 0.0653,
	"step": 97
	},
	{
	"epoch": 0.6712328767123288,
	"grad_norm": 0.030566834172214723,
	"learning_rate": 8.427976539882724e-05,
	"loss": 0.0794,
	"step": 98
	},
	{
	"epoch": 0.678082191780822,
	"grad_norm": 0.041027373975817134,
	"learning_rate": 8.384085624215801e-05,
	"loss": 0.094,
	"step": 99
	},
	{
	"epoch": 0.684931506849315,
	"grad_norm": 0.02698160042089123,
	"learning_rate": 8.339708152022585e-05,
	"loss": 0.06,
	"step": 100
	},
	{
	"epoch": 0.6917808219178082,
	"grad_norm": 0.026358548855895562,
	"learning_rate": 8.294850503800238e-05,
	"loss": 0.0586,
	"step": 101
	},
	{
	"epoch": 0.6986301369863014,
	"grad_norm": 0.029315218243026478,
	"learning_rate": 8.24951912908459e-05,
	"loss": 0.0659,
	"step": 102
	},
	{
	"epoch": 0.7054794520547946,
	"grad_norm": 0.03730243641514126,
	"learning_rate": 8.203720545522853e-05,
	"loss": 0.0768,
	"step": 103
	},
	{
	"epoch": 0.7123287671232876,
	"grad_norm": 0.028421475360968528,
	"learning_rate": 8.157461337936506e-05,
	"loss": 0.0674,
	"step": 104
	},
	{
	"epoch": 0.7191780821917808,
	"grad_norm": 0.036896447275521424,
	"learning_rate": 8.110748157374565e-05,
	"loss": 0.0813,
	"step": 105
	},
	{
	"epoch": 0.726027397260274,
	"grad_norm": 0.03194136933101962,
	"learning_rate": 8.063587720157298e-05,
	"loss": 0.0661,
	"step": 106
	},
	{
	"epoch": 0.7328767123287672,
	"grad_norm": 0.047606415740070754,
	"learning_rate": 8.01598680691057e-05,
	"loss": 0.0922,
	"step": 107
	},
	{
	"epoch": 0.7397260273972602,
	"grad_norm": 0.03982021001322296,
	"learning_rate": 7.967952261590935e-05,
	"loss": 0.0677,
	"step": 108
	},
	{
	"epoch": 0.7465753424657534,
	"grad_norm": 0.030844190311457055,
	"learning_rate": 7.919490990501636e-05,
	"loss": 0.0693,
	"step": 109
	},
	{
	"epoch": 0.7534246575342466,
	"grad_norm": 0.03128080580199763,
	"learning_rate": 7.870609961299627e-05,
	"loss": 0.055,
	"step": 110
	},
	{
	"epoch": 0.7602739726027398,
	"grad_norm": 0.03042131745977429,
	"learning_rate": 7.821316201993767e-05,
	"loss": 0.0696,
	"step": 111
	},
	{
	"epoch": 0.7671232876712328,
	"grad_norm": 0.03086792896956372,
	"learning_rate": 7.771616799934371e-05,
	"loss": 0.0717,
	"step": 112
	},
	{
	"epoch": 0.773972602739726,
	"grad_norm": 0.03186550616403287,
	"learning_rate": 7.721518900794185e-05,
	"loss": 0.0721,
	"step": 113
	},
	{
	"epoch": 0.7808219178082192,
	"grad_norm": 0.029517902212737826,
	"learning_rate": 7.67102970754101e-05,
	"loss": 0.068,
	"step": 114
	},
	{
	"epoch": 0.7876712328767124,
	"grad_norm": 0.03470530857876834,
	"learning_rate": 7.620156479402066e-05,
	"loss": 0.0687,
	"step": 115
	},
	{
	"epoch": 0.7945205479452054,
	"grad_norm": 0.032497402299353856,
	"learning_rate": 7.568906530820282e-05,
	"loss": 0.0749,
	"step": 116
	},
	{
	"epoch": 0.8013698630136986,
	"grad_norm": 0.03286496346308627,
	"learning_rate": 7.517287230402639e-05,
	"loss": 0.0769,
	"step": 117
	},
	{
	"epoch": 0.8082191780821918,
	"grad_norm": 0.029927285174734974,
	"learning_rate": 7.465305999860728e-05,
	"loss": 0.0681,
	"step": 118
	},
	{
	"epoch": 0.815068493150685,
	"grad_norm": 0.03427786976795219,
	"learning_rate": 7.412970312943671e-05,
	"loss": 0.0777,
	"step": 119
	},
	{
	"epoch": 0.821917808219178,
	"grad_norm": 0.031851819549739036,
	"learning_rate": 7.360287694363566e-05,
	"loss": 0.0653,
	"step": 120
	},
	{
	"epoch": 0.8287671232876712,
	"grad_norm": 0.03126182717380993,
	"learning_rate": 7.30726571871359e-05,
	"loss": 0.0741,
	"step": 121
	},
	{
	"epoch": 0.8356164383561644,
	"grad_norm": 0.03232123010558018,
	"learning_rate": 7.253912009378953e-05,
	"loss": 0.0622,
	"step": 122
	},
	{
	"epoch": 0.8424657534246576,
	"grad_norm": 0.031930228246767285,
	"learning_rate": 7.200234237440815e-05,
	"loss": 0.0711,
	"step": 123
	},
	{
	"epoch": 0.8493150684931506,
	"grad_norm": 0.03869729803850467,
	"learning_rate": 7.146240120573358e-05,
	"loss": 0.0748,
	"step": 124
	},
	{
	"epoch": 0.8561643835616438,
	"grad_norm": 0.04668355562414557,
	"learning_rate": 7.091937421934157e-05,
	"loss": 0.0719,
	"step": 125
	},
	{
	"epoch": 0.863013698630137,
	"grad_norm": 0.045196133927728935,
	"learning_rate": 7.037333949048005e-05,
	"loss": 0.0801,
	"step": 126
	},
	{
	"epoch": 0.8698630136986302,
	"grad_norm": 0.03140632320538256,
	"learning_rate": 6.98243755268437e-05,
	"loss": 0.0626,
	"step": 127
	},
	{
	"epoch": 0.8767123287671232,
	"grad_norm": 0.052496609882496145,
	"learning_rate": 6.927256125728624e-05,
	"loss": 0.0777,
	"step": 128
	},
	{
	"epoch": 0.8835616438356164,
	"grad_norm": 0.03868077359004108,
	"learning_rate": 6.87179760204722e-05,
	"loss": 0.0791,
	"step": 129
	},
	{
	"epoch": 0.8904109589041096,
	"grad_norm": 0.0348172699895961,
	"learning_rate": 6.816069955346985e-05,
	"loss": 0.0743,
	"step": 130
	},
	{
	"epoch": 0.8972602739726028,
	"grad_norm": 0.029728370506506084,
	"learning_rate": 6.760081198028671e-05,
	"loss": 0.062,
	"step": 131
	},
	{
	"epoch": 0.9041095890410958,
	"grad_norm": 0.033304716743838475,
	"learning_rate": 6.703839380034946e-05,
	"loss": 0.0742,
	"step": 132
	},
	{
	"epoch": 0.910958904109589,
	"grad_norm": 0.03402220621737934,
	"learning_rate": 6.647352587693001e-05,
	"loss": 0.074,
	"step": 133
	},
	{
	"epoch": 0.9178082191780822,
	"grad_norm": 0.03029297413232278,
	"learning_rate": 6.590628942551909e-05,
	"loss": 0.0706,
	"step": 134
	},
	{
	"epoch": 0.9246575342465754,
	"grad_norm": 0.03726620583459937,
	"learning_rate": 6.533676600214928e-05,
	"loss": 0.0711,
	"step": 135
	},
	{
	"epoch": 0.9315068493150684,
	"grad_norm": 0.030791726162161644,
	"learning_rate": 6.476503749166904e-05,
	"loss": 0.0844,
	"step": 136
	},
	{
	"epoch": 0.9383561643835616,
	"grad_norm": 0.03101593164912545,
	"learning_rate": 6.419118609596948e-05,
	"loss": 0.0743,
	"step": 137
	},
	{
	"epoch": 0.9452054794520548,
	"grad_norm": 0.037483812819514725,
	"learning_rate": 6.361529432216559e-05,
	"loss": 0.0888,
	"step": 138
	},
	{
	"epoch": 0.952054794520548,
	"grad_norm": 0.034654276627226706,
	"learning_rate": 6.303744497073352e-05,
	"loss": 0.0662,
	"step": 139
	},
	{
	"epoch": 0.958904109589041,
	"grad_norm": 0.10049031991880263,
	"learning_rate": 6.245772112360568e-05,
	"loss": 0.0817,
	"step": 140
	},
	{
	"epoch": 0.9657534246575342,
	"grad_norm": 0.03537251059587243,
	"learning_rate": 6.187620613222544e-05,
	"loss": 0.0768,
	"step": 141
	},
	{
	"epoch": 0.9726027397260274,
	"grad_norm": 0.04616032239868132,
	"learning_rate": 6.129298360556304e-05,
	"loss": 0.0802,
	"step": 142
	},
	{
	"epoch": 0.9794520547945206,
	"grad_norm": 0.03412880356569236,
	"learning_rate": 6.070813739809442e-05,
	"loss": 0.0574,
	"step": 143
	},
	{
	"epoch": 0.9863013698630136,
	"grad_norm": 0.02909505969006464,
	"learning_rate": 6.012175159774488e-05,
	"loss": 0.0604,
	"step": 144
	},
	{
	"epoch": 0.9931506849315068,
	"grad_norm": 0.03935910262269513,
	"learning_rate": 5.953391051379904e-05,
	"loss": 0.0584,
	"step": 145
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.03397983912672022,
	"learning_rate": 5.894469866477905e-05,
	"loss": 0.0577,
	"step": 146
	},
	{
	"epoch": 1.0068493150684932,
	"grad_norm": 0.0311452791456704,
	"learning_rate": 5.8354200766292734e-05,
	"loss": 0.079,
	"step": 147
	},
	{
	"epoch": 1.0136986301369864,
	"grad_norm": 0.033811357449414096,
	"learning_rate": 5.776250171885329e-05,
	"loss": 0.0656,
	"step": 148
	},
	{
	"epoch": 1.0205479452054795,
	"grad_norm": 0.040640212988149904,
	"learning_rate": 5.716968659567256e-05,
	"loss": 0.0728,
	"step": 149
	},
	{
	"epoch": 1.0273972602739727,
	"grad_norm": 0.03057953268248259,
	"learning_rate": 5.6575840630429286e-05,
	"loss": 0.0733,
	"step": 150
	},
	{
	"epoch": 1.0342465753424657,
	"grad_norm": 0.032703562266556005,
	"learning_rate": 5.5981049205014546e-05,
	"loss": 0.0712,
	"step": 151
	},
	{
	"epoch": 1.0410958904109588,
	"grad_norm": 0.03210664170957404,
	"learning_rate": 5.5385397837255556e-05,
	"loss": 0.0691,
	"step": 152
	},
	{
	"epoch": 1.047945205479452,
	"grad_norm": 0.03471378475737469,
	"learning_rate": 5.4788972168620255e-05,
	"loss": 0.0757,
	"step": 153
	},
	{
	"epoch": 1.0547945205479452,
	"grad_norm": 0.03165599022030969,
	"learning_rate": 5.4191857951903826e-05,
	"loss": 0.0597,
	"step": 154
	},
	{
	"epoch": 1.0616438356164384,
	"grad_norm": 0.05451608731514093,
	"learning_rate": 5.359414103889947e-05,
	"loss": 0.0894,
	"step": 155
	},
	{
	"epoch": 1.0684931506849316,
	"grad_norm": 0.04358798536487321,
	"learning_rate": 5.29959073680547e-05,
	"loss": 0.0782,
	"step": 156
	},
	{
	"epoch": 1.0753424657534247,
	"grad_norm": 0.032277506655898194,
	"learning_rate": 5.239724295211541e-05,
	"loss": 0.0704,
	"step": 157
	},
	{
	"epoch": 1.0821917808219177,
	"grad_norm": 0.028670588244485373,
	"learning_rate": 5.179823386575907e-05,
	"loss": 0.0507,
	"step": 158
	},
	{
	"epoch": 1.0890410958904109,
	"grad_norm": 0.03036746716980511,
	"learning_rate": 5.119896623321909e-05,
	"loss": 0.0527,
	"step": 159
	},
	{
	"epoch": 1.095890410958904,
	"grad_norm": 0.03329805529241328,
	"learning_rate": 5.059952621590216e-05,
	"loss": 0.0623,
	"step": 160
	},
	{
	"epoch": 1.1027397260273972,
	"grad_norm": 0.037603460102786174,
	"learning_rate": 5e-05,
	"loss": 0.0695,
	"step": 161
	},
	{
	"epoch": 1.1095890410958904,
	"grad_norm": 0.04120763652112312,
	"learning_rate": 4.940047378409786e-05,
	"loss": 0.0711,
	"step": 162
	},
	{
	"epoch": 1.1164383561643836,
	"grad_norm": 0.0415019727955413,
	"learning_rate": 4.880103376678092e-05,
	"loss": 0.0638,
	"step": 163
	},
	{
	"epoch": 1.1232876712328768,
	"grad_norm": 0.032850408356261955,
	"learning_rate": 4.820176613424095e-05,
	"loss": 0.0502,
	"step": 164
	},
	{
	"epoch": 1.13013698630137,
	"grad_norm": 0.051682446059570064,
	"learning_rate": 4.7602757047884595e-05,
	"loss": 0.0658,
	"step": 165
	},
	{
	"epoch": 1.1369863013698631,
	"grad_norm": 0.03126729469626143,
	"learning_rate": 4.700409263194531e-05,
	"loss": 0.0506,
	"step": 166
	},
	{
	"epoch": 1.143835616438356,
	"grad_norm": 0.03940644676794397,
	"learning_rate": 4.640585896110054e-05,
	"loss": 0.0632,
	"step": 167
	},
	{
	"epoch": 1.1506849315068493,
	"grad_norm": 0.04126874600149052,
	"learning_rate": 4.580814204809618e-05,
	"loss": 0.0813,
	"step": 168
	},
	{
	"epoch": 1.1575342465753424,
	"grad_norm": 0.04156579483287442,
	"learning_rate": 4.5211027831379757e-05,
	"loss": 0.0652,
	"step": 169
	},
	{
	"epoch": 1.1643835616438356,
	"grad_norm": 0.03391355375732456,
	"learning_rate": 4.461460216274445e-05,
	"loss": 0.057,
	"step": 170
	},
	{
	"epoch": 1.1712328767123288,
	"grad_norm": 0.038632199419011234,
	"learning_rate": 4.401895079498547e-05,
	"loss": 0.0661,
	"step": 171
	},
	{
	"epoch": 1.178082191780822,
	"grad_norm": 0.03708167445939923,
	"learning_rate": 4.3424159369570725e-05,
	"loss": 0.0624,
	"step": 172
	},
	{
	"epoch": 1.1849315068493151,
	"grad_norm": 0.03753946698450887,
	"learning_rate": 4.283031340432747e-05,
	"loss": 0.0612,
	"step": 173
	},
	{
	"epoch": 1.191780821917808,
	"grad_norm": 0.03537905440706239,
	"learning_rate": 4.223749828114672e-05,
	"loss": 0.0673,
	"step": 174
	},
	{
	"epoch": 1.1986301369863013,
	"grad_norm": 0.03940327075341433,
	"learning_rate": 4.1645799233707284e-05,
	"loss": 0.0607,
	"step": 175
	},
	{
	"epoch": 1.2054794520547945,
	"grad_norm": 0.041138452676237995,
	"learning_rate": 4.1055301335220955e-05,
	"loss": 0.0757,
	"step": 176
	},
	{
	"epoch": 1.2123287671232876,
	"grad_norm": 0.03578703324326037,
	"learning_rate": 4.0466089486200976e-05,
	"loss": 0.0707,
	"step": 177
	},
	{
	"epoch": 1.2191780821917808,
	"grad_norm": 0.039832365736742495,
	"learning_rate": 3.987824840225512e-05,
	"loss": 0.071,
	"step": 178
	},
	{
	"epoch": 1.226027397260274,
	"grad_norm": 0.038723411367421474,
	"learning_rate": 3.9291862601905595e-05,
	"loss": 0.0728,
	"step": 179
	},
	{
	"epoch": 1.2328767123287672,
	"grad_norm": 0.04498308725984581,
	"learning_rate": 3.870701639443698e-05,
	"loss": 0.0703,
	"step": 180
	},
	{
	"epoch": 1.2397260273972603,
	"grad_norm": 0.031865141682931065,
	"learning_rate": 3.812379386777457e-05,
	"loss": 0.0523,
	"step": 181
	},
	{
	"epoch": 1.2465753424657535,
	"grad_norm": 0.038277951507247616,
	"learning_rate": 3.7542278876394336e-05,
	"loss": 0.06,
	"step": 182
	},
	{
	"epoch": 1.2534246575342465,
	"grad_norm": 0.0650327431598633,
	"learning_rate": 3.696255502926649e-05,
	"loss": 0.0586,
	"step": 183
	},
	{
	"epoch": 1.2602739726027397,
	"grad_norm": 0.041491341553849696,
	"learning_rate": 3.638470567783442e-05,
	"loss": 0.0741,
	"step": 184
	},
	{
	"epoch": 1.2671232876712328,
	"grad_norm": 0.03898025654685055,
	"learning_rate": 3.580881390403052e-05,
	"loss": 0.07,
	"step": 185
	},
	{
	"epoch": 1.273972602739726,
	"grad_norm": 0.03741545061342083,
	"learning_rate": 3.5234962508330974e-05,
	"loss": 0.0648,
	"step": 186
	},
	{
	"epoch": 1.2808219178082192,
	"grad_norm": 0.03579074437335611,
	"learning_rate": 3.466323399785072e-05,
	"loss": 0.0519,
	"step": 187
	},
	{
	"epoch": 1.2876712328767124,
	"grad_norm": 0.03622522476818763,
	"learning_rate": 3.409371057448092e-05,
	"loss": 0.0581,
	"step": 188
	},
	{
	"epoch": 1.2945205479452055,
	"grad_norm": 0.05446559861941158,
	"learning_rate": 3.352647412307002e-05,
	"loss": 0.0714,
	"step": 189
	},
	{
	"epoch": 1.3013698630136985,
	"grad_norm": 0.03832700455471586,
	"learning_rate": 3.296160619965056e-05,
	"loss": 0.055,
	"step": 190
	},
	{
	"epoch": 1.308219178082192,
	"grad_norm": 0.03896050037792126,
	"learning_rate": 3.239918801971332e-05,
	"loss": 0.062,
	"step": 191
	},
	{
	"epoch": 1.3150684931506849,
	"grad_norm": 0.03267778522774074,
	"learning_rate": 3.183930044653014e-05,
	"loss": 0.0546,
	"step": 192
	},
	{
	"epoch": 1.321917808219178,
	"grad_norm": 0.04339482297121572,
	"learning_rate": 3.1282023979527805e-05,
	"loss": 0.0676,
	"step": 193
	},
	{
	"epoch": 1.3287671232876712,
	"grad_norm": 0.04149269813272275,
	"learning_rate": 3.072743874271376e-05,
	"loss": 0.0576,
	"step": 194
	},
	{
	"epoch": 1.3356164383561644,
	"grad_norm": 0.05669408827237824,
	"learning_rate": 3.0175624473156316e-05,
	"loss": 0.0559,
	"step": 195
	},
	{
	"epoch": 1.3424657534246576,
	"grad_norm": 0.04316637345791664,
	"learning_rate": 2.962666050951997e-05,
	"loss": 0.067,
	"step": 196
	},
	{
	"epoch": 1.3493150684931507,
	"grad_norm": 0.04179017639942075,
	"learning_rate": 2.9080625780658455e-05,
	"loss": 0.0585,
	"step": 197
	},
	{
	"epoch": 1.356164383561644,
	"grad_norm": 0.04086829863785544,
	"learning_rate": 2.853759879426644e-05,
	"loss": 0.0637,
	"step": 198
	},
	{
	"epoch": 1.3630136986301369,
	"grad_norm": 0.045447600350027706,
	"learning_rate": 2.7997657625591867e-05,
	"loss": 0.0578,
	"step": 199
	},
	{
	"epoch": 1.36986301369863,
	"grad_norm": 0.04063023817685305,
	"learning_rate": 2.7460879906210487e-05,
	"loss": 0.0704,
	"step": 200
	},
	{
	"epoch": 1.36986301369863,
	"eval_loss": 0.07383698970079422,
	"eval_runtime": 6.4837,
	"eval_samples_per_second": 0.925,
	"eval_steps_per_second": 0.308,
	"step": 200
	},
	{
	"epoch": 1.3767123287671232,
	"grad_norm": 0.043841411312286985,
	"learning_rate": 2.6927342812864116e-05,
	"loss": 0.0667,
	"step": 201
	},
	{
	"epoch": 1.3835616438356164,
	"grad_norm": 0.04301017602851657,
	"learning_rate": 2.6397123056364365e-05,
	"loss": 0.0726,
	"step": 202
	},
	{
	"epoch": 1.3904109589041096,
	"grad_norm": 0.042839496066386186,
	"learning_rate": 2.5870296870563286e-05,
	"loss": 0.0602,
	"step": 203
	},
	{
	"epoch": 1.3972602739726028,
	"grad_norm": 0.03829564126132437,
	"learning_rate": 2.5346940001392728e-05,
	"loss": 0.0645,
	"step": 204
	},
	{
	"epoch": 1.404109589041096,
	"grad_norm": 0.03507625071131985,
	"learning_rate": 2.482712769597363e-05,
	"loss": 0.0543,
	"step": 205
	},
	{
	"epoch": 1.410958904109589,
	"grad_norm": 0.03743875489488463,
	"learning_rate": 2.4310934691797203e-05,
	"loss": 0.0602,
	"step": 206
	},
	{
	"epoch": 1.4178082191780823,
	"grad_norm": 0.037325448164000144,
	"learning_rate": 2.379843520597937e-05,
	"loss": 0.056,
	"step": 207
	},
	{
	"epoch": 1.4246575342465753,
	"grad_norm": 0.04519550162385289,
	"learning_rate": 2.3289702924589914e-05,
	"loss": 0.0823,
	"step": 208
	},
	{
	"epoch": 1.4315068493150684,
	"grad_norm": 0.041415718432946946,
	"learning_rate": 2.2784810992058154e-05,
	"loss": 0.069,
	"step": 209
	},
	{
	"epoch": 1.4383561643835616,
	"grad_norm": 0.04615134339463282,
	"learning_rate": 2.22838320006563e-05,
	"loss": 0.0709,
	"step": 210
	},
	{
	"epoch": 1.4452054794520548,
	"grad_norm": 0.03508689289745425,
	"learning_rate": 2.1786837980062342e-05,
	"loss": 0.0562,
	"step": 211
	},
	{
	"epoch": 1.452054794520548,
	"grad_norm": 0.042082412191430475,
	"learning_rate": 2.129390038700374e-05,
	"loss": 0.0711,
	"step": 212
	},
	{
	"epoch": 1.4589041095890412,
	"grad_norm": 0.04921460988289041,
	"learning_rate": 2.0805090094983636e-05,
	"loss": 0.066,
	"step": 213
	},
	{
	"epoch": 1.4657534246575343,
	"grad_norm": 0.03476195821739949,
	"learning_rate": 2.0320477384090665e-05,
	"loss": 0.0516,
	"step": 214
	},
	{
	"epoch": 1.4726027397260273,
	"grad_norm": 0.03974475045265387,
	"learning_rate": 1.9840131930894333e-05,
	"loss": 0.0507,
	"step": 215
	},
	{
	"epoch": 1.4794520547945205,
	"grad_norm": 0.04495458260995571,
	"learning_rate": 1.936412279842705e-05,
	"loss": 0.071,
	"step": 216
	},
	{
	"epoch": 1.4863013698630136,
	"grad_norm": 0.032618789951219244,
	"learning_rate": 1.8892518426254364e-05,
	"loss": 0.0487,
	"step": 217
	},
	{
	"epoch": 1.4931506849315068,
	"grad_norm": 0.05233338159738159,
	"learning_rate": 1.842538662063496e-05,
	"loss": 0.0779,
	"step": 218
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.043093246770756745,
	"learning_rate": 1.7962794544771477e-05,
	"loss": 0.0731,
	"step": 219
	},
	{
	"epoch": 1.5068493150684932,
	"grad_norm": 0.04778965621357637,
	"learning_rate": 1.7504808709154104e-05,
	"loss": 0.0767,
	"step": 220
	},
	{
	"epoch": 1.5136986301369864,
	"grad_norm": 0.04225455780801827,
	"learning_rate": 1.705149496199762e-05,
	"loss": 0.065,
	"step": 221
	},
	{
	"epoch": 1.5205479452054793,
	"grad_norm": 0.03777201213330916,
	"learning_rate": 1.6602918479774148e-05,
	"loss": 0.0587,
	"step": 222
	},
	{
	"epoch": 1.5273972602739727,
	"grad_norm": 0.050670841355552755,
	"learning_rate": 1.6159143757842004e-05,
	"loss": 0.0694,
	"step": 223
	},
	{
	"epoch": 1.5342465753424657,
	"grad_norm": 0.04169608777354125,
	"learning_rate": 1.5720234601172766e-05,
	"loss": 0.0622,
	"step": 224
	},
	{
	"epoch": 1.541095890410959,
	"grad_norm": 0.0399325959403793,
	"learning_rate": 1.5286254115177623e-05,
	"loss": 0.0559,
	"step": 225
	},
	{
	"epoch": 1.547945205479452,
	"grad_norm": 0.04347771997206968,
	"learning_rate": 1.485726469663401e-05,
	"loss": 0.0625,
	"step": 226
	},
	{
	"epoch": 1.5547945205479452,
	"grad_norm": 0.04329191462577287,
	"learning_rate": 1.4433328024714581e-05,
	"loss": 0.0682,
	"step": 227
	},
	{
	"epoch": 1.5616438356164384,
	"grad_norm": 0.045935945373833685,
	"learning_rate": 1.4014505052118892e-05,
	"loss": 0.063,
	"step": 228
	},
	{
	"epoch": 1.5684931506849316,
	"grad_norm": 0.03953171472704261,
	"learning_rate": 1.3600855996309935e-05,
	"loss": 0.0621,
	"step": 229
	},
	{
	"epoch": 1.5753424657534247,
	"grad_norm": 0.042842743444326405,
	"learning_rate": 1.3192440330856004e-05,
	"loss": 0.0584,
	"step": 230
	},
	{
	"epoch": 1.5821917808219177,
	"grad_norm": 0.04147136350311881,
	"learning_rate": 1.2789316776879939e-05,
	"loss": 0.0571,
	"step": 231
	},
	{
	"epoch": 1.589041095890411,
	"grad_norm": 0.041096032631508496,
	"learning_rate": 1.2391543294616147e-05,
	"loss": 0.0569,
	"step": 232
	},
	{
	"epoch": 1.595890410958904,
	"grad_norm": 0.04826360135309353,
	"learning_rate": 1.1999177075077278e-05,
	"loss": 0.0749,
	"step": 233
	},
	{
	"epoch": 1.6027397260273972,
	"grad_norm": 0.034935721211031806,
	"learning_rate": 1.1612274531831463e-05,
	"loss": 0.0514,
	"step": 234
	},
	{
	"epoch": 1.6095890410958904,
	"grad_norm": 0.04282701283898458,
	"learning_rate": 1.123089129289117e-05,
	"loss": 0.0671,
	"step": 235
	},
	{
	"epoch": 1.6164383561643836,
	"grad_norm": 0.05961503389381486,
	"learning_rate": 1.0855082192715294e-05,
	"loss": 0.0665,
	"step": 236
	},
	{
	"epoch": 1.6232876712328768,
	"grad_norm": 0.06432557444245549,
	"learning_rate": 1.0484901264325025e-05,
	"loss": 0.0755,
	"step": 237
	},
	{
	"epoch": 1.6301369863013697,
	"grad_norm": 0.04253716073284135,
	"learning_rate": 1.0120401731535212e-05,
	"loss": 0.0733,
	"step": 238
	},
	{
	"epoch": 1.6369863013698631,
	"grad_norm": 0.0774475760401046,
	"learning_rate": 9.761636001301871e-06,
	"loss": 0.065,
	"step": 239
	},
	{
	"epoch": 1.643835616438356,
	"grad_norm": 0.03996033149580056,
	"learning_rate": 9.408655656187282e-06,
	"loss": 0.065,
	"step": 240
	},
	{
	"epoch": 1.6506849315068495,
	"grad_norm": 0.03785205141208416,
	"learning_rate": 9.061511446943533e-06,
	"loss": 0.0548,
	"step": 241
	},
	{
	"epoch": 1.6575342465753424,
	"grad_norm": 0.03850363195978434,
	"learning_rate": 8.720253285215685e-06,
	"loss": 0.0587,
	"step": 242
	},
	{
	"epoch": 1.6643835616438356,
	"grad_norm": 0.0469269115044975,
	"learning_rate": 8.384930236365629e-06,
	"loss": 0.0634,
	"step": 243
	},
	{
	"epoch": 1.6712328767123288,
	"grad_norm": 0.0498361427852067,
	"learning_rate": 8.0555905124175e-06,
	"loss": 0.051,
	"step": 244
	},
	{
	"epoch": 1.678082191780822,
	"grad_norm": 0.04702037163211539,
	"learning_rate": 7.732281465125907e-06,
	"loss": 0.0677,
	"step": 245
	},
	{
	"epoch": 1.6849315068493151,
	"grad_norm": 0.04724045679820981,
	"learning_rate": 7.415049579167782e-06,
	"loss": 0.0731,
	"step": 246
	},
	{
	"epoch": 1.691780821917808,
	"grad_norm": 0.04960546509274232,
	"learning_rate": 7.103940465458936e-06,
	"loss": 0.0777,
	"step": 247
	},
	{
	"epoch": 1.6986301369863015,
	"grad_norm": 0.04749987160293405,
	"learning_rate": 6.798998854596189e-06,
	"loss": 0.0531,
	"step": 248
	},
	{
	"epoch": 1.7054794520547945,
	"grad_norm": 0.04656027534681338,
	"learning_rate": 6.500268590426106e-06,
	"loss": 0.0547,
	"step": 249
	},
	{
	"epoch": 1.7123287671232876,
	"grad_norm": 0.043116663189771226,
	"learning_rate": 6.207792623741249e-06,
	"loss": 0.0677,
	"step": 250
	},
	{
	"epoch": 1.7191780821917808,
	"grad_norm": 0.04714594190332252,
	"learning_rate": 5.9216130061047646e-06,
	"loss": 0.068,
	"step": 251
	},
	{
	"epoch": 1.726027397260274,
	"grad_norm": 0.0442482453639658,
	"learning_rate": 5.641770883804365e-06,
	"loss": 0.0602,
	"step": 252
	},
	{
	"epoch": 1.7328767123287672,
	"grad_norm": 0.044456632129314805,
	"learning_rate": 5.368306491936325e-06,
	"loss": 0.0661,
	"step": 253
	},
	{
	"epoch": 1.7397260273972601,
	"grad_norm": 0.04864641601498424,
	"learning_rate": 5.101259148620619e-06,
	"loss": 0.0676,
	"step": 254
	},
	{
	"epoch": 1.7465753424657535,
	"grad_norm": 0.043784015189862524,
	"learning_rate": 4.840667249347824e-06,
	"loss": 0.0669,
	"step": 255
	},
	{
	"epoch": 1.7534246575342465,
	"grad_norm": 0.043216466288645235,
	"learning_rate": 4.586568261458729e-06,
	"loss": 0.0644,
	"step": 256
	},
	{
	"epoch": 1.7602739726027399,
	"grad_norm": 0.042340118838538034,
	"learning_rate": 4.3389987187573145e-06,
	"loss": 0.053,
	"step": 257
	},
	{
	"epoch": 1.7671232876712328,
	"grad_norm": 0.03965234038836836,
	"learning_rate": 4.097994216258039e-06,
	"loss": 0.0528,
	"step": 258
	},
	{
	"epoch": 1.773972602739726,
	"grad_norm": 0.04330912545003313,
	"learning_rate": 3.8635894050680466e-06,
	"loss": 0.062,
	"step": 259
	},
	{
	"epoch": 1.7808219178082192,
	"grad_norm": 0.04245993591175113,
	"learning_rate": 3.63581798740511e-06,
	"loss": 0.0682,
	"step": 260
	},
	{
	"epoch": 1.7876712328767124,
	"grad_norm": 0.046454610509872485,
	"learning_rate": 3.4147127117520104e-06,
	"loss": 0.0773,
	"step": 261
	},
	{
	"epoch": 1.7945205479452055,
	"grad_norm": 0.061061675638647096,
	"learning_rate": 3.2003053681480098e-06,
	"loss": 0.0628,
	"step": 262
	},
	{
	"epoch": 1.8013698630136985,
	"grad_norm": 0.04251403620622773,
	"learning_rate": 2.992626783618152e-06,
	"loss": 0.0506,
	"step": 263
	},
	{
	"epoch": 1.808219178082192,
	"grad_norm": 0.04783592253659306,
	"learning_rate": 2.791706817741041e-06,
	"loss": 0.0737,
	"step": 264
	},
	{
	"epoch": 1.8150684931506849,
	"grad_norm": 0.04359969004920878,
	"learning_rate": 2.59757435835567e-06,
	"loss": 0.0599,
	"step": 265
	},
	{
	"epoch": 1.821917808219178,
	"grad_norm": 0.044487631888004406,
	"learning_rate": 2.41025731740801e-06,
	"loss": 0.0692,
	"step": 266
	},
	{
	"epoch": 1.8287671232876712,
	"grad_norm": 0.04510155943713286,
	"learning_rate": 2.229782626937865e-06,
	"loss": 0.0633,
	"step": 267
	},
	{
	"epoch": 1.8356164383561644,
	"grad_norm": 0.04035438478741115,
	"learning_rate": 2.056176235206664e-06,
	"loss": 0.0601,
	"step": 268
	},
	{
	"epoch": 1.8424657534246576,
	"grad_norm": 0.046645570169377086,
	"learning_rate": 1.889463102966671e-06,
	"loss": 0.0671,
	"step": 269
	},
	{
	"epoch": 1.8493150684931505,
	"grad_norm": 0.045925921341422184,
	"learning_rate": 1.729667199872187e-06,
	"loss": 0.0796,
	"step": 270
	},
	{
	"epoch": 1.856164383561644,
	"grad_norm": 0.047745127307766096,
	"learning_rate": 1.5768115010332208e-06,
	"loss": 0.0681,
	"step": 271
	},
	{
	"epoch": 1.8630136986301369,
	"grad_norm": 0.04828726659252653,
	"learning_rate": 1.4309179837122044e-06,
	"loss": 0.0637,
	"step": 272
	},
	{
	"epoch": 1.8698630136986303,
	"grad_norm": 0.03831444871977773,
	"learning_rate": 1.2920076241641376e-06,
	"loss": 0.0537,
	"step": 273
	},
	{
	"epoch": 1.8767123287671232,
	"grad_norm": 0.043143594829470666,
	"learning_rate": 1.1601003946206724e-06,
	"loss": 0.0645,
	"step": 274
	},
	{
	"epoch": 1.8835616438356164,
	"grad_norm": 0.04108818302281154,
	"learning_rate": 1.0352152604185428e-06,
	"loss": 0.0596,
	"step": 275
	},
	{
	"epoch": 1.8904109589041096,
	"grad_norm": 0.04419177931878111,
	"learning_rate": 9.17370177272775e-07,
	"loss": 0.0681,
	"step": 276
	},
	{
	"epoch": 1.8972602739726028,
	"grad_norm": 0.04544816624943878,
	"learning_rate": 8.065820886950404e-07,
	"loss": 0.0665,
	"step": 277
	},
	{
	"epoch": 1.904109589041096,
	"grad_norm": 0.044560046311441934,
	"learning_rate": 7.028669235575714e-07,
	"loss": 0.0665,
	"step": 278
	},
	{
	"epoch": 1.910958904109589,
	"grad_norm": 0.046336508445476945,
	"learning_rate": 6.062395938029485e-07,
	"loss": 0.0715,
	"step": 279
	},
	{
	"epoch": 1.9178082191780823,
	"grad_norm": 0.046783520939667735,
	"learning_rate": 5.167139923000553e-07,
	"loss": 0.0671,
	"step": 280
	},
	{
	"epoch": 1.9246575342465753,
	"grad_norm": 0.045134549211076444,
	"learning_rate": 4.343029908466301e-07,
	"loss": 0.0651,
	"step": 281
	},
	{
	"epoch": 1.9315068493150684,
	"grad_norm": 0.04620102733800356,
	"learning_rate": 3.5901843831857576e-07,
	"loss": 0.0611,
	"step": 282
	},
	{
	"epoch": 1.9383561643835616,
	"grad_norm": 0.04290459317190587,
	"learning_rate": 2.908711589663549e-07,
	"loss": 0.0688,
	"step": 283
	},
	{
	"epoch": 1.9452054794520548,
	"grad_norm": 0.0459065259141636,
	"learning_rate": 2.2987095085867937e-07,
	"loss": 0.0627,
	"step": 284
	},
	{
	"epoch": 1.952054794520548,
	"grad_norm": 0.062357302229075894,
	"learning_rate": 1.760265844738096e-07,
	"loss": 0.0792,
	"step": 285
	},
	{
	"epoch": 1.958904109589041,
	"grad_norm": 0.044164802827650715,
	"learning_rate": 1.2934580143851295e-07,
	"loss": 0.0601,
	"step": 286
	},
	{
	"epoch": 1.9657534246575343,
	"grad_norm": 0.03615207612143871,
	"learning_rate": 8.983531341500983e-08,
	"loss": 0.0512,
	"step": 287
	},
	{
	"epoch": 1.9726027397260273,
	"grad_norm": 0.04362072520783342,
	"learning_rate": 5.750080113598455e-08,
	"loss": 0.0616,
	"step": 288
	},
	{
	"epoch": 1.9794520547945207,
	"grad_norm": 0.04831491776296162,
	"learning_rate": 3.2346913587816275e-08,
	"loss": 0.0731,
	"step": 289
	},
	{
	"epoch": 1.9863013698630136,
	"grad_norm": 0.050700245606893124,
	"learning_rate": 1.4377267342158274e-08,
	"loss": 0.0733,
	"step": 290
	},
	{
	"epoch": 1.9931506849315068,
	"grad_norm": 0.04317508790841958,
	"learning_rate": 3.594446035964927e-09,
	"loss": 0.054,
	"step": 291
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.05236597882946408,
	"learning_rate": 0.0,
	"loss": 0.0588,
	"step": 292
	},
	{
	"epoch": 2.0,
	"step": 292,
	"total_flos": 739456868941824.0,
	"train_loss": 0.07426239744032899,
	"train_runtime": 2224.6089,
	"train_samples_per_second": 0.523,
	"train_steps_per_second": 0.131
	}
	],
	"logging_steps": 1,
	"max_steps": 292,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 300,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 739456868941824.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}