{
  "best_metric": 0.6699127554893494,
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
  "epoch": 0.047443956825999285,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00023721978412999644,
      "grad_norm": 1.5958248376846313,
      "learning_rate": 1e-05,
      "loss": 1.165,
      "step": 1
    },
    {
      "epoch": 0.00023721978412999644,
      "eval_loss": 1.339112401008606,
      "eval_runtime": 233.7181,
      "eval_samples_per_second": 30.378,
      "eval_steps_per_second": 7.595,
      "step": 1
    },
    {
      "epoch": 0.0004744395682599929,
      "grad_norm": 1.7727992534637451,
      "learning_rate": 2e-05,
      "loss": 1.228,
      "step": 2
    },
    {
      "epoch": 0.0007116593523899894,
      "grad_norm": 1.8683253526687622,
      "learning_rate": 3e-05,
      "loss": 1.2437,
      "step": 3
    },
    {
      "epoch": 0.0009488791365199858,
      "grad_norm": 1.750178575515747,
      "learning_rate": 4e-05,
      "loss": 1.1708,
      "step": 4
    },
    {
      "epoch": 0.0011860989206499823,
      "grad_norm": 1.6759147644042969,
      "learning_rate": 5e-05,
      "loss": 1.0585,
      "step": 5
    },
    {
      "epoch": 0.0014233187047799788,
      "grad_norm": 2.1767990589141846,
      "learning_rate": 6e-05,
      "loss": 1.2128,
      "step": 6
    },
    {
      "epoch": 0.001660538488909975,
      "grad_norm": 2.1099469661712646,
      "learning_rate": 7e-05,
      "loss": 1.1104,
      "step": 7
    },
    {
      "epoch": 0.0018977582730399715,
      "grad_norm": 1.9110968112945557,
      "learning_rate": 8e-05,
      "loss": 1.0096,
      "step": 8
    },
    {
      "epoch": 0.002134978057169968,
      "grad_norm": 1.776946783065796,
      "learning_rate": 9e-05,
      "loss": 1.0459,
      "step": 9
    },
    {
      "epoch": 0.0023721978412999645,
      "grad_norm": 1.5707837343215942,
      "learning_rate": 0.0001,
      "loss": 1.0416,
      "step": 10
    },
    {
      "epoch": 0.002609417625429961,
      "grad_norm": 1.4884068965911865,
      "learning_rate": 9.999316524962345e-05,
      "loss": 0.969,
      "step": 11
    },
    {
      "epoch": 0.0028466374095599575,
      "grad_norm": 1.5888737440109253,
      "learning_rate": 9.997266286704631e-05,
      "loss": 0.9821,
      "step": 12
    },
    {
      "epoch": 0.0030838571936899536,
      "grad_norm": 1.409480333328247,
      "learning_rate": 9.993849845741524e-05,
      "loss": 1.0501,
      "step": 13
    },
    {
      "epoch": 0.00332107697781995,
      "grad_norm": 1.3331998586654663,
      "learning_rate": 9.989068136093873e-05,
      "loss": 0.988,
      "step": 14
    },
    {
      "epoch": 0.0035582967619499466,
      "grad_norm": 1.3452210426330566,
      "learning_rate": 9.98292246503335e-05,
      "loss": 0.9402,
      "step": 15
    },
    {
      "epoch": 0.003795516546079943,
      "grad_norm": 1.2694491147994995,
      "learning_rate": 9.975414512725057e-05,
      "loss": 0.9387,
      "step": 16
    },
    {
      "epoch": 0.0040327363302099396,
      "grad_norm": 1.1997709274291992,
      "learning_rate": 9.966546331768191e-05,
      "loss": 0.8635,
      "step": 17
    },
    {
      "epoch": 0.004269956114339936,
      "grad_norm": 1.2555067539215088,
      "learning_rate": 9.956320346634876e-05,
      "loss": 0.9568,
      "step": 18
    },
    {
      "epoch": 0.0045071758984699326,
      "grad_norm": 1.361219048500061,
      "learning_rate": 9.944739353007344e-05,
      "loss": 0.9381,
      "step": 19
    },
    {
      "epoch": 0.004744395682599929,
      "grad_norm": 1.4081461429595947,
      "learning_rate": 9.931806517013612e-05,
      "loss": 0.9179,
      "step": 20
    },
    {
      "epoch": 0.0049816154667299255,
      "grad_norm": 1.347037434577942,
      "learning_rate": 9.917525374361912e-05,
      "loss": 0.9354,
      "step": 21
    },
    {
      "epoch": 0.005218835250859922,
      "grad_norm": 1.6336907148361206,
      "learning_rate": 9.901899829374047e-05,
      "loss": 0.9777,
      "step": 22
    },
    {
      "epoch": 0.0054560550349899185,
      "grad_norm": 1.3414052724838257,
      "learning_rate": 9.884934153917997e-05,
      "loss": 0.9694,
      "step": 23
    },
    {
      "epoch": 0.005693274819119915,
      "grad_norm": 1.2289034128189087,
      "learning_rate": 9.86663298624003e-05,
      "loss": 0.8701,
      "step": 24
    },
    {
      "epoch": 0.005930494603249911,
      "grad_norm": 1.5714263916015625,
      "learning_rate": 9.847001329696653e-05,
      "loss": 0.9894,
      "step": 25
    },
    {
      "epoch": 0.006167714387379907,
      "grad_norm": 1.1932514905929565,
      "learning_rate": 9.826044551386744e-05,
      "loss": 0.9203,
      "step": 26
    },
    {
      "epoch": 0.006404934171509904,
      "grad_norm": 1.2348222732543945,
      "learning_rate": 9.803768380684242e-05,
      "loss": 0.8964,
      "step": 27
    },
    {
      "epoch": 0.0066421539556399,
      "grad_norm": 1.1153037548065186,
      "learning_rate": 9.780178907671789e-05,
      "loss": 0.8272,
      "step": 28
    },
    {
      "epoch": 0.006879373739769897,
      "grad_norm": 1.0905495882034302,
      "learning_rate": 9.755282581475769e-05,
      "loss": 0.8069,
      "step": 29
    },
    {
      "epoch": 0.007116593523899893,
      "grad_norm": 0.9964051246643066,
      "learning_rate": 9.729086208503174e-05,
      "loss": 0.7537,
      "step": 30
    },
    {
      "epoch": 0.00735381330802989,
      "grad_norm": 0.9592883586883545,
      "learning_rate": 9.701596950580806e-05,
      "loss": 0.7555,
      "step": 31
    },
    {
      "epoch": 0.007591033092159886,
      "grad_norm": 0.9293772578239441,
      "learning_rate": 9.672822322997305e-05,
      "loss": 0.7831,
      "step": 32
    },
    {
      "epoch": 0.007828252876289882,
      "grad_norm": 0.892013669013977,
      "learning_rate": 9.642770192448536e-05,
      "loss": 0.7019,
      "step": 33
    },
    {
      "epoch": 0.008065472660419879,
      "grad_norm": 1.0310755968093872,
      "learning_rate": 9.611448774886924e-05,
      "loss": 0.7099,
      "step": 34
    },
    {
      "epoch": 0.008302692444549875,
      "grad_norm": 0.870015025138855,
      "learning_rate": 9.578866633275288e-05,
      "loss": 0.7377,
      "step": 35
    },
    {
      "epoch": 0.008539912228679872,
      "grad_norm": 1.051805019378662,
      "learning_rate": 9.545032675245813e-05,
      "loss": 0.7635,
      "step": 36
    },
    {
      "epoch": 0.008777132012809868,
      "grad_norm": 0.9381958842277527,
      "learning_rate": 9.509956150664796e-05,
      "loss": 0.7558,
      "step": 37
    },
    {
      "epoch": 0.009014351796939865,
      "grad_norm": 0.9197725653648376,
      "learning_rate": 9.473646649103818e-05,
      "loss": 0.6984,
      "step": 38
    },
    {
      "epoch": 0.00925157158106986,
      "grad_norm": 1.0197633504867554,
      "learning_rate": 9.43611409721806e-05,
      "loss": 0.7822,
      "step": 39
    },
    {
      "epoch": 0.009488791365199858,
      "grad_norm": 0.8820571899414062,
      "learning_rate": 9.397368756032445e-05,
      "loss": 0.6605,
      "step": 40
    },
    {
      "epoch": 0.009726011149329854,
      "grad_norm": 1.0206209421157837,
      "learning_rate": 9.357421218136386e-05,
      "loss": 0.7538,
      "step": 41
    },
    {
      "epoch": 0.009963230933459851,
      "grad_norm": 0.9634621143341064,
      "learning_rate": 9.316282404787871e-05,
      "loss": 0.7216,
      "step": 42
    },
    {
      "epoch": 0.010200450717589847,
      "grad_norm": 0.9685748219490051,
      "learning_rate": 9.273963562927695e-05,
      "loss": 0.7177,
      "step": 43
    },
    {
      "epoch": 0.010437670501719844,
      "grad_norm": 0.9565600752830505,
      "learning_rate": 9.230476262104677e-05,
      "loss": 0.7603,
      "step": 44
    },
    {
      "epoch": 0.01067489028584984,
      "grad_norm": 0.9783924221992493,
      "learning_rate": 9.185832391312644e-05,
      "loss": 0.7222,
      "step": 45
    },
    {
      "epoch": 0.010912110069979837,
      "grad_norm": 0.9061411619186401,
      "learning_rate": 9.140044155740101e-05,
      "loss": 0.7087,
      "step": 46
    },
    {
      "epoch": 0.011149329854109833,
      "grad_norm": 0.9492982625961304,
      "learning_rate": 9.093124073433463e-05,
      "loss": 0.7624,
      "step": 47
    },
    {
      "epoch": 0.01138654963823983,
      "grad_norm": 0.868718683719635,
      "learning_rate": 9.045084971874738e-05,
      "loss": 0.6463,
      "step": 48
    },
    {
      "epoch": 0.011623769422369826,
      "grad_norm": 0.899802565574646,
      "learning_rate": 8.995939984474624e-05,
      "loss": 0.6575,
      "step": 49
    },
    {
      "epoch": 0.011860989206499821,
      "grad_norm": 1.1027320623397827,
      "learning_rate": 8.945702546981969e-05,
      "loss": 0.8483,
      "step": 50
    },
    {
      "epoch": 0.011860989206499821,
      "eval_loss": 0.8072211146354675,
      "eval_runtime": 235.2123,
      "eval_samples_per_second": 30.185,
      "eval_steps_per_second": 7.546,
      "step": 50
    },
    {
      "epoch": 0.012098208990629819,
      "grad_norm": 1.1416206359863281,
      "learning_rate": 8.894386393810563e-05,
      "loss": 0.8078,
      "step": 51
    },
    {
      "epoch": 0.012335428774759814,
      "grad_norm": 0.8619584441184998,
      "learning_rate": 8.842005554284296e-05,
      "loss": 0.7911,
      "step": 52
    },
    {
      "epoch": 0.012572648558889812,
      "grad_norm": 0.8225563168525696,
      "learning_rate": 8.788574348801675e-05,
      "loss": 0.7735,
      "step": 53
    },
    {
      "epoch": 0.012809868343019807,
      "grad_norm": 0.8808755874633789,
      "learning_rate": 8.73410738492077e-05,
      "loss": 0.849,
      "step": 54
    },
    {
      "epoch": 0.013047088127149805,
      "grad_norm": 0.8461216688156128,
      "learning_rate": 8.678619553365659e-05,
      "loss": 0.7511,
      "step": 55
    },
    {
      "epoch": 0.0132843079112798,
      "grad_norm": 0.8653741478919983,
      "learning_rate": 8.622126023955446e-05,
      "loss": 0.7824,
      "step": 56
    },
    {
      "epoch": 0.013521527695409798,
      "grad_norm": 0.9017005562782288,
      "learning_rate": 8.564642241456986e-05,
      "loss": 0.8026,
      "step": 57
    },
    {
      "epoch": 0.013758747479539793,
      "grad_norm": 0.8131526112556458,
      "learning_rate": 8.506183921362443e-05,
      "loss": 0.7581,
      "step": 58
    },
    {
      "epoch": 0.01399596726366979,
      "grad_norm": 1.173535704612732,
      "learning_rate": 8.44676704559283e-05,
      "loss": 0.781,
      "step": 59
    },
    {
      "epoch": 0.014233187047799786,
      "grad_norm": 1.1288381814956665,
      "learning_rate": 8.386407858128706e-05,
      "loss": 0.7657,
      "step": 60
    },
    {
      "epoch": 0.014470406831929784,
      "grad_norm": 0.9393994212150574,
      "learning_rate": 8.32512286056924e-05,
      "loss": 0.7936,
      "step": 61
    },
    {
      "epoch": 0.01470762661605978,
      "grad_norm": 0.9701281785964966,
      "learning_rate": 8.262928807620843e-05,
      "loss": 0.7831,
      "step": 62
    },
    {
      "epoch": 0.014944846400189777,
      "grad_norm": 0.8980702757835388,
      "learning_rate": 8.199842702516583e-05,
      "loss": 0.7456,
      "step": 63
    },
    {
      "epoch": 0.015182066184319772,
      "grad_norm": 0.855131208896637,
      "learning_rate": 8.135881792367686e-05,
      "loss": 0.765,
      "step": 64
    },
    {
      "epoch": 0.015419285968449768,
      "grad_norm": 0.8539338707923889,
      "learning_rate": 8.07106356344834e-05,
      "loss": 0.7271,
      "step": 65
    },
    {
      "epoch": 0.015656505752579764,
      "grad_norm": 0.8751465082168579,
      "learning_rate": 8.005405736415126e-05,
      "loss": 0.7492,
      "step": 66
    },
    {
      "epoch": 0.01589372553670976,
      "grad_norm": 0.886206865310669,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.8243,
      "step": 67
    },
    {
      "epoch": 0.016130945320839758,
      "grad_norm": 1.0128804445266724,
      "learning_rate": 7.871643313414718e-05,
      "loss": 0.8524,
      "step": 68
    },
    {
      "epoch": 0.016368165104969756,
      "grad_norm": 0.982694149017334,
      "learning_rate": 7.803575286758364e-05,
      "loss": 0.7379,
      "step": 69
    },
    {
      "epoch": 0.01660538488909975,
      "grad_norm": 0.9402581453323364,
      "learning_rate": 7.734740790612136e-05,
      "loss": 0.7872,
      "step": 70
    },
    {
      "epoch": 0.016842604673229747,
      "grad_norm": 1.0742664337158203,
      "learning_rate": 7.66515864363997e-05,
      "loss": 0.7875,
      "step": 71
    },
    {
      "epoch": 0.017079824457359744,
      "grad_norm": 1.048844575881958,
      "learning_rate": 7.594847868906076e-05,
      "loss": 0.8501,
      "step": 72
    },
    {
      "epoch": 0.01731704424148974,
      "grad_norm": 1.0787715911865234,
      "learning_rate": 7.52382768867422e-05,
      "loss": 0.8068,
      "step": 73
    },
    {
      "epoch": 0.017554264025619735,
      "grad_norm": 1.141990065574646,
      "learning_rate": 7.452117519152542e-05,
      "loss": 0.8017,
      "step": 74
    },
    {
      "epoch": 0.017791483809749733,
      "grad_norm": 1.060392141342163,
      "learning_rate": 7.379736965185368e-05,
      "loss": 0.7624,
      "step": 75
    },
    {
      "epoch": 0.01802870359387973,
      "grad_norm": 1.1120985746383667,
      "learning_rate": 7.30670581489344e-05,
      "loss": 0.7869,
      "step": 76
    },
    {
      "epoch": 0.018265923378009728,
      "grad_norm": 1.2240346670150757,
      "learning_rate": 7.233044034264034e-05,
      "loss": 0.8466,
      "step": 77
    },
    {
      "epoch": 0.01850314316213972,
      "grad_norm": 1.1537481546401978,
      "learning_rate": 7.158771761692464e-05,
      "loss": 0.8117,
      "step": 78
    },
    {
      "epoch": 0.01874036294626972,
      "grad_norm": 1.2207159996032715,
      "learning_rate": 7.083909302476453e-05,
      "loss": 0.8788,
      "step": 79
    },
    {
      "epoch": 0.018977582730399716,
      "grad_norm": 0.9065801501274109,
      "learning_rate": 7.008477123264848e-05,
      "loss": 0.7039,
      "step": 80
    },
    {
      "epoch": 0.01921480251452971,
      "grad_norm": 0.9931949377059937,
      "learning_rate": 6.932495846462261e-05,
      "loss": 0.6578,
      "step": 81
    },
    {
      "epoch": 0.019452022298659707,
      "grad_norm": 1.0178767442703247,
      "learning_rate": 6.855986244591104e-05,
      "loss": 0.6884,
      "step": 82
    },
    {
      "epoch": 0.019689242082789705,
      "grad_norm": 0.9096078276634216,
      "learning_rate": 6.778969234612584e-05,
      "loss": 0.6891,
      "step": 83
    },
    {
      "epoch": 0.019926461866919702,
      "grad_norm": 0.9747595191001892,
      "learning_rate": 6.701465872208216e-05,
      "loss": 0.6518,
      "step": 84
    },
    {
      "epoch": 0.020163681651049696,
      "grad_norm": 0.8623955249786377,
      "learning_rate": 6.623497346023418e-05,
      "loss": 0.6372,
      "step": 85
    },
    {
      "epoch": 0.020400901435179693,
      "grad_norm": 0.9105467796325684,
      "learning_rate": 6.545084971874738e-05,
      "loss": 0.648,
      "step": 86
    },
    {
      "epoch": 0.02063812121930969,
      "grad_norm": 0.8449392914772034,
      "learning_rate": 6.466250186922325e-05,
      "loss": 0.6763,
      "step": 87
    },
    {
      "epoch": 0.020875341003439688,
      "grad_norm": 0.8167620301246643,
      "learning_rate": 6.387014543809223e-05,
      "loss": 0.6649,
      "step": 88
    },
    {
      "epoch": 0.021112560787569682,
      "grad_norm": 0.8733082413673401,
      "learning_rate": 6.307399704769099e-05,
      "loss": 0.7107,
      "step": 89
    },
    {
      "epoch": 0.02134978057169968,
      "grad_norm": 0.8659031391143799,
      "learning_rate": 6.227427435703997e-05,
      "loss": 0.7017,
      "step": 90
    },
    {
      "epoch": 0.021587000355829677,
      "grad_norm": 0.8615431189537048,
      "learning_rate": 6.147119600233758e-05,
      "loss": 0.6807,
      "step": 91
    },
    {
      "epoch": 0.021824220139959674,
      "grad_norm": 0.9848886132240295,
      "learning_rate": 6.066498153718735e-05,
      "loss": 0.7323,
      "step": 92
    },
    {
      "epoch": 0.022061439924089668,
      "grad_norm": 0.8403916954994202,
      "learning_rate": 5.985585137257401e-05,
      "loss": 0.6809,
      "step": 93
    },
    {
      "epoch": 0.022298659708219665,
      "grad_norm": 0.7993919253349304,
      "learning_rate": 5.90440267166055e-05,
      "loss": 0.6682,
      "step": 94
    },
    {
      "epoch": 0.022535879492349663,
      "grad_norm": 0.8586133718490601,
      "learning_rate": 5.8229729514036705e-05,
      "loss": 0.7221,
      "step": 95
    },
    {
      "epoch": 0.02277309927647966,
      "grad_norm": 0.8416119813919067,
      "learning_rate": 5.74131823855921e-05,
      "loss": 0.6558,
      "step": 96
    },
    {
      "epoch": 0.023010319060609654,
      "grad_norm": 0.7572498321533203,
      "learning_rate": 5.6594608567103456e-05,
      "loss": 0.6033,
      "step": 97
    },
    {
      "epoch": 0.02324753884473965,
      "grad_norm": 0.8055830597877502,
      "learning_rate": 5.577423184847932e-05,
      "loss": 0.637,
      "step": 98
    },
    {
      "epoch": 0.02348475862886965,
      "grad_norm": 0.8814919590950012,
      "learning_rate": 5.495227651252315e-05,
      "loss": 0.7049,
      "step": 99
    },
    {
      "epoch": 0.023721978412999643,
      "grad_norm": 0.9586013555526733,
      "learning_rate": 5.4128967273616625e-05,
      "loss": 0.7261,
      "step": 100
    },
    {
      "epoch": 0.023721978412999643,
      "eval_loss": 0.736125111579895,
      "eval_runtime": 235.1192,
      "eval_samples_per_second": 30.197,
      "eval_steps_per_second": 7.549,
      "step": 100
    },
    {
      "epoch": 0.02395919819712964,
      "grad_norm": 0.7283617854118347,
      "learning_rate": 5.330452921628497e-05,
      "loss": 0.6884,
      "step": 101
    },
    {
      "epoch": 0.024196417981259637,
      "grad_norm": 0.8127428889274597,
      "learning_rate": 5.247918773366112e-05,
      "loss": 0.8016,
      "step": 102
    },
    {
      "epoch": 0.024433637765389635,
      "grad_norm": 0.7910113334655762,
      "learning_rate": 5.165316846586541e-05,
      "loss": 0.7409,
      "step": 103
    },
    {
      "epoch": 0.02467085754951963,
      "grad_norm": 0.7504158020019531,
      "learning_rate": 5.0826697238317935e-05,
      "loss": 0.7904,
      "step": 104
    },
    {
      "epoch": 0.024908077333649626,
      "grad_norm": 0.8446702361106873,
      "learning_rate": 5e-05,
      "loss": 0.8112,
      "step": 105
    },
    {
      "epoch": 0.025145297117779623,
      "grad_norm": 0.7874501943588257,
      "learning_rate": 4.917330276168208e-05,
      "loss": 0.734,
      "step": 106
    },
    {
      "epoch": 0.02538251690190962,
      "grad_norm": 0.8106358051300049,
      "learning_rate": 4.834683153413459e-05,
      "loss": 0.7423,
      "step": 107
    },
    {
      "epoch": 0.025619736686039615,
      "grad_norm": 0.8090230226516724,
      "learning_rate": 4.7520812266338885e-05,
      "loss": 0.679,
      "step": 108
    },
    {
      "epoch": 0.025856956470169612,
      "grad_norm": 1.17742919921875,
      "learning_rate": 4.669547078371504e-05,
      "loss": 0.785,
      "step": 109
    },
    {
      "epoch": 0.02609417625429961,
      "grad_norm": 0.8069350719451904,
      "learning_rate": 4.5871032726383386e-05,
      "loss": 0.701,
      "step": 110
    },
    {
      "epoch": 0.026331396038429607,
      "grad_norm": 0.8428216576576233,
      "learning_rate": 4.504772348747687e-05,
      "loss": 0.6817,
      "step": 111
    },
    {
      "epoch": 0.0265686158225596,
      "grad_norm": 1.0133212804794312,
      "learning_rate": 4.4225768151520694e-05,
      "loss": 0.7576,
      "step": 112
    },
    {
      "epoch": 0.026805835606689598,
      "grad_norm": 0.832694411277771,
      "learning_rate": 4.3405391432896555e-05,
      "loss": 0.6836,
      "step": 113
    },
    {
      "epoch": 0.027043055390819595,
      "grad_norm": 0.9145714640617371,
      "learning_rate": 4.2586817614407895e-05,
      "loss": 0.6825,
      "step": 114
    },
    {
      "epoch": 0.02728027517494959,
      "grad_norm": 1.130866527557373,
      "learning_rate": 4.17702704859633e-05,
      "loss": 0.6848,
      "step": 115
    },
    {
      "epoch": 0.027517494959079587,
      "grad_norm": 0.9722512364387512,
      "learning_rate": 4.095597328339452e-05,
      "loss": 0.7885,
      "step": 116
    },
    {
      "epoch": 0.027754714743209584,
      "grad_norm": 1.1187204122543335,
      "learning_rate": 4.0144148627425993e-05,
      "loss": 0.753,
      "step": 117
    },
    {
      "epoch": 0.02799193452733958,
      "grad_norm": 1.16019606590271,
      "learning_rate": 3.933501846281267e-05,
      "loss": 0.754,
      "step": 118
    },
    {
      "epoch": 0.028229154311469575,
      "grad_norm": 0.9515473246574402,
      "learning_rate": 3.852880399766243e-05,
      "loss": 0.7074,
      "step": 119
    },
    {
      "epoch": 0.028466374095599573,
      "grad_norm": 1.2701789140701294,
      "learning_rate": 3.772572564296005e-05,
      "loss": 0.6909,
      "step": 120
    },
    {
      "epoch": 0.02870359387972957,
      "grad_norm": 1.2381017208099365,
      "learning_rate": 3.6926002952309016e-05,
      "loss": 0.7188,
      "step": 121
    },
    {
      "epoch": 0.028940813663859567,
      "grad_norm": 0.9172736406326294,
      "learning_rate": 3.612985456190778e-05,
      "loss": 0.6734,
      "step": 122
    },
    {
      "epoch": 0.02917803344798956,
      "grad_norm": 1.1737093925476074,
      "learning_rate": 3.533749813077677e-05,
      "loss": 0.8707,
      "step": 123
    },
    {
      "epoch": 0.02941525323211956,
      "grad_norm": 1.3576829433441162,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.6951,
      "step": 124
    },
    {
      "epoch": 0.029652473016249556,
      "grad_norm": 1.1770251989364624,
      "learning_rate": 3.3765026539765834e-05,
      "loss": 0.7555,
      "step": 125
    },
    {
      "epoch": 0.029889692800379553,
      "grad_norm": 1.221312403678894,
      "learning_rate": 3.298534127791785e-05,
      "loss": 0.7826,
      "step": 126
    },
    {
      "epoch": 0.030126912584509547,
      "grad_norm": 1.2422999143600464,
      "learning_rate": 3.221030765387417e-05,
      "loss": 0.7599,
      "step": 127
    },
    {
      "epoch": 0.030364132368639545,
      "grad_norm": 1.7487767934799194,
      "learning_rate": 3.144013755408895e-05,
      "loss": 0.7742,
      "step": 128
    },
    {
      "epoch": 0.030601352152769542,
      "grad_norm": 1.3855104446411133,
      "learning_rate": 3.0675041535377405e-05,
      "loss": 0.6397,
      "step": 129
    },
    {
      "epoch": 0.030838571936899536,
      "grad_norm": 0.8315044641494751,
      "learning_rate": 2.991522876735154e-05,
      "loss": 0.622,
      "step": 130
    },
    {
      "epoch": 0.031075791721029533,
      "grad_norm": 0.7857958674430847,
      "learning_rate": 2.916090697523549e-05,
      "loss": 0.5758,
      "step": 131
    },
    {
      "epoch": 0.03131301150515953,
      "grad_norm": 0.7569005489349365,
      "learning_rate": 2.8412282383075363e-05,
      "loss": 0.596,
      "step": 132
    },
    {
      "epoch": 0.03155023128928953,
      "grad_norm": 0.8171435594558716,
      "learning_rate": 2.766955965735968e-05,
      "loss": 0.6294,
      "step": 133
    },
    {
      "epoch": 0.03178745107341952,
      "grad_norm": 0.9362813234329224,
      "learning_rate": 2.693294185106562e-05,
      "loss": 0.698,
      "step": 134
    },
    {
      "epoch": 0.03202467085754952,
      "grad_norm": 0.8795444369316101,
      "learning_rate": 2.6202630348146324e-05,
      "loss": 0.6801,
      "step": 135
    },
    {
      "epoch": 0.032261890641679516,
      "grad_norm": 1.0102015733718872,
      "learning_rate": 2.547882480847461e-05,
      "loss": 0.7269,
      "step": 136
    },
    {
      "epoch": 0.03249911042580951,
      "grad_norm": 0.8579519391059875,
      "learning_rate": 2.476172311325783e-05,
      "loss": 0.665,
      "step": 137
    },
    {
      "epoch": 0.03273633020993951,
      "grad_norm": 0.8289409875869751,
      "learning_rate": 2.405152131093926e-05,
      "loss": 0.6496,
      "step": 138
    },
    {
      "epoch": 0.032973549994069505,
      "grad_norm": 0.769172728061676,
      "learning_rate": 2.3348413563600325e-05,
      "loss": 0.6636,
      "step": 139
    },
    {
      "epoch": 0.0332107697781995,
      "grad_norm": 0.7622990012168884,
      "learning_rate": 2.2652592093878666e-05,
      "loss": 0.5701,
      "step": 140
    },
    {
      "epoch": 0.0334479895623295,
      "grad_norm": 0.7806041836738586,
      "learning_rate": 2.196424713241637e-05,
      "loss": 0.6029,
      "step": 141
    },
    {
      "epoch": 0.033685209346459494,
      "grad_norm": 0.7865514159202576,
      "learning_rate": 2.128356686585282e-05,
      "loss": 0.5823,
      "step": 142
    },
    {
      "epoch": 0.033922429130589495,
      "grad_norm": 0.918694794178009,
      "learning_rate": 2.061073738537635e-05,
      "loss": 0.7115,
      "step": 143
    },
    {
      "epoch": 0.03415964891471949,
      "grad_norm": 0.8893090486526489,
      "learning_rate": 1.9945942635848748e-05,
      "loss": 0.6662,
      "step": 144
    },
    {
      "epoch": 0.03439686869884948,
      "grad_norm": 0.7837886810302734,
      "learning_rate": 1.928936436551661e-05,
      "loss": 0.6374,
      "step": 145
    },
    {
      "epoch": 0.03463408848297948,
      "grad_norm": 0.7724682092666626,
      "learning_rate": 1.8641182076323148e-05,
      "loss": 0.6323,
      "step": 146
    },
    {
      "epoch": 0.03487130826710948,
      "grad_norm": 0.8267701864242554,
      "learning_rate": 1.800157297483417e-05,
      "loss": 0.6985,
      "step": 147
    },
    {
      "epoch": 0.03510852805123947,
      "grad_norm": 0.8362095355987549,
      "learning_rate": 1.7370711923791567e-05,
      "loss": 0.6766,
      "step": 148
    },
    {
      "epoch": 0.03534574783536947,
      "grad_norm": 0.8998732566833496,
      "learning_rate": 1.6748771394307585e-05,
      "loss": 0.6805,
      "step": 149
    },
    {
      "epoch": 0.035582967619499466,
      "grad_norm": 0.9854611158370972,
      "learning_rate": 1.6135921418712956e-05,
      "loss": 0.7716,
      "step": 150
    },
    {
      "epoch": 0.035582967619499466,
      "eval_loss": 0.7041047811508179,
      "eval_runtime": 235.0667,
      "eval_samples_per_second": 30.204,
      "eval_steps_per_second": 7.551,
      "step": 150
    },
    {
      "epoch": 0.03582018740362946,
      "grad_norm": 0.7392059564590454,
      "learning_rate": 1.553232954407171e-05,
      "loss": 0.7363,
      "step": 151
    },
    {
      "epoch": 0.03605740718775946,
      "grad_norm": 0.7557839751243591,
      "learning_rate": 1.4938160786375572e-05,
      "loss": 0.7302,
      "step": 152
    },
    {
      "epoch": 0.036294626971889454,
      "grad_norm": 0.85422283411026,
      "learning_rate": 1.435357758543015e-05,
      "loss": 0.7225,
      "step": 153
    },
    {
      "epoch": 0.036531846756019455,
      "grad_norm": 0.8653742074966431,
      "learning_rate": 1.3778739760445552e-05,
      "loss": 0.733,
      "step": 154
    },
    {
      "epoch": 0.03676906654014945,
      "grad_norm": 0.7707400918006897,
      "learning_rate": 1.3213804466343421e-05,
      "loss": 0.7175,
      "step": 155
    },
    {
      "epoch": 0.03700628632427944,
      "grad_norm": 0.8439996242523193,
      "learning_rate": 1.2658926150792322e-05,
      "loss": 0.7292,
      "step": 156
    },
    {
      "epoch": 0.037243506108409444,
      "grad_norm": 0.8339818120002747,
      "learning_rate": 1.2114256511983274e-05,
      "loss": 0.7705,
      "step": 157
    },
    {
      "epoch": 0.03748072589253944,
      "grad_norm": 0.8823839426040649,
      "learning_rate": 1.157994445715706e-05,
      "loss": 0.6992,
      "step": 158
    },
    {
      "epoch": 0.03771794567666943,
      "grad_norm": 0.7427630424499512,
      "learning_rate": 1.1056136061894384e-05,
      "loss": 0.6088,
      "step": 159
    },
    {
      "epoch": 0.03795516546079943,
      "grad_norm": 0.8662724494934082,
      "learning_rate": 1.0542974530180327e-05,
      "loss": 0.7193,
      "step": 160
    },
    {
      "epoch": 0.038192385244929426,
      "grad_norm": 0.8091856241226196,
      "learning_rate": 1.0040600155253765e-05,
      "loss": 0.6666,
      "step": 161
    },
    {
      "epoch": 0.03842960502905942,
      "grad_norm": 0.8553221225738525,
      "learning_rate": 9.549150281252633e-06,
      "loss": 0.762,
      "step": 162
    },
    {
      "epoch": 0.03866682481318942,
      "grad_norm": 0.8766504526138306,
      "learning_rate": 9.068759265665384e-06,
      "loss": 0.7051,
      "step": 163
    },
    {
      "epoch": 0.038904044597319415,
      "grad_norm": 0.8834341168403625,
      "learning_rate": 8.599558442598998e-06,
      "loss": 0.7316,
      "step": 164
    },
    {
      "epoch": 0.039141264381449416,
      "grad_norm": 0.9050655364990234,
      "learning_rate": 8.141676086873572e-06,
      "loss": 0.7261,
      "step": 165
    },
    {
      "epoch": 0.03937848416557941,
      "grad_norm": 0.9268785715103149,
      "learning_rate": 7.695237378953223e-06,
      "loss": 0.7045,
      "step": 166
    },
    {
      "epoch": 0.039615703949709404,
      "grad_norm": 0.8274474143981934,
      "learning_rate": 7.260364370723044e-06,
      "loss": 0.6555,
      "step": 167
    },
    {
      "epoch": 0.039852923733839404,
      "grad_norm": 1.026384949684143,
      "learning_rate": 6.837175952121306e-06,
      "loss": 0.7174,
      "step": 168
    },
    {
      "epoch": 0.0400901435179694,
      "grad_norm": 1.0852888822555542,
      "learning_rate": 6.425787818636131e-06,
      "loss": 0.7826,
      "step": 169
    },
    {
      "epoch": 0.04032736330209939,
      "grad_norm": 1.0707920789718628,
      "learning_rate": 6.026312439675552e-06,
      "loss": 0.7656,
      "step": 170
    },
    {
      "epoch": 0.04056458308622939,
      "grad_norm": 1.227627158164978,
      "learning_rate": 5.6388590278194096e-06,
      "loss": 0.7237,
      "step": 171
    },
    {
      "epoch": 0.04080180287035939,
      "grad_norm": 1.1792361736297607,
      "learning_rate": 5.263533508961827e-06,
      "loss": 0.7318,
      "step": 172
    },
    {
      "epoch": 0.04103902265448939,
      "grad_norm": 1.074873924255371,
      "learning_rate": 4.900438493352055e-06,
      "loss": 0.7869,
      "step": 173
    },
    {
      "epoch": 0.04127624243861938,
      "grad_norm": 1.116760015487671,
      "learning_rate": 4.549673247541875e-06,
      "loss": 0.7029,
      "step": 174
    },
    {
      "epoch": 0.041513462222749375,
      "grad_norm": 1.0080976486206055,
      "learning_rate": 4.2113336672471245e-06,
      "loss": 0.7844,
      "step": 175
    },
    {
      "epoch": 0.041750682006879376,
      "grad_norm": 1.1698459386825562,
      "learning_rate": 3.885512251130763e-06,
      "loss": 0.7057,
      "step": 176
    },
    {
      "epoch": 0.04198790179100937,
      "grad_norm": 0.9704229831695557,
      "learning_rate": 3.5722980755146517e-06,
      "loss": 0.6518,
      "step": 177
    },
    {
      "epoch": 0.042225121575139364,
      "grad_norm": 0.9955732226371765,
      "learning_rate": 3.271776770026963e-06,
      "loss": 0.6866,
      "step": 178
    },
    {
      "epoch": 0.042462341359269365,
      "grad_norm": 1.0286834239959717,
      "learning_rate": 2.9840304941919415e-06,
      "loss": 0.6596,
      "step": 179
    },
    {
      "epoch": 0.04269956114339936,
      "grad_norm": 0.9123450517654419,
      "learning_rate": 2.7091379149682685e-06,
      "loss": 0.5897,
      "step": 180
    },
    {
      "epoch": 0.04293678092752935,
      "grad_norm": 0.8829901814460754,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 0.5836,
      "step": 181
    },
    {
      "epoch": 0.043174000711659354,
      "grad_norm": 0.8651975393295288,
      "learning_rate": 2.1982109232821178e-06,
      "loss": 0.5855,
      "step": 182
    },
    {
      "epoch": 0.04341122049578935,
      "grad_norm": 0.941738486289978,
      "learning_rate": 1.962316193157593e-06,
      "loss": 0.5876,
      "step": 183
    },
    {
      "epoch": 0.04364844027991935,
      "grad_norm": 0.8707733154296875,
      "learning_rate": 1.7395544861325718e-06,
      "loss": 0.5894,
      "step": 184
    },
    {
      "epoch": 0.04388566006404934,
      "grad_norm": 0.8835346102714539,
      "learning_rate": 1.5299867030334814e-06,
      "loss": 0.5865,
      "step": 185
    },
    {
      "epoch": 0.044122879848179336,
      "grad_norm": 0.8846661448478699,
      "learning_rate": 1.333670137599713e-06,
      "loss": 0.6657,
      "step": 186
    },
    {
      "epoch": 0.04436009963230934,
      "grad_norm": 0.8227161169052124,
      "learning_rate": 1.1506584608200367e-06,
      "loss": 0.6,
      "step": 187
    },
    {
      "epoch": 0.04459731941643933,
      "grad_norm": 0.9031891822814941,
      "learning_rate": 9.810017062595322e-07,
      "loss": 0.692,
      "step": 188
    },
    {
      "epoch": 0.044834539200569325,
      "grad_norm": 0.8108733892440796,
      "learning_rate": 8.247462563808817e-07,
      "loss": 0.5918,
      "step": 189
    },
    {
      "epoch": 0.045071758984699326,
      "grad_norm": 0.832471489906311,
      "learning_rate": 6.819348298638839e-07,
      "loss": 0.5653,
      "step": 190
    },
    {
      "epoch": 0.04530897876882932,
      "grad_norm": 0.8974007368087769,
      "learning_rate": 5.526064699265753e-07,
      "loss": 0.6572,
      "step": 191
    },
    {
      "epoch": 0.04554619855295932,
      "grad_norm": 0.801361083984375,
      "learning_rate": 4.367965336512403e-07,
      "loss": 0.6248,
      "step": 192
    },
    {
      "epoch": 0.045783418337089314,
      "grad_norm": 0.8551597595214844,
      "learning_rate": 3.3453668231809286e-07,
      "loss": 0.6169,
      "step": 193
    },
    {
      "epoch": 0.04602063812121931,
      "grad_norm": 0.9300841093063354,
      "learning_rate": 2.458548727494292e-07,
      "loss": 0.6477,
      "step": 194
    },
    {
      "epoch": 0.04625785790534931,
      "grad_norm": 0.7786960601806641,
      "learning_rate": 1.7077534966650766e-07,
      "loss": 0.594,
      "step": 195
    },
    {
      "epoch": 0.0464950776894793,
      "grad_norm": 0.8063477277755737,
      "learning_rate": 1.0931863906127327e-07,
      "loss": 0.649,
      "step": 196
    },
    {
      "epoch": 0.0467322974736093,
      "grad_norm": 0.8712872862815857,
      "learning_rate": 6.150154258476315e-08,
      "loss": 0.6834,
      "step": 197
    },
    {
      "epoch": 0.0469695172577393,
      "grad_norm": 0.8333627581596375,
      "learning_rate": 2.7337132953697554e-08,
      "loss": 0.6038,
      "step": 198
    },
    {
      "epoch": 0.04720673704186929,
      "grad_norm": 0.9202498197555542,
      "learning_rate": 6.834750376549792e-09,
      "loss": 0.7356,
      "step": 199
    },
    {
      "epoch": 0.047443956825999285,
      "grad_norm": 0.8915596008300781,
      "learning_rate": 0.0,
      "loss": 0.6026,
      "step": 200
    },
    {
      "epoch": 0.047443956825999285,
      "eval_loss": 0.6699127554893494,
      "eval_runtime": 235.2328,
      "eval_samples_per_second": 30.183,
      "eval_steps_per_second": 7.546,
      "step": 200
    }
  ],
  "logging_steps": 1,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.391165460938752e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}