{
  "best_metric": 1.4827420711517334,
  "best_model_checkpoint": "miner_id_24/checkpoint-100",
  "epoch": 0.055415093686142766,
  "eval_steps": 25,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0005541509368614276,
      "grad_norm": 1.022331953048706,
      "learning_rate": 2e-05,
      "loss": 2.0804,
      "step": 1
    },
    {
      "epoch": 0.0005541509368614276,
      "eval_loss": 2.591858148574829,
      "eval_runtime": 417.3739,
      "eval_samples_per_second": 58.255,
      "eval_steps_per_second": 3.642,
      "step": 1
    },
    {
      "epoch": 0.0011083018737228553,
      "grad_norm": 1.2939682006835938,
      "learning_rate": 4e-05,
      "loss": 2.1603,
      "step": 2
    },
    {
      "epoch": 0.0016624528105842829,
      "grad_norm": 1.4760888814926147,
      "learning_rate": 6e-05,
      "loss": 2.3043,
      "step": 3
    },
    {
      "epoch": 0.0022166037474457105,
      "grad_norm": 1.5610897541046143,
      "learning_rate": 8e-05,
      "loss": 2.305,
      "step": 4
    },
    {
      "epoch": 0.002770754684307138,
      "grad_norm": 1.782791256904602,
      "learning_rate": 0.0001,
      "loss": 2.1963,
      "step": 5
    },
    {
      "epoch": 0.0033249056211685658,
      "grad_norm": 1.1955046653747559,
      "learning_rate": 9.997266286704631e-05,
      "loss": 2.0994,
      "step": 6
    },
    {
      "epoch": 0.0038790565580299934,
      "grad_norm": 1.301979899406433,
      "learning_rate": 9.989068136093873e-05,
      "loss": 2.095,
      "step": 7
    },
    {
      "epoch": 0.004433207494891421,
      "grad_norm": 1.2962672710418701,
      "learning_rate": 9.975414512725057e-05,
      "loss": 2.05,
      "step": 8
    },
    {
      "epoch": 0.004987358431752849,
      "grad_norm": 1.3241397142410278,
      "learning_rate": 9.956320346634876e-05,
      "loss": 2.0305,
      "step": 9
    },
    {
      "epoch": 0.005541509368614276,
      "grad_norm": 1.5719720125198364,
      "learning_rate": 9.931806517013612e-05,
      "loss": 1.8744,
      "step": 10
    },
    {
      "epoch": 0.006095660305475704,
      "grad_norm": 1.4798792600631714,
      "learning_rate": 9.901899829374047e-05,
      "loss": 1.9181,
      "step": 11
    },
    {
      "epoch": 0.0066498112423371315,
      "grad_norm": 1.3574827909469604,
      "learning_rate": 9.86663298624003e-05,
      "loss": 1.875,
      "step": 12
    },
    {
      "epoch": 0.007203962179198559,
      "grad_norm": 0.8082066774368286,
      "learning_rate": 9.826044551386744e-05,
      "loss": 1.8251,
      "step": 13
    },
    {
      "epoch": 0.007758113116059987,
      "grad_norm": 0.9525138735771179,
      "learning_rate": 9.780178907671789e-05,
      "loss": 1.7648,
      "step": 14
    },
    {
      "epoch": 0.008312264052921415,
      "grad_norm": 0.7534006237983704,
      "learning_rate": 9.729086208503174e-05,
      "loss": 1.7575,
      "step": 15
    },
    {
      "epoch": 0.008866414989782842,
      "grad_norm": 0.8350176215171814,
      "learning_rate": 9.672822322997305e-05,
      "loss": 1.6909,
      "step": 16
    },
    {
      "epoch": 0.00942056592664427,
      "grad_norm": 0.9008575081825256,
      "learning_rate": 9.611448774886924e-05,
      "loss": 1.6802,
      "step": 17
    },
    {
      "epoch": 0.009974716863505697,
      "grad_norm": 0.6227415204048157,
      "learning_rate": 9.545032675245813e-05,
      "loss": 1.7401,
      "step": 18
    },
    {
      "epoch": 0.010528867800367126,
      "grad_norm": 0.5205694437026978,
      "learning_rate": 9.473646649103818e-05,
      "loss": 1.6967,
      "step": 19
    },
    {
      "epoch": 0.011083018737228553,
      "grad_norm": 0.6192246675491333,
      "learning_rate": 9.397368756032445e-05,
      "loss": 1.6686,
      "step": 20
    },
    {
      "epoch": 0.011637169674089981,
      "grad_norm": 0.6953664422035217,
      "learning_rate": 9.316282404787871e-05,
      "loss": 1.6491,
      "step": 21
    },
    {
      "epoch": 0.012191320610951408,
      "grad_norm": 0.8001345992088318,
      "learning_rate": 9.230476262104677e-05,
      "loss": 1.5942,
      "step": 22
    },
    {
      "epoch": 0.012745471547812836,
      "grad_norm": 0.7997323274612427,
      "learning_rate": 9.140044155740101e-05,
      "loss": 1.687,
      "step": 23
    },
    {
      "epoch": 0.013299622484674263,
      "grad_norm": 0.6171817779541016,
      "learning_rate": 9.045084971874738e-05,
      "loss": 1.6302,
      "step": 24
    },
    {
      "epoch": 0.013853773421535692,
      "grad_norm": 0.9712330102920532,
      "learning_rate": 8.945702546981969e-05,
      "loss": 1.8114,
      "step": 25
    },
    {
      "epoch": 0.013853773421535692,
      "eval_loss": 1.6103342771530151,
      "eval_runtime": 418.4735,
      "eval_samples_per_second": 58.102,
      "eval_steps_per_second": 3.632,
      "step": 25
    },
    {
      "epoch": 0.014407924358397118,
      "grad_norm": 1.2615900039672852,
      "learning_rate": 8.842005554284296e-05,
      "loss": 1.5478,
      "step": 26
    },
    {
      "epoch": 0.014962075295258547,
      "grad_norm": 0.7379576563835144,
      "learning_rate": 8.73410738492077e-05,
      "loss": 1.5633,
      "step": 27
    },
    {
      "epoch": 0.015516226232119974,
      "grad_norm": 0.6380235552787781,
      "learning_rate": 8.622126023955446e-05,
      "loss": 1.5815,
      "step": 28
    },
    {
      "epoch": 0.016070377168981402,
      "grad_norm": 0.7278642654418945,
      "learning_rate": 8.506183921362443e-05,
      "loss": 1.6683,
      "step": 29
    },
    {
      "epoch": 0.01662452810584283,
      "grad_norm": 0.6394283175468445,
      "learning_rate": 8.386407858128706e-05,
      "loss": 1.5482,
      "step": 30
    },
    {
      "epoch": 0.017178679042704256,
      "grad_norm": 0.49689310789108276,
      "learning_rate": 8.262928807620843e-05,
      "loss": 1.5097,
      "step": 31
    },
    {
      "epoch": 0.017732829979565684,
      "grad_norm": 0.4797969162464142,
      "learning_rate": 8.135881792367686e-05,
      "loss": 1.5787,
      "step": 32
    },
    {
      "epoch": 0.018286980916427113,
      "grad_norm": 0.5248106122016907,
      "learning_rate": 8.005405736415126e-05,
      "loss": 1.5727,
      "step": 33
    },
    {
      "epoch": 0.01884113185328854,
      "grad_norm": 0.5403295159339905,
      "learning_rate": 7.871643313414718e-05,
      "loss": 1.5083,
      "step": 34
    },
    {
      "epoch": 0.019395282790149966,
      "grad_norm": 0.5426996350288391,
      "learning_rate": 7.734740790612136e-05,
      "loss": 1.5201,
      "step": 35
    },
    {
      "epoch": 0.019949433727011395,
      "grad_norm": 0.6024729013442993,
      "learning_rate": 7.594847868906076e-05,
      "loss": 1.5422,
      "step": 36
    },
    {
      "epoch": 0.020503584663872823,
      "grad_norm": 0.7398709058761597,
      "learning_rate": 7.452117519152542e-05,
      "loss": 1.5418,
      "step": 37
    },
    {
      "epoch": 0.02105773560073425,
      "grad_norm": 0.44950732588768005,
      "learning_rate": 7.30670581489344e-05,
      "loss": 1.4453,
      "step": 38
    },
    {
      "epoch": 0.021611886537595677,
      "grad_norm": 0.3909025490283966,
      "learning_rate": 7.158771761692464e-05,
      "loss": 1.5218,
      "step": 39
    },
    {
      "epoch": 0.022166037474457105,
      "grad_norm": 0.44246888160705566,
      "learning_rate": 7.008477123264848e-05,
      "loss": 1.5535,
      "step": 40
    },
    {
      "epoch": 0.022720188411318534,
      "grad_norm": 0.4348503351211548,
      "learning_rate": 6.855986244591104e-05,
      "loss": 1.5329,
      "step": 41
    },
    {
      "epoch": 0.023274339348179962,
      "grad_norm": 0.5277847647666931,
      "learning_rate": 6.701465872208216e-05,
      "loss": 1.5484,
      "step": 42
    },
    {
      "epoch": 0.023828490285041387,
      "grad_norm": 0.5420258045196533,
      "learning_rate": 6.545084971874738e-05,
      "loss": 1.5817,
      "step": 43
    },
    {
      "epoch": 0.024382641221902816,
      "grad_norm": 0.46389004588127136,
      "learning_rate": 6.387014543809223e-05,
      "loss": 1.5855,
      "step": 44
    },
    {
      "epoch": 0.024936792158764244,
      "grad_norm": 0.42418041825294495,
      "learning_rate": 6.227427435703997e-05,
      "loss": 1.4541,
      "step": 45
    },
    {
      "epoch": 0.025490943095625673,
      "grad_norm": 0.44957005977630615,
      "learning_rate": 6.066498153718735e-05,
      "loss": 1.5181,
      "step": 46
    },
    {
      "epoch": 0.026045094032487098,
      "grad_norm": 0.4861745536327362,
      "learning_rate": 5.90440267166055e-05,
      "loss": 1.5207,
      "step": 47
    },
    {
      "epoch": 0.026599244969348526,
      "grad_norm": 0.5550578832626343,
      "learning_rate": 5.74131823855921e-05,
      "loss": 1.5964,
      "step": 48
    },
    {
      "epoch": 0.027153395906209955,
      "grad_norm": 0.5278378129005432,
      "learning_rate": 5.577423184847932e-05,
      "loss": 1.4936,
      "step": 49
    },
    {
      "epoch": 0.027707546843071383,
      "grad_norm": 0.7090876698493958,
      "learning_rate": 5.4128967273616625e-05,
      "loss": 1.579,
      "step": 50
    },
    {
      "epoch": 0.027707546843071383,
      "eval_loss": 1.5091896057128906,
      "eval_runtime": 417.834,
      "eval_samples_per_second": 58.191,
      "eval_steps_per_second": 3.638,
      "step": 50
    },
    {
      "epoch": 0.028261697779932808,
      "grad_norm": 0.3744344115257263,
      "learning_rate": 5.247918773366112e-05,
      "loss": 1.4694,
      "step": 51
    },
    {
      "epoch": 0.028815848716794237,
      "grad_norm": 0.4003647267818451,
      "learning_rate": 5.0826697238317935e-05,
      "loss": 1.5119,
      "step": 52
    },
    {
      "epoch": 0.029369999653655665,
      "grad_norm": 0.4196970760822296,
      "learning_rate": 4.917330276168208e-05,
      "loss": 1.5052,
      "step": 53
    },
    {
      "epoch": 0.029924150590517094,
      "grad_norm": 0.4406304955482483,
      "learning_rate": 4.7520812266338885e-05,
      "loss": 1.5285,
      "step": 54
    },
    {
      "epoch": 0.03047830152737852,
      "grad_norm": 0.4695056676864624,
      "learning_rate": 4.5871032726383386e-05,
      "loss": 1.5554,
      "step": 55
    },
    {
      "epoch": 0.031032452464239947,
      "grad_norm": 0.4550551474094391,
      "learning_rate": 4.4225768151520694e-05,
      "loss": 1.4631,
      "step": 56
    },
    {
      "epoch": 0.03158660340110137,
      "grad_norm": 0.46110671758651733,
      "learning_rate": 4.2586817614407895e-05,
      "loss": 1.4907,
      "step": 57
    },
    {
      "epoch": 0.032140754337962804,
      "grad_norm": 0.44375959038734436,
      "learning_rate": 4.095597328339452e-05,
      "loss": 1.4456,
      "step": 58
    },
    {
      "epoch": 0.03269490527482423,
      "grad_norm": 0.46246337890625,
      "learning_rate": 3.933501846281267e-05,
      "loss": 1.4742,
      "step": 59
    },
    {
      "epoch": 0.03324905621168566,
      "grad_norm": 0.5044798254966736,
      "learning_rate": 3.772572564296005e-05,
      "loss": 1.4587,
      "step": 60
    },
    {
      "epoch": 0.033803207148547086,
      "grad_norm": 0.5594135522842407,
      "learning_rate": 3.612985456190778e-05,
      "loss": 1.5072,
      "step": 61
    },
    {
      "epoch": 0.03435735808540851,
      "grad_norm": 0.632861852645874,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 1.5576,
      "step": 62
    },
    {
      "epoch": 0.03491150902226994,
      "grad_norm": 0.4541915953159332,
      "learning_rate": 3.298534127791785e-05,
      "loss": 1.5341,
      "step": 63
    },
    {
      "epoch": 0.03546565995913137,
      "grad_norm": 0.4163748323917389,
      "learning_rate": 3.144013755408895e-05,
      "loss": 1.4843,
      "step": 64
    },
    {
      "epoch": 0.03601981089599279,
      "grad_norm": 0.515223503112793,
      "learning_rate": 2.991522876735154e-05,
      "loss": 1.4986,
      "step": 65
    },
    {
      "epoch": 0.036573961832854225,
      "grad_norm": 0.44708168506622314,
      "learning_rate": 2.8412282383075363e-05,
      "loss": 1.613,
      "step": 66
    },
    {
      "epoch": 0.03712811276971565,
      "grad_norm": 0.45681238174438477,
      "learning_rate": 2.693294185106562e-05,
      "loss": 1.5078,
      "step": 67
    },
    {
      "epoch": 0.03768226370657708,
      "grad_norm": 0.4795057475566864,
      "learning_rate": 2.547882480847461e-05,
      "loss": 1.5245,
      "step": 68
    },
    {
      "epoch": 0.03823641464343851,
      "grad_norm": 0.453524112701416,
      "learning_rate": 2.405152131093926e-05,
      "loss": 1.4699,
      "step": 69
    },
    {
      "epoch": 0.03879056558029993,
      "grad_norm": 0.4626317024230957,
      "learning_rate": 2.2652592093878666e-05,
      "loss": 1.4863,
      "step": 70
    },
    {
      "epoch": 0.039344716517161364,
      "grad_norm": 0.47288596630096436,
      "learning_rate": 2.128356686585282e-05,
      "loss": 1.5062,
      "step": 71
    },
    {
      "epoch": 0.03989886745402279,
      "grad_norm": 0.45804575085639954,
      "learning_rate": 1.9945942635848748e-05,
      "loss": 1.4292,
      "step": 72
    },
    {
      "epoch": 0.040453018390884214,
      "grad_norm": 0.50065016746521,
      "learning_rate": 1.8641182076323148e-05,
      "loss": 1.4615,
      "step": 73
    },
    {
      "epoch": 0.041007169327745646,
      "grad_norm": 0.5475671887397766,
      "learning_rate": 1.7370711923791567e-05,
      "loss": 1.4377,
      "step": 74
    },
    {
      "epoch": 0.04156132026460707,
      "grad_norm": 0.722538948059082,
      "learning_rate": 1.6135921418712956e-05,
      "loss": 1.5361,
      "step": 75
    },
    {
      "epoch": 0.04156132026460707,
      "eval_loss": 1.4859658479690552,
      "eval_runtime": 426.8424,
      "eval_samples_per_second": 56.962,
      "eval_steps_per_second": 3.561,
      "step": 75
    },
    {
      "epoch": 0.0421154712014685,
      "grad_norm": 0.3435385823249817,
      "learning_rate": 1.4938160786375572e-05,
      "loss": 1.3958,
      "step": 76
    },
    {
      "epoch": 0.04266962213832993,
      "grad_norm": 0.42353853583335876,
      "learning_rate": 1.3778739760445552e-05,
      "loss": 1.57,
      "step": 77
    },
    {
      "epoch": 0.04322377307519135,
      "grad_norm": 0.39138633012771606,
      "learning_rate": 1.2658926150792322e-05,
      "loss": 1.5377,
      "step": 78
    },
    {
      "epoch": 0.043777924012052785,
      "grad_norm": 0.4724353849887848,
      "learning_rate": 1.157994445715706e-05,
      "loss": 1.5676,
      "step": 79
    },
    {
      "epoch": 0.04433207494891421,
      "grad_norm": 0.44573283195495605,
      "learning_rate": 1.0542974530180327e-05,
      "loss": 1.5036,
      "step": 80
    },
    {
      "epoch": 0.044886225885775635,
      "grad_norm": 0.44128575921058655,
      "learning_rate": 9.549150281252633e-06,
      "loss": 1.5197,
      "step": 81
    },
    {
      "epoch": 0.04544037682263707,
      "grad_norm": 0.4542405903339386,
      "learning_rate": 8.599558442598998e-06,
      "loss": 1.4969,
      "step": 82
    },
    {
      "epoch": 0.04599452775949849,
      "grad_norm": 0.44254857301712036,
      "learning_rate": 7.695237378953223e-06,
      "loss": 1.4735,
      "step": 83
    },
    {
      "epoch": 0.046548678696359924,
      "grad_norm": 0.47012338042259216,
      "learning_rate": 6.837175952121306e-06,
      "loss": 1.525,
      "step": 84
    },
    {
      "epoch": 0.04710282963322135,
      "grad_norm": 0.5244672894477844,
      "learning_rate": 6.026312439675552e-06,
      "loss": 1.4543,
      "step": 85
    },
    {
      "epoch": 0.047656980570082774,
      "grad_norm": 0.5304999351501465,
      "learning_rate": 5.263533508961827e-06,
      "loss": 1.4387,
      "step": 86
    },
    {
      "epoch": 0.048211131506944206,
      "grad_norm": 0.6247049570083618,
      "learning_rate": 4.549673247541875e-06,
      "loss": 1.4606,
      "step": 87
    },
    {
      "epoch": 0.04876528244380563,
      "grad_norm": 0.40863263607025146,
      "learning_rate": 3.885512251130763e-06,
      "loss": 1.5058,
      "step": 88
    },
    {
      "epoch": 0.049319433380667056,
      "grad_norm": 0.3656030297279358,
      "learning_rate": 3.271776770026963e-06,
      "loss": 1.4232,
      "step": 89
    },
    {
      "epoch": 0.04987358431752849,
      "grad_norm": 0.39725741744041443,
      "learning_rate": 2.7091379149682685e-06,
      "loss": 1.4841,
      "step": 90
    },
    {
      "epoch": 0.05042773525438991,
      "grad_norm": 0.4447474777698517,
      "learning_rate": 2.1982109232821178e-06,
      "loss": 1.5307,
      "step": 91
    },
    {
      "epoch": 0.050981886191251345,
      "grad_norm": 0.4279220998287201,
      "learning_rate": 1.7395544861325718e-06,
      "loss": 1.5223,
      "step": 92
    },
    {
      "epoch": 0.05153603712811277,
      "grad_norm": 0.45289361476898193,
      "learning_rate": 1.333670137599713e-06,
      "loss": 1.5057,
      "step": 93
    },
    {
      "epoch": 0.052090188064974195,
      "grad_norm": 0.4581681787967682,
      "learning_rate": 9.810017062595322e-07,
      "loss": 1.4999,
      "step": 94
    },
    {
      "epoch": 0.05264433900183563,
      "grad_norm": 0.47461172938346863,
      "learning_rate": 6.819348298638839e-07,
      "loss": 1.481,
      "step": 95
    },
    {
      "epoch": 0.05319848993869705,
      "grad_norm": 0.4691740870475769,
      "learning_rate": 4.367965336512403e-07,
      "loss": 1.453,
      "step": 96
    },
    {
      "epoch": 0.05375264087555848,
      "grad_norm": 0.4813995063304901,
      "learning_rate": 2.458548727494292e-07,
      "loss": 1.4591,
      "step": 97
    },
    {
      "epoch": 0.05430679181241991,
      "grad_norm": 0.598747730255127,
      "learning_rate": 1.0931863906127327e-07,
      "loss": 1.4327,
      "step": 98
    },
    {
      "epoch": 0.054860942749281334,
      "grad_norm": 0.6092488765716553,
      "learning_rate": 2.7337132953697554e-08,
      "loss": 1.4965,
      "step": 99
    },
    {
      "epoch": 0.055415093686142766,
      "grad_norm": 0.6786034107208252,
      "learning_rate": 0.0,
      "loss": 1.5936,
      "step": 100
    },
    {
      "epoch": 0.055415093686142766,
      "eval_loss": 1.4827420711517334,
      "eval_runtime": 418.5722,
      "eval_samples_per_second": 58.088,
      "eval_steps_per_second": 3.631,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.917009236492288e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}