{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 69045,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.02,
      "learning_rate": 4.9820769063654144e-05,
      "loss": 1.7116,
      "step": 500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.9639727713809836e-05,
      "loss": 0.8933,
      "step": 1000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9458686363965534e-05,
      "loss": 0.7493,
      "step": 1500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.927800709682092e-05,
      "loss": 0.718,
      "step": 2000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.9096965746976617e-05,
      "loss": 0.6011,
      "step": 2500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.891592439713231e-05,
      "loss": 0.5649,
      "step": 3000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.8734883047288006e-05,
      "loss": 0.5612,
      "step": 3500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.85538416974437e-05,
      "loss": 0.5292,
      "step": 4000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.8372800347599396e-05,
      "loss": 0.4878,
      "step": 4500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.819175899775509e-05,
      "loss": 0.5319,
      "step": 5000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.8010717647910786e-05,
      "loss": 0.4588,
      "step": 5500
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.782967629806648e-05,
      "loss": 0.4249,
      "step": 6000
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.7648634948222176e-05,
      "loss": 0.4334,
      "step": 6500
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.7467593598377874e-05,
      "loss": 0.4356,
      "step": 7000
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.7286552248533566e-05,
      "loss": 0.4183,
      "step": 7500
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.7105510898689264e-05,
      "loss": 0.3894,
      "step": 8000
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.6924469548844955e-05,
      "loss": 0.3652,
      "step": 8500
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.6743428199000654e-05,
      "loss": 0.3811,
      "step": 9000
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.6562386849156345e-05,
      "loss": 0.3613,
      "step": 9500
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.6381707582011736e-05,
      "loss": 0.3654,
      "step": 10000
    },
    {
      "epoch": 0.38,
      "learning_rate": 4.620066623216743e-05,
      "loss": 0.3379,
      "step": 10500
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.6019624882323126e-05,
      "loss": 0.3438,
      "step": 11000
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.583858353247882e-05,
      "loss": 0.3448,
      "step": 11500
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.5657542182634516e-05,
      "loss": 0.3283,
      "step": 12000
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.5476500832790214e-05,
      "loss": 0.3169,
      "step": 12500
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.5295459482945906e-05,
      "loss": 0.3153,
      "step": 13000
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.5114418133101604e-05,
      "loss": 0.3148,
      "step": 13500
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.4933376783257296e-05,
      "loss": 0.3144,
      "step": 14000
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.4752335433412994e-05,
      "loss": 0.3019,
      "step": 14500
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.4571294083568686e-05,
      "loss": 0.3035,
      "step": 15000
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.4390252733724384e-05,
      "loss": 0.2955,
      "step": 15500
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.4209211383880075e-05,
      "loss": 0.2821,
      "step": 16000
    },
    {
      "epoch": 0.6,
      "learning_rate": 4.4028170034035774e-05,
      "loss": 0.2722,
      "step": 16500
    },
    {
      "epoch": 0.62,
      "learning_rate": 4.384712868419147e-05,
      "loss": 0.2771,
      "step": 17000
    },
    {
      "epoch": 0.63,
      "learning_rate": 4.3666449417046856e-05,
      "loss": 0.2767,
      "step": 17500
    },
    {
      "epoch": 0.65,
      "learning_rate": 4.348540806720255e-05,
      "loss": 0.2724,
      "step": 18000
    },
    {
      "epoch": 0.67,
      "learning_rate": 4.3304366717358246e-05,
      "loss": 0.2537,
      "step": 18500
    },
    {
      "epoch": 0.69,
      "learning_rate": 4.3123325367513944e-05,
      "loss": 0.2591,
      "step": 19000
    },
    {
      "epoch": 0.71,
      "learning_rate": 4.2942284017669636e-05,
      "loss": 0.2573,
      "step": 19500
    },
    {
      "epoch": 0.72,
      "learning_rate": 4.2761242667825334e-05,
      "loss": 0.2586,
      "step": 20000
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.2580201317981026e-05,
      "loss": 0.2514,
      "step": 20500
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.2399159968136724e-05,
      "loss": 0.2403,
      "step": 21000
    },
    {
      "epoch": 0.78,
      "learning_rate": 4.2218118618292416e-05,
      "loss": 0.2443,
      "step": 21500
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.203780143384749e-05,
      "loss": 0.2393,
      "step": 22000
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.185676008400319e-05,
      "loss": 0.2301,
      "step": 22500
    },
    {
      "epoch": 0.83,
      "learning_rate": 4.167571873415889e-05,
      "loss": 0.2324,
      "step": 23000
    },
    {
      "epoch": 0.85,
      "learning_rate": 4.149467738431458e-05,
      "loss": 0.2353,
      "step": 23500
    },
    {
      "epoch": 0.87,
      "learning_rate": 4.131363603447028e-05,
      "loss": 0.2248,
      "step": 24000
    },
    {
      "epoch": 0.89,
      "learning_rate": 4.113259468462597e-05,
      "loss": 0.2207,
      "step": 24500
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.095155333478167e-05,
      "loss": 0.2178,
      "step": 25000
    },
    {
      "epoch": 0.92,
      "learning_rate": 4.077051198493736e-05,
      "loss": 0.2048,
      "step": 25500
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.0589832717792745e-05,
      "loss": 0.2163,
      "step": 26000
    },
    {
      "epoch": 0.96,
      "learning_rate": 4.040879136794844e-05,
      "loss": 0.2139,
      "step": 26500
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.0227750018104134e-05,
      "loss": 0.2135,
      "step": 27000
    },
    {
      "epoch": 1.0,
      "learning_rate": 4.004670866825983e-05,
      "loss": 0.1986,
      "step": 27500
    },
    {
      "epoch": 1.01,
      "learning_rate": 3.986566731841553e-05,
      "loss": 0.1597,
      "step": 28000
    },
    {
      "epoch": 1.03,
      "learning_rate": 3.968462596857123e-05,
      "loss": 0.154,
      "step": 28500
    },
    {
      "epoch": 1.05,
      "learning_rate": 3.950358461872692e-05,
      "loss": 0.1381,
      "step": 29000
    },
    {
      "epoch": 1.07,
      "learning_rate": 3.932326743428199e-05,
      "loss": 0.1525,
      "step": 29500
    },
    {
      "epoch": 1.09,
      "learning_rate": 3.914222608443769e-05,
      "loss": 0.143,
      "step": 30000
    },
    {
      "epoch": 1.1,
      "learning_rate": 3.896118473459338e-05,
      "loss": 0.1422,
      "step": 30500
    },
    {
      "epoch": 1.12,
      "learning_rate": 3.878014338474908e-05,
      "loss": 0.1348,
      "step": 31000
    },
    {
      "epoch": 1.14,
      "learning_rate": 3.859910203490477e-05,
      "loss": 0.1421,
      "step": 31500
    },
    {
      "epoch": 1.16,
      "learning_rate": 3.841806068506047e-05,
      "loss": 0.1438,
      "step": 32000
    },
    {
      "epoch": 1.18,
      "learning_rate": 3.823701933521617e-05,
      "loss": 0.1375,
      "step": 32500
    },
    {
      "epoch": 1.19,
      "learning_rate": 3.805597798537186e-05,
      "loss": 0.1418,
      "step": 33000
    },
    {
      "epoch": 1.21,
      "learning_rate": 3.787493663552756e-05,
      "loss": 0.1336,
      "step": 33500
    },
    {
      "epoch": 1.23,
      "learning_rate": 3.769425736838294e-05,
      "loss": 0.1339,
      "step": 34000
    },
    {
      "epoch": 1.25,
      "learning_rate": 3.751321601853864e-05,
      "loss": 0.1383,
      "step": 34500
    },
    {
      "epoch": 1.27,
      "learning_rate": 3.733217466869433e-05,
      "loss": 0.1298,
      "step": 35000
    },
    {
      "epoch": 1.29,
      "learning_rate": 3.715113331885003e-05,
      "loss": 0.1314,
      "step": 35500
    },
    {
      "epoch": 1.3,
      "learning_rate": 3.697009196900572e-05,
      "loss": 0.1249,
      "step": 36000
    },
    {
      "epoch": 1.32,
      "learning_rate": 3.678905061916142e-05,
      "loss": 0.1289,
      "step": 36500
    },
    {
      "epoch": 1.34,
      "learning_rate": 3.660800926931711e-05,
      "loss": 0.1289,
      "step": 37000
    },
    {
      "epoch": 1.36,
      "learning_rate": 3.642696791947281e-05,
      "loss": 0.1266,
      "step": 37500
    },
    {
      "epoch": 1.38,
      "learning_rate": 3.62459265696285e-05,
      "loss": 0.1201,
      "step": 38000
    },
    {
      "epoch": 1.39,
      "learning_rate": 3.606524730248389e-05,
      "loss": 0.1224,
      "step": 38500
    },
    {
      "epoch": 1.41,
      "learning_rate": 3.5884205952639583e-05,
      "loss": 0.1191,
      "step": 39000
    },
    {
      "epoch": 1.43,
      "learning_rate": 3.570316460279528e-05,
      "loss": 0.1157,
      "step": 39500
    },
    {
      "epoch": 1.45,
      "learning_rate": 3.552212325295098e-05,
      "loss": 0.1167,
      "step": 40000
    },
    {
      "epoch": 1.47,
      "learning_rate": 3.534144398580636e-05,
      "loss": 0.119,
      "step": 40500
    },
    {
      "epoch": 1.48,
      "learning_rate": 3.5160402635962056e-05,
      "loss": 0.1092,
      "step": 41000
    },
    {
      "epoch": 1.5,
      "learning_rate": 3.4979361286117754e-05,
      "loss": 0.1142,
      "step": 41500
    },
    {
      "epoch": 1.52,
      "learning_rate": 3.479831993627345e-05,
      "loss": 0.1156,
      "step": 42000
    },
    {
      "epoch": 1.54,
      "learning_rate": 3.4617278586429144e-05,
      "loss": 0.1122,
      "step": 42500
    },
    {
      "epoch": 1.56,
      "learning_rate": 3.443623723658484e-05,
      "loss": 0.1104,
      "step": 43000
    },
    {
      "epoch": 1.58,
      "learning_rate": 3.4255195886740534e-05,
      "loss": 0.1076,
      "step": 43500
    },
    {
      "epoch": 1.59,
      "learning_rate": 3.407415453689623e-05,
      "loss": 0.1096,
      "step": 44000
    },
    {
      "epoch": 1.61,
      "learning_rate": 3.3893113187051924e-05,
      "loss": 0.1094,
      "step": 44500
    },
    {
      "epoch": 1.63,
      "learning_rate": 3.371243391990731e-05,
      "loss": 0.105,
      "step": 45000
    },
    {
      "epoch": 1.65,
      "learning_rate": 3.3531392570063e-05,
      "loss": 0.1059,
      "step": 45500
    },
    {
      "epoch": 1.67,
      "learning_rate": 3.33503512202187e-05,
      "loss": 0.1012,
      "step": 46000
    },
    {
      "epoch": 1.68,
      "learning_rate": 3.3169309870374396e-05,
      "loss": 0.0991,
      "step": 46500
    },
    {
      "epoch": 1.7,
      "learning_rate": 3.2988268520530094e-05,
      "loss": 0.0978,
      "step": 47000
    },
    {
      "epoch": 1.72,
      "learning_rate": 3.2807227170685786e-05,
      "loss": 0.1003,
      "step": 47500
    },
    {
      "epoch": 1.74,
      "learning_rate": 3.2626185820841484e-05,
      "loss": 0.1,
      "step": 48000
    },
    {
      "epoch": 1.76,
      "learning_rate": 3.244550655369686e-05,
      "loss": 0.0976,
      "step": 48500
    },
    {
      "epoch": 1.77,
      "learning_rate": 3.226446520385256e-05,
      "loss": 0.0961,
      "step": 49000
    },
    {
      "epoch": 1.79,
      "learning_rate": 3.208342385400825e-05,
      "loss": 0.1011,
      "step": 49500
    },
    {
      "epoch": 1.81,
      "learning_rate": 3.190238250416395e-05,
      "loss": 0.0902,
      "step": 50000
    },
    {
      "epoch": 1.83,
      "learning_rate": 3.1721703237019334e-05,
      "loss": 0.0936,
      "step": 50500
    },
    {
      "epoch": 1.85,
      "learning_rate": 3.154066188717503e-05,
      "loss": 0.0903,
      "step": 51000
    },
    {
      "epoch": 1.86,
      "learning_rate": 3.135962053733073e-05,
      "loss": 0.082,
      "step": 51500
    },
    {
      "epoch": 1.88,
      "learning_rate": 3.1178941270186115e-05,
      "loss": 0.0841,
      "step": 52000
    },
    {
      "epoch": 1.9,
      "learning_rate": 3.0997899920341806e-05,
      "loss": 0.0898,
      "step": 52500
    },
    {
      "epoch": 1.92,
      "learning_rate": 3.0816858570497505e-05,
      "loss": 0.085,
      "step": 53000
    },
    {
      "epoch": 1.94,
      "learning_rate": 3.06358172206532e-05,
      "loss": 0.0807,
      "step": 53500
    },
    {
      "epoch": 1.96,
      "learning_rate": 3.0454775870808895e-05,
      "loss": 0.0886,
      "step": 54000
    },
    {
      "epoch": 1.97,
      "learning_rate": 3.0273734520964593e-05,
      "loss": 0.0818,
      "step": 54500
    },
    {
      "epoch": 1.99,
      "learning_rate": 3.0092693171120284e-05,
      "loss": 0.0839,
      "step": 55000
    },
    {
      "epoch": 2.01,
      "learning_rate": 2.9911651821275983e-05,
      "loss": 0.0581,
      "step": 55500
    },
    {
      "epoch": 2.03,
      "learning_rate": 2.9730610471431674e-05,
      "loss": 0.0504,
      "step": 56000
    },
    {
      "epoch": 2.05,
      "learning_rate": 2.9549569121587373e-05,
      "loss": 0.0486,
      "step": 56500
    },
    {
      "epoch": 2.06,
      "learning_rate": 2.9368527771743064e-05,
      "loss": 0.0463,
      "step": 57000
    },
    {
      "epoch": 2.08,
      "learning_rate": 2.9187486421898762e-05,
      "loss": 0.0545,
      "step": 57500
    },
    {
      "epoch": 2.1,
      "learning_rate": 2.900644507205446e-05,
      "loss": 0.0482,
      "step": 58000
    },
    {
      "epoch": 2.12,
      "learning_rate": 2.8825403722210152e-05,
      "loss": 0.0431,
      "step": 58500
    },
    {
      "epoch": 2.14,
      "learning_rate": 2.864436237236585e-05,
      "loss": 0.0494,
      "step": 59000
    },
    {
      "epoch": 2.15,
      "learning_rate": 2.8463683105221235e-05,
      "loss": 0.0522,
      "step": 59500
    },
    {
      "epoch": 4.34,
      "learning_rate": 6.565283510753857e-06,
      "loss": 0.0392,
      "step": 60000
    },
    {
      "epoch": 4.38,
      "learning_rate": 6.203200811065248e-06,
      "loss": 0.0329,
      "step": 60500
    },
    {
      "epoch": 4.42,
      "learning_rate": 5.841118111376639e-06,
      "loss": 0.0306,
      "step": 61000
    },
    {
      "epoch": 4.45,
      "learning_rate": 5.479759577087408e-06,
      "loss": 0.0281,
      "step": 61500
    },
    {
      "epoch": 4.49,
      "learning_rate": 5.117676877398798e-06,
      "loss": 0.0275,
      "step": 62000
    },
    {
      "epoch": 4.53,
      "learning_rate": 4.755594177710189e-06,
      "loss": 0.0238,
      "step": 62500
    },
    {
      "epoch": 4.56,
      "learning_rate": 4.394235643420958e-06,
      "loss": 0.0253,
      "step": 63000
    },
    {
      "epoch": 4.6,
      "learning_rate": 4.032152943732348e-06,
      "loss": 0.0222,
      "step": 63500
    },
    {
      "epoch": 4.63,
      "learning_rate": 3.67007024404374e-06,
      "loss": 0.0234,
      "step": 64000
    },
    {
      "epoch": 4.67,
      "learning_rate": 3.307987544355131e-06,
      "loss": 0.0214,
      "step": 64500
    },
    {
      "epoch": 4.71,
      "learning_rate": 2.945904844666522e-06,
      "loss": 0.0217,
      "step": 65000
    },
    {
      "epoch": 4.74,
      "learning_rate": 2.583822144977913e-06,
      "loss": 0.022,
      "step": 65500
    },
    {
      "epoch": 4.78,
      "learning_rate": 2.221739445289304e-06,
      "loss": 0.0213,
      "step": 66000
    },
    {
      "epoch": 4.82,
      "learning_rate": 1.8596567456006953e-06,
      "loss": 0.0216,
      "step": 66500
    },
    {
      "epoch": 4.85,
      "learning_rate": 1.4975740459120864e-06,
      "loss": 0.0209,
      "step": 67000
    },
    {
      "epoch": 4.89,
      "learning_rate": 1.1362155116228547e-06,
      "loss": 0.0193,
      "step": 67500
    },
    {
      "epoch": 4.92,
      "learning_rate": 7.748569773336231e-07,
      "loss": 0.0199,
      "step": 68000
    },
    {
      "epoch": 4.96,
      "learning_rate": 4.1349844304439136e-07,
      "loss": 0.0183,
      "step": 68500
    },
    {
      "epoch": 5.0,
      "learning_rate": 5.141574335578247e-08,
      "loss": 0.0212,
      "step": 69000
    },
    {
      "epoch": 5.0,
      "step": 69045,
      "total_flos": 8.175381920769638e+16,
      "train_loss": 0.003351212132286996,
      "train_runtime": 2726.0601,
      "train_samples_per_second": 405.237,
      "train_steps_per_second": 25.328
    }
  ],
  "logging_steps": 500,
  "max_steps": 69045,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 8.175381920769638e+16,
  "trial_name": null,
  "trial_params": null
}