{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.119799451652303,
  "eval_steps": 100,
  "global_step": 1024,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.010932788971549125,
      "grad_norm": 167.07713317871094,
      "learning_rate": 0.0005999985601583006,
      "loss": 9.6698,
      "step": 10
    },
    {
      "epoch": 0.02186557794309825,
      "grad_norm": 83.92709350585938,
      "learning_rate": 0.0005998257958771109,
      "loss": 8.2484,
      "step": 20
    },
    {
      "epoch": 0.032798366914647374,
      "grad_norm": 127.91200256347656,
      "learning_rate": 0.0005993652532642609,
      "loss": 7.6452,
      "step": 30
    },
    {
      "epoch": 0.0437311558861965,
      "grad_norm": 97.33670043945312,
      "learning_rate": 0.0005986173743570491,
      "loss": 7.4548,
      "step": 40
    },
    {
      "epoch": 0.054663944857745624,
      "grad_norm": 127.0005874633789,
      "learning_rate": 0.0005975828769834513,
      "loss": 7.3226,
      "step": 50
    },
    {
      "epoch": 0.06559673382929475,
      "grad_norm": 104.47633361816406,
      "learning_rate": 0.0005962627540731365,
      "loss": 7.204,
      "step": 60
    },
    {
      "epoch": 0.07652952280084388,
      "grad_norm": 164.4477081298828,
      "learning_rate": 0.0005946582727044349,
      "loss": 7.1105,
      "step": 70
    },
    {
      "epoch": 0.087462311772393,
      "grad_norm": 126.8350601196289,
      "learning_rate": 0.0005927709728881719,
      "loss": 7.0511,
      "step": 80
    },
    {
      "epoch": 0.09839510074394213,
      "grad_norm": 158.55856323242188,
      "learning_rate": 0.0005906026660895383,
      "loss": 7.0642,
      "step": 90
    },
    {
      "epoch": 0.10932788971549125,
      "grad_norm": 126.1555404663086,
      "learning_rate": 0.0005881554334894116,
      "loss": 7.031,
      "step": 100
    },
    {
      "epoch": 0.10932788971549125,
      "eval_loss": 7.01555061340332,
      "eval_runtime": 79.0984,
      "eval_samples_per_second": 118.409,
      "eval_steps_per_second": 14.804,
      "step": 100
    },
    {
      "epoch": 0.12026067868704038,
      "grad_norm": 108.58393096923828,
      "learning_rate": 0.0005854316239868012,
      "loss": 7.0123,
      "step": 110
    },
    {
      "epoch": 0.1311934676585895,
      "grad_norm": 178.0326690673828,
      "learning_rate": 0.0005824338519443309,
      "loss": 6.9897,
      "step": 120
    },
    {
      "epoch": 0.14212625663013861,
      "grad_norm": 192.8655242919922,
      "learning_rate": 0.0005791649946789259,
      "loss": 7.0117,
      "step": 130
    },
    {
      "epoch": 0.15305904560168776,
      "grad_norm": 143.3759002685547,
      "learning_rate": 0.0005756281897001107,
      "loss": 7.0073,
      "step": 140
    },
    {
      "epoch": 0.16399183457323688,
      "grad_norm": 171.0679168701172,
      "learning_rate": 0.0005718268316985698,
      "loss": 6.9843,
      "step": 150
    },
    {
      "epoch": 0.174924623544786,
      "grad_norm": 164.86534118652344,
      "learning_rate": 0.0005677645692878606,
      "loss": 7.0083,
      "step": 160
    },
    {
      "epoch": 0.1858574125163351,
      "grad_norm": 125.85225677490234,
      "learning_rate": 0.000563445301502407,
      "loss": 7.02,
      "step": 170
    },
    {
      "epoch": 0.19679020148788426,
      "grad_norm": 144.15589904785156,
      "learning_rate": 0.0005588731740551344,
      "loss": 6.9773,
      "step": 180
    },
    {
      "epoch": 0.20772299045943338,
      "grad_norm": 108.05564880371094,
      "learning_rate": 0.0005540525753583378,
      "loss": 6.9632,
      "step": 190
    },
    {
      "epoch": 0.2186557794309825,
      "grad_norm": 146.53924560546875,
      "learning_rate": 0.0005489881323116018,
      "loss": 6.929,
      "step": 200
    },
    {
      "epoch": 0.2186557794309825,
      "eval_loss": 6.925621509552002,
      "eval_runtime": 78.9467,
      "eval_samples_per_second": 118.637,
      "eval_steps_per_second": 14.833,
      "step": 200
    },
    {
      "epoch": 0.2295885684025316,
      "grad_norm": 204.57968139648438,
      "learning_rate": 0.0005436847058608189,
      "loss": 6.9631,
      "step": 210
    },
    {
      "epoch": 0.24052135737408076,
      "grad_norm": 171.31556701660156,
      "learning_rate": 0.0005381473863325621,
      "loss": 7.0389,
      "step": 220
    },
    {
      "epoch": 0.25145414634562985,
      "grad_norm": 142.57449340820312,
      "learning_rate": 0.0005323814885482963,
      "loss": 6.967,
      "step": 230
    },
    {
      "epoch": 0.262386935317179,
      "grad_norm": 119.19646453857422,
      "learning_rate": 0.000526392546723115,
      "loss": 6.9456,
      "step": 240
    },
    {
      "epoch": 0.27331972428872814,
      "grad_norm": 153.62359619140625,
      "learning_rate": 0.0005201863091538979,
      "loss": 6.9686,
      "step": 250
    },
    {
      "epoch": 0.28425251326027723,
      "grad_norm": 150.35699462890625,
      "learning_rate": 0.000513768732701989,
      "loss": 6.9846,
      "step": 260
    },
    {
      "epoch": 0.2951853022318264,
      "grad_norm": 215.55368041992188,
      "learning_rate": 0.0005071459770756929,
      "loss": 6.9968,
      "step": 270
    },
    {
      "epoch": 0.3061180912033755,
      "grad_norm": 107.55154418945312,
      "learning_rate": 0.0005003243989180711,
      "loss": 7.0033,
      "step": 280
    },
    {
      "epoch": 0.3170508801749246,
      "grad_norm": 190.4154052734375,
      "learning_rate": 0.0004933105457057203,
      "loss": 6.9816,
      "step": 290
    },
    {
      "epoch": 0.32798366914647376,
      "grad_norm": 159.7703094482422,
      "learning_rate": 0.0004861111494643821,
      "loss": 7.0486,
      "step": 300
    },
    {
      "epoch": 0.32798366914647376,
      "eval_loss": 7.4869384765625,
      "eval_runtime": 79.1717,
      "eval_samples_per_second": 118.3,
      "eval_steps_per_second": 14.791,
      "step": 300
    },
    {
      "epoch": 0.3389164581180229,
      "grad_norm": 218.22604370117188,
      "learning_rate": 0.0004794787611927562,
      "loss": 7.2679,
      "step": 310
    },
    {
      "epoch": 0.349849247089572,
      "grad_norm": 182.51431274414062,
      "learning_rate": 0.0004719460124060748,
      "loss": 7.1809,
      "step": 320
    },
    {
      "epoch": 0.36078203606112114,
      "grad_norm": 137.0953826904297,
      "learning_rate": 0.0004642482266637136,
      "loss": 7.0417,
      "step": 330
    },
    {
      "epoch": 0.3717148250326702,
      "grad_norm": 92.07840728759766,
      "learning_rate": 0.0004563927924424775,
      "loss": 6.9309,
      "step": 340
    },
    {
      "epoch": 0.38264761400421937,
      "grad_norm": 147.35975646972656,
      "learning_rate": 0.00044838724953309093,
      "loss": 6.8844,
      "step": 350
    },
    {
      "epoch": 0.3935804029757685,
      "grad_norm": 262.996337890625,
      "learning_rate": 0.0004402392818033671,
      "loss": 6.966,
      "step": 360
    },
    {
      "epoch": 0.4045131919473176,
      "grad_norm": 155.3452606201172,
      "learning_rate": 0.00043195670982308984,
      "loss": 7.0715,
      "step": 370
    },
    {
      "epoch": 0.41544598091886675,
      "grad_norm": 129.5069580078125,
      "learning_rate": 0.00042354748335768664,
      "loss": 7.0806,
      "step": 380
    },
    {
      "epoch": 0.4263787698904159,
      "grad_norm": 92.96502685546875,
      "learning_rate": 0.0004150196737378971,
      "loss": 6.9999,
      "step": 390
    },
    {
      "epoch": 0.437311558861965,
      "grad_norm": 120.41193389892578,
      "learning_rate": 0.0004063814661127606,
      "loss": 6.9339,
      "step": 400
    },
    {
      "epoch": 0.437311558861965,
      "eval_loss": 6.931961536407471,
      "eval_runtime": 78.8373,
      "eval_samples_per_second": 118.802,
      "eval_steps_per_second": 14.853,
      "step": 400
    },
    {
      "epoch": 0.44824434783351413,
      "grad_norm": 188.7049560546875,
      "learning_rate": 0.00039764115159335935,
      "loss": 6.9242,
      "step": 410
    },
    {
      "epoch": 0.4591771368050632,
      "grad_norm": 131.7518768310547,
      "learning_rate": 0.0003888071192948565,
      "loss": 6.9815,
      "step": 420
    },
    {
      "epoch": 0.47010992577661237,
      "grad_norm": 247.91549682617188,
      "learning_rate": 0.0003798878482844695,
      "loss": 7.0838,
      "step": 430
    },
    {
      "epoch": 0.4810427147481615,
      "grad_norm": 135.4517364501953,
      "learning_rate": 0.000370891899443104,
      "loss": 7.1813,
      "step": 440
    },
    {
      "epoch": 0.4919755037197106,
      "grad_norm": 99.5172119140625,
      "learning_rate": 0.00036182790724846315,
      "loss": 7.1557,
      "step": 450
    },
    {
      "epoch": 0.5029082926912597,
      "grad_norm": 165.1914825439453,
      "learning_rate": 0.00035270457148751575,
      "loss": 7.0382,
      "step": 460
    },
    {
      "epoch": 0.5138410816628088,
      "grad_norm": 128.59959411621094,
      "learning_rate": 0.00034353064890628107,
      "loss": 7.0597,
      "step": 470
    },
    {
      "epoch": 0.524773870634358,
      "grad_norm": 142.37147521972656,
      "learning_rate": 0.00033431494480494175,
      "loss": 7.092,
      "step": 480
    },
    {
      "epoch": 0.5357066596059071,
      "grad_norm": 217.4059295654297,
      "learning_rate": 0.0003250663045863544,
      "loss": 7.0457,
      "step": 490
    },
    {
      "epoch": 0.5466394485774563,
      "grad_norm": 125.81988525390625,
      "learning_rate": 0.0003157936052660688,
      "loss": 7.0112,
      "step": 500
    },
    {
      "epoch": 0.5466394485774563,
      "eval_loss": 7.004736423492432,
      "eval_runtime": 78.8041,
      "eval_samples_per_second": 118.852,
      "eval_steps_per_second": 14.86,
      "step": 500
    },
    {
      "epoch": 0.5575722375490054,
      "grad_norm": 170.00523376464844,
      "learning_rate": 0.0003065057469520046,
      "loss": 7.0162,
      "step": 510
    },
    {
      "epoch": 0.5685050265205545,
      "grad_norm": 216.81466674804688,
      "learning_rate": 0.0002972116443019633,
      "loss": 7.0584,
      "step": 520
    },
    {
      "epoch": 0.5794378154921036,
      "grad_norm": 239.21087646484375,
      "learning_rate": 0.0002879202179671755,
      "loss": 7.1254,
      "step": 530
    },
    {
      "epoch": 0.5903706044636527,
      "grad_norm": 190.0070343017578,
      "learning_rate": 0.00027864038603009453,
      "loss": 7.1717,
      "step": 540
    },
    {
      "epoch": 0.6013033934352019,
      "grad_norm": 179.18785095214844,
      "learning_rate": 0.00026938105544465745,
      "loss": 7.1185,
      "step": 550
    },
    {
      "epoch": 0.612236182406751,
      "grad_norm": 279.44781494140625,
      "learning_rate": 0.0002601511134872255,
      "loss": 7.0727,
      "step": 560
    },
    {
      "epoch": 0.6231689713783001,
      "grad_norm": 227.90072631835938,
      "learning_rate": 0.0002509594192264121,
      "loss": 7.1088,
      "step": 570
    },
    {
      "epoch": 0.6341017603498492,
      "grad_norm": 173.11819458007812,
      "learning_rate": 0.0002418147950199862,
      "loss": 7.0927,
      "step": 580
    },
    {
      "epoch": 0.6450345493213984,
      "grad_norm": 164.40736389160156,
      "learning_rate": 0.00023272601804700946,
      "loss": 7.0701,
      "step": 590
    },
    {
      "epoch": 0.6559673382929475,
      "grad_norm": 123.35533142089844,
      "learning_rate": 0.0002237018118833387,
      "loss": 7.0496,
      "step": 600
    },
    {
      "epoch": 0.6559673382929475,
      "eval_loss": 7.052866458892822,
      "eval_runtime": 78.8887,
      "eval_samples_per_second": 118.724,
      "eval_steps_per_second": 14.844,
      "step": 600
    },
    {
      "epoch": 0.6669001272644967,
      "grad_norm": 225.67015075683594,
      "learning_rate": 0.0002147508381285762,
      "loss": 7.04,
      "step": 610
    },
    {
      "epoch": 0.6778329162360458,
      "grad_norm": 140.2364501953125,
      "learning_rate": 0.00020588168809250687,
      "loss": 7.0902,
      "step": 620
    },
    {
      "epoch": 0.6887657052075948,
      "grad_norm": 262.8550720214844,
      "learning_rate": 0.00019710287454900033,
      "loss": 7.1224,
      "step": 630
    },
    {
      "epoch": 0.699698494179144,
      "grad_norm": 150.97813415527344,
      "learning_rate": 0.00018842282356529402,
      "loss": 7.1802,
      "step": 640
    },
    {
      "epoch": 0.7106312831506931,
      "grad_norm": 452.73431396484375,
      "learning_rate": 0.00017984986641449754,
      "loss": 7.1497,
      "step": 650
    },
    {
      "epoch": 0.7215640721222423,
      "grad_norm": 138.37220764160156,
      "learning_rate": 0.00017139223157908368,
      "loss": 7.1715,
      "step": 660
    },
    {
      "epoch": 0.7324968610937914,
      "grad_norm": 144.21133422851562,
      "learning_rate": 0.00016305803685303906,
      "loss": 7.1458,
      "step": 670
    },
    {
      "epoch": 0.7434296500653405,
      "grad_norm": 142.4859161376953,
      "learning_rate": 0.00015485528155025473,
      "loss": 7.1041,
      "step": 680
    },
    {
      "epoch": 0.7543624390368896,
      "grad_norm": 190.189208984375,
      "learning_rate": 0.00014679183882663872,
      "loss": 7.0798,
      "step": 690
    },
    {
      "epoch": 0.7652952280084387,
      "grad_norm": 160.14442443847656,
      "learning_rate": 0.0001388754481233139,
      "loss": 7.074,
      "step": 700
    },
    {
      "epoch": 0.7652952280084387,
      "eval_loss": 7.0790934562683105,
      "eval_runtime": 79.0053,
      "eval_samples_per_second": 118.549,
      "eval_steps_per_second": 14.822,
      "step": 700
    },
    {
      "epoch": 0.7762280169799879,
      "grad_norm": 173.01499938964844,
      "learning_rate": 0.0001311137077381614,
      "loss": 7.0821,
      "step": 710
    },
    {
      "epoch": 0.787160805951537,
      "grad_norm": 156.1138458251953,
      "learning_rate": 0.00012351406753283216,
      "loss": 7.0838,
      "step": 720
    },
    {
      "epoch": 0.7980935949230861,
      "grad_norm": 161.9981689453125,
      "learning_rate": 0.00011681901904809884,
      "loss": 7.0639,
      "step": 730
    },
    {
      "epoch": 0.8090263838946352,
      "grad_norm": 174.0237579345703,
      "learning_rate": 0.00010954733067505213,
      "loss": 7.0604,
      "step": 740
    },
    {
      "epoch": 0.8199591728661844,
      "grad_norm": 141.823974609375,
      "learning_rate": 0.0001024584422885053,
      "loss": 7.0508,
      "step": 750
    },
    {
      "epoch": 0.8308919618377335,
      "grad_norm": 121.39106750488281,
      "learning_rate": 9.555915793434476e-05,
      "loss": 7.0568,
      "step": 760
    },
    {
      "epoch": 0.8418247508092827,
      "grad_norm": 178.37924194335938,
      "learning_rate": 8.885609967300851e-05,
      "loss": 7.0589,
      "step": 770
    },
    {
      "epoch": 0.8527575397808318,
      "grad_norm": 304.8969421386719,
      "learning_rate": 8.235570122350937e-05,
      "loss": 7.0582,
      "step": 780
    },
    {
      "epoch": 0.8636903287523808,
      "grad_norm": 128.75843811035156,
      "learning_rate": 7.606420178823293e-05,
      "loss": 7.0622,
      "step": 790
    },
    {
      "epoch": 0.87462311772393,
      "grad_norm": 88.88775634765625,
      "learning_rate": 6.998764006443615e-05,
      "loss": 7.0664,
      "step": 800
    },
    {
      "epoch": 0.87462311772393,
      "eval_loss": 7.048069477081299,
      "eval_runtime": 78.7086,
      "eval_samples_per_second": 118.996,
      "eval_steps_per_second": 14.878,
      "step": 800
    },
    {
      "epoch": 0.8855559066954791,
      "grad_norm": 131.33584594726562,
      "learning_rate": 6.413184844819423e-05,
      "loss": 7.0381,
      "step": 810
    },
    {
      "epoch": 0.8964886956670283,
      "grad_norm": 176.8515625,
      "learning_rate": 6e-05,
      "loss": 7.0461,
      "step": 820
    },
    {
      "epoch": 0.9074214846385774,
      "grad_norm": 128.32069396972656,
      "learning_rate": 6e-05,
      "loss": 7.0597,
      "step": 830
    },
    {
      "epoch": 0.9183542736101264,
      "grad_norm": 150.107421875,
      "learning_rate": 6e-05,
      "loss": 7.0582,
      "step": 840
    },
    {
      "epoch": 0.9292870625816756,
      "grad_norm": 174.95352172851562,
      "learning_rate": 6e-05,
      "loss": 7.0729,
      "step": 850
    },
    {
      "epoch": 0.9402198515532247,
      "grad_norm": 209.878173828125,
      "learning_rate": 6e-05,
      "loss": 7.0949,
      "step": 860
    },
    {
      "epoch": 0.9511526405247739,
      "grad_norm": 181.1326904296875,
      "learning_rate": 6e-05,
      "loss": 7.109,
      "step": 870
    },
    {
      "epoch": 0.962085429496323,
      "grad_norm": 197.11639404296875,
      "learning_rate": 6e-05,
      "loss": 7.1132,
      "step": 880
    },
    {
      "epoch": 0.9730182184678722,
      "grad_norm": 197.16473388671875,
      "learning_rate": 6e-05,
      "loss": 7.1008,
      "step": 890
    },
    {
      "epoch": 0.9839510074394212,
      "grad_norm": 224.1211395263672,
      "learning_rate": 6e-05,
      "loss": 7.1024,
      "step": 900
    },
    {
      "epoch": 0.9839510074394212,
      "eval_loss": 7.119234561920166,
      "eval_runtime": 78.4745,
      "eval_samples_per_second": 119.351,
      "eval_steps_per_second": 14.922,
      "step": 900
    },
    {
      "epoch": 0.9948837964109704,
      "grad_norm": 161.86753845214844,
      "learning_rate": 6e-05,
      "loss": 7.1127,
      "step": 910
    },
    {
      "epoch": 1.0060984463481923,
      "grad_norm": 247.6467742919922,
      "learning_rate": 6e-05,
      "loss": 7.1115,
      "step": 920
    },
    {
      "epoch": 1.0170312353197413,
      "grad_norm": 228.1467742919922,
      "learning_rate": 6e-05,
      "loss": 7.1172,
      "step": 930
    },
    {
      "epoch": 1.0279640242912904,
      "grad_norm": 400.675537109375,
      "learning_rate": 6e-05,
      "loss": 7.1351,
      "step": 940
    },
    {
      "epoch": 1.0388968132628396,
      "grad_norm": 293.3075866699219,
      "learning_rate": 6e-05,
      "loss": 7.1747,
      "step": 950
    },
    {
      "epoch": 1.0498296022343887,
      "grad_norm": 439.60760498046875,
      "learning_rate": 6e-05,
      "loss": 7.1955,
      "step": 960
    },
    {
      "epoch": 1.0607623912059378,
      "grad_norm": 336.15521240234375,
      "learning_rate": 6e-05,
      "loss": 7.2134,
      "step": 970
    },
    {
      "epoch": 1.071695180177487,
      "grad_norm": 232.90606689453125,
      "learning_rate": 6e-05,
      "loss": 7.2589,
      "step": 980
    },
    {
      "epoch": 1.0826279691490361,
      "grad_norm": 453.7010803222656,
      "learning_rate": 6e-05,
      "loss": 7.2537,
      "step": 990
    },
    {
      "epoch": 1.0935607581205853,
      "grad_norm": 156.7413330078125,
      "learning_rate": 6e-05,
      "loss": 7.2678,
      "step": 1000
    },
    {
      "epoch": 1.0935607581205853,
      "eval_loss": 7.271553993225098,
      "eval_runtime": 78.5452,
      "eval_samples_per_second": 119.243,
      "eval_steps_per_second": 14.909,
      "step": 1000
    },
    {
      "epoch": 1.1044935470921344,
      "grad_norm": 225.9600067138672,
      "learning_rate": 6e-05,
      "loss": 7.2489,
      "step": 1010
    },
    {
      "epoch": 1.1154263360636836,
      "grad_norm": 258.6958312988281,
      "learning_rate": 6e-05,
      "loss": 7.2224,
      "step": 1020
    }
  ],
  "logging_steps": 10,
  "max_steps": 1024,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 1024,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.383804151351214e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}