Training in progress, step 50, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +191 -597
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
     "up_proj",
-    "down_proj",
-    "v_proj",
     "gate_proj",
-    "q_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
+    "o_proj",
     "up_proj",
+    "k_proj",
     "gate_proj",
+    "v_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:675bfe0980fde447be2a8e3874006ee13e8bfe2f660650a79ed803180b46cbc9
 size 90207248

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4040344cbc67953668e79066b88207350aae81e5c4d776fd699fb7bd70bc96b
 size 90207248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae4f10f8d9ad5ebbb651342cfc7d835b220c0d20e1557fc13df7949c9e36dde9
 size 46057082

 version https://git-lfs.github.com/spec/v1
+oid sha256:58e2090641cc052116e0c4ac9cec7ebb6783cbdb417ca41f8456f925f8a0b5ef
 size 46057082

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81e4b646b5019024b0a6a619d91c29a553f029a28ef937c40d5e11d705627320
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f8edb6e69e6db6204ad4fe1886499bf711cb1ca6d9b49de155cec88cf110ff4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a60c7d771c1fd156acee762fba03c724cb41829a3f71df370ecd1d20b134982
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8eccac390378b22aeb148c260b00bec01d948946d8363d5282899af673e0e86
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -3,830 +3,424 @@
   "best_model_checkpoint": null,
   "epoch": 0.026686236573487225,
   "eval_steps": 7,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0002668623657348722,
-      "grad_norm": 0.48246660828590393,
       "learning_rate": 2e-05,
-      "loss": 1.4083,
       "step": 1
     },
     {
-      "epoch": 0.0002668623657348722,
       "eval_loss": 1.6696527004241943,
-      "eval_runtime": 134.1915,
-      "eval_samples_per_second": 11.759,
-      "eval_steps_per_second": 5.88,
       "step": 1
     },
     {
-      "epoch": 0.0005337247314697444,
-      "grad_norm": 0.42700937390327454,
       "learning_rate": 4e-05,
-      "loss": 1.2236,
       "step": 2
     },
     {
-      "epoch": 0.0008005870972046167,
-      "grad_norm": 0.4204728603363037,
       "learning_rate": 6e-05,
-      "loss": 1.2531,
       "step": 3
     },
     {
-      "epoch": 0.0010674494629394889,
-      "grad_norm": 0.5097670555114746,
       "learning_rate": 8e-05,
-      "loss": 1.6156,
       "step": 4
     },
     {
-      "epoch": 0.0013343118286743613,
-      "grad_norm": 0.4625304341316223,
       "learning_rate": 0.0001,
-      "loss": 1.08,
       "step": 5
     },
     {
-      "epoch": 0.0016011741944092334,
-      "grad_norm": 0.5333373546600342,
       "learning_rate": 0.00012,
-      "loss": 1.5365,
       "step": 6
     },
     {
-      "epoch": 0.0018680365601441056,
-      "grad_norm": 0.6144849061965942,
       "learning_rate": 0.00014,
-      "loss": 1.8789,
       "step": 7
     },
     {
-      "epoch": 0.0018680365601441056,
-      "eval_loss": 1.6073870658874512,
-      "eval_runtime": 133.9916,
-      "eval_samples_per_second": 11.777,
-      "eval_steps_per_second": 5.888,
       "step": 7
     },
     {
-      "epoch": 0.0021348989258789777,
-      "grad_norm": 0.49932652711868286,
       "learning_rate": 0.00016,
-      "loss": 1.7018,
       "step": 8
     },
     {
-      "epoch": 0.0024017612916138503,
-      "grad_norm": 0.4914915859699249,
       "learning_rate": 0.00018,
-      "loss": 1.4509,
       "step": 9
     },
     {
-      "epoch": 0.0026686236573487225,
-      "grad_norm": 0.5696926116943359,
       "learning_rate": 0.0002,
-      "loss": 1.6015,
       "step": 10
     },
     {
-      "epoch": 0.0029354860230835947,
-      "grad_norm": 0.45859000086784363,
       "learning_rate": 0.0001999390827019096,
-      "loss": 1.6642,
       "step": 11
     },
     {
-      "epoch": 0.003202348388818467,
-      "grad_norm": 0.5585682392120361,
       "learning_rate": 0.00019975640502598244,
-      "loss": 1.6678,
       "step": 12
     },
     {
-      "epoch": 0.003469210754553339,
-      "grad_norm": 0.5119993090629578,
       "learning_rate": 0.00019945218953682734,
-      "loss": 1.8443,
       "step": 13
     },
     {
-      "epoch": 0.003736073120288211,
-      "grad_norm": 0.6777468919754028,
       "learning_rate": 0.00019902680687415705,
-      "loss": 1.438,
       "step": 14
     },
     {
-      "epoch": 0.003736073120288211,
-      "eval_loss": 1.4139090776443481,
-      "eval_runtime": 141.3112,
-      "eval_samples_per_second": 11.167,
-      "eval_steps_per_second": 5.583,
       "step": 14
     },
     {
-      "epoch": 0.004002935486023084,
-      "grad_norm": 0.5398678183555603,
       "learning_rate": 0.00019848077530122083,
-      "loss": 1.0947,
       "step": 15
     },
     {
-      "epoch": 0.0042697978517579555,
-      "grad_norm": 0.6177532076835632,
       "learning_rate": 0.00019781476007338058,
-      "loss": 1.3311,
       "step": 16
     },
     {
-      "epoch": 0.004536660217492828,
-      "grad_norm": 0.6243744492530823,
       "learning_rate": 0.00019702957262759965,
-      "loss": 1.3637,
       "step": 17
     },
     {
-      "epoch": 0.004803522583227701,
-      "grad_norm": 0.6455565690994263,
       "learning_rate": 0.0001961261695938319,
-      "loss": 1.4981,
       "step": 18
     },
     {
-      "epoch": 0.005070384948962572,
-      "grad_norm": 0.6392693519592285,
       "learning_rate": 0.00019510565162951537,
-      "loss": 1.3619,
       "step": 19
     },
     {
-      "epoch": 0.005337247314697445,
-      "grad_norm": 0.5793437957763672,
       "learning_rate": 0.00019396926207859084,
-      "loss": 1.2766,
       "step": 20
     },
     {
-      "epoch": 0.005604109680432317,
-      "grad_norm": 0.5029497742652893,
       "learning_rate": 0.00019271838545667876,
-      "loss": 1.1207,
       "step": 21
     },
     {
-      "epoch": 0.005604109680432317,
-      "eval_loss": 1.3270797729492188,
-      "eval_runtime": 146.4567,
-      "eval_samples_per_second": 10.775,
-      "eval_steps_per_second": 5.387,
       "step": 21
     },
     {
-      "epoch": 0.005870972046167189,
-      "grad_norm": 0.6155513525009155,
       "learning_rate": 0.0001913545457642601,
-      "loss": 1.556,
       "step": 22
     },
     {
-      "epoch": 0.006137834411902062,
-      "grad_norm": 0.6500096321105957,
       "learning_rate": 0.0001898794046299167,
-      "loss": 1.474,
       "step": 23
     },
     {
-      "epoch": 0.006404696777636934,
-      "grad_norm": 0.6331658959388733,
       "learning_rate": 0.00018829475928589271,
-      "loss": 1.4173,
       "step": 24
     },
     {
-      "epoch": 0.006671559143371806,
-      "grad_norm": 0.5242219567298889,
       "learning_rate": 0.00018660254037844388,
-      "loss": 0.9868,
       "step": 25
     },
     {
-      "epoch": 0.006938421509106678,
-      "grad_norm": 0.5245822072029114,
       "learning_rate": 0.0001848048096156426,
-      "loss": 1.3394,
       "step": 26
     },
     {
-      "epoch": 0.007205283874841551,
-      "grad_norm": 0.4861794710159302,
       "learning_rate": 0.00018290375725550417,
-      "loss": 1.1678,
       "step": 27
     },
     {
-      "epoch": 0.007472146240576422,
-      "grad_norm": 0.5405046343803406,
       "learning_rate": 0.00018090169943749476,
-      "loss": 1.4281,
       "step": 28
     },
     {
-      "epoch": 0.007472146240576422,
-      "eval_loss": 1.2948347330093384,
-      "eval_runtime": 134.4198,
-      "eval_samples_per_second": 11.739,
-      "eval_steps_per_second": 5.87,
       "step": 28
     },
     {
-      "epoch": 0.007739008606311295,
-      "grad_norm": 0.547755241394043,
       "learning_rate": 0.00017880107536067218,
-      "loss": 1.4608,
       "step": 29
     },
     {
-      "epoch": 0.008005870972046168,
-      "grad_norm": 0.5547773241996765,
       "learning_rate": 0.0001766044443118978,
-      "loss": 1.5337,
       "step": 30
     },
     {
-      "epoch": 0.00827273333778104,
-      "grad_norm": 0.4550973176956177,
       "learning_rate": 0.00017431448254773944,
-      "loss": 1.085,
       "step": 31
     },
     {
-      "epoch": 0.008539595703515911,
-      "grad_norm": 0.49034157395362854,
       "learning_rate": 0.0001719339800338651,
-      "loss": 1.2156,
       "step": 32
     },
     {
-      "epoch": 0.008806458069250784,
-      "grad_norm": 0.4948073625564575,
       "learning_rate": 0.00016946583704589973,
-      "loss": 1.4487,
       "step": 33
     },
     {
-      "epoch": 0.009073320434985656,
-      "grad_norm": 0.47524333000183105,
       "learning_rate": 0.00016691306063588583,
-      "loss": 1.427,
       "step": 34
     },
     {
-      "epoch": 0.009340182800720529,
-      "grad_norm": 0.46814826130867004,
       "learning_rate": 0.00016427876096865394,
-      "loss": 1.0291,
       "step": 35
     },
     {
-      "epoch": 0.009340182800720529,
-      "eval_loss": 1.2702234983444214,
-      "eval_runtime": 134.0978,
-      "eval_samples_per_second": 11.768,
-      "eval_steps_per_second": 5.884,
       "step": 35
     },
     {
-      "epoch": 0.009607045166455401,
-      "grad_norm": 0.4621327221393585,
       "learning_rate": 0.0001615661475325658,
-      "loss": 1.2176,
       "step": 36
     },
     {
-      "epoch": 0.009873907532190272,
-      "grad_norm": 0.4475291669368744,
       "learning_rate": 0.00015877852522924732,
-      "loss": 1.0592,
       "step": 37
     },
     {
-      "epoch": 0.010140769897925145,
-      "grad_norm": 0.5518432259559631,
       "learning_rate": 0.0001559192903470747,
-      "loss": 1.5178,
       "step": 38
     },
     {
-      "epoch": 0.010407632263660017,
-      "grad_norm": 0.46442165970802307,
       "learning_rate": 0.0001529919264233205,
-      "loss": 1.3476,
       "step": 39
     },
     {
-      "epoch": 0.01067449462939489,
-      "grad_norm": 0.5762611627578735,
       "learning_rate": 0.00015000000000000001,
-      "loss": 1.2667,
       "step": 40
     },
     {
-      "epoch": 0.010941356995129763,
-      "grad_norm": 0.5779625177383423,
       "learning_rate": 0.00014694715627858908,
-      "loss": 1.0782,
       "step": 41
     },
     {
-      "epoch": 0.011208219360864633,
-      "grad_norm": 0.6470887660980225,
       "learning_rate": 0.00014383711467890774,
-      "loss": 1.2272,
       "step": 42
     },
     {
-      "epoch": 0.011208219360864633,
-      "eval_loss": 1.2538752555847168,
-      "eval_runtime": 132.6405,
-      "eval_samples_per_second": 11.897,
-      "eval_steps_per_second": 5.948,
       "step": 42
     },
     {
-      "epoch": 0.011475081726599506,
-      "grad_norm": 0.5254849791526794,
       "learning_rate": 0.00014067366430758004,
-      "loss": 1.401,
       "step": 43
     },
     {
-      "epoch": 0.011741944092334379,
-      "grad_norm": 0.5809857845306396,
       "learning_rate": 0.00013746065934159123,
-      "loss": 0.9578,
       "step": 44
     },
     {
-      "epoch": 0.012008806458069251,
-      "grad_norm": 0.5584573745727539,
       "learning_rate": 0.00013420201433256689,
-      "loss": 1.4177,
       "step": 45
     },
     {
-      "epoch": 0.012275668823804124,
-      "grad_norm": 0.4703948497772217,
       "learning_rate": 0.00013090169943749476,
-      "loss": 1.0841,
       "step": 46
     },
     {
-      "epoch": 0.012542531189538995,
-      "grad_norm": 0.5250616073608398,
       "learning_rate": 0.0001275637355816999,
-      "loss": 1.299,
       "step": 47
     },
     {
-      "epoch": 0.012809393555273867,
-      "grad_norm": 0.5536912679672241,
       "learning_rate": 0.00012419218955996676,
-      "loss": 1.5922,
       "step": 48
     },
     {
-      "epoch": 0.01307625592100874,
-      "grad_norm": 0.5441425442695618,
       "learning_rate": 0.00012079116908177593,
-      "loss": 1.1606,
       "step": 49
     },
     {
-      "epoch": 0.01307625592100874,
-      "eval_loss": 1.2438926696777344,
-      "eval_runtime": 136.1509,
-      "eval_samples_per_second": 11.59,
-      "eval_steps_per_second": 5.795,
       "step": 49
     },
     {
-      "epoch": 0.013343118286743613,
-      "grad_norm": 0.5872637033462524,
       "learning_rate": 0.00011736481776669306,
-      "loss": 1.1358,
       "step": 50
-    },
-    {
-      "epoch": 0.013609980652478483,
-      "grad_norm": 0.5417905449867249,
-      "learning_rate": 0.00011391731009600654,
-      "loss": 1.4383,
-      "step": 51
-    },
-    {
-      "epoch": 0.013876843018213356,
-      "grad_norm": 0.5448947548866272,
-      "learning_rate": 0.00011045284632676536,
-      "loss": 1.0165,
-      "step": 52
-    },
-    {
-      "epoch": 0.014143705383948229,
-      "grad_norm": 0.46808987855911255,
-      "learning_rate": 0.00010697564737441252,
-      "loss": 1.1393,
-      "step": 53
-    },
-    {
-      "epoch": 0.014410567749683101,
-      "grad_norm": 0.47033971548080444,
-      "learning_rate": 0.00010348994967025012,
-      "loss": 1.3961,
-      "step": 54
-    },
-    {
-      "epoch": 0.014677430115417974,
-      "grad_norm": 0.5236154794692993,
-      "learning_rate": 0.0001,
-      "loss": 1.5561,
-      "step": 55
-    },
-    {
-      "epoch": 0.014944292481152845,
-      "grad_norm": 0.7097230553627014,
-      "learning_rate": 9.651005032974994e-05,
-      "loss": 1.2959,
-      "step": 56
-    },
-    {
-      "epoch": 0.014944292481152845,
-      "eval_loss": 1.2394729852676392,
-      "eval_runtime": 134.9748,
-      "eval_samples_per_second": 11.691,
-      "eval_steps_per_second": 5.846,
-      "step": 56
-    },
-    {
-      "epoch": 0.015211154846887717,
-      "grad_norm": 0.5540514588356018,
-      "learning_rate": 9.302435262558747e-05,
-      "loss": 1.444,
-      "step": 57
-    },
-    {
-      "epoch": 0.01547801721262259,
-      "grad_norm": 0.5307855606079102,
-      "learning_rate": 8.954715367323468e-05,
-      "loss": 1.5893,
-      "step": 58
-    },
-    {
-      "epoch": 0.015744879578357462,
-      "grad_norm": 0.6735817193984985,
-      "learning_rate": 8.608268990399349e-05,
-      "loss": 1.7539,
-      "step": 59
-    },
-    {
-      "epoch": 0.016011741944092335,
-      "grad_norm": 0.672619640827179,
-      "learning_rate": 8.263518223330697e-05,
-      "loss": 1.3105,
-      "step": 60
-    },
-    {
-      "epoch": 0.016278604309827208,
-      "grad_norm": 0.6357527375221252,
-      "learning_rate": 7.920883091822408e-05,
-      "loss": 1.4017,
-      "step": 61
-    },
-    {
-      "epoch": 0.01654546667556208,
-      "grad_norm": 0.5322158336639404,
-      "learning_rate": 7.580781044003324e-05,
-      "loss": 1.4087,
-      "step": 62
-    },
-    {
-      "epoch": 0.016812329041296953,
-      "grad_norm": 0.4981854557991028,
-      "learning_rate": 7.243626441830009e-05,
-      "loss": 1.3003,
-      "step": 63
-    },
-    {
-      "epoch": 0.016812329041296953,
-      "eval_loss": 1.2340149879455566,
-      "eval_runtime": 137.149,
-      "eval_samples_per_second": 11.506,
-      "eval_steps_per_second": 5.753,
-      "step": 63
-    },
-    {
-      "epoch": 0.017079191407031822,
-      "grad_norm": 0.5758522748947144,
-      "learning_rate": 6.909830056250527e-05,
-      "loss": 1.6759,
-      "step": 64
-    },
-    {
-      "epoch": 0.017346053772766695,
-      "grad_norm": 0.41307348012924194,
-      "learning_rate": 6.579798566743314e-05,
-      "loss": 0.9322,
-      "step": 65
-    },
-    {
-      "epoch": 0.017612916138501567,
-      "grad_norm": 0.5829881429672241,
-      "learning_rate": 6.25393406584088e-05,
-      "loss": 1.642,
-      "step": 66
-    },
-    {
-      "epoch": 0.01787977850423644,
-      "grad_norm": 0.5752767324447632,
-      "learning_rate": 5.9326335692419995e-05,
-      "loss": 1.3748,
-      "step": 67
-    },
-    {
-      "epoch": 0.018146640869971312,
-      "grad_norm": 0.6040608882904053,
-      "learning_rate": 5.616288532109225e-05,
-      "loss": 1.6328,
-      "step": 68
-    },
-    {
-      "epoch": 0.018413503235706185,
-      "grad_norm": 0.5273990035057068,
-      "learning_rate": 5.305284372141095e-05,
-      "loss": 1.4503,
-      "step": 69
-    },
-    {
-      "epoch": 0.018680365601441058,
-      "grad_norm": 0.5665819048881531,
-      "learning_rate": 5.000000000000002e-05,
-      "loss": 1.4029,
-      "step": 70
-    },
-    {
-      "epoch": 0.018680365601441058,
-      "eval_loss": 1.2299305200576782,
-      "eval_runtime": 136.433,
-      "eval_samples_per_second": 11.566,
-      "eval_steps_per_second": 5.783,
-      "step": 70
-    },
-    {
-      "epoch": 0.01894722796717593,
-      "grad_norm": 0.5314707159996033,
-      "learning_rate": 4.700807357667952e-05,
-      "loss": 1.575,
-      "step": 71
-    },
-    {
-      "epoch": 0.019214090332910803,
-      "grad_norm": 0.4817146062850952,
-      "learning_rate": 4.4080709652925336e-05,
-      "loss": 1.1148,
-      "step": 72
-    },
-    {
-      "epoch": 0.019480952698645672,
-      "grad_norm": 0.5054529309272766,
-      "learning_rate": 4.12214747707527e-05,
-      "loss": 1.3129,
-      "step": 73
-    },
-    {
-      "epoch": 0.019747815064380544,
-      "grad_norm": 0.5212790966033936,
-      "learning_rate": 3.843385246743417e-05,
-      "loss": 1.0889,
-      "step": 74
-    },
-    {
-      "epoch": 0.020014677430115417,
-      "grad_norm": 0.6351757645606995,
-      "learning_rate": 3.5721239031346066e-05,
-      "loss": 1.0825,
-      "step": 75
-    },
-    {
-      "epoch": 0.02028153979585029,
-      "grad_norm": 0.6281993389129639,
-      "learning_rate": 3.308693936411421e-05,
-      "loss": 0.8519,
-      "step": 76
-    },
-    {
-      "epoch": 0.020548402161585162,
-      "grad_norm": 0.4461570680141449,
-      "learning_rate": 3.053416295410026e-05,
-      "loss": 1.2938,
-      "step": 77
-    },
-    {
-      "epoch": 0.020548402161585162,
-      "eval_loss": 1.2266793251037598,
-      "eval_runtime": 135.2516,
-      "eval_samples_per_second": 11.667,
-      "eval_steps_per_second": 5.834,
-      "step": 77
-    },
-    {
-      "epoch": 0.020815264527320035,
-      "grad_norm": 0.48482546210289,
-      "learning_rate": 2.8066019966134904e-05,
-      "loss": 1.0919,
-      "step": 78
-    },
-    {
-      "epoch": 0.021082126893054907,
-      "grad_norm": 0.4868544042110443,
-      "learning_rate": 2.5685517452260567e-05,
-      "loss": 1.0603,
-      "step": 79
-    },
-    {
-      "epoch": 0.02134898925878978,
-      "grad_norm": 0.5129907131195068,
-      "learning_rate": 2.339555568810221e-05,
-      "loss": 1.3856,
-      "step": 80
-    },
-    {
-      "epoch": 0.021615851624524653,
-      "grad_norm": 0.4842297434806824,
-      "learning_rate": 2.119892463932781e-05,
-      "loss": 1.2908,
-      "step": 81
-    },
-    {
-      "epoch": 0.021882713990259525,
-      "grad_norm": 0.4925113618373871,
-      "learning_rate": 1.9098300562505266e-05,
-      "loss": 1.3741,
-      "step": 82
-    },
-    {
-      "epoch": 0.022149576355994394,
-      "grad_norm": 0.57545405626297,
-      "learning_rate": 1.7096242744495837e-05,
-      "loss": 1.2206,
-      "step": 83
-    },
-    {
-      "epoch": 0.022416438721729267,
-      "grad_norm": 0.5752005577087402,
-      "learning_rate": 1.5195190384357404e-05,
-      "loss": 1.164,
-      "step": 84
-    },
-    {
-      "epoch": 0.022416438721729267,
-      "eval_loss": 1.2256754636764526,
-      "eval_runtime": 134.9624,
-      "eval_samples_per_second": 11.692,
-      "eval_steps_per_second": 5.846,
-      "step": 84
-    },
-    {
-      "epoch": 0.02268330108746414,
-      "grad_norm": 0.496196985244751,
-      "learning_rate": 1.339745962155613e-05,
-      "loss": 0.8884,
-      "step": 85
-    },
-    {
-      "epoch": 0.022950163453199012,
-      "grad_norm": 0.5369247794151306,
-      "learning_rate": 1.1705240714107302e-05,
-      "loss": 1.3603,
-      "step": 86
-    },
-    {
-      "epoch": 0.023217025818933885,
-      "grad_norm": 0.49603065848350525,
-      "learning_rate": 1.0120595370083318e-05,
-      "loss": 1.1963,
-      "step": 87
-    },
-    {
-      "epoch": 0.023483888184668757,
-      "grad_norm": 0.4436291754245758,
-      "learning_rate": 8.645454235739903e-06,
-      "loss": 1.1431,
-      "step": 88
-    },
-    {
-      "epoch": 0.02375075055040363,
-      "grad_norm": 0.6288793087005615,
-      "learning_rate": 7.281614543321269e-06,
-      "loss": 1.2736,
-      "step": 89
-    },
-    {
-      "epoch": 0.024017612916138503,
-      "grad_norm": 0.5103827714920044,
-      "learning_rate": 6.030737921409169e-06,
-      "loss": 1.3082,
-      "step": 90
-    },
-    {
-      "epoch": 0.024284475281873375,
-      "grad_norm": 0.4804667830467224,
-      "learning_rate": 4.8943483704846475e-06,
-      "loss": 0.9039,
-      "step": 91
-    },
-    {
-      "epoch": 0.024284475281873375,
-      "eval_loss": 1.2248241901397705,
-      "eval_runtime": 132.5114,
-      "eval_samples_per_second": 11.908,
-      "eval_steps_per_second": 5.954,
-      "step": 91
-    },
-    {
-      "epoch": 0.024551337647608248,
-      "grad_norm": 0.4620506167411804,
-      "learning_rate": 3.873830406168111e-06,
-      "loss": 1.5551,
-      "step": 92
-    },
-    {
-      "epoch": 0.024818200013343117,
-      "grad_norm": 0.4348868727684021,
-      "learning_rate": 2.970427372400353e-06,
-      "loss": 1.2344,
-      "step": 93
-    },
-    {
-      "epoch": 0.02508506237907799,
-      "grad_norm": 0.5838442444801331,
-      "learning_rate": 2.1852399266194314e-06,
-      "loss": 1.2249,
-      "step": 94
-    },
-    {
-      "epoch": 0.025351924744812862,
-      "grad_norm": 0.504834771156311,
-      "learning_rate": 1.5192246987791981e-06,
-      "loss": 1.349,
-      "step": 95
-    },
-    {
-      "epoch": 0.025618787110547735,
-      "grad_norm": 0.47995805740356445,
-      "learning_rate": 9.731931258429638e-07,
-      "loss": 1.4888,
-      "step": 96
-    },
-    {
-      "epoch": 0.025885649476282607,
-      "grad_norm": 0.5090994238853455,
-      "learning_rate": 5.478104631726711e-07,
-      "loss": 1.2748,
-      "step": 97
-    },
-    {
-      "epoch": 0.02615251184201748,
-      "grad_norm": 0.5318643450737,
-      "learning_rate": 2.4359497401758024e-07,
-      "loss": 1.0404,
-      "step": 98
-    },
-    {
-      "epoch": 0.02615251184201748,
-      "eval_loss": 1.224722146987915,
-      "eval_runtime": 137.2512,
-      "eval_samples_per_second": 11.497,
-      "eval_steps_per_second": 5.749,
-      "step": 98
-    },
-    {
-      "epoch": 0.026419374207752352,
-      "grad_norm": 0.6168465614318848,
-      "learning_rate": 6.09172980904238e-08,
-      "loss": 1.1179,
-      "step": 99
-    },
-    {
-      "epoch": 0.026686236573487225,
-      "grad_norm": 0.6081441044807434,
-      "learning_rate": 0.0,
-      "loss": 1.4811,
-      "step": 100
     }
   ],
   "logging_steps": 1,
@@ -841,7 +435,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }

   "best_model_checkpoint": null,
   "epoch": 0.026686236573487225,
   "eval_steps": 7,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0005337247314697444,
+      "grad_norm": 0.3629896640777588,
       "learning_rate": 2e-05,
+      "loss": 1.3023,
       "step": 1
     },
     {
+      "epoch": 0.0005337247314697444,
       "eval_loss": 1.6696527004241943,
+      "eval_runtime": 138.2798,
+      "eval_samples_per_second": 11.412,
+      "eval_steps_per_second": 5.706,
       "step": 1
     },
     {
+      "epoch": 0.0010674494629394889,
+      "grad_norm": 0.37523019313812256,
       "learning_rate": 4e-05,
+      "loss": 1.3966,
       "step": 2
     },
     {
+      "epoch": 0.0016011741944092334,
+      "grad_norm": 0.39908841252326965,
       "learning_rate": 6e-05,
+      "loss": 1.2988,
       "step": 3
     },
     {
+      "epoch": 0.0021348989258789777,
+      "grad_norm": 0.44918331503868103,
       "learning_rate": 8e-05,
+      "loss": 1.8351,
       "step": 4
     },
     {
+      "epoch": 0.0026686236573487225,
+      "grad_norm": 0.4540751874446869,
       "learning_rate": 0.0001,
+      "loss": 1.6159,
       "step": 5
     },
     {
+      "epoch": 0.003202348388818467,
+      "grad_norm": 0.48438403010368347,
       "learning_rate": 0.00012,
+      "loss": 1.7997,
       "step": 6
     },
     {
+      "epoch": 0.003736073120288211,
+      "grad_norm": 0.47967973351478577,
       "learning_rate": 0.00014,
+      "loss": 1.848,
       "step": 7
     },
     {
+      "epoch": 0.003736073120288211,
+      "eval_loss": 1.5880990028381348,
+      "eval_runtime": 136.8431,
+      "eval_samples_per_second": 11.531,
+      "eval_steps_per_second": 5.766,
       "step": 7
     },
     {
+      "epoch": 0.0042697978517579555,
+      "grad_norm": 0.443247526884079,
       "learning_rate": 0.00016,
+      "loss": 1.3893,
       "step": 8
     },
     {
+      "epoch": 0.004803522583227701,
+      "grad_norm": 0.4176405370235443,
       "learning_rate": 0.00018,
+      "loss": 1.6137,
       "step": 9
     },
     {
+      "epoch": 0.005337247314697445,
+      "grad_norm": 0.42031896114349365,
       "learning_rate": 0.0002,
+      "loss": 1.5092,
       "step": 10
     },
     {
+      "epoch": 0.005870972046167189,
+      "grad_norm": 0.3552657961845398,
       "learning_rate": 0.0001999390827019096,
+      "loss": 1.4142,
       "step": 11
     },
     {
+      "epoch": 0.006404696777636934,
+      "grad_norm": 0.5527915358543396,
       "learning_rate": 0.00019975640502598244,
+      "loss": 1.6114,
       "step": 12
     },
     {
+      "epoch": 0.006938421509106678,
+      "grad_norm": 0.4900396168231964,
       "learning_rate": 0.00019945218953682734,
+      "loss": 1.3065,
       "step": 13
     },
     {
+      "epoch": 0.007472146240576422,
+      "grad_norm": 0.41337817907333374,
       "learning_rate": 0.00019902680687415705,
+      "loss": 1.3956,
       "step": 14
     },
     {
+      "epoch": 0.007472146240576422,
+      "eval_loss": 1.3877164125442505,
+      "eval_runtime": 132.633,
+      "eval_samples_per_second": 11.897,
+      "eval_steps_per_second": 5.949,
       "step": 14
     },
     {
+      "epoch": 0.008005870972046168,
+      "grad_norm": 0.44572773575782776,
       "learning_rate": 0.00019848077530122083,
+      "loss": 1.5852,
       "step": 15
     },
     {
+      "epoch": 0.008539595703515911,
+      "grad_norm": 0.413870632648468,
       "learning_rate": 0.00019781476007338058,
+      "loss": 1.2316,
       "step": 16
     },
     {
+      "epoch": 0.009073320434985656,
+      "grad_norm": 0.41110166907310486,
       "learning_rate": 0.00019702957262759965,
+      "loss": 1.4972,
       "step": 17
     },
     {
+      "epoch": 0.009607045166455401,
+      "grad_norm": 0.3463555872440338,
       "learning_rate": 0.0001961261695938319,
+      "loss": 1.1697,
       "step": 18
     },
     {
+      "epoch": 0.010140769897925145,
+      "grad_norm": 0.3517301678657532,
       "learning_rate": 0.00019510565162951537,
+      "loss": 1.2792,
       "step": 19
     },
     {
+      "epoch": 0.01067449462939489,
+      "grad_norm": 0.3800961375236511,
       "learning_rate": 0.00019396926207859084,
+      "loss": 1.3721,
       "step": 20
     },
     {
+      "epoch": 0.011208219360864633,
+      "grad_norm": 0.46215319633483887,
       "learning_rate": 0.00019271838545667876,
+      "loss": 1.2391,
       "step": 21
     },
     {
+      "epoch": 0.011208219360864633,
+      "eval_loss": 1.3272384405136108,
+      "eval_runtime": 142.2392,
+      "eval_samples_per_second": 11.094,
+      "eval_steps_per_second": 5.547,
       "step": 21
     },
     {
+      "epoch": 0.011741944092334379,
+      "grad_norm": 0.4401664733886719,
       "learning_rate": 0.0001913545457642601,
+      "loss": 1.279,
       "step": 22
     },
     {
+      "epoch": 0.012275668823804124,
+      "grad_norm": 0.4027818441390991,
       "learning_rate": 0.0001898794046299167,
+      "loss": 1.3049,
       "step": 23
     },
     {
+      "epoch": 0.012809393555273867,
+      "grad_norm": 0.4447319209575653,
       "learning_rate": 0.00018829475928589271,
+      "loss": 1.5177,
       "step": 24
     },
     {
+      "epoch": 0.013343118286743613,
+      "grad_norm": 0.4240773618221283,
       "learning_rate": 0.00018660254037844388,
+      "loss": 1.2123,
       "step": 25
     },
     {
+      "epoch": 0.013876843018213356,
+      "grad_norm": 0.39182350039482117,
       "learning_rate": 0.0001848048096156426,
+      "loss": 1.2975,
       "step": 26
     },
     {
+      "epoch": 0.014410567749683101,
+      "grad_norm": 0.3561626374721527,
       "learning_rate": 0.00018290375725550417,
+      "loss": 1.3176,
       "step": 27
     },
     {
+      "epoch": 0.014944292481152845,
+      "grad_norm": 0.41868481040000916,
       "learning_rate": 0.00018090169943749476,
+      "loss": 1.497,
       "step": 28
     },
     {
+      "epoch": 0.014944292481152845,
+      "eval_loss": 1.2778455018997192,
+      "eval_runtime": 133.835,
+      "eval_samples_per_second": 11.791,
+      "eval_steps_per_second": 5.895,
       "step": 28
     },
     {
+      "epoch": 0.01547801721262259,
+      "grad_norm": 0.39559242129325867,
       "learning_rate": 0.00017880107536067218,
+      "loss": 1.5544,
       "step": 29
     },
     {
+      "epoch": 0.016011741944092335,
+      "grad_norm": 0.4642369747161865,
       "learning_rate": 0.0001766044443118978,
+      "loss": 1.5329,
       "step": 30
     },
     {
+      "epoch": 0.01654546667556208,
+      "grad_norm": 0.4452536404132843,
       "learning_rate": 0.00017431448254773944,
+      "loss": 1.4477,
       "step": 31
     },
     {
+      "epoch": 0.017079191407031822,
+      "grad_norm": 0.4180367588996887,
       "learning_rate": 0.0001719339800338651,
+      "loss": 1.5047,
       "step": 32
     },
     {
+      "epoch": 0.017612916138501567,
+      "grad_norm": 0.34123241901397705,
       "learning_rate": 0.00016946583704589973,
+      "loss": 1.2064,
       "step": 33
     },
     {
+      "epoch": 0.018146640869971312,
+      "grad_norm": 0.4111071228981018,
       "learning_rate": 0.00016691306063588583,
+      "loss": 1.5182,
       "step": 34
     },
     {
+      "epoch": 0.018680365601441058,
+      "grad_norm": 0.3765980899333954,
       "learning_rate": 0.00016427876096865394,
+      "loss": 1.4533,
       "step": 35
     },
     {
+      "epoch": 0.018680365601441058,
+      "eval_loss": 1.2552332878112793,
+      "eval_runtime": 133.9537,
+      "eval_samples_per_second": 11.78,
+      "eval_steps_per_second": 5.89,
       "step": 35
     },
     {
+      "epoch": 0.019214090332910803,
+      "grad_norm": 0.35214561223983765,
       "learning_rate": 0.0001615661475325658,
+      "loss": 1.3882,
       "step": 36
     },
     {
+      "epoch": 0.019747815064380544,
+      "grad_norm": 0.36351558566093445,
       "learning_rate": 0.00015877852522924732,
+      "loss": 1.2277,
       "step": 37
     },
     {
+      "epoch": 0.02028153979585029,
+      "grad_norm": 0.4065183997154236,
       "learning_rate": 0.0001559192903470747,
+      "loss": 0.9644,
       "step": 38
     },
     {
+      "epoch": 0.020815264527320035,
+      "grad_norm": 0.31548288464546204,
       "learning_rate": 0.0001529919264233205,
+      "loss": 1.2103,
       "step": 39
     },
     {
+      "epoch": 0.02134898925878978,
+      "grad_norm": 0.34691786766052246,
       "learning_rate": 0.00015000000000000001,
+      "loss": 1.2275,
       "step": 40
     },
     {
+      "epoch": 0.021882713990259525,
+      "grad_norm": 0.3332786560058594,
       "learning_rate": 0.00014694715627858908,
+      "loss": 1.3469,
       "step": 41
     },
     {
+      "epoch": 0.022416438721729267,
+      "grad_norm": 0.3993981182575226,
       "learning_rate": 0.00014383711467890774,
+      "loss": 1.2165,
       "step": 42
     },
     {
+      "epoch": 0.022416438721729267,
+      "eval_loss": 1.240829586982727,
+      "eval_runtime": 139.0014,
+      "eval_samples_per_second": 11.352,
+      "eval_steps_per_second": 5.676,
       "step": 42
     },
     {
+      "epoch": 0.022950163453199012,
+      "grad_norm": 0.3627195358276367,
       "learning_rate": 0.00014067366430758004,
+      "loss": 1.1394,
       "step": 43
     },
     {
+      "epoch": 0.023483888184668757,
+      "grad_norm": 0.31742554903030396,
       "learning_rate": 0.00013746065934159123,
+      "loss": 1.1885,
       "step": 44
     },
     {
+      "epoch": 0.024017612916138503,
+      "grad_norm": 0.3838454782962799,
       "learning_rate": 0.00013420201433256689,
+      "loss": 1.3044,
       "step": 45
     },
     {
+      "epoch": 0.024551337647608248,
+      "grad_norm": 0.3152655363082886,
       "learning_rate": 0.00013090169943749476,
+      "loss": 1.2796,
       "step": 46
     },
     {
+      "epoch": 0.02508506237907799,
+      "grad_norm": 0.34708547592163086,
       "learning_rate": 0.0001275637355816999,
+      "loss": 1.2463,
       "step": 47
     },
     {
+      "epoch": 0.025618787110547735,
+      "grad_norm": 0.36045414209365845,
       "learning_rate": 0.00012419218955996676,
+      "loss": 1.4435,
       "step": 48
     },
     {
+      "epoch": 0.02615251184201748,
+      "grad_norm": 0.3756614625453949,
       "learning_rate": 0.00012079116908177593,
+      "loss": 1.1767,
       "step": 49
     },
     {
+      "epoch": 0.02615251184201748,
+      "eval_loss": 1.2297325134277344,
+      "eval_runtime": 143.2278,
+      "eval_samples_per_second": 11.017,
+      "eval_steps_per_second": 5.509,
       "step": 49
     },
     {
+      "epoch": 0.026686236573487225,
+      "grad_norm": 0.4282926023006439,
       "learning_rate": 0.00011736481776669306,
+      "loss": 1.3075,
       "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a147559685eef56e0ba65f3463db2fc7bb7ddc7da841441975503a8d548c06fe
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:b17e7f3a90a6d5afe0eacee3d377f9ada385fd67a9792d5d18703952f73ba685
 size 6776