diff --git "a/last-checkpoint/trainer_state.json" "b/last-checkpoint/trainer_state.json" new file mode 100644--- /dev/null +++ "b/last-checkpoint/trainer_state.json" @@ -0,0 +1,35033 @@ +{ + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 0.1111111111111111, + "eval_steps": 9000, + "global_step": 5000, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 2.2222222222222223e-05, + "grad_norm": 2.0185797214508057, + "learning_rate": 2e-05, + "loss": 3.2618, + "step": 1 + }, + { + "epoch": 4.4444444444444447e-05, + "grad_norm": 1.7432889938354492, + "learning_rate": 4e-05, + "loss": 3.3564, + "step": 2 + }, + { + "epoch": 6.666666666666667e-05, + "grad_norm": 1.9091120958328247, + "learning_rate": 6e-05, + "loss": 3.0943, + "step": 3 + }, + { + "epoch": 8.888888888888889e-05, + "grad_norm": 2.1515886783599854, + "learning_rate": 8e-05, + "loss": 3.59, + "step": 4 + }, + { + "epoch": 0.00011111111111111112, + "grad_norm": 1.7237238883972168, + "learning_rate": 0.0001, + "loss": 3.4605, + "step": 5 + }, + { + "epoch": 0.00013333333333333334, + "grad_norm": 1.9830104112625122, + "learning_rate": 0.00012, + "loss": 3.2866, + "step": 6 + }, + { + "epoch": 0.00015555555555555556, + "grad_norm": 1.3985366821289062, + "learning_rate": 0.00014, + "loss": 2.9885, + "step": 7 + }, + { + "epoch": 0.00017777777777777779, + "grad_norm": 1.373055100440979, + "learning_rate": 0.00016, + "loss": 2.912, + "step": 8 + }, + { + "epoch": 0.0002, + "grad_norm": 1.2396327257156372, + "learning_rate": 0.00018, + "loss": 3.0742, + "step": 9 + }, + { + "epoch": 0.00022222222222222223, + "grad_norm": 1.1442056894302368, + "learning_rate": 0.0002, + "loss": 2.78, + "step": 10 + }, + { + "epoch": 0.00024444444444444443, + "grad_norm": 1.284921646118164, + "learning_rate": 0.00019999555456768172, + "loss": 3.1471, + "step": 11 + }, + { + "epoch": 0.0002666666666666667, + "grad_norm": 1.205655574798584, + "learning_rate": 0.00019999110913536343, + "loss": 2.4173, + "step": 12 + }, + { + "epoch": 0.0002888888888888889, + "grad_norm": 1.5106496810913086, + "learning_rate": 0.00019998666370304514, + "loss": 2.5291, + "step": 13 + }, + { + "epoch": 0.0003111111111111111, + "grad_norm": 1.3649957180023193, + "learning_rate": 0.00019998221827072682, + "loss": 2.6059, + "step": 14 + }, + { + "epoch": 0.0003333333333333333, + "grad_norm": 0.9807085990905762, + "learning_rate": 0.00019997777283840856, + "loss": 2.081, + "step": 15 + }, + { + "epoch": 0.00035555555555555557, + "grad_norm": 1.188325047492981, + "learning_rate": 0.00019997332740609024, + "loss": 2.4606, + "step": 16 + }, + { + "epoch": 0.00037777777777777777, + "grad_norm": 1.1331664323806763, + "learning_rate": 0.00019996888197377195, + "loss": 2.5574, + "step": 17 + }, + { + "epoch": 0.0004, + "grad_norm": 1.0140057802200317, + "learning_rate": 0.00019996443654145366, + "loss": 2.252, + "step": 18 + }, + { + "epoch": 0.0004222222222222222, + "grad_norm": 1.0648610591888428, + "learning_rate": 0.00019995999110913537, + "loss": 2.3768, + "step": 19 + }, + { + "epoch": 0.00044444444444444447, + "grad_norm": 1.0701093673706055, + "learning_rate": 0.00019995554567681708, + "loss": 2.1406, + "step": 20 + }, + { + "epoch": 0.00046666666666666666, + "grad_norm": 1.1271121501922607, + "learning_rate": 0.0001999511002444988, + "loss": 2.6222, + "step": 21 + }, + { + "epoch": 0.0004888888888888889, + "grad_norm": 0.9573381543159485, + "learning_rate": 0.0001999466548121805, + "loss": 2.4028, + "step": 22 + }, + { + "epoch": 0.0005111111111111112, + "grad_norm": 1.0101866722106934, + "learning_rate": 0.0001999422093798622, + "loss": 2.0944, + "step": 23 + }, + { + "epoch": 0.0005333333333333334, + "grad_norm": 1.0080087184906006, + "learning_rate": 0.00019993776394754392, + "loss": 2.1232, + "step": 24 + }, + { + "epoch": 0.0005555555555555556, + "grad_norm": 1.2665172815322876, + "learning_rate": 0.0001999333185152256, + "loss": 2.2484, + "step": 25 + }, + { + "epoch": 0.0005777777777777778, + "grad_norm": 1.3734925985336304, + "learning_rate": 0.00019992887308290734, + "loss": 2.2124, + "step": 26 + }, + { + "epoch": 0.0006, + "grad_norm": 0.9276817440986633, + "learning_rate": 0.00019992442765058902, + "loss": 1.9483, + "step": 27 + }, + { + "epoch": 0.0006222222222222223, + "grad_norm": 1.1612797975540161, + "learning_rate": 0.00019991998221827073, + "loss": 2.4238, + "step": 28 + }, + { + "epoch": 0.0006444444444444444, + "grad_norm": 1.1764159202575684, + "learning_rate": 0.00019991553678595244, + "loss": 2.2082, + "step": 29 + }, + { + "epoch": 0.0006666666666666666, + "grad_norm": 1.1657731533050537, + "learning_rate": 0.00019991109135363415, + "loss": 2.5774, + "step": 30 + }, + { + "epoch": 0.0006888888888888888, + "grad_norm": 1.1365610361099243, + "learning_rate": 0.00019990664592131586, + "loss": 2.255, + "step": 31 + }, + { + "epoch": 0.0007111111111111111, + "grad_norm": 1.0857913494110107, + "learning_rate": 0.00019990220048899757, + "loss": 2.1554, + "step": 32 + }, + { + "epoch": 0.0007333333333333333, + "grad_norm": 1.1258957386016846, + "learning_rate": 0.00019989775505667928, + "loss": 2.3615, + "step": 33 + }, + { + "epoch": 0.0007555555555555555, + "grad_norm": 1.1459455490112305, + "learning_rate": 0.00019989330962436096, + "loss": 2.0614, + "step": 34 + }, + { + "epoch": 0.0007777777777777777, + "grad_norm": 1.2175862789154053, + "learning_rate": 0.0001998888641920427, + "loss": 2.5134, + "step": 35 + }, + { + "epoch": 0.0008, + "grad_norm": 1.15297532081604, + "learning_rate": 0.00019988441875972438, + "loss": 2.131, + "step": 36 + }, + { + "epoch": 0.0008222222222222222, + "grad_norm": 1.2607117891311646, + "learning_rate": 0.0001998799733274061, + "loss": 2.55, + "step": 37 + }, + { + "epoch": 0.0008444444444444444, + "grad_norm": 1.2785695791244507, + "learning_rate": 0.0001998755278950878, + "loss": 2.2228, + "step": 38 + }, + { + "epoch": 0.0008666666666666666, + "grad_norm": 1.3944299221038818, + "learning_rate": 0.0001998710824627695, + "loss": 2.1888, + "step": 39 + }, + { + "epoch": 0.0008888888888888889, + "grad_norm": 1.207436203956604, + "learning_rate": 0.00019986663703045124, + "loss": 2.3371, + "step": 40 + }, + { + "epoch": 0.0009111111111111111, + "grad_norm": 1.114500641822815, + "learning_rate": 0.00019986219159813293, + "loss": 1.9219, + "step": 41 + }, + { + "epoch": 0.0009333333333333333, + "grad_norm": 1.1595293283462524, + "learning_rate": 0.00019985774616581464, + "loss": 2.3528, + "step": 42 + }, + { + "epoch": 0.0009555555555555555, + "grad_norm": 1.482299566268921, + "learning_rate": 0.00019985330073349635, + "loss": 2.1761, + "step": 43 + }, + { + "epoch": 0.0009777777777777777, + "grad_norm": 1.19706130027771, + "learning_rate": 0.00019984885530117806, + "loss": 1.9884, + "step": 44 + }, + { + "epoch": 0.001, + "grad_norm": 1.2986372709274292, + "learning_rate": 0.00019984440986885974, + "loss": 2.0929, + "step": 45 + }, + { + "epoch": 0.0010222222222222223, + "grad_norm": 1.2313750982284546, + "learning_rate": 0.00019983996443654147, + "loss": 2.0196, + "step": 46 + }, + { + "epoch": 0.0010444444444444444, + "grad_norm": 1.4543802738189697, + "learning_rate": 0.00019983551900422318, + "loss": 2.5609, + "step": 47 + }, + { + "epoch": 0.0010666666666666667, + "grad_norm": 1.598586082458496, + "learning_rate": 0.00019983107357190487, + "loss": 2.2982, + "step": 48 + }, + { + "epoch": 0.0010888888888888888, + "grad_norm": 1.8242489099502563, + "learning_rate": 0.0001998266281395866, + "loss": 2.5548, + "step": 49 + }, + { + "epoch": 0.0011111111111111111, + "grad_norm": 1.455721378326416, + "learning_rate": 0.00019982218270726829, + "loss": 2.0304, + "step": 50 + }, + { + "epoch": 0.0011333333333333334, + "grad_norm": 0.9750809073448181, + "learning_rate": 0.00019981773727495, + "loss": 2.6573, + "step": 51 + }, + { + "epoch": 0.0011555555555555555, + "grad_norm": 0.989897608757019, + "learning_rate": 0.0001998132918426317, + "loss": 2.4163, + "step": 52 + }, + { + "epoch": 0.0011777777777777778, + "grad_norm": 1.0368322134017944, + "learning_rate": 0.00019980884641031341, + "loss": 2.4216, + "step": 53 + }, + { + "epoch": 0.0012, + "grad_norm": 1.0627018213272095, + "learning_rate": 0.0001998044009779951, + "loss": 1.8118, + "step": 54 + }, + { + "epoch": 0.0012222222222222222, + "grad_norm": 1.1870719194412231, + "learning_rate": 0.00019979995554567683, + "loss": 2.5546, + "step": 55 + }, + { + "epoch": 0.0012444444444444445, + "grad_norm": 0.931128978729248, + "learning_rate": 0.00019979551011335854, + "loss": 2.5249, + "step": 56 + }, + { + "epoch": 0.0012666666666666666, + "grad_norm": 0.9158191084861755, + "learning_rate": 0.00019979106468104023, + "loss": 2.5717, + "step": 57 + }, + { + "epoch": 0.001288888888888889, + "grad_norm": 0.9137040972709656, + "learning_rate": 0.00019978661924872196, + "loss": 2.1914, + "step": 58 + }, + { + "epoch": 0.0013111111111111112, + "grad_norm": 1.376840591430664, + "learning_rate": 0.00019978217381640365, + "loss": 2.4341, + "step": 59 + }, + { + "epoch": 0.0013333333333333333, + "grad_norm": 1.404250144958496, + "learning_rate": 0.00019977772838408538, + "loss": 2.5547, + "step": 60 + }, + { + "epoch": 0.0013555555555555556, + "grad_norm": 1.5059726238250732, + "learning_rate": 0.00019977328295176706, + "loss": 2.5984, + "step": 61 + }, + { + "epoch": 0.0013777777777777777, + "grad_norm": 1.6965712308883667, + "learning_rate": 0.00019976883751944877, + "loss": 2.6359, + "step": 62 + }, + { + "epoch": 0.0014, + "grad_norm": 1.3054988384246826, + "learning_rate": 0.00019976439208713048, + "loss": 2.295, + "step": 63 + }, + { + "epoch": 0.0014222222222222223, + "grad_norm": 1.1799784898757935, + "learning_rate": 0.0001997599466548122, + "loss": 2.1869, + "step": 64 + }, + { + "epoch": 0.0014444444444444444, + "grad_norm": 1.0440560579299927, + "learning_rate": 0.0001997555012224939, + "loss": 1.866, + "step": 65 + }, + { + "epoch": 0.0014666666666666667, + "grad_norm": 0.9532372951507568, + "learning_rate": 0.0001997510557901756, + "loss": 2.4219, + "step": 66 + }, + { + "epoch": 0.001488888888888889, + "grad_norm": 0.9747480750083923, + "learning_rate": 0.00019974661035785732, + "loss": 2.2124, + "step": 67 + }, + { + "epoch": 0.001511111111111111, + "grad_norm": 1.0619615316390991, + "learning_rate": 0.000199742164925539, + "loss": 1.8204, + "step": 68 + }, + { + "epoch": 0.0015333333333333334, + "grad_norm": 1.6607592105865479, + "learning_rate": 0.00019973771949322074, + "loss": 2.2274, + "step": 69 + }, + { + "epoch": 0.0015555555555555555, + "grad_norm": 1.3055371046066284, + "learning_rate": 0.00019973327406090242, + "loss": 2.2607, + "step": 70 + }, + { + "epoch": 0.0015777777777777778, + "grad_norm": 1.2005525827407837, + "learning_rate": 0.00019972882862858413, + "loss": 2.0241, + "step": 71 + }, + { + "epoch": 0.0016, + "grad_norm": 1.1328130960464478, + "learning_rate": 0.00019972438319626584, + "loss": 2.386, + "step": 72 + }, + { + "epoch": 0.0016222222222222222, + "grad_norm": 1.0630085468292236, + "learning_rate": 0.00019971993776394755, + "loss": 2.0699, + "step": 73 + }, + { + "epoch": 0.0016444444444444445, + "grad_norm": 1.115866780281067, + "learning_rate": 0.00019971549233162926, + "loss": 2.063, + "step": 74 + }, + { + "epoch": 0.0016666666666666668, + "grad_norm": 1.1004247665405273, + "learning_rate": 0.00019971104689931097, + "loss": 2.1662, + "step": 75 + }, + { + "epoch": 0.0016888888888888889, + "grad_norm": 1.0936720371246338, + "learning_rate": 0.00019970660146699268, + "loss": 1.9738, + "step": 76 + }, + { + "epoch": 0.0017111111111111112, + "grad_norm": 1.2349518537521362, + "learning_rate": 0.0001997021560346744, + "loss": 1.5752, + "step": 77 + }, + { + "epoch": 0.0017333333333333333, + "grad_norm": 1.0439680814743042, + "learning_rate": 0.0001996977106023561, + "loss": 1.9034, + "step": 78 + }, + { + "epoch": 0.0017555555555555556, + "grad_norm": 0.9948009252548218, + "learning_rate": 0.00019969326517003778, + "loss": 1.8501, + "step": 79 + }, + { + "epoch": 0.0017777777777777779, + "grad_norm": 1.0389902591705322, + "learning_rate": 0.00019968881973771952, + "loss": 2.1502, + "step": 80 + }, + { + "epoch": 0.0018, + "grad_norm": 1.0846196413040161, + "learning_rate": 0.0001996843743054012, + "loss": 2.108, + "step": 81 + }, + { + "epoch": 0.0018222222222222223, + "grad_norm": 1.234468936920166, + "learning_rate": 0.0001996799288730829, + "loss": 2.0001, + "step": 82 + }, + { + "epoch": 0.0018444444444444443, + "grad_norm": 1.2024580240249634, + "learning_rate": 0.00019967548344076462, + "loss": 2.3106, + "step": 83 + }, + { + "epoch": 0.0018666666666666666, + "grad_norm": 1.201183557510376, + "learning_rate": 0.00019967103800844633, + "loss": 1.9006, + "step": 84 + }, + { + "epoch": 0.001888888888888889, + "grad_norm": 1.0216937065124512, + "learning_rate": 0.00019966659257612804, + "loss": 1.6863, + "step": 85 + }, + { + "epoch": 0.001911111111111111, + "grad_norm": 1.1731654405593872, + "learning_rate": 0.00019966214714380975, + "loss": 2.3693, + "step": 86 + }, + { + "epoch": 0.0019333333333333333, + "grad_norm": 1.063701868057251, + "learning_rate": 0.00019965770171149146, + "loss": 1.988, + "step": 87 + }, + { + "epoch": 0.0019555555555555554, + "grad_norm": 1.2443939447402954, + "learning_rate": 0.00019965325627917314, + "loss": 1.4262, + "step": 88 + }, + { + "epoch": 0.001977777777777778, + "grad_norm": 1.5228159427642822, + "learning_rate": 0.00019964881084685488, + "loss": 1.9502, + "step": 89 + }, + { + "epoch": 0.002, + "grad_norm": 1.217005729675293, + "learning_rate": 0.00019964436541453656, + "loss": 2.0106, + "step": 90 + }, + { + "epoch": 0.002022222222222222, + "grad_norm": 1.1886168718338013, + "learning_rate": 0.00019963991998221827, + "loss": 2.0472, + "step": 91 + }, + { + "epoch": 0.0020444444444444447, + "grad_norm": 1.2553871870040894, + "learning_rate": 0.00019963547454989998, + "loss": 2.1674, + "step": 92 + }, + { + "epoch": 0.0020666666666666667, + "grad_norm": 1.221604347229004, + "learning_rate": 0.0001996310291175817, + "loss": 1.8596, + "step": 93 + }, + { + "epoch": 0.002088888888888889, + "grad_norm": 1.43986177444458, + "learning_rate": 0.0001996265836852634, + "loss": 2.1683, + "step": 94 + }, + { + "epoch": 0.002111111111111111, + "grad_norm": 1.3448739051818848, + "learning_rate": 0.0001996221382529451, + "loss": 2.3144, + "step": 95 + }, + { + "epoch": 0.0021333333333333334, + "grad_norm": 1.3225668668746948, + "learning_rate": 0.00019961769282062682, + "loss": 2.1214, + "step": 96 + }, + { + "epoch": 0.0021555555555555555, + "grad_norm": 1.2970373630523682, + "learning_rate": 0.00019961324738830853, + "loss": 1.8806, + "step": 97 + }, + { + "epoch": 0.0021777777777777776, + "grad_norm": 1.3479090929031372, + "learning_rate": 0.00019960880195599024, + "loss": 2.0935, + "step": 98 + }, + { + "epoch": 0.0022, + "grad_norm": 1.3814531564712524, + "learning_rate": 0.00019960435652367192, + "loss": 2.0354, + "step": 99 + }, + { + "epoch": 0.0022222222222222222, + "grad_norm": 1.3102446794509888, + "learning_rate": 0.00019959991109135366, + "loss": 1.2051, + "step": 100 + }, + { + "epoch": 0.0022444444444444443, + "grad_norm": 0.9198299050331116, + "learning_rate": 0.00019959546565903534, + "loss": 2.6, + "step": 101 + }, + { + "epoch": 0.002266666666666667, + "grad_norm": 0.8828571438789368, + "learning_rate": 0.00019959102022671705, + "loss": 2.1932, + "step": 102 + }, + { + "epoch": 0.002288888888888889, + "grad_norm": 0.9989007711410522, + "learning_rate": 0.00019958657479439876, + "loss": 2.681, + "step": 103 + }, + { + "epoch": 0.002311111111111111, + "grad_norm": 0.8256343007087708, + "learning_rate": 0.00019958212936208047, + "loss": 2.2186, + "step": 104 + }, + { + "epoch": 0.0023333333333333335, + "grad_norm": 0.9154222011566162, + "learning_rate": 0.00019957768392976218, + "loss": 2.4561, + "step": 105 + }, + { + "epoch": 0.0023555555555555556, + "grad_norm": 0.9879103899002075, + "learning_rate": 0.0001995732384974439, + "loss": 2.3361, + "step": 106 + }, + { + "epoch": 0.0023777777777777777, + "grad_norm": 0.9192826151847839, + "learning_rate": 0.0001995687930651256, + "loss": 2.199, + "step": 107 + }, + { + "epoch": 0.0024, + "grad_norm": 0.7983688116073608, + "learning_rate": 0.00019956434763280728, + "loss": 2.302, + "step": 108 + }, + { + "epoch": 0.0024222222222222223, + "grad_norm": 1.095608115196228, + "learning_rate": 0.00019955990220048902, + "loss": 2.0953, + "step": 109 + }, + { + "epoch": 0.0024444444444444444, + "grad_norm": 0.9284802079200745, + "learning_rate": 0.0001995554567681707, + "loss": 2.2772, + "step": 110 + }, + { + "epoch": 0.0024666666666666665, + "grad_norm": 0.9606927633285522, + "learning_rate": 0.0001995510113358524, + "loss": 2.1875, + "step": 111 + }, + { + "epoch": 0.002488888888888889, + "grad_norm": 1.0119353532791138, + "learning_rate": 0.00019954656590353412, + "loss": 2.5585, + "step": 112 + }, + { + "epoch": 0.002511111111111111, + "grad_norm": 1.0580315589904785, + "learning_rate": 0.00019954212047121583, + "loss": 1.9465, + "step": 113 + }, + { + "epoch": 0.002533333333333333, + "grad_norm": 1.0393487215042114, + "learning_rate": 0.00019953767503889754, + "loss": 2.4296, + "step": 114 + }, + { + "epoch": 0.0025555555555555557, + "grad_norm": 0.9013755321502686, + "learning_rate": 0.00019953322960657925, + "loss": 2.1599, + "step": 115 + }, + { + "epoch": 0.002577777777777778, + "grad_norm": 0.9927599430084229, + "learning_rate": 0.00019952878417426096, + "loss": 2.229, + "step": 116 + }, + { + "epoch": 0.0026, + "grad_norm": 0.980317234992981, + "learning_rate": 0.00019952433874194267, + "loss": 2.2677, + "step": 117 + }, + { + "epoch": 0.0026222222222222224, + "grad_norm": 0.9289875626564026, + "learning_rate": 0.00019951989330962438, + "loss": 2.0434, + "step": 118 + }, + { + "epoch": 0.0026444444444444445, + "grad_norm": 1.0189963579177856, + "learning_rate": 0.00019951544787730606, + "loss": 2.3035, + "step": 119 + }, + { + "epoch": 0.0026666666666666666, + "grad_norm": 0.948377788066864, + "learning_rate": 0.0001995110024449878, + "loss": 2.393, + "step": 120 + }, + { + "epoch": 0.002688888888888889, + "grad_norm": 1.0509932041168213, + "learning_rate": 0.0001995065570126695, + "loss": 2.0819, + "step": 121 + }, + { + "epoch": 0.002711111111111111, + "grad_norm": 1.1264628171920776, + "learning_rate": 0.0001995021115803512, + "loss": 2.4757, + "step": 122 + }, + { + "epoch": 0.0027333333333333333, + "grad_norm": 1.0365453958511353, + "learning_rate": 0.00019949766614803293, + "loss": 1.8598, + "step": 123 + }, + { + "epoch": 0.0027555555555555554, + "grad_norm": 1.0879734754562378, + "learning_rate": 0.0001994932207157146, + "loss": 1.755, + "step": 124 + }, + { + "epoch": 0.002777777777777778, + "grad_norm": 1.0849332809448242, + "learning_rate": 0.00019948877528339632, + "loss": 2.301, + "step": 125 + }, + { + "epoch": 0.0028, + "grad_norm": 1.2393407821655273, + "learning_rate": 0.00019948432985107803, + "loss": 2.4259, + "step": 126 + }, + { + "epoch": 0.002822222222222222, + "grad_norm": 1.0852195024490356, + "learning_rate": 0.00019947988441875974, + "loss": 2.2987, + "step": 127 + }, + { + "epoch": 0.0028444444444444446, + "grad_norm": 1.0208133459091187, + "learning_rate": 0.00019947543898644142, + "loss": 2.0007, + "step": 128 + }, + { + "epoch": 0.0028666666666666667, + "grad_norm": 1.3235000371932983, + "learning_rate": 0.00019947099355412316, + "loss": 1.823, + "step": 129 + }, + { + "epoch": 0.0028888888888888888, + "grad_norm": 1.0890294313430786, + "learning_rate": 0.00019946654812180487, + "loss": 1.9903, + "step": 130 + }, + { + "epoch": 0.0029111111111111113, + "grad_norm": 1.0155043601989746, + "learning_rate": 0.00019946210268948655, + "loss": 2.187, + "step": 131 + }, + { + "epoch": 0.0029333333333333334, + "grad_norm": 0.9742645025253296, + "learning_rate": 0.00019945765725716828, + "loss": 1.7798, + "step": 132 + }, + { + "epoch": 0.0029555555555555555, + "grad_norm": 1.1656670570373535, + "learning_rate": 0.00019945321182484997, + "loss": 2.091, + "step": 133 + }, + { + "epoch": 0.002977777777777778, + "grad_norm": 1.167108178138733, + "learning_rate": 0.0001994487663925317, + "loss": 1.8146, + "step": 134 + }, + { + "epoch": 0.003, + "grad_norm": 1.1924433708190918, + "learning_rate": 0.0001994443209602134, + "loss": 2.3853, + "step": 135 + }, + { + "epoch": 0.003022222222222222, + "grad_norm": 1.0378752946853638, + "learning_rate": 0.0001994398755278951, + "loss": 2.0718, + "step": 136 + }, + { + "epoch": 0.0030444444444444442, + "grad_norm": 1.1159776449203491, + "learning_rate": 0.0001994354300955768, + "loss": 2.0957, + "step": 137 + }, + { + "epoch": 0.0030666666666666668, + "grad_norm": 1.1870075464248657, + "learning_rate": 0.00019943098466325852, + "loss": 2.35, + "step": 138 + }, + { + "epoch": 0.003088888888888889, + "grad_norm": 1.035266637802124, + "learning_rate": 0.00019942653923094023, + "loss": 1.8653, + "step": 139 + }, + { + "epoch": 0.003111111111111111, + "grad_norm": 1.1399930715560913, + "learning_rate": 0.00019942209379862193, + "loss": 1.9809, + "step": 140 + }, + { + "epoch": 0.0031333333333333335, + "grad_norm": 1.3499666452407837, + "learning_rate": 0.00019941764836630364, + "loss": 2.2888, + "step": 141 + }, + { + "epoch": 0.0031555555555555555, + "grad_norm": 1.0297796726226807, + "learning_rate": 0.00019941320293398533, + "loss": 1.7906, + "step": 142 + }, + { + "epoch": 0.0031777777777777776, + "grad_norm": 1.1028872728347778, + "learning_rate": 0.00019940875750166706, + "loss": 2.1624, + "step": 143 + }, + { + "epoch": 0.0032, + "grad_norm": 1.206077218055725, + "learning_rate": 0.00019940431206934875, + "loss": 2.1504, + "step": 144 + }, + { + "epoch": 0.0032222222222222222, + "grad_norm": 1.2086775302886963, + "learning_rate": 0.00019939986663703046, + "loss": 2.3128, + "step": 145 + }, + { + "epoch": 0.0032444444444444443, + "grad_norm": 1.1570020914077759, + "learning_rate": 0.00019939542120471217, + "loss": 2.0801, + "step": 146 + }, + { + "epoch": 0.003266666666666667, + "grad_norm": 1.0718797445297241, + "learning_rate": 0.00019939097577239388, + "loss": 2.065, + "step": 147 + }, + { + "epoch": 0.003288888888888889, + "grad_norm": 1.1464978456497192, + "learning_rate": 0.00019938653034007558, + "loss": 1.9657, + "step": 148 + }, + { + "epoch": 0.003311111111111111, + "grad_norm": 1.1516777276992798, + "learning_rate": 0.0001993820849077573, + "loss": 2.0504, + "step": 149 + }, + { + "epoch": 0.0033333333333333335, + "grad_norm": 1.5645363330841064, + "learning_rate": 0.000199377639475439, + "loss": 1.5633, + "step": 150 + }, + { + "epoch": 0.0033555555555555556, + "grad_norm": 1.1891536712646484, + "learning_rate": 0.00019937319404312069, + "loss": 3.123, + "step": 151 + }, + { + "epoch": 0.0033777777777777777, + "grad_norm": 0.9136642813682556, + "learning_rate": 0.00019936874861080242, + "loss": 2.5287, + "step": 152 + }, + { + "epoch": 0.0034, + "grad_norm": 0.8435269594192505, + "learning_rate": 0.0001993643031784841, + "loss": 2.0756, + "step": 153 + }, + { + "epoch": 0.0034222222222222223, + "grad_norm": 0.9647784233093262, + "learning_rate": 0.00019935985774616584, + "loss": 2.6655, + "step": 154 + }, + { + "epoch": 0.0034444444444444444, + "grad_norm": 0.9868387579917908, + "learning_rate": 0.00019935541231384752, + "loss": 2.2848, + "step": 155 + }, + { + "epoch": 0.0034666666666666665, + "grad_norm": 0.9726805686950684, + "learning_rate": 0.00019935096688152923, + "loss": 2.4014, + "step": 156 + }, + { + "epoch": 0.003488888888888889, + "grad_norm": 0.9441511034965515, + "learning_rate": 0.00019934652144921094, + "loss": 2.5675, + "step": 157 + }, + { + "epoch": 0.003511111111111111, + "grad_norm": 0.9878379106521606, + "learning_rate": 0.00019934207601689265, + "loss": 2.6569, + "step": 158 + }, + { + "epoch": 0.003533333333333333, + "grad_norm": 0.8798769116401672, + "learning_rate": 0.00019933763058457436, + "loss": 2.0542, + "step": 159 + }, + { + "epoch": 0.0035555555555555557, + "grad_norm": 0.9095421433448792, + "learning_rate": 0.00019933318515225607, + "loss": 2.285, + "step": 160 + }, + { + "epoch": 0.003577777777777778, + "grad_norm": 0.9291555881500244, + "learning_rate": 0.00019932873971993778, + "loss": 1.9679, + "step": 161 + }, + { + "epoch": 0.0036, + "grad_norm": 0.9357460737228394, + "learning_rate": 0.00019932429428761947, + "loss": 2.3933, + "step": 162 + }, + { + "epoch": 0.0036222222222222224, + "grad_norm": 0.8855668902397156, + "learning_rate": 0.0001993198488553012, + "loss": 1.9916, + "step": 163 + }, + { + "epoch": 0.0036444444444444445, + "grad_norm": 0.9187053442001343, + "learning_rate": 0.00019931540342298288, + "loss": 2.0824, + "step": 164 + }, + { + "epoch": 0.0036666666666666666, + "grad_norm": 1.1022460460662842, + "learning_rate": 0.0001993109579906646, + "loss": 2.568, + "step": 165 + }, + { + "epoch": 0.0036888888888888887, + "grad_norm": 0.9649732708930969, + "learning_rate": 0.0001993065125583463, + "loss": 2.2971, + "step": 166 + }, + { + "epoch": 0.003711111111111111, + "grad_norm": 1.0184253454208374, + "learning_rate": 0.000199302067126028, + "loss": 1.7719, + "step": 167 + }, + { + "epoch": 0.0037333333333333333, + "grad_norm": 0.9337177872657776, + "learning_rate": 0.00019929762169370972, + "loss": 2.2636, + "step": 168 + }, + { + "epoch": 0.0037555555555555554, + "grad_norm": 1.0286427736282349, + "learning_rate": 0.00019929317626139143, + "loss": 2.2228, + "step": 169 + }, + { + "epoch": 0.003777777777777778, + "grad_norm": 1.1010359525680542, + "learning_rate": 0.00019928873082907314, + "loss": 2.1194, + "step": 170 + }, + { + "epoch": 0.0038, + "grad_norm": 0.9902762174606323, + "learning_rate": 0.00019928428539675482, + "loss": 2.0477, + "step": 171 + }, + { + "epoch": 0.003822222222222222, + "grad_norm": 1.027158498764038, + "learning_rate": 0.00019927983996443656, + "loss": 2.2227, + "step": 172 + }, + { + "epoch": 0.0038444444444444446, + "grad_norm": 1.1360422372817993, + "learning_rate": 0.00019927539453211824, + "loss": 2.1383, + "step": 173 + }, + { + "epoch": 0.0038666666666666667, + "grad_norm": 1.079567790031433, + "learning_rate": 0.00019927094909979998, + "loss": 2.0045, + "step": 174 + }, + { + "epoch": 0.0038888888888888888, + "grad_norm": 1.1772125959396362, + "learning_rate": 0.00019926650366748166, + "loss": 2.391, + "step": 175 + }, + { + "epoch": 0.003911111111111111, + "grad_norm": 1.141251564025879, + "learning_rate": 0.00019926205823516337, + "loss": 2.3594, + "step": 176 + }, + { + "epoch": 0.003933333333333333, + "grad_norm": 1.1975033283233643, + "learning_rate": 0.00019925761280284508, + "loss": 2.3618, + "step": 177 + }, + { + "epoch": 0.003955555555555556, + "grad_norm": 1.1129261255264282, + "learning_rate": 0.0001992531673705268, + "loss": 2.2306, + "step": 178 + }, + { + "epoch": 0.003977777777777778, + "grad_norm": 1.1002864837646484, + "learning_rate": 0.0001992487219382085, + "loss": 1.8381, + "step": 179 + }, + { + "epoch": 0.004, + "grad_norm": 1.1377021074295044, + "learning_rate": 0.0001992442765058902, + "loss": 2.0356, + "step": 180 + }, + { + "epoch": 0.004022222222222222, + "grad_norm": 1.4153897762298584, + "learning_rate": 0.00019923983107357192, + "loss": 2.7178, + "step": 181 + }, + { + "epoch": 0.004044444444444444, + "grad_norm": 1.2157433032989502, + "learning_rate": 0.0001992353856412536, + "loss": 2.4506, + "step": 182 + }, + { + "epoch": 0.004066666666666666, + "grad_norm": 0.9832949638366699, + "learning_rate": 0.00019923094020893534, + "loss": 1.741, + "step": 183 + }, + { + "epoch": 0.004088888888888889, + "grad_norm": 1.001465916633606, + "learning_rate": 0.00019922649477661702, + "loss": 2.0157, + "step": 184 + }, + { + "epoch": 0.004111111111111111, + "grad_norm": 1.265584945678711, + "learning_rate": 0.00019922204934429873, + "loss": 1.9393, + "step": 185 + }, + { + "epoch": 0.0041333333333333335, + "grad_norm": 0.9340965747833252, + "learning_rate": 0.00019921760391198044, + "loss": 1.5743, + "step": 186 + }, + { + "epoch": 0.0041555555555555556, + "grad_norm": 1.1283515691757202, + "learning_rate": 0.00019921315847966215, + "loss": 2.1761, + "step": 187 + }, + { + "epoch": 0.004177777777777778, + "grad_norm": 1.1578409671783447, + "learning_rate": 0.00019920871304734386, + "loss": 1.9808, + "step": 188 + }, + { + "epoch": 0.0042, + "grad_norm": 1.1886849403381348, + "learning_rate": 0.00019920426761502557, + "loss": 2.0558, + "step": 189 + }, + { + "epoch": 0.004222222222222222, + "grad_norm": 1.1597763299942017, + "learning_rate": 0.00019919982218270728, + "loss": 1.7477, + "step": 190 + }, + { + "epoch": 0.004244444444444445, + "grad_norm": 1.3805791139602661, + "learning_rate": 0.000199195376750389, + "loss": 2.417, + "step": 191 + }, + { + "epoch": 0.004266666666666667, + "grad_norm": 1.0003913640975952, + "learning_rate": 0.0001991909313180707, + "loss": 1.6218, + "step": 192 + }, + { + "epoch": 0.004288888888888889, + "grad_norm": 1.3551957607269287, + "learning_rate": 0.00019918648588575238, + "loss": 1.9898, + "step": 193 + }, + { + "epoch": 0.004311111111111111, + "grad_norm": 1.1434892416000366, + "learning_rate": 0.00019918204045343412, + "loss": 1.9191, + "step": 194 + }, + { + "epoch": 0.004333333333333333, + "grad_norm": 1.4276580810546875, + "learning_rate": 0.00019917759502111583, + "loss": 2.6117, + "step": 195 + }, + { + "epoch": 0.004355555555555555, + "grad_norm": 1.2569234371185303, + "learning_rate": 0.0001991731495887975, + "loss": 2.3478, + "step": 196 + }, + { + "epoch": 0.004377777777777778, + "grad_norm": 1.2063052654266357, + "learning_rate": 0.00019916870415647925, + "loss": 1.7194, + "step": 197 + }, + { + "epoch": 0.0044, + "grad_norm": 1.2578668594360352, + "learning_rate": 0.00019916425872416093, + "loss": 1.8399, + "step": 198 + }, + { + "epoch": 0.004422222222222222, + "grad_norm": 1.3557889461517334, + "learning_rate": 0.00019915981329184264, + "loss": 1.7986, + "step": 199 + }, + { + "epoch": 0.0044444444444444444, + "grad_norm": 1.1643545627593994, + "learning_rate": 0.00019915536785952435, + "loss": 0.9736, + "step": 200 + }, + { + "epoch": 0.0044666666666666665, + "grad_norm": 0.8325818777084351, + "learning_rate": 0.00019915092242720606, + "loss": 2.4007, + "step": 201 + }, + { + "epoch": 0.004488888888888889, + "grad_norm": 0.8650193810462952, + "learning_rate": 0.00019914647699488774, + "loss": 2.5101, + "step": 202 + }, + { + "epoch": 0.004511111111111111, + "grad_norm": 0.9151462912559509, + "learning_rate": 0.00019914203156256948, + "loss": 2.5409, + "step": 203 + }, + { + "epoch": 0.004533333333333334, + "grad_norm": 0.9534851312637329, + "learning_rate": 0.0001991375861302512, + "loss": 2.5584, + "step": 204 + }, + { + "epoch": 0.004555555555555556, + "grad_norm": 1.0231379270553589, + "learning_rate": 0.00019913314069793287, + "loss": 2.6602, + "step": 205 + }, + { + "epoch": 0.004577777777777778, + "grad_norm": 0.9632158875465393, + "learning_rate": 0.0001991286952656146, + "loss": 2.6002, + "step": 206 + }, + { + "epoch": 0.0046, + "grad_norm": 1.0429253578186035, + "learning_rate": 0.0001991242498332963, + "loss": 2.6089, + "step": 207 + }, + { + "epoch": 0.004622222222222222, + "grad_norm": 0.9749168753623962, + "learning_rate": 0.000199119804400978, + "loss": 2.3811, + "step": 208 + }, + { + "epoch": 0.004644444444444444, + "grad_norm": 0.9203815460205078, + "learning_rate": 0.0001991153589686597, + "loss": 2.1381, + "step": 209 + }, + { + "epoch": 0.004666666666666667, + "grad_norm": 0.9455024600028992, + "learning_rate": 0.00019911091353634142, + "loss": 2.146, + "step": 210 + }, + { + "epoch": 0.004688888888888889, + "grad_norm": 0.9243069291114807, + "learning_rate": 0.00019910646810402313, + "loss": 2.1003, + "step": 211 + }, + { + "epoch": 0.004711111111111111, + "grad_norm": 1.0209660530090332, + "learning_rate": 0.00019910202267170484, + "loss": 2.071, + "step": 212 + }, + { + "epoch": 0.004733333333333333, + "grad_norm": 1.012393593788147, + "learning_rate": 0.00019909757723938655, + "loss": 2.2602, + "step": 213 + }, + { + "epoch": 0.004755555555555555, + "grad_norm": 0.9024783372879028, + "learning_rate": 0.00019909313180706826, + "loss": 2.0416, + "step": 214 + }, + { + "epoch": 0.0047777777777777775, + "grad_norm": 0.9131224155426025, + "learning_rate": 0.00019908868637474997, + "loss": 2.0136, + "step": 215 + }, + { + "epoch": 0.0048, + "grad_norm": 1.0129530429840088, + "learning_rate": 0.00019908424094243165, + "loss": 2.1961, + "step": 216 + }, + { + "epoch": 0.0048222222222222225, + "grad_norm": 1.032002568244934, + "learning_rate": 0.00019907979551011339, + "loss": 2.4571, + "step": 217 + }, + { + "epoch": 0.004844444444444445, + "grad_norm": 1.0772045850753784, + "learning_rate": 0.00019907535007779507, + "loss": 2.4692, + "step": 218 + }, + { + "epoch": 0.004866666666666667, + "grad_norm": 1.191462516784668, + "learning_rate": 0.00019907090464547678, + "loss": 2.4173, + "step": 219 + }, + { + "epoch": 0.004888888888888889, + "grad_norm": 0.932000458240509, + "learning_rate": 0.0001990664592131585, + "loss": 1.8604, + "step": 220 + }, + { + "epoch": 0.004911111111111111, + "grad_norm": 0.981555163860321, + "learning_rate": 0.0001990620137808402, + "loss": 2.0899, + "step": 221 + }, + { + "epoch": 0.004933333333333333, + "grad_norm": 1.1891900300979614, + "learning_rate": 0.0001990575683485219, + "loss": 2.5571, + "step": 222 + }, + { + "epoch": 0.004955555555555556, + "grad_norm": 1.1692445278167725, + "learning_rate": 0.00019905312291620362, + "loss": 2.5805, + "step": 223 + }, + { + "epoch": 0.004977777777777778, + "grad_norm": 1.0407524108886719, + "learning_rate": 0.00019904867748388533, + "loss": 2.2875, + "step": 224 + }, + { + "epoch": 0.005, + "grad_norm": 1.0695056915283203, + "learning_rate": 0.000199044232051567, + "loss": 2.0416, + "step": 225 + }, + { + "epoch": 0.005022222222222222, + "grad_norm": 1.0115299224853516, + "learning_rate": 0.00019903978661924875, + "loss": 1.7508, + "step": 226 + }, + { + "epoch": 0.005044444444444444, + "grad_norm": 1.1566762924194336, + "learning_rate": 0.00019903534118693043, + "loss": 2.4423, + "step": 227 + }, + { + "epoch": 0.005066666666666666, + "grad_norm": 0.9989776015281677, + "learning_rate": 0.00019903089575461216, + "loss": 2.151, + "step": 228 + }, + { + "epoch": 0.005088888888888889, + "grad_norm": 1.2262234687805176, + "learning_rate": 0.00019902645032229385, + "loss": 2.2061, + "step": 229 + }, + { + "epoch": 0.005111111111111111, + "grad_norm": 1.2781702280044556, + "learning_rate": 0.00019902200488997556, + "loss": 2.2511, + "step": 230 + }, + { + "epoch": 0.0051333333333333335, + "grad_norm": 1.030868411064148, + "learning_rate": 0.00019901755945765727, + "loss": 1.8807, + "step": 231 + }, + { + "epoch": 0.005155555555555556, + "grad_norm": 1.1099014282226562, + "learning_rate": 0.00019901311402533898, + "loss": 1.851, + "step": 232 + }, + { + "epoch": 0.005177777777777778, + "grad_norm": 1.1968982219696045, + "learning_rate": 0.00019900866859302069, + "loss": 2.3074, + "step": 233 + }, + { + "epoch": 0.0052, + "grad_norm": 4.037053108215332, + "learning_rate": 0.0001990042231607024, + "loss": 1.2435, + "step": 234 + }, + { + "epoch": 0.005222222222222222, + "grad_norm": 1.3485006093978882, + "learning_rate": 0.0001989997777283841, + "loss": 2.6664, + "step": 235 + }, + { + "epoch": 0.005244444444444445, + "grad_norm": 1.3291981220245361, + "learning_rate": 0.0001989953322960658, + "loss": 2.6971, + "step": 236 + }, + { + "epoch": 0.005266666666666667, + "grad_norm": 1.1521776914596558, + "learning_rate": 0.00019899088686374752, + "loss": 1.7944, + "step": 237 + }, + { + "epoch": 0.005288888888888889, + "grad_norm": 1.2484724521636963, + "learning_rate": 0.0001989864414314292, + "loss": 2.0471, + "step": 238 + }, + { + "epoch": 0.005311111111111111, + "grad_norm": 1.1432991027832031, + "learning_rate": 0.00019898199599911092, + "loss": 1.7747, + "step": 239 + }, + { + "epoch": 0.005333333333333333, + "grad_norm": 1.2061238288879395, + "learning_rate": 0.00019897755056679263, + "loss": 2.0491, + "step": 240 + }, + { + "epoch": 0.005355555555555555, + "grad_norm": 1.239780068397522, + "learning_rate": 0.00019897310513447434, + "loss": 1.9352, + "step": 241 + }, + { + "epoch": 0.005377777777777778, + "grad_norm": 1.127219319343567, + "learning_rate": 0.00019896865970215604, + "loss": 1.8506, + "step": 242 + }, + { + "epoch": 0.0054, + "grad_norm": 1.2166545391082764, + "learning_rate": 0.00019896421426983775, + "loss": 1.9212, + "step": 243 + }, + { + "epoch": 0.005422222222222222, + "grad_norm": 1.2617690563201904, + "learning_rate": 0.00019895976883751946, + "loss": 2.2364, + "step": 244 + }, + { + "epoch": 0.0054444444444444445, + "grad_norm": 1.1415480375289917, + "learning_rate": 0.00019895532340520115, + "loss": 1.6936, + "step": 245 + }, + { + "epoch": 0.0054666666666666665, + "grad_norm": 1.3354425430297852, + "learning_rate": 0.00019895087797288288, + "loss": 2.2787, + "step": 246 + }, + { + "epoch": 0.005488888888888889, + "grad_norm": 1.2059561014175415, + "learning_rate": 0.00019894643254056457, + "loss": 1.8052, + "step": 247 + }, + { + "epoch": 0.005511111111111111, + "grad_norm": 1.4655388593673706, + "learning_rate": 0.0001989419871082463, + "loss": 2.0077, + "step": 248 + }, + { + "epoch": 0.005533333333333334, + "grad_norm": 1.3460962772369385, + "learning_rate": 0.00019893754167592799, + "loss": 1.5681, + "step": 249 + }, + { + "epoch": 0.005555555555555556, + "grad_norm": 1.3929909467697144, + "learning_rate": 0.0001989330962436097, + "loss": 1.0755, + "step": 250 + }, + { + "epoch": 0.005577777777777778, + "grad_norm": 0.882461667060852, + "learning_rate": 0.0001989286508112914, + "loss": 2.3571, + "step": 251 + }, + { + "epoch": 0.0056, + "grad_norm": 0.8160984516143799, + "learning_rate": 0.00019892420537897311, + "loss": 2.1735, + "step": 252 + }, + { + "epoch": 0.005622222222222222, + "grad_norm": 0.960930585861206, + "learning_rate": 0.00019891975994665482, + "loss": 2.6054, + "step": 253 + }, + { + "epoch": 0.005644444444444444, + "grad_norm": 0.8251810669898987, + "learning_rate": 0.00019891531451433653, + "loss": 2.0065, + "step": 254 + }, + { + "epoch": 0.005666666666666667, + "grad_norm": 1.0334161520004272, + "learning_rate": 0.00019891086908201824, + "loss": 2.6611, + "step": 255 + }, + { + "epoch": 0.005688888888888889, + "grad_norm": 0.842257559299469, + "learning_rate": 0.00019890642364969993, + "loss": 2.4828, + "step": 256 + }, + { + "epoch": 0.005711111111111111, + "grad_norm": 0.9164858460426331, + "learning_rate": 0.00019890197821738166, + "loss": 2.1206, + "step": 257 + }, + { + "epoch": 0.005733333333333333, + "grad_norm": 0.9651452898979187, + "learning_rate": 0.00019889753278506334, + "loss": 2.4083, + "step": 258 + }, + { + "epoch": 0.005755555555555555, + "grad_norm": 0.9866958260536194, + "learning_rate": 0.00019889308735274505, + "loss": 2.1013, + "step": 259 + }, + { + "epoch": 0.0057777777777777775, + "grad_norm": 1.070527195930481, + "learning_rate": 0.00019888864192042676, + "loss": 2.2968, + "step": 260 + }, + { + "epoch": 0.0058, + "grad_norm": 0.9571377038955688, + "learning_rate": 0.00019888419648810847, + "loss": 2.1576, + "step": 261 + }, + { + "epoch": 0.0058222222222222226, + "grad_norm": 0.9992108345031738, + "learning_rate": 0.00019887975105579018, + "loss": 2.2888, + "step": 262 + }, + { + "epoch": 0.005844444444444445, + "grad_norm": 1.1087584495544434, + "learning_rate": 0.0001988753056234719, + "loss": 2.5346, + "step": 263 + }, + { + "epoch": 0.005866666666666667, + "grad_norm": 0.9204451441764832, + "learning_rate": 0.0001988708601911536, + "loss": 2.1632, + "step": 264 + }, + { + "epoch": 0.005888888888888889, + "grad_norm": 1.0632692575454712, + "learning_rate": 0.00019886641475883528, + "loss": 2.0163, + "step": 265 + }, + { + "epoch": 0.005911111111111111, + "grad_norm": 0.8824703693389893, + "learning_rate": 0.00019886196932651702, + "loss": 2.1842, + "step": 266 + }, + { + "epoch": 0.005933333333333333, + "grad_norm": 0.9968849420547485, + "learning_rate": 0.0001988575238941987, + "loss": 1.759, + "step": 267 + }, + { + "epoch": 0.005955555555555556, + "grad_norm": 0.8787574768066406, + "learning_rate": 0.00019885307846188044, + "loss": 1.9331, + "step": 268 + }, + { + "epoch": 0.005977777777777778, + "grad_norm": 0.9968923926353455, + "learning_rate": 0.00019884863302956215, + "loss": 2.1228, + "step": 269 + }, + { + "epoch": 0.006, + "grad_norm": 1.0544264316558838, + "learning_rate": 0.00019884418759724383, + "loss": 2.2878, + "step": 270 + }, + { + "epoch": 0.006022222222222222, + "grad_norm": 1.1249428987503052, + "learning_rate": 0.00019883974216492557, + "loss": 2.7626, + "step": 271 + }, + { + "epoch": 0.006044444444444444, + "grad_norm": 1.0347892045974731, + "learning_rate": 0.00019883529673260725, + "loss": 2.0306, + "step": 272 + }, + { + "epoch": 0.006066666666666666, + "grad_norm": 1.2068800926208496, + "learning_rate": 0.00019883085130028896, + "loss": 2.2855, + "step": 273 + }, + { + "epoch": 0.0060888888888888885, + "grad_norm": 1.149796485900879, + "learning_rate": 0.00019882640586797067, + "loss": 2.152, + "step": 274 + }, + { + "epoch": 0.006111111111111111, + "grad_norm": 1.0143542289733887, + "learning_rate": 0.00019882196043565238, + "loss": 2.0048, + "step": 275 + }, + { + "epoch": 0.0061333333333333335, + "grad_norm": 1.0721570253372192, + "learning_rate": 0.00019881751500333406, + "loss": 1.7903, + "step": 276 + }, + { + "epoch": 0.006155555555555556, + "grad_norm": 1.0670387744903564, + "learning_rate": 0.0001988130695710158, + "loss": 2.0941, + "step": 277 + }, + { + "epoch": 0.006177777777777778, + "grad_norm": 1.0809588432312012, + "learning_rate": 0.0001988086241386975, + "loss": 1.9082, + "step": 278 + }, + { + "epoch": 0.0062, + "grad_norm": 1.0367165803909302, + "learning_rate": 0.0001988041787063792, + "loss": 2.0686, + "step": 279 + }, + { + "epoch": 0.006222222222222222, + "grad_norm": 1.156284213066101, + "learning_rate": 0.00019879973327406093, + "loss": 1.902, + "step": 280 + }, + { + "epoch": 0.006244444444444445, + "grad_norm": 1.3220890760421753, + "learning_rate": 0.0001987952878417426, + "loss": 2.62, + "step": 281 + }, + { + "epoch": 0.006266666666666667, + "grad_norm": 1.1455974578857422, + "learning_rate": 0.00019879084240942432, + "loss": 1.9175, + "step": 282 + }, + { + "epoch": 0.006288888888888889, + "grad_norm": 0.9246114492416382, + "learning_rate": 0.00019878639697710603, + "loss": 1.3599, + "step": 283 + }, + { + "epoch": 0.006311111111111111, + "grad_norm": 1.1708238124847412, + "learning_rate": 0.00019878195154478774, + "loss": 1.9443, + "step": 284 + }, + { + "epoch": 0.006333333333333333, + "grad_norm": 1.157710313796997, + "learning_rate": 0.00019877750611246945, + "loss": 2.2282, + "step": 285 + }, + { + "epoch": 0.006355555555555555, + "grad_norm": 1.285626769065857, + "learning_rate": 0.00019877306068015116, + "loss": 2.1003, + "step": 286 + }, + { + "epoch": 0.006377777777777777, + "grad_norm": 1.0390872955322266, + "learning_rate": 0.00019876861524783287, + "loss": 1.8012, + "step": 287 + }, + { + "epoch": 0.0064, + "grad_norm": 1.1510474681854248, + "learning_rate": 0.00019876416981551458, + "loss": 2.1254, + "step": 288 + }, + { + "epoch": 0.006422222222222222, + "grad_norm": 1.3641140460968018, + "learning_rate": 0.0001987597243831963, + "loss": 2.3282, + "step": 289 + }, + { + "epoch": 0.0064444444444444445, + "grad_norm": 1.0441592931747437, + "learning_rate": 0.00019875527895087797, + "loss": 1.7094, + "step": 290 + }, + { + "epoch": 0.006466666666666667, + "grad_norm": 1.1648244857788086, + "learning_rate": 0.0001987508335185597, + "loss": 2.133, + "step": 291 + }, + { + "epoch": 0.006488888888888889, + "grad_norm": 1.0608255863189697, + "learning_rate": 0.0001987463880862414, + "loss": 2.0179, + "step": 292 + }, + { + "epoch": 0.006511111111111111, + "grad_norm": 1.0799864530563354, + "learning_rate": 0.0001987419426539231, + "loss": 1.9634, + "step": 293 + }, + { + "epoch": 0.006533333333333334, + "grad_norm": 1.2921239137649536, + "learning_rate": 0.0001987374972216048, + "loss": 2.4441, + "step": 294 + }, + { + "epoch": 0.006555555555555556, + "grad_norm": 1.1664376258850098, + "learning_rate": 0.00019873305178928652, + "loss": 1.9942, + "step": 295 + }, + { + "epoch": 0.006577777777777778, + "grad_norm": 1.1544493436813354, + "learning_rate": 0.00019872860635696823, + "loss": 1.8961, + "step": 296 + }, + { + "epoch": 0.0066, + "grad_norm": 1.3305240869522095, + "learning_rate": 0.00019872416092464994, + "loss": 1.856, + "step": 297 + }, + { + "epoch": 0.006622222222222222, + "grad_norm": 1.4333610534667969, + "learning_rate": 0.00019871971549233165, + "loss": 2.0938, + "step": 298 + }, + { + "epoch": 0.006644444444444444, + "grad_norm": 1.2909725904464722, + "learning_rate": 0.00019871527006001333, + "loss": 1.6913, + "step": 299 + }, + { + "epoch": 0.006666666666666667, + "grad_norm": 1.4358770847320557, + "learning_rate": 0.00019871082462769507, + "loss": 1.5876, + "step": 300 + }, + { + "epoch": 0.006688888888888889, + "grad_norm": 0.8535404205322266, + "learning_rate": 0.00019870637919537675, + "loss": 1.9958, + "step": 301 + }, + { + "epoch": 0.006711111111111111, + "grad_norm": 1.211012363433838, + "learning_rate": 0.00019870193376305846, + "loss": 2.779, + "step": 302 + }, + { + "epoch": 0.006733333333333333, + "grad_norm": 1.0414246320724487, + "learning_rate": 0.00019869748833074017, + "loss": 2.8231, + "step": 303 + }, + { + "epoch": 0.0067555555555555554, + "grad_norm": 1.2068099975585938, + "learning_rate": 0.00019869304289842188, + "loss": 1.6087, + "step": 304 + }, + { + "epoch": 0.0067777777777777775, + "grad_norm": 0.9062244296073914, + "learning_rate": 0.0001986885974661036, + "loss": 2.0376, + "step": 305 + }, + { + "epoch": 0.0068, + "grad_norm": 1.050722599029541, + "learning_rate": 0.0001986841520337853, + "loss": 2.4353, + "step": 306 + }, + { + "epoch": 0.006822222222222223, + "grad_norm": 1.019980788230896, + "learning_rate": 0.000198679706601467, + "loss": 3.0914, + "step": 307 + }, + { + "epoch": 0.006844444444444445, + "grad_norm": 1.0676994323730469, + "learning_rate": 0.00019867526116914872, + "loss": 2.7055, + "step": 308 + }, + { + "epoch": 0.006866666666666667, + "grad_norm": 1.0136735439300537, + "learning_rate": 0.00019867081573683043, + "loss": 2.2563, + "step": 309 + }, + { + "epoch": 0.006888888888888889, + "grad_norm": 1.0082719326019287, + "learning_rate": 0.0001986663703045121, + "loss": 2.1568, + "step": 310 + }, + { + "epoch": 0.006911111111111111, + "grad_norm": 1.094128131866455, + "learning_rate": 0.00019866192487219385, + "loss": 2.389, + "step": 311 + }, + { + "epoch": 0.006933333333333333, + "grad_norm": 1.003639817237854, + "learning_rate": 0.00019865747943987553, + "loss": 2.3295, + "step": 312 + }, + { + "epoch": 0.006955555555555556, + "grad_norm": 1.0831363201141357, + "learning_rate": 0.00019865303400755724, + "loss": 2.0496, + "step": 313 + }, + { + "epoch": 0.006977777777777778, + "grad_norm": 1.0065604448318481, + "learning_rate": 0.00019864858857523895, + "loss": 2.1804, + "step": 314 + }, + { + "epoch": 0.007, + "grad_norm": 1.0352177619934082, + "learning_rate": 0.00019864414314292066, + "loss": 2.4527, + "step": 315 + }, + { + "epoch": 0.007022222222222222, + "grad_norm": 1.0518782138824463, + "learning_rate": 0.00019863969771060237, + "loss": 2.3495, + "step": 316 + }, + { + "epoch": 0.007044444444444444, + "grad_norm": 1.220797061920166, + "learning_rate": 0.00019863525227828408, + "loss": 2.4, + "step": 317 + }, + { + "epoch": 0.007066666666666666, + "grad_norm": 1.1383063793182373, + "learning_rate": 0.00019863080684596579, + "loss": 2.4244, + "step": 318 + }, + { + "epoch": 0.0070888888888888885, + "grad_norm": 1.526397943496704, + "learning_rate": 0.00019862636141364747, + "loss": 1.7485, + "step": 319 + }, + { + "epoch": 0.0071111111111111115, + "grad_norm": 1.0949018001556396, + "learning_rate": 0.0001986219159813292, + "loss": 1.9363, + "step": 320 + }, + { + "epoch": 0.0071333333333333335, + "grad_norm": 1.0451679229736328, + "learning_rate": 0.0001986174705490109, + "loss": 1.9554, + "step": 321 + }, + { + "epoch": 0.007155555555555556, + "grad_norm": 1.0854243040084839, + "learning_rate": 0.0001986130251166926, + "loss": 2.1951, + "step": 322 + }, + { + "epoch": 0.007177777777777778, + "grad_norm": 1.0035200119018555, + "learning_rate": 0.0001986085796843743, + "loss": 1.6209, + "step": 323 + }, + { + "epoch": 0.0072, + "grad_norm": 1.0116002559661865, + "learning_rate": 0.00019860413425205602, + "loss": 1.7879, + "step": 324 + }, + { + "epoch": 0.007222222222222222, + "grad_norm": 1.1284961700439453, + "learning_rate": 0.00019859968881973773, + "loss": 2.0992, + "step": 325 + }, + { + "epoch": 0.007244444444444445, + "grad_norm": 1.320739984512329, + "learning_rate": 0.00019859524338741944, + "loss": 2.3344, + "step": 326 + }, + { + "epoch": 0.007266666666666667, + "grad_norm": 1.277235507965088, + "learning_rate": 0.00019859079795510115, + "loss": 2.425, + "step": 327 + }, + { + "epoch": 0.007288888888888889, + "grad_norm": 1.2710049152374268, + "learning_rate": 0.00019858635252278286, + "loss": 2.4202, + "step": 328 + }, + { + "epoch": 0.007311111111111111, + "grad_norm": 1.2284647226333618, + "learning_rate": 0.00019858190709046456, + "loss": 2.1545, + "step": 329 + }, + { + "epoch": 0.007333333333333333, + "grad_norm": 1.0845654010772705, + "learning_rate": 0.00019857746165814625, + "loss": 2.2328, + "step": 330 + }, + { + "epoch": 0.007355555555555555, + "grad_norm": 1.2547738552093506, + "learning_rate": 0.00019857301622582798, + "loss": 2.133, + "step": 331 + }, + { + "epoch": 0.007377777777777777, + "grad_norm": 1.1611700057983398, + "learning_rate": 0.00019856857079350967, + "loss": 2.0966, + "step": 332 + }, + { + "epoch": 0.0074, + "grad_norm": 1.2430363893508911, + "learning_rate": 0.00019856412536119138, + "loss": 2.4461, + "step": 333 + }, + { + "epoch": 0.007422222222222222, + "grad_norm": 1.3478891849517822, + "learning_rate": 0.00019855967992887309, + "loss": 2.933, + "step": 334 + }, + { + "epoch": 0.0074444444444444445, + "grad_norm": 1.0155457258224487, + "learning_rate": 0.0001985552344965548, + "loss": 1.592, + "step": 335 + }, + { + "epoch": 0.007466666666666667, + "grad_norm": 1.3190248012542725, + "learning_rate": 0.0001985507890642365, + "loss": 2.4571, + "step": 336 + }, + { + "epoch": 0.007488888888888889, + "grad_norm": 1.029272437095642, + "learning_rate": 0.00019854634363191821, + "loss": 1.934, + "step": 337 + }, + { + "epoch": 0.007511111111111111, + "grad_norm": 1.2280033826828003, + "learning_rate": 0.00019854189819959992, + "loss": 2.1479, + "step": 338 + }, + { + "epoch": 0.007533333333333334, + "grad_norm": 1.4739404916763306, + "learning_rate": 0.0001985374527672816, + "loss": 2.152, + "step": 339 + }, + { + "epoch": 0.007555555555555556, + "grad_norm": 1.1608688831329346, + "learning_rate": 0.00019853300733496334, + "loss": 1.92, + "step": 340 + }, + { + "epoch": 0.007577777777777778, + "grad_norm": 1.4820302724838257, + "learning_rate": 0.00019852856190264503, + "loss": 2.2862, + "step": 341 + }, + { + "epoch": 0.0076, + "grad_norm": 1.1243106126785278, + "learning_rate": 0.00019852411647032676, + "loss": 1.8865, + "step": 342 + }, + { + "epoch": 0.007622222222222222, + "grad_norm": 1.044349193572998, + "learning_rate": 0.00019851967103800847, + "loss": 1.8475, + "step": 343 + }, + { + "epoch": 0.007644444444444444, + "grad_norm": 1.279213309288025, + "learning_rate": 0.00019851522560569015, + "loss": 1.9203, + "step": 344 + }, + { + "epoch": 0.007666666666666666, + "grad_norm": 1.4509048461914062, + "learning_rate": 0.0001985107801733719, + "loss": 2.2009, + "step": 345 + }, + { + "epoch": 0.007688888888888889, + "grad_norm": 1.2652575969696045, + "learning_rate": 0.00019850633474105357, + "loss": 1.904, + "step": 346 + }, + { + "epoch": 0.007711111111111111, + "grad_norm": 1.2127101421356201, + "learning_rate": 0.00019850188930873528, + "loss": 1.9152, + "step": 347 + }, + { + "epoch": 0.007733333333333333, + "grad_norm": 1.404150128364563, + "learning_rate": 0.000198497443876417, + "loss": 1.9976, + "step": 348 + }, + { + "epoch": 0.0077555555555555555, + "grad_norm": 1.2537544965744019, + "learning_rate": 0.0001984929984440987, + "loss": 2.0656, + "step": 349 + }, + { + "epoch": 0.0077777777777777776, + "grad_norm": 1.3624613285064697, + "learning_rate": 0.00019848855301178039, + "loss": 1.1099, + "step": 350 + }, + { + "epoch": 0.0078, + "grad_norm": 0.81158047914505, + "learning_rate": 0.00019848410757946212, + "loss": 1.8968, + "step": 351 + }, + { + "epoch": 0.007822222222222222, + "grad_norm": 0.880883514881134, + "learning_rate": 0.00019847966214714383, + "loss": 1.9325, + "step": 352 + }, + { + "epoch": 0.007844444444444444, + "grad_norm": 0.8987894058227539, + "learning_rate": 0.00019847521671482551, + "loss": 2.2298, + "step": 353 + }, + { + "epoch": 0.007866666666666666, + "grad_norm": 1.0311617851257324, + "learning_rate": 0.00019847077128250725, + "loss": 2.3218, + "step": 354 + }, + { + "epoch": 0.00788888888888889, + "grad_norm": 0.8493891954421997, + "learning_rate": 0.00019846632585018893, + "loss": 1.7183, + "step": 355 + }, + { + "epoch": 0.007911111111111112, + "grad_norm": 1.1851890087127686, + "learning_rate": 0.00019846188041787064, + "loss": 2.8064, + "step": 356 + }, + { + "epoch": 0.007933333333333334, + "grad_norm": 1.2422465085983276, + "learning_rate": 0.00019845743498555235, + "loss": 2.3756, + "step": 357 + }, + { + "epoch": 0.007955555555555556, + "grad_norm": 1.0323742628097534, + "learning_rate": 0.00019845298955323406, + "loss": 2.0961, + "step": 358 + }, + { + "epoch": 0.007977777777777778, + "grad_norm": 1.067252278327942, + "learning_rate": 0.00019844854412091575, + "loss": 2.1538, + "step": 359 + }, + { + "epoch": 0.008, + "grad_norm": 1.0115009546279907, + "learning_rate": 0.00019844409868859748, + "loss": 2.3508, + "step": 360 + }, + { + "epoch": 0.008022222222222222, + "grad_norm": 1.1757656335830688, + "learning_rate": 0.0001984396532562792, + "loss": 2.6968, + "step": 361 + }, + { + "epoch": 0.008044444444444444, + "grad_norm": 1.1666429042816162, + "learning_rate": 0.0001984352078239609, + "loss": 2.6373, + "step": 362 + }, + { + "epoch": 0.008066666666666666, + "grad_norm": 1.017223596572876, + "learning_rate": 0.0001984307623916426, + "loss": 2.3417, + "step": 363 + }, + { + "epoch": 0.008088888888888889, + "grad_norm": 1.0340126752853394, + "learning_rate": 0.0001984263169593243, + "loss": 2.1653, + "step": 364 + }, + { + "epoch": 0.00811111111111111, + "grad_norm": 1.080710768699646, + "learning_rate": 0.00019842187152700603, + "loss": 2.0727, + "step": 365 + }, + { + "epoch": 0.008133333333333333, + "grad_norm": 1.028197169303894, + "learning_rate": 0.0001984174260946877, + "loss": 2.2213, + "step": 366 + }, + { + "epoch": 0.008155555555555555, + "grad_norm": 1.0855611562728882, + "learning_rate": 0.00019841298066236942, + "loss": 2.2509, + "step": 367 + }, + { + "epoch": 0.008177777777777779, + "grad_norm": 1.209976315498352, + "learning_rate": 0.00019840853523005113, + "loss": 2.4916, + "step": 368 + }, + { + "epoch": 0.0082, + "grad_norm": 1.2807508707046509, + "learning_rate": 0.00019840408979773284, + "loss": 2.5933, + "step": 369 + }, + { + "epoch": 0.008222222222222223, + "grad_norm": 1.2134485244750977, + "learning_rate": 0.00019839964436541455, + "loss": 2.3836, + "step": 370 + }, + { + "epoch": 0.008244444444444445, + "grad_norm": 1.2704893350601196, + "learning_rate": 0.00019839519893309626, + "loss": 2.2113, + "step": 371 + }, + { + "epoch": 0.008266666666666667, + "grad_norm": 1.1323747634887695, + "learning_rate": 0.00019839075350077797, + "loss": 2.1391, + "step": 372 + }, + { + "epoch": 0.008288888888888889, + "grad_norm": 1.337632417678833, + "learning_rate": 0.00019838630806845965, + "loss": 2.0809, + "step": 373 + }, + { + "epoch": 0.008311111111111111, + "grad_norm": 1.1467673778533936, + "learning_rate": 0.0001983818626361414, + "loss": 2.1559, + "step": 374 + }, + { + "epoch": 0.008333333333333333, + "grad_norm": 1.0973697900772095, + "learning_rate": 0.00019837741720382307, + "loss": 2.1691, + "step": 375 + }, + { + "epoch": 0.008355555555555555, + "grad_norm": 1.081419825553894, + "learning_rate": 0.00019837297177150478, + "loss": 1.8748, + "step": 376 + }, + { + "epoch": 0.008377777777777777, + "grad_norm": 1.1397238969802856, + "learning_rate": 0.0001983685263391865, + "loss": 2.4479, + "step": 377 + }, + { + "epoch": 0.0084, + "grad_norm": 1.1830220222473145, + "learning_rate": 0.0001983640809068682, + "loss": 1.8428, + "step": 378 + }, + { + "epoch": 0.008422222222222222, + "grad_norm": 1.1788650751113892, + "learning_rate": 0.0001983596354745499, + "loss": 2.3886, + "step": 379 + }, + { + "epoch": 0.008444444444444444, + "grad_norm": 1.1691720485687256, + "learning_rate": 0.00019835519004223162, + "loss": 2.1664, + "step": 380 + }, + { + "epoch": 0.008466666666666667, + "grad_norm": 1.2139278650283813, + "learning_rate": 0.00019835074460991333, + "loss": 2.1289, + "step": 381 + }, + { + "epoch": 0.00848888888888889, + "grad_norm": 1.1885567903518677, + "learning_rate": 0.00019834629917759504, + "loss": 2.1388, + "step": 382 + }, + { + "epoch": 0.008511111111111112, + "grad_norm": 1.0878989696502686, + "learning_rate": 0.00019834185374527675, + "loss": 2.1997, + "step": 383 + }, + { + "epoch": 0.008533333333333334, + "grad_norm": 1.1863476037979126, + "learning_rate": 0.00019833740831295843, + "loss": 2.0619, + "step": 384 + }, + { + "epoch": 0.008555555555555556, + "grad_norm": 0.9970036149024963, + "learning_rate": 0.00019833296288064017, + "loss": 1.9043, + "step": 385 + }, + { + "epoch": 0.008577777777777778, + "grad_norm": 1.1479637622833252, + "learning_rate": 0.00019832851744832185, + "loss": 2.0531, + "step": 386 + }, + { + "epoch": 0.0086, + "grad_norm": 1.1556382179260254, + "learning_rate": 0.00019832407201600356, + "loss": 1.9609, + "step": 387 + }, + { + "epoch": 0.008622222222222222, + "grad_norm": 1.0361340045928955, + "learning_rate": 0.00019831962658368527, + "loss": 1.5959, + "step": 388 + }, + { + "epoch": 0.008644444444444444, + "grad_norm": 1.329168438911438, + "learning_rate": 0.00019831518115136698, + "loss": 1.99, + "step": 389 + }, + { + "epoch": 0.008666666666666666, + "grad_norm": 0.9925628900527954, + "learning_rate": 0.0001983107357190487, + "loss": 1.8825, + "step": 390 + }, + { + "epoch": 0.008688888888888888, + "grad_norm": 1.093542218208313, + "learning_rate": 0.0001983062902867304, + "loss": 1.9614, + "step": 391 + }, + { + "epoch": 0.00871111111111111, + "grad_norm": 1.203778624534607, + "learning_rate": 0.0001983018448544121, + "loss": 1.9022, + "step": 392 + }, + { + "epoch": 0.008733333333333333, + "grad_norm": 1.1799529790878296, + "learning_rate": 0.0001982973994220938, + "loss": 1.9502, + "step": 393 + }, + { + "epoch": 0.008755555555555556, + "grad_norm": 1.216221570968628, + "learning_rate": 0.00019829295398977553, + "loss": 2.1193, + "step": 394 + }, + { + "epoch": 0.008777777777777778, + "grad_norm": 0.9906027317047119, + "learning_rate": 0.0001982885085574572, + "loss": 1.383, + "step": 395 + }, + { + "epoch": 0.0088, + "grad_norm": 1.2726753950119019, + "learning_rate": 0.00019828406312513892, + "loss": 2.2093, + "step": 396 + }, + { + "epoch": 0.008822222222222223, + "grad_norm": 1.3959466218948364, + "learning_rate": 0.00019827961769282063, + "loss": 2.3859, + "step": 397 + }, + { + "epoch": 0.008844444444444445, + "grad_norm": 1.1952037811279297, + "learning_rate": 0.00019827517226050234, + "loss": 1.1905, + "step": 398 + }, + { + "epoch": 0.008866666666666667, + "grad_norm": 1.6015812158584595, + "learning_rate": 0.00019827072682818405, + "loss": 1.5636, + "step": 399 + }, + { + "epoch": 0.008888888888888889, + "grad_norm": 1.3363481760025024, + "learning_rate": 0.00019826628139586576, + "loss": 1.2587, + "step": 400 + }, + { + "epoch": 0.008911111111111111, + "grad_norm": 0.9448645710945129, + "learning_rate": 0.00019826183596354747, + "loss": 2.5974, + "step": 401 + }, + { + "epoch": 0.008933333333333333, + "grad_norm": 1.0095126628875732, + "learning_rate": 0.00019825739053122918, + "loss": 1.7864, + "step": 402 + }, + { + "epoch": 0.008955555555555555, + "grad_norm": 1.0201154947280884, + "learning_rate": 0.0001982529450989109, + "loss": 2.7348, + "step": 403 + }, + { + "epoch": 0.008977777777777777, + "grad_norm": 1.1061842441558838, + "learning_rate": 0.00019824849966659257, + "loss": 2.3834, + "step": 404 + }, + { + "epoch": 0.009, + "grad_norm": 0.9118261933326721, + "learning_rate": 0.0001982440542342743, + "loss": 1.836, + "step": 405 + }, + { + "epoch": 0.009022222222222221, + "grad_norm": 1.0042697191238403, + "learning_rate": 0.000198239608801956, + "loss": 2.5867, + "step": 406 + }, + { + "epoch": 0.009044444444444445, + "grad_norm": 1.1671693325042725, + "learning_rate": 0.0001982351633696377, + "loss": 2.6269, + "step": 407 + }, + { + "epoch": 0.009066666666666667, + "grad_norm": 1.1431063413619995, + "learning_rate": 0.0001982307179373194, + "loss": 2.5555, + "step": 408 + }, + { + "epoch": 0.00908888888888889, + "grad_norm": 0.8985481262207031, + "learning_rate": 0.00019822627250500112, + "loss": 1.936, + "step": 409 + }, + { + "epoch": 0.009111111111111111, + "grad_norm": 0.9388520121574402, + "learning_rate": 0.00019822182707268283, + "loss": 2.1971, + "step": 410 + }, + { + "epoch": 0.009133333333333334, + "grad_norm": 0.9923820495605469, + "learning_rate": 0.00019821738164036454, + "loss": 1.9397, + "step": 411 + }, + { + "epoch": 0.009155555555555556, + "grad_norm": 1.0085341930389404, + "learning_rate": 0.00019821293620804625, + "loss": 2.4101, + "step": 412 + }, + { + "epoch": 0.009177777777777778, + "grad_norm": 0.9523325562477112, + "learning_rate": 0.00019820849077572793, + "loss": 1.9858, + "step": 413 + }, + { + "epoch": 0.0092, + "grad_norm": 1.1963249444961548, + "learning_rate": 0.00019820404534340967, + "loss": 2.3538, + "step": 414 + }, + { + "epoch": 0.009222222222222222, + "grad_norm": 1.3541535139083862, + "learning_rate": 0.00019819959991109135, + "loss": 2.2814, + "step": 415 + }, + { + "epoch": 0.009244444444444444, + "grad_norm": 1.0171335935592651, + "learning_rate": 0.00019819515447877306, + "loss": 2.2014, + "step": 416 + }, + { + "epoch": 0.009266666666666666, + "grad_norm": 1.2136662006378174, + "learning_rate": 0.0001981907090464548, + "loss": 2.5623, + "step": 417 + }, + { + "epoch": 0.009288888888888888, + "grad_norm": 1.0422919988632202, + "learning_rate": 0.00019818626361413648, + "loss": 2.2285, + "step": 418 + }, + { + "epoch": 0.00931111111111111, + "grad_norm": 1.0269100666046143, + "learning_rate": 0.00019818181818181821, + "loss": 2.3557, + "step": 419 + }, + { + "epoch": 0.009333333333333334, + "grad_norm": 1.1379530429840088, + "learning_rate": 0.0001981773727494999, + "loss": 2.4131, + "step": 420 + }, + { + "epoch": 0.009355555555555556, + "grad_norm": 1.0211209058761597, + "learning_rate": 0.0001981729273171816, + "loss": 1.8259, + "step": 421 + }, + { + "epoch": 0.009377777777777778, + "grad_norm": 1.1744202375411987, + "learning_rate": 0.00019816848188486332, + "loss": 2.3931, + "step": 422 + }, + { + "epoch": 0.0094, + "grad_norm": 1.0835683345794678, + "learning_rate": 0.00019816403645254503, + "loss": 2.2542, + "step": 423 + }, + { + "epoch": 0.009422222222222222, + "grad_norm": 1.0544909238815308, + "learning_rate": 0.0001981595910202267, + "loss": 2.4754, + "step": 424 + }, + { + "epoch": 0.009444444444444445, + "grad_norm": 1.1325610876083374, + "learning_rate": 0.00019815514558790844, + "loss": 2.1238, + "step": 425 + }, + { + "epoch": 0.009466666666666667, + "grad_norm": 1.1464831829071045, + "learning_rate": 0.00019815070015559015, + "loss": 2.2553, + "step": 426 + }, + { + "epoch": 0.009488888888888889, + "grad_norm": 1.1274349689483643, + "learning_rate": 0.00019814625472327184, + "loss": 1.8174, + "step": 427 + }, + { + "epoch": 0.00951111111111111, + "grad_norm": 1.0821290016174316, + "learning_rate": 0.00019814180929095357, + "loss": 1.6858, + "step": 428 + }, + { + "epoch": 0.009533333333333333, + "grad_norm": 1.3764736652374268, + "learning_rate": 0.00019813736385863526, + "loss": 1.3461, + "step": 429 + }, + { + "epoch": 0.009555555555555555, + "grad_norm": 1.249497652053833, + "learning_rate": 0.00019813291842631697, + "loss": 2.1228, + "step": 430 + }, + { + "epoch": 0.009577777777777777, + "grad_norm": 1.2419813871383667, + "learning_rate": 0.00019812847299399867, + "loss": 2.1365, + "step": 431 + }, + { + "epoch": 0.0096, + "grad_norm": 1.314886212348938, + "learning_rate": 0.00019812402756168038, + "loss": 2.2265, + "step": 432 + }, + { + "epoch": 0.009622222222222223, + "grad_norm": 1.0927438735961914, + "learning_rate": 0.00019811958212936207, + "loss": 2.0217, + "step": 433 + }, + { + "epoch": 0.009644444444444445, + "grad_norm": 1.2256649732589722, + "learning_rate": 0.0001981151366970438, + "loss": 2.2507, + "step": 434 + }, + { + "epoch": 0.009666666666666667, + "grad_norm": 1.03929603099823, + "learning_rate": 0.0001981106912647255, + "loss": 1.9413, + "step": 435 + }, + { + "epoch": 0.00968888888888889, + "grad_norm": 1.1300630569458008, + "learning_rate": 0.0001981062458324072, + "loss": 1.9357, + "step": 436 + }, + { + "epoch": 0.009711111111111111, + "grad_norm": 1.2890658378601074, + "learning_rate": 0.00019810180040008893, + "loss": 2.3707, + "step": 437 + }, + { + "epoch": 0.009733333333333333, + "grad_norm": 1.2537641525268555, + "learning_rate": 0.00019809735496777062, + "loss": 2.1404, + "step": 438 + }, + { + "epoch": 0.009755555555555556, + "grad_norm": 1.3065662384033203, + "learning_rate": 0.00019809290953545235, + "loss": 1.8732, + "step": 439 + }, + { + "epoch": 0.009777777777777778, + "grad_norm": 1.2419967651367188, + "learning_rate": 0.00019808846410313403, + "loss": 2.0917, + "step": 440 + }, + { + "epoch": 0.0098, + "grad_norm": 1.2205204963684082, + "learning_rate": 0.00019808401867081574, + "loss": 1.8757, + "step": 441 + }, + { + "epoch": 0.009822222222222222, + "grad_norm": 1.2660763263702393, + "learning_rate": 0.00019807957323849745, + "loss": 2.0742, + "step": 442 + }, + { + "epoch": 0.009844444444444444, + "grad_norm": 1.4117144346237183, + "learning_rate": 0.00019807512780617916, + "loss": 2.214, + "step": 443 + }, + { + "epoch": 0.009866666666666666, + "grad_norm": 1.4298971891403198, + "learning_rate": 0.00019807068237386087, + "loss": 2.3438, + "step": 444 + }, + { + "epoch": 0.009888888888888888, + "grad_norm": 1.215808391571045, + "learning_rate": 0.00019806623694154258, + "loss": 1.895, + "step": 445 + }, + { + "epoch": 0.009911111111111112, + "grad_norm": 1.3122926950454712, + "learning_rate": 0.0001980617915092243, + "loss": 2.0398, + "step": 446 + }, + { + "epoch": 0.009933333333333334, + "grad_norm": 1.1686663627624512, + "learning_rate": 0.00019805734607690597, + "loss": 1.7546, + "step": 447 + }, + { + "epoch": 0.009955555555555556, + "grad_norm": 1.2826588153839111, + "learning_rate": 0.0001980529006445877, + "loss": 1.5605, + "step": 448 + }, + { + "epoch": 0.009977777777777778, + "grad_norm": 1.3911142349243164, + "learning_rate": 0.0001980484552122694, + "loss": 2.1493, + "step": 449 + }, + { + "epoch": 0.01, + "grad_norm": 1.1573456525802612, + "learning_rate": 0.0001980440097799511, + "loss": 1.0559, + "step": 450 + }, + { + "epoch": 0.010022222222222222, + "grad_norm": 0.9642929434776306, + "learning_rate": 0.0001980395643476328, + "loss": 2.429, + "step": 451 + }, + { + "epoch": 0.010044444444444444, + "grad_norm": 1.0742043256759644, + "learning_rate": 0.00019803511891531452, + "loss": 2.8014, + "step": 452 + }, + { + "epoch": 0.010066666666666666, + "grad_norm": 1.0266245603561401, + "learning_rate": 0.00019803067348299623, + "loss": 2.243, + "step": 453 + }, + { + "epoch": 0.010088888888888889, + "grad_norm": 1.0255544185638428, + "learning_rate": 0.00019802622805067794, + "loss": 2.6152, + "step": 454 + }, + { + "epoch": 0.01011111111111111, + "grad_norm": 1.0187287330627441, + "learning_rate": 0.00019802178261835965, + "loss": 2.5966, + "step": 455 + }, + { + "epoch": 0.010133333333333333, + "grad_norm": 1.1178388595581055, + "learning_rate": 0.00019801733718604136, + "loss": 2.3659, + "step": 456 + }, + { + "epoch": 0.010155555555555555, + "grad_norm": 0.8631261587142944, + "learning_rate": 0.00019801289175372307, + "loss": 2.3432, + "step": 457 + }, + { + "epoch": 0.010177777777777779, + "grad_norm": 1.211785912513733, + "learning_rate": 0.00019800844632140475, + "loss": 3.0955, + "step": 458 + }, + { + "epoch": 0.0102, + "grad_norm": 0.940540075302124, + "learning_rate": 0.0001980040008890865, + "loss": 2.066, + "step": 459 + }, + { + "epoch": 0.010222222222222223, + "grad_norm": 1.0023077726364136, + "learning_rate": 0.00019799955545676817, + "loss": 2.7285, + "step": 460 + }, + { + "epoch": 0.010244444444444445, + "grad_norm": 0.9289823174476624, + "learning_rate": 0.00019799511002444988, + "loss": 2.2766, + "step": 461 + }, + { + "epoch": 0.010266666666666667, + "grad_norm": 1.1237691640853882, + "learning_rate": 0.0001979906645921316, + "loss": 2.2359, + "step": 462 + }, + { + "epoch": 0.010288888888888889, + "grad_norm": 1.0011184215545654, + "learning_rate": 0.0001979862191598133, + "loss": 2.1984, + "step": 463 + }, + { + "epoch": 0.010311111111111111, + "grad_norm": 1.146254301071167, + "learning_rate": 0.000197981773727495, + "loss": 2.2411, + "step": 464 + }, + { + "epoch": 0.010333333333333333, + "grad_norm": 0.9433885812759399, + "learning_rate": 0.00019797732829517672, + "loss": 1.904, + "step": 465 + }, + { + "epoch": 0.010355555555555555, + "grad_norm": 1.004146695137024, + "learning_rate": 0.00019797288286285843, + "loss": 2.2064, + "step": 466 + }, + { + "epoch": 0.010377777777777777, + "grad_norm": 1.0210295915603638, + "learning_rate": 0.0001979684374305401, + "loss": 1.5308, + "step": 467 + }, + { + "epoch": 0.0104, + "grad_norm": 0.9375552535057068, + "learning_rate": 0.00019796399199822185, + "loss": 1.8823, + "step": 468 + }, + { + "epoch": 0.010422222222222222, + "grad_norm": 1.146342396736145, + "learning_rate": 0.00019795954656590353, + "loss": 2.1973, + "step": 469 + }, + { + "epoch": 0.010444444444444444, + "grad_norm": 1.3529064655303955, + "learning_rate": 0.00019795510113358524, + "loss": 2.1686, + "step": 470 + }, + { + "epoch": 0.010466666666666668, + "grad_norm": 1.20050847530365, + "learning_rate": 0.00019795065570126695, + "loss": 2.375, + "step": 471 + }, + { + "epoch": 0.01048888888888889, + "grad_norm": 1.1357581615447998, + "learning_rate": 0.00019794621026894866, + "loss": 2.0837, + "step": 472 + }, + { + "epoch": 0.010511111111111112, + "grad_norm": 1.2051777839660645, + "learning_rate": 0.00019794176483663037, + "loss": 2.2979, + "step": 473 + }, + { + "epoch": 0.010533333333333334, + "grad_norm": 1.0995031595230103, + "learning_rate": 0.00019793731940431208, + "loss": 1.9967, + "step": 474 + }, + { + "epoch": 0.010555555555555556, + "grad_norm": 0.9710855484008789, + "learning_rate": 0.0001979328739719938, + "loss": 1.8624, + "step": 475 + }, + { + "epoch": 0.010577777777777778, + "grad_norm": 0.9975488781929016, + "learning_rate": 0.0001979284285396755, + "loss": 1.9911, + "step": 476 + }, + { + "epoch": 0.0106, + "grad_norm": 1.172976016998291, + "learning_rate": 0.0001979239831073572, + "loss": 2.2303, + "step": 477 + }, + { + "epoch": 0.010622222222222222, + "grad_norm": 1.2332903146743774, + "learning_rate": 0.0001979195376750389, + "loss": 2.0349, + "step": 478 + }, + { + "epoch": 0.010644444444444444, + "grad_norm": 1.2118853330612183, + "learning_rate": 0.00019791509224272063, + "loss": 2.0179, + "step": 479 + }, + { + "epoch": 0.010666666666666666, + "grad_norm": 1.274030327796936, + "learning_rate": 0.0001979106468104023, + "loss": 2.2792, + "step": 480 + }, + { + "epoch": 0.010688888888888888, + "grad_norm": 1.137203335762024, + "learning_rate": 0.00019790620137808402, + "loss": 2.1596, + "step": 481 + }, + { + "epoch": 0.01071111111111111, + "grad_norm": 1.1505786180496216, + "learning_rate": 0.00019790175594576573, + "loss": 2.1158, + "step": 482 + }, + { + "epoch": 0.010733333333333333, + "grad_norm": 1.4947055578231812, + "learning_rate": 0.00019789731051344744, + "loss": 2.2569, + "step": 483 + }, + { + "epoch": 0.010755555555555556, + "grad_norm": 1.2543015480041504, + "learning_rate": 0.00019789286508112915, + "loss": 2.5869, + "step": 484 + }, + { + "epoch": 0.010777777777777778, + "grad_norm": 1.3077988624572754, + "learning_rate": 0.00019788841964881086, + "loss": 2.4492, + "step": 485 + }, + { + "epoch": 0.0108, + "grad_norm": 1.2072759866714478, + "learning_rate": 0.00019788397421649257, + "loss": 1.8196, + "step": 486 + }, + { + "epoch": 0.010822222222222223, + "grad_norm": 1.24198579788208, + "learning_rate": 0.00019787952878417425, + "loss": 1.8827, + "step": 487 + }, + { + "epoch": 0.010844444444444445, + "grad_norm": 1.1785317659378052, + "learning_rate": 0.000197875083351856, + "loss": 2.1422, + "step": 488 + }, + { + "epoch": 0.010866666666666667, + "grad_norm": 1.1350680589675903, + "learning_rate": 0.00019787063791953767, + "loss": 2.3487, + "step": 489 + }, + { + "epoch": 0.010888888888888889, + "grad_norm": 1.1342957019805908, + "learning_rate": 0.00019786619248721938, + "loss": 2.0963, + "step": 490 + }, + { + "epoch": 0.010911111111111111, + "grad_norm": 1.143448829650879, + "learning_rate": 0.00019786174705490112, + "loss": 1.944, + "step": 491 + }, + { + "epoch": 0.010933333333333333, + "grad_norm": 1.3490346670150757, + "learning_rate": 0.0001978573016225828, + "loss": 2.3935, + "step": 492 + }, + { + "epoch": 0.010955555555555555, + "grad_norm": 1.3346196413040161, + "learning_rate": 0.0001978528561902645, + "loss": 1.898, + "step": 493 + }, + { + "epoch": 0.010977777777777777, + "grad_norm": 1.2539373636245728, + "learning_rate": 0.00019784841075794622, + "loss": 1.9348, + "step": 494 + }, + { + "epoch": 0.011, + "grad_norm": 1.1212438344955444, + "learning_rate": 0.00019784396532562793, + "loss": 1.7501, + "step": 495 + }, + { + "epoch": 0.011022222222222221, + "grad_norm": 1.1676902770996094, + "learning_rate": 0.00019783951989330964, + "loss": 1.8469, + "step": 496 + }, + { + "epoch": 0.011044444444444445, + "grad_norm": 1.299802303314209, + "learning_rate": 0.00019783507446099135, + "loss": 2.1494, + "step": 497 + }, + { + "epoch": 0.011066666666666667, + "grad_norm": 1.1392693519592285, + "learning_rate": 0.00019783062902867303, + "loss": 1.6344, + "step": 498 + }, + { + "epoch": 0.01108888888888889, + "grad_norm": 1.3532847166061401, + "learning_rate": 0.00019782618359635477, + "loss": 2.4302, + "step": 499 + }, + { + "epoch": 0.011111111111111112, + "grad_norm": 1.3752100467681885, + "learning_rate": 0.00019782173816403648, + "loss": 1.621, + "step": 500 + }, + { + "epoch": 0.011133333333333334, + "grad_norm": 1.0528823137283325, + "learning_rate": 0.00019781729273171816, + "loss": 2.8213, + "step": 501 + }, + { + "epoch": 0.011155555555555556, + "grad_norm": 0.9636852741241455, + "learning_rate": 0.0001978128472993999, + "loss": 2.6139, + "step": 502 + }, + { + "epoch": 0.011177777777777778, + "grad_norm": 0.8850682973861694, + "learning_rate": 0.00019780840186708158, + "loss": 2.2437, + "step": 503 + }, + { + "epoch": 0.0112, + "grad_norm": 0.8470168113708496, + "learning_rate": 0.0001978039564347633, + "loss": 2.3191, + "step": 504 + }, + { + "epoch": 0.011222222222222222, + "grad_norm": 0.8107976317405701, + "learning_rate": 0.000197799511002445, + "loss": 2.0328, + "step": 505 + }, + { + "epoch": 0.011244444444444444, + "grad_norm": 1.0478322505950928, + "learning_rate": 0.0001977950655701267, + "loss": 2.484, + "step": 506 + }, + { + "epoch": 0.011266666666666666, + "grad_norm": 0.9263590574264526, + "learning_rate": 0.0001977906201378084, + "loss": 2.2178, + "step": 507 + }, + { + "epoch": 0.011288888888888888, + "grad_norm": 1.0026721954345703, + "learning_rate": 0.00019778617470549013, + "loss": 2.5007, + "step": 508 + }, + { + "epoch": 0.01131111111111111, + "grad_norm": 1.0698866844177246, + "learning_rate": 0.00019778172927317184, + "loss": 2.7865, + "step": 509 + }, + { + "epoch": 0.011333333333333334, + "grad_norm": 0.9517433047294617, + "learning_rate": 0.00019777728384085352, + "loss": 2.2822, + "step": 510 + }, + { + "epoch": 0.011355555555555556, + "grad_norm": 1.3576043844223022, + "learning_rate": 0.00019777283840853525, + "loss": 2.4233, + "step": 511 + }, + { + "epoch": 0.011377777777777778, + "grad_norm": 1.0271457433700562, + "learning_rate": 0.00019776839297621694, + "loss": 1.9884, + "step": 512 + }, + { + "epoch": 0.0114, + "grad_norm": 0.9532172679901123, + "learning_rate": 0.00019776394754389867, + "loss": 2.2577, + "step": 513 + }, + { + "epoch": 0.011422222222222222, + "grad_norm": 0.9463943243026733, + "learning_rate": 0.00019775950211158036, + "loss": 2.0965, + "step": 514 + }, + { + "epoch": 0.011444444444444445, + "grad_norm": 0.9251181483268738, + "learning_rate": 0.00019775505667926207, + "loss": 2.067, + "step": 515 + }, + { + "epoch": 0.011466666666666667, + "grad_norm": 1.0688096284866333, + "learning_rate": 0.00019775061124694378, + "loss": 1.8894, + "step": 516 + }, + { + "epoch": 0.011488888888888889, + "grad_norm": 1.0997282266616821, + "learning_rate": 0.00019774616581462549, + "loss": 2.1035, + "step": 517 + }, + { + "epoch": 0.01151111111111111, + "grad_norm": 0.9962407350540161, + "learning_rate": 0.0001977417203823072, + "loss": 2.0402, + "step": 518 + }, + { + "epoch": 0.011533333333333333, + "grad_norm": 1.348712682723999, + "learning_rate": 0.0001977372749499889, + "loss": 2.0119, + "step": 519 + }, + { + "epoch": 0.011555555555555555, + "grad_norm": 1.1667520999908447, + "learning_rate": 0.00019773282951767061, + "loss": 2.2905, + "step": 520 + }, + { + "epoch": 0.011577777777777777, + "grad_norm": 1.2998605966567993, + "learning_rate": 0.0001977283840853523, + "loss": 2.41, + "step": 521 + }, + { + "epoch": 0.0116, + "grad_norm": 1.2200543880462646, + "learning_rate": 0.00019772393865303403, + "loss": 2.1653, + "step": 522 + }, + { + "epoch": 0.011622222222222223, + "grad_norm": 1.22711980342865, + "learning_rate": 0.00019771949322071572, + "loss": 2.3273, + "step": 523 + }, + { + "epoch": 0.011644444444444445, + "grad_norm": 1.0310214757919312, + "learning_rate": 0.00019771504778839743, + "loss": 1.9963, + "step": 524 + }, + { + "epoch": 0.011666666666666667, + "grad_norm": 1.083256721496582, + "learning_rate": 0.00019771060235607914, + "loss": 2.3606, + "step": 525 + }, + { + "epoch": 0.01168888888888889, + "grad_norm": 1.2202749252319336, + "learning_rate": 0.00019770615692376084, + "loss": 2.631, + "step": 526 + }, + { + "epoch": 0.011711111111111111, + "grad_norm": 1.06405508518219, + "learning_rate": 0.00019770171149144255, + "loss": 2.4102, + "step": 527 + }, + { + "epoch": 0.011733333333333333, + "grad_norm": 1.1642934083938599, + "learning_rate": 0.00019769726605912426, + "loss": 2.237, + "step": 528 + }, + { + "epoch": 0.011755555555555556, + "grad_norm": 1.1670068502426147, + "learning_rate": 0.00019769282062680597, + "loss": 2.4295, + "step": 529 + }, + { + "epoch": 0.011777777777777778, + "grad_norm": 0.9800331592559814, + "learning_rate": 0.00019768837519448766, + "loss": 2.1423, + "step": 530 + }, + { + "epoch": 0.0118, + "grad_norm": 0.9930852055549622, + "learning_rate": 0.0001976839297621694, + "loss": 1.8156, + "step": 531 + }, + { + "epoch": 0.011822222222222222, + "grad_norm": 1.056531548500061, + "learning_rate": 0.00019767948432985108, + "loss": 1.8047, + "step": 532 + }, + { + "epoch": 0.011844444444444444, + "grad_norm": 1.2376655340194702, + "learning_rate": 0.0001976750388975328, + "loss": 2.5516, + "step": 533 + }, + { + "epoch": 0.011866666666666666, + "grad_norm": 1.1320395469665527, + "learning_rate": 0.0001976705934652145, + "loss": 2.0158, + "step": 534 + }, + { + "epoch": 0.011888888888888888, + "grad_norm": 1.2286890745162964, + "learning_rate": 0.0001976661480328962, + "loss": 2.076, + "step": 535 + }, + { + "epoch": 0.011911111111111112, + "grad_norm": 1.0306121110916138, + "learning_rate": 0.00019766170260057791, + "loss": 2.0124, + "step": 536 + }, + { + "epoch": 0.011933333333333334, + "grad_norm": 1.0622620582580566, + "learning_rate": 0.00019765725716825962, + "loss": 1.5545, + "step": 537 + }, + { + "epoch": 0.011955555555555556, + "grad_norm": 1.341714859008789, + "learning_rate": 0.00019765281173594133, + "loss": 2.3409, + "step": 538 + }, + { + "epoch": 0.011977777777777778, + "grad_norm": 1.1659297943115234, + "learning_rate": 0.00019764836630362304, + "loss": 2.2122, + "step": 539 + }, + { + "epoch": 0.012, + "grad_norm": 1.3139978647232056, + "learning_rate": 0.00019764392087130475, + "loss": 2.2616, + "step": 540 + }, + { + "epoch": 0.012022222222222222, + "grad_norm": 1.2108430862426758, + "learning_rate": 0.00019763947543898643, + "loss": 1.9457, + "step": 541 + }, + { + "epoch": 0.012044444444444444, + "grad_norm": 1.1554898023605347, + "learning_rate": 0.00019763503000666817, + "loss": 1.8838, + "step": 542 + }, + { + "epoch": 0.012066666666666667, + "grad_norm": 1.2730211019515991, + "learning_rate": 0.00019763058457434985, + "loss": 1.956, + "step": 543 + }, + { + "epoch": 0.012088888888888889, + "grad_norm": 1.1034775972366333, + "learning_rate": 0.00019762613914203156, + "loss": 1.8911, + "step": 544 + }, + { + "epoch": 0.01211111111111111, + "grad_norm": 1.2222429513931274, + "learning_rate": 0.00019762169370971327, + "loss": 2.1464, + "step": 545 + }, + { + "epoch": 0.012133333333333333, + "grad_norm": 1.1918668746948242, + "learning_rate": 0.00019761724827739498, + "loss": 1.9456, + "step": 546 + }, + { + "epoch": 0.012155555555555555, + "grad_norm": 1.3241868019104004, + "learning_rate": 0.0001976128028450767, + "loss": 2.0008, + "step": 547 + }, + { + "epoch": 0.012177777777777777, + "grad_norm": 1.350508689880371, + "learning_rate": 0.0001976083574127584, + "loss": 1.3506, + "step": 548 + }, + { + "epoch": 0.0122, + "grad_norm": 1.172800898551941, + "learning_rate": 0.0001976039119804401, + "loss": 1.9213, + "step": 549 + }, + { + "epoch": 0.012222222222222223, + "grad_norm": 1.1749026775360107, + "learning_rate": 0.0001975994665481218, + "loss": 1.7579, + "step": 550 + }, + { + "epoch": 0.012244444444444445, + "grad_norm": 0.9225996136665344, + "learning_rate": 0.00019759502111580353, + "loss": 2.291, + "step": 551 + }, + { + "epoch": 0.012266666666666667, + "grad_norm": 0.9325944185256958, + "learning_rate": 0.00019759057568348521, + "loss": 2.2216, + "step": 552 + }, + { + "epoch": 0.012288888888888889, + "grad_norm": 0.9500211477279663, + "learning_rate": 0.00019758613025116695, + "loss": 2.5704, + "step": 553 + }, + { + "epoch": 0.012311111111111111, + "grad_norm": 1.1819994449615479, + "learning_rate": 0.00019758168481884863, + "loss": 2.5077, + "step": 554 + }, + { + "epoch": 0.012333333333333333, + "grad_norm": 0.9431033134460449, + "learning_rate": 0.00019757723938653034, + "loss": 2.3682, + "step": 555 + }, + { + "epoch": 0.012355555555555555, + "grad_norm": 0.9775313138961792, + "learning_rate": 0.00019757279395421205, + "loss": 2.4359, + "step": 556 + }, + { + "epoch": 0.012377777777777777, + "grad_norm": 0.9984149932861328, + "learning_rate": 0.00019756834852189376, + "loss": 2.5361, + "step": 557 + }, + { + "epoch": 0.0124, + "grad_norm": 0.906059741973877, + "learning_rate": 0.00019756390308957547, + "loss": 2.3952, + "step": 558 + }, + { + "epoch": 0.012422222222222222, + "grad_norm": 0.9690796136856079, + "learning_rate": 0.00019755945765725718, + "loss": 2.397, + "step": 559 + }, + { + "epoch": 0.012444444444444444, + "grad_norm": 0.9722429513931274, + "learning_rate": 0.0001975550122249389, + "loss": 1.8349, + "step": 560 + }, + { + "epoch": 0.012466666666666666, + "grad_norm": 0.9823850393295288, + "learning_rate": 0.00019755056679262057, + "loss": 2.2631, + "step": 561 + }, + { + "epoch": 0.01248888888888889, + "grad_norm": 0.9302381873130798, + "learning_rate": 0.0001975461213603023, + "loss": 2.1919, + "step": 562 + }, + { + "epoch": 0.012511111111111112, + "grad_norm": 0.8757230043411255, + "learning_rate": 0.000197541675927984, + "loss": 1.6037, + "step": 563 + }, + { + "epoch": 0.012533333333333334, + "grad_norm": 1.046424388885498, + "learning_rate": 0.0001975372304956657, + "loss": 2.2169, + "step": 564 + }, + { + "epoch": 0.012555555555555556, + "grad_norm": 0.9741431474685669, + "learning_rate": 0.00019753278506334744, + "loss": 2.0183, + "step": 565 + }, + { + "epoch": 0.012577777777777778, + "grad_norm": 1.3711148500442505, + "learning_rate": 0.00019752833963102912, + "loss": 2.6775, + "step": 566 + }, + { + "epoch": 0.0126, + "grad_norm": 0.8870599865913391, + "learning_rate": 0.00019752389419871083, + "loss": 1.7707, + "step": 567 + }, + { + "epoch": 0.012622222222222222, + "grad_norm": 1.0855683088302612, + "learning_rate": 0.00019751944876639254, + "loss": 1.799, + "step": 568 + }, + { + "epoch": 0.012644444444444444, + "grad_norm": 0.9656704068183899, + "learning_rate": 0.00019751500333407425, + "loss": 1.7359, + "step": 569 + }, + { + "epoch": 0.012666666666666666, + "grad_norm": 1.2054580450057983, + "learning_rate": 0.00019751055790175596, + "loss": 2.5957, + "step": 570 + }, + { + "epoch": 0.012688888888888888, + "grad_norm": 1.1266636848449707, + "learning_rate": 0.00019750611246943767, + "loss": 2.3791, + "step": 571 + }, + { + "epoch": 0.01271111111111111, + "grad_norm": 1.1475385427474976, + "learning_rate": 0.00019750166703711935, + "loss": 1.9109, + "step": 572 + }, + { + "epoch": 0.012733333333333333, + "grad_norm": 1.1101495027542114, + "learning_rate": 0.0001974972216048011, + "loss": 2.52, + "step": 573 + }, + { + "epoch": 0.012755555555555555, + "grad_norm": 1.0961709022521973, + "learning_rate": 0.0001974927761724828, + "loss": 1.8186, + "step": 574 + }, + { + "epoch": 0.012777777777777779, + "grad_norm": 1.013954758644104, + "learning_rate": 0.00019748833074016448, + "loss": 1.8662, + "step": 575 + }, + { + "epoch": 0.0128, + "grad_norm": 1.2467371225357056, + "learning_rate": 0.00019748388530784622, + "loss": 2.2989, + "step": 576 + }, + { + "epoch": 0.012822222222222223, + "grad_norm": 0.9631433486938477, + "learning_rate": 0.0001974794398755279, + "loss": 1.9812, + "step": 577 + }, + { + "epoch": 0.012844444444444445, + "grad_norm": 1.0559232234954834, + "learning_rate": 0.0001974749944432096, + "loss": 2.0645, + "step": 578 + }, + { + "epoch": 0.012866666666666667, + "grad_norm": 1.1318047046661377, + "learning_rate": 0.00019747054901089132, + "loss": 1.435, + "step": 579 + }, + { + "epoch": 0.012888888888888889, + "grad_norm": 1.2401933670043945, + "learning_rate": 0.00019746610357857303, + "loss": 2.2909, + "step": 580 + }, + { + "epoch": 0.012911111111111111, + "grad_norm": 1.312298059463501, + "learning_rate": 0.0001974616581462547, + "loss": 2.3061, + "step": 581 + }, + { + "epoch": 0.012933333333333333, + "grad_norm": 1.2518435716629028, + "learning_rate": 0.00019745721271393645, + "loss": 2.206, + "step": 582 + }, + { + "epoch": 0.012955555555555555, + "grad_norm": 1.06098210811615, + "learning_rate": 0.00019745276728161816, + "loss": 1.7114, + "step": 583 + }, + { + "epoch": 0.012977777777777777, + "grad_norm": 1.3275994062423706, + "learning_rate": 0.00019744832184929984, + "loss": 2.2089, + "step": 584 + }, + { + "epoch": 0.013, + "grad_norm": 1.2673600912094116, + "learning_rate": 0.00019744387641698158, + "loss": 2.2679, + "step": 585 + }, + { + "epoch": 0.013022222222222221, + "grad_norm": 1.2805787324905396, + "learning_rate": 0.00019743943098466326, + "loss": 2.2918, + "step": 586 + }, + { + "epoch": 0.013044444444444444, + "grad_norm": 1.1600666046142578, + "learning_rate": 0.00019743498555234497, + "loss": 1.2676, + "step": 587 + }, + { + "epoch": 0.013066666666666667, + "grad_norm": 1.1756904125213623, + "learning_rate": 0.00019743054012002668, + "loss": 2.1211, + "step": 588 + }, + { + "epoch": 0.01308888888888889, + "grad_norm": 1.272376298904419, + "learning_rate": 0.0001974260946877084, + "loss": 2.335, + "step": 589 + }, + { + "epoch": 0.013111111111111112, + "grad_norm": 1.4618241786956787, + "learning_rate": 0.0001974216492553901, + "loss": 1.4798, + "step": 590 + }, + { + "epoch": 0.013133333333333334, + "grad_norm": 1.2375410795211792, + "learning_rate": 0.0001974172038230718, + "loss": 1.9871, + "step": 591 + }, + { + "epoch": 0.013155555555555556, + "grad_norm": 1.113440990447998, + "learning_rate": 0.00019741275839075352, + "loss": 2.031, + "step": 592 + }, + { + "epoch": 0.013177777777777778, + "grad_norm": 1.2986788749694824, + "learning_rate": 0.00019740831295843523, + "loss": 2.1056, + "step": 593 + }, + { + "epoch": 0.0132, + "grad_norm": 1.5188066959381104, + "learning_rate": 0.00019740386752611694, + "loss": 2.1861, + "step": 594 + }, + { + "epoch": 0.013222222222222222, + "grad_norm": 1.3240394592285156, + "learning_rate": 0.00019739942209379862, + "loss": 2.1017, + "step": 595 + }, + { + "epoch": 0.013244444444444444, + "grad_norm": 1.2840043306350708, + "learning_rate": 0.00019739497666148036, + "loss": 2.1652, + "step": 596 + }, + { + "epoch": 0.013266666666666666, + "grad_norm": 1.364159107208252, + "learning_rate": 0.00019739053122916204, + "loss": 1.9971, + "step": 597 + }, + { + "epoch": 0.013288888888888888, + "grad_norm": 1.1430398225784302, + "learning_rate": 0.00019738608579684375, + "loss": 1.9919, + "step": 598 + }, + { + "epoch": 0.01331111111111111, + "grad_norm": 1.3228200674057007, + "learning_rate": 0.00019738164036452546, + "loss": 1.8816, + "step": 599 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 1.4547879695892334, + "learning_rate": 0.00019737719493220717, + "loss": 1.5917, + "step": 600 + }, + { + "epoch": 0.013355555555555556, + "grad_norm": 0.9293891787528992, + "learning_rate": 0.00019737274949988888, + "loss": 2.4767, + "step": 601 + }, + { + "epoch": 0.013377777777777778, + "grad_norm": 0.9814039468765259, + "learning_rate": 0.00019736830406757059, + "loss": 2.2821, + "step": 602 + }, + { + "epoch": 0.0134, + "grad_norm": 0.9720081090927124, + "learning_rate": 0.0001973638586352523, + "loss": 2.1433, + "step": 603 + }, + { + "epoch": 0.013422222222222223, + "grad_norm": 0.9438430666923523, + "learning_rate": 0.00019735941320293398, + "loss": 2.3608, + "step": 604 + }, + { + "epoch": 0.013444444444444445, + "grad_norm": 1.006701946258545, + "learning_rate": 0.00019735496777061571, + "loss": 2.5349, + "step": 605 + }, + { + "epoch": 0.013466666666666667, + "grad_norm": 1.0583053827285767, + "learning_rate": 0.0001973505223382974, + "loss": 2.5001, + "step": 606 + }, + { + "epoch": 0.013488888888888889, + "grad_norm": 1.0254452228546143, + "learning_rate": 0.00019734607690597913, + "loss": 2.2549, + "step": 607 + }, + { + "epoch": 0.013511111111111111, + "grad_norm": 1.2084726095199585, + "learning_rate": 0.00019734163147366082, + "loss": 2.4463, + "step": 608 + }, + { + "epoch": 0.013533333333333333, + "grad_norm": 0.9051474332809448, + "learning_rate": 0.00019733718604134253, + "loss": 2.1048, + "step": 609 + }, + { + "epoch": 0.013555555555555555, + "grad_norm": 1.0502593517303467, + "learning_rate": 0.00019733274060902424, + "loss": 2.311, + "step": 610 + }, + { + "epoch": 0.013577777777777777, + "grad_norm": 1.096829891204834, + "learning_rate": 0.00019732829517670595, + "loss": 2.7433, + "step": 611 + }, + { + "epoch": 0.0136, + "grad_norm": 0.9817884564399719, + "learning_rate": 0.00019732384974438766, + "loss": 2.0434, + "step": 612 + }, + { + "epoch": 0.013622222222222223, + "grad_norm": 0.9800563454627991, + "learning_rate": 0.00019731940431206936, + "loss": 2.0227, + "step": 613 + }, + { + "epoch": 0.013644444444444445, + "grad_norm": 1.216512680053711, + "learning_rate": 0.00019731495887975107, + "loss": 2.2587, + "step": 614 + }, + { + "epoch": 0.013666666666666667, + "grad_norm": 1.0319756269454956, + "learning_rate": 0.00019731051344743276, + "loss": 1.9165, + "step": 615 + }, + { + "epoch": 0.01368888888888889, + "grad_norm": 1.0077224969863892, + "learning_rate": 0.0001973060680151145, + "loss": 2.0971, + "step": 616 + }, + { + "epoch": 0.013711111111111111, + "grad_norm": 1.3256494998931885, + "learning_rate": 0.00019730162258279618, + "loss": 1.4384, + "step": 617 + }, + { + "epoch": 0.013733333333333334, + "grad_norm": 1.2625467777252197, + "learning_rate": 0.00019729717715047789, + "loss": 2.4546, + "step": 618 + }, + { + "epoch": 0.013755555555555556, + "grad_norm": 0.9197932481765747, + "learning_rate": 0.0001972927317181596, + "loss": 1.7022, + "step": 619 + }, + { + "epoch": 0.013777777777777778, + "grad_norm": 1.1302087306976318, + "learning_rate": 0.0001972882862858413, + "loss": 2.2369, + "step": 620 + }, + { + "epoch": 0.0138, + "grad_norm": 1.1746357679367065, + "learning_rate": 0.00019728384085352301, + "loss": 1.9065, + "step": 621 + }, + { + "epoch": 0.013822222222222222, + "grad_norm": 0.9957026243209839, + "learning_rate": 0.00019727939542120472, + "loss": 2.0097, + "step": 622 + }, + { + "epoch": 0.013844444444444444, + "grad_norm": 1.36981999874115, + "learning_rate": 0.00019727494998888643, + "loss": 2.2754, + "step": 623 + }, + { + "epoch": 0.013866666666666666, + "grad_norm": 1.234215259552002, + "learning_rate": 0.00019727050455656812, + "loss": 1.9893, + "step": 624 + }, + { + "epoch": 0.013888888888888888, + "grad_norm": 1.3092060089111328, + "learning_rate": 0.00019726605912424985, + "loss": 2.0953, + "step": 625 + }, + { + "epoch": 0.013911111111111112, + "grad_norm": 1.4026519060134888, + "learning_rate": 0.00019726161369193154, + "loss": 2.1843, + "step": 626 + }, + { + "epoch": 0.013933333333333334, + "grad_norm": 1.152025580406189, + "learning_rate": 0.00019725716825961327, + "loss": 1.5955, + "step": 627 + }, + { + "epoch": 0.013955555555555556, + "grad_norm": 1.158659815788269, + "learning_rate": 0.00019725272282729495, + "loss": 1.8902, + "step": 628 + }, + { + "epoch": 0.013977777777777778, + "grad_norm": 1.1227903366088867, + "learning_rate": 0.00019724827739497666, + "loss": 1.876, + "step": 629 + }, + { + "epoch": 0.014, + "grad_norm": 1.273788571357727, + "learning_rate": 0.00019724383196265837, + "loss": 2.251, + "step": 630 + }, + { + "epoch": 0.014022222222222222, + "grad_norm": 1.1840415000915527, + "learning_rate": 0.00019723938653034008, + "loss": 2.3503, + "step": 631 + }, + { + "epoch": 0.014044444444444444, + "grad_norm": 1.2534960508346558, + "learning_rate": 0.0001972349410980218, + "loss": 2.174, + "step": 632 + }, + { + "epoch": 0.014066666666666667, + "grad_norm": 1.0638322830200195, + "learning_rate": 0.0001972304956657035, + "loss": 1.886, + "step": 633 + }, + { + "epoch": 0.014088888888888889, + "grad_norm": 1.2099584341049194, + "learning_rate": 0.0001972260502333852, + "loss": 1.9944, + "step": 634 + }, + { + "epoch": 0.01411111111111111, + "grad_norm": 1.2023608684539795, + "learning_rate": 0.0001972216048010669, + "loss": 1.9364, + "step": 635 + }, + { + "epoch": 0.014133333333333333, + "grad_norm": 1.1572262048721313, + "learning_rate": 0.00019721715936874863, + "loss": 2.1014, + "step": 636 + }, + { + "epoch": 0.014155555555555555, + "grad_norm": 1.0198612213134766, + "learning_rate": 0.00019721271393643031, + "loss": 1.833, + "step": 637 + }, + { + "epoch": 0.014177777777777777, + "grad_norm": 1.3424072265625, + "learning_rate": 0.00019720826850411202, + "loss": 2.4898, + "step": 638 + }, + { + "epoch": 0.0142, + "grad_norm": 1.2197932004928589, + "learning_rate": 0.00019720382307179376, + "loss": 2.2606, + "step": 639 + }, + { + "epoch": 0.014222222222222223, + "grad_norm": 1.3500276803970337, + "learning_rate": 0.00019719937763947544, + "loss": 1.7025, + "step": 640 + }, + { + "epoch": 0.014244444444444445, + "grad_norm": 1.1504669189453125, + "learning_rate": 0.00019719493220715715, + "loss": 2.2101, + "step": 641 + }, + { + "epoch": 0.014266666666666667, + "grad_norm": 1.2708158493041992, + "learning_rate": 0.00019719048677483886, + "loss": 1.8772, + "step": 642 + }, + { + "epoch": 0.01428888888888889, + "grad_norm": 1.2431827783584595, + "learning_rate": 0.00019718604134252057, + "loss": 2.4282, + "step": 643 + }, + { + "epoch": 0.014311111111111111, + "grad_norm": 1.0196614265441895, + "learning_rate": 0.00019718159591020225, + "loss": 1.5048, + "step": 644 + }, + { + "epoch": 0.014333333333333333, + "grad_norm": 1.1712734699249268, + "learning_rate": 0.000197177150477884, + "loss": 1.8576, + "step": 645 + }, + { + "epoch": 0.014355555555555555, + "grad_norm": 1.1533782482147217, + "learning_rate": 0.00019717270504556567, + "loss": 2.02, + "step": 646 + }, + { + "epoch": 0.014377777777777778, + "grad_norm": 1.6188006401062012, + "learning_rate": 0.0001971682596132474, + "loss": 1.8601, + "step": 647 + }, + { + "epoch": 0.0144, + "grad_norm": 1.3643068075180054, + "learning_rate": 0.00019716381418092912, + "loss": 1.4255, + "step": 648 + }, + { + "epoch": 0.014422222222222222, + "grad_norm": 1.3484489917755127, + "learning_rate": 0.0001971593687486108, + "loss": 1.8002, + "step": 649 + }, + { + "epoch": 0.014444444444444444, + "grad_norm": 1.403101921081543, + "learning_rate": 0.00019715492331629254, + "loss": 1.7269, + "step": 650 + }, + { + "epoch": 0.014466666666666666, + "grad_norm": 0.9351359605789185, + "learning_rate": 0.00019715047788397422, + "loss": 2.1206, + "step": 651 + }, + { + "epoch": 0.01448888888888889, + "grad_norm": 0.9588861465454102, + "learning_rate": 0.00019714603245165593, + "loss": 2.3429, + "step": 652 + }, + { + "epoch": 0.014511111111111112, + "grad_norm": 1.1111140251159668, + "learning_rate": 0.00019714158701933764, + "loss": 1.4592, + "step": 653 + }, + { + "epoch": 0.014533333333333334, + "grad_norm": 1.1909570693969727, + "learning_rate": 0.00019713714158701935, + "loss": 3.3025, + "step": 654 + }, + { + "epoch": 0.014555555555555556, + "grad_norm": 1.0534789562225342, + "learning_rate": 0.00019713269615470103, + "loss": 2.5017, + "step": 655 + }, + { + "epoch": 0.014577777777777778, + "grad_norm": 0.9852713346481323, + "learning_rate": 0.00019712825072238277, + "loss": 2.2406, + "step": 656 + }, + { + "epoch": 0.0146, + "grad_norm": 1.0007407665252686, + "learning_rate": 0.00019712380529006448, + "loss": 2.4341, + "step": 657 + }, + { + "epoch": 0.014622222222222222, + "grad_norm": 1.042779803276062, + "learning_rate": 0.00019711935985774616, + "loss": 2.7508, + "step": 658 + }, + { + "epoch": 0.014644444444444444, + "grad_norm": 1.1719785928726196, + "learning_rate": 0.0001971149144254279, + "loss": 2.4725, + "step": 659 + }, + { + "epoch": 0.014666666666666666, + "grad_norm": 1.1312509775161743, + "learning_rate": 0.00019711046899310958, + "loss": 2.785, + "step": 660 + }, + { + "epoch": 0.014688888888888888, + "grad_norm": 0.9337582588195801, + "learning_rate": 0.0001971060235607913, + "loss": 1.9317, + "step": 661 + }, + { + "epoch": 0.01471111111111111, + "grad_norm": 1.0465712547302246, + "learning_rate": 0.000197101578128473, + "loss": 2.4791, + "step": 662 + }, + { + "epoch": 0.014733333333333333, + "grad_norm": 1.153633713722229, + "learning_rate": 0.0001970971326961547, + "loss": 2.2393, + "step": 663 + }, + { + "epoch": 0.014755555555555555, + "grad_norm": 1.0808809995651245, + "learning_rate": 0.00019709268726383642, + "loss": 2.2079, + "step": 664 + }, + { + "epoch": 0.014777777777777779, + "grad_norm": 0.9384297728538513, + "learning_rate": 0.00019708824183151813, + "loss": 2.0951, + "step": 665 + }, + { + "epoch": 0.0148, + "grad_norm": 1.1360176801681519, + "learning_rate": 0.00019708379639919984, + "loss": 2.3019, + "step": 666 + }, + { + "epoch": 0.014822222222222223, + "grad_norm": 1.0996544361114502, + "learning_rate": 0.00019707935096688155, + "loss": 2.898, + "step": 667 + }, + { + "epoch": 0.014844444444444445, + "grad_norm": 1.4694558382034302, + "learning_rate": 0.00019707490553456326, + "loss": 1.0145, + "step": 668 + }, + { + "epoch": 0.014866666666666667, + "grad_norm": 1.1620367765426636, + "learning_rate": 0.00019707046010224494, + "loss": 2.2568, + "step": 669 + }, + { + "epoch": 0.014888888888888889, + "grad_norm": 1.0012505054473877, + "learning_rate": 0.00019706601466992668, + "loss": 1.8907, + "step": 670 + }, + { + "epoch": 0.014911111111111111, + "grad_norm": 1.0330564975738525, + "learning_rate": 0.00019706156923760836, + "loss": 2.2003, + "step": 671 + }, + { + "epoch": 0.014933333333333333, + "grad_norm": 1.0624566078186035, + "learning_rate": 0.00019705712380529007, + "loss": 2.2616, + "step": 672 + }, + { + "epoch": 0.014955555555555555, + "grad_norm": 1.1532998085021973, + "learning_rate": 0.00019705267837297178, + "loss": 2.2152, + "step": 673 + }, + { + "epoch": 0.014977777777777777, + "grad_norm": 1.1985361576080322, + "learning_rate": 0.0001970482329406535, + "loss": 2.2832, + "step": 674 + }, + { + "epoch": 0.015, + "grad_norm": 1.1824263334274292, + "learning_rate": 0.0001970437875083352, + "loss": 2.2331, + "step": 675 + }, + { + "epoch": 0.015022222222222222, + "grad_norm": 1.146777868270874, + "learning_rate": 0.0001970393420760169, + "loss": 2.0233, + "step": 676 + }, + { + "epoch": 0.015044444444444444, + "grad_norm": 1.541884183883667, + "learning_rate": 0.00019703489664369862, + "loss": 2.4609, + "step": 677 + }, + { + "epoch": 0.015066666666666667, + "grad_norm": 1.0570106506347656, + "learning_rate": 0.0001970304512113803, + "loss": 1.8679, + "step": 678 + }, + { + "epoch": 0.01508888888888889, + "grad_norm": 1.243215799331665, + "learning_rate": 0.00019702600577906204, + "loss": 1.6684, + "step": 679 + }, + { + "epoch": 0.015111111111111112, + "grad_norm": 1.1231662034988403, + "learning_rate": 0.00019702156034674372, + "loss": 2.2193, + "step": 680 + }, + { + "epoch": 0.015133333333333334, + "grad_norm": 1.2087405920028687, + "learning_rate": 0.00019701711491442543, + "loss": 2.0532, + "step": 681 + }, + { + "epoch": 0.015155555555555556, + "grad_norm": 1.1215788125991821, + "learning_rate": 0.00019701266948210714, + "loss": 1.9981, + "step": 682 + }, + { + "epoch": 0.015177777777777778, + "grad_norm": 1.0537729263305664, + "learning_rate": 0.00019700822404978885, + "loss": 2.0095, + "step": 683 + }, + { + "epoch": 0.0152, + "grad_norm": 1.1330578327178955, + "learning_rate": 0.00019700377861747056, + "loss": 2.028, + "step": 684 + }, + { + "epoch": 0.015222222222222222, + "grad_norm": 1.1553888320922852, + "learning_rate": 0.00019699933318515227, + "loss": 1.5913, + "step": 685 + }, + { + "epoch": 0.015244444444444444, + "grad_norm": 1.0828315019607544, + "learning_rate": 0.00019699488775283398, + "loss": 1.6112, + "step": 686 + }, + { + "epoch": 0.015266666666666666, + "grad_norm": 1.225699782371521, + "learning_rate": 0.0001969904423205157, + "loss": 2.3407, + "step": 687 + }, + { + "epoch": 0.015288888888888888, + "grad_norm": 1.2007973194122314, + "learning_rate": 0.0001969859968881974, + "loss": 2.3212, + "step": 688 + }, + { + "epoch": 0.01531111111111111, + "grad_norm": 1.386231780052185, + "learning_rate": 0.00019698155145587908, + "loss": 2.0497, + "step": 689 + }, + { + "epoch": 0.015333333333333332, + "grad_norm": 1.2499487400054932, + "learning_rate": 0.00019697710602356082, + "loss": 2.276, + "step": 690 + }, + { + "epoch": 0.015355555555555556, + "grad_norm": 1.2209858894348145, + "learning_rate": 0.0001969726605912425, + "loss": 1.89, + "step": 691 + }, + { + "epoch": 0.015377777777777778, + "grad_norm": 1.2517179250717163, + "learning_rate": 0.0001969682151589242, + "loss": 2.0313, + "step": 692 + }, + { + "epoch": 0.0154, + "grad_norm": 1.2715023756027222, + "learning_rate": 0.00019696376972660592, + "loss": 2.2077, + "step": 693 + }, + { + "epoch": 0.015422222222222223, + "grad_norm": 1.231107473373413, + "learning_rate": 0.00019695932429428763, + "loss": 2.2723, + "step": 694 + }, + { + "epoch": 0.015444444444444445, + "grad_norm": 1.2120702266693115, + "learning_rate": 0.00019695487886196934, + "loss": 2.1168, + "step": 695 + }, + { + "epoch": 0.015466666666666667, + "grad_norm": 1.1936527490615845, + "learning_rate": 0.00019695043342965105, + "loss": 2.0022, + "step": 696 + }, + { + "epoch": 0.015488888888888889, + "grad_norm": 1.2992490530014038, + "learning_rate": 0.00019694598799733276, + "loss": 1.9607, + "step": 697 + }, + { + "epoch": 0.015511111111111111, + "grad_norm": 1.205354928970337, + "learning_rate": 0.00019694154256501444, + "loss": 1.748, + "step": 698 + }, + { + "epoch": 0.015533333333333333, + "grad_norm": 1.3571568727493286, + "learning_rate": 0.00019693709713269618, + "loss": 1.795, + "step": 699 + }, + { + "epoch": 0.015555555555555555, + "grad_norm": 1.4771002531051636, + "learning_rate": 0.00019693265170037786, + "loss": 2.1537, + "step": 700 + }, + { + "epoch": 0.015577777777777777, + "grad_norm": 1.1767499446868896, + "learning_rate": 0.00019692820626805957, + "loss": 2.5639, + "step": 701 + }, + { + "epoch": 0.0156, + "grad_norm": 1.3834136724472046, + "learning_rate": 0.00019692376083574128, + "loss": 1.7281, + "step": 702 + }, + { + "epoch": 0.015622222222222221, + "grad_norm": 0.7690825462341309, + "learning_rate": 0.000196919315403423, + "loss": 2.0467, + "step": 703 + }, + { + "epoch": 0.015644444444444443, + "grad_norm": 0.8094202280044556, + "learning_rate": 0.0001969148699711047, + "loss": 2.2269, + "step": 704 + }, + { + "epoch": 0.015666666666666666, + "grad_norm": 0.8339313268661499, + "learning_rate": 0.0001969104245387864, + "loss": 2.0145, + "step": 705 + }, + { + "epoch": 0.015688888888888888, + "grad_norm": 1.0422499179840088, + "learning_rate": 0.00019690597910646812, + "loss": 2.2106, + "step": 706 + }, + { + "epoch": 0.01571111111111111, + "grad_norm": 0.9235741496086121, + "learning_rate": 0.00019690153367414983, + "loss": 2.2554, + "step": 707 + }, + { + "epoch": 0.015733333333333332, + "grad_norm": 1.0492695569992065, + "learning_rate": 0.00019689708824183153, + "loss": 2.2707, + "step": 708 + }, + { + "epoch": 0.015755555555555554, + "grad_norm": 1.0586918592453003, + "learning_rate": 0.00019689264280951322, + "loss": 2.4847, + "step": 709 + }, + { + "epoch": 0.01577777777777778, + "grad_norm": 1.087799072265625, + "learning_rate": 0.00019688819737719495, + "loss": 2.6584, + "step": 710 + }, + { + "epoch": 0.0158, + "grad_norm": 0.9089024066925049, + "learning_rate": 0.00019688375194487664, + "loss": 2.463, + "step": 711 + }, + { + "epoch": 0.015822222222222224, + "grad_norm": 1.0169419050216675, + "learning_rate": 0.00019687930651255835, + "loss": 2.562, + "step": 712 + }, + { + "epoch": 0.015844444444444446, + "grad_norm": 0.9576930999755859, + "learning_rate": 0.00019687486108024008, + "loss": 2.0399, + "step": 713 + }, + { + "epoch": 0.015866666666666668, + "grad_norm": 1.0270696878433228, + "learning_rate": 0.00019687041564792177, + "loss": 2.3984, + "step": 714 + }, + { + "epoch": 0.01588888888888889, + "grad_norm": 1.1256415843963623, + "learning_rate": 0.00019686597021560347, + "loss": 2.1972, + "step": 715 + }, + { + "epoch": 0.015911111111111112, + "grad_norm": 1.1607558727264404, + "learning_rate": 0.00019686152478328518, + "loss": 2.1832, + "step": 716 + }, + { + "epoch": 0.015933333333333334, + "grad_norm": 1.0180697441101074, + "learning_rate": 0.0001968570793509669, + "loss": 1.897, + "step": 717 + }, + { + "epoch": 0.015955555555555556, + "grad_norm": 1.1228909492492676, + "learning_rate": 0.00019685263391864858, + "loss": 1.6522, + "step": 718 + }, + { + "epoch": 0.015977777777777778, + "grad_norm": 1.1269443035125732, + "learning_rate": 0.0001968481884863303, + "loss": 2.1708, + "step": 719 + }, + { + "epoch": 0.016, + "grad_norm": 1.2360373735427856, + "learning_rate": 0.000196843743054012, + "loss": 2.2552, + "step": 720 + }, + { + "epoch": 0.016022222222222222, + "grad_norm": 1.2020705938339233, + "learning_rate": 0.00019683929762169373, + "loss": 2.0644, + "step": 721 + }, + { + "epoch": 0.016044444444444445, + "grad_norm": 1.1314325332641602, + "learning_rate": 0.00019683485218937544, + "loss": 2.1421, + "step": 722 + }, + { + "epoch": 0.016066666666666667, + "grad_norm": 1.1173206567764282, + "learning_rate": 0.00019683040675705712, + "loss": 2.0589, + "step": 723 + }, + { + "epoch": 0.01608888888888889, + "grad_norm": 1.234604001045227, + "learning_rate": 0.00019682596132473886, + "loss": 2.1747, + "step": 724 + }, + { + "epoch": 0.01611111111111111, + "grad_norm": 1.0637574195861816, + "learning_rate": 0.00019682151589242054, + "loss": 2.2928, + "step": 725 + }, + { + "epoch": 0.016133333333333333, + "grad_norm": 1.1036534309387207, + "learning_rate": 0.00019681707046010225, + "loss": 2.4124, + "step": 726 + }, + { + "epoch": 0.016155555555555555, + "grad_norm": 1.160920262336731, + "learning_rate": 0.00019681262502778396, + "loss": 2.1769, + "step": 727 + }, + { + "epoch": 0.016177777777777777, + "grad_norm": 0.9460611939430237, + "learning_rate": 0.00019680817959546567, + "loss": 2.0493, + "step": 728 + }, + { + "epoch": 0.0162, + "grad_norm": 1.0128278732299805, + "learning_rate": 0.00019680373416314736, + "loss": 1.8745, + "step": 729 + }, + { + "epoch": 0.01622222222222222, + "grad_norm": 1.1487228870391846, + "learning_rate": 0.0001967992887308291, + "loss": 2.0736, + "step": 730 + }, + { + "epoch": 0.016244444444444443, + "grad_norm": 1.1187260150909424, + "learning_rate": 0.0001967948432985108, + "loss": 1.9883, + "step": 731 + }, + { + "epoch": 0.016266666666666665, + "grad_norm": 1.276348352432251, + "learning_rate": 0.00019679039786619248, + "loss": 1.7453, + "step": 732 + }, + { + "epoch": 0.016288888888888887, + "grad_norm": 1.0150865316390991, + "learning_rate": 0.00019678595243387422, + "loss": 1.7307, + "step": 733 + }, + { + "epoch": 0.01631111111111111, + "grad_norm": 1.0547184944152832, + "learning_rate": 0.0001967815070015559, + "loss": 1.8055, + "step": 734 + }, + { + "epoch": 0.01633333333333333, + "grad_norm": 1.1808862686157227, + "learning_rate": 0.0001967770615692376, + "loss": 2.0142, + "step": 735 + }, + { + "epoch": 0.016355555555555557, + "grad_norm": 1.3099372386932373, + "learning_rate": 0.00019677261613691932, + "loss": 2.3656, + "step": 736 + }, + { + "epoch": 0.01637777777777778, + "grad_norm": 1.294157862663269, + "learning_rate": 0.00019676817070460103, + "loss": 2.0817, + "step": 737 + }, + { + "epoch": 0.0164, + "grad_norm": 1.13506281375885, + "learning_rate": 0.00019676372527228274, + "loss": 1.9877, + "step": 738 + }, + { + "epoch": 0.016422222222222223, + "grad_norm": 1.2554447650909424, + "learning_rate": 0.00019675927983996445, + "loss": 2.3157, + "step": 739 + }, + { + "epoch": 0.016444444444444446, + "grad_norm": 1.1055458784103394, + "learning_rate": 0.00019675483440764616, + "loss": 2.1281, + "step": 740 + }, + { + "epoch": 0.016466666666666668, + "grad_norm": 1.5507477521896362, + "learning_rate": 0.00019675038897532787, + "loss": 1.7193, + "step": 741 + }, + { + "epoch": 0.01648888888888889, + "grad_norm": 1.3108044862747192, + "learning_rate": 0.00019674594354300958, + "loss": 1.5882, + "step": 742 + }, + { + "epoch": 0.016511111111111112, + "grad_norm": 1.2059918642044067, + "learning_rate": 0.00019674149811069126, + "loss": 1.9798, + "step": 743 + }, + { + "epoch": 0.016533333333333334, + "grad_norm": 1.1982961893081665, + "learning_rate": 0.000196737052678373, + "loss": 1.8826, + "step": 744 + }, + { + "epoch": 0.016555555555555556, + "grad_norm": 1.2684075832366943, + "learning_rate": 0.00019673260724605468, + "loss": 2.2258, + "step": 745 + }, + { + "epoch": 0.016577777777777778, + "grad_norm": 1.0842028856277466, + "learning_rate": 0.0001967281618137364, + "loss": 1.7994, + "step": 746 + }, + { + "epoch": 0.0166, + "grad_norm": 1.293434739112854, + "learning_rate": 0.0001967237163814181, + "loss": 2.0513, + "step": 747 + }, + { + "epoch": 0.016622222222222222, + "grad_norm": 1.282414197921753, + "learning_rate": 0.0001967192709490998, + "loss": 1.9613, + "step": 748 + }, + { + "epoch": 0.016644444444444444, + "grad_norm": 1.408108115196228, + "learning_rate": 0.00019671482551678152, + "loss": 1.9771, + "step": 749 + }, + { + "epoch": 0.016666666666666666, + "grad_norm": 1.5824871063232422, + "learning_rate": 0.00019671038008446323, + "loss": 1.9777, + "step": 750 + }, + { + "epoch": 0.01668888888888889, + "grad_norm": 1.7164340019226074, + "learning_rate": 0.00019670593465214494, + "loss": 1.7608, + "step": 751 + }, + { + "epoch": 0.01671111111111111, + "grad_norm": 1.0201396942138672, + "learning_rate": 0.00019670148921982662, + "loss": 2.8536, + "step": 752 + }, + { + "epoch": 0.016733333333333333, + "grad_norm": 1.1302566528320312, + "learning_rate": 0.00019669704378750836, + "loss": 3.0723, + "step": 753 + }, + { + "epoch": 0.016755555555555555, + "grad_norm": 0.9833186268806458, + "learning_rate": 0.00019669259835519004, + "loss": 2.5592, + "step": 754 + }, + { + "epoch": 0.016777777777777777, + "grad_norm": 1.1132311820983887, + "learning_rate": 0.00019668815292287175, + "loss": 2.5013, + "step": 755 + }, + { + "epoch": 0.0168, + "grad_norm": 1.0777004957199097, + "learning_rate": 0.00019668370749055346, + "loss": 2.578, + "step": 756 + }, + { + "epoch": 0.01682222222222222, + "grad_norm": 0.9996433258056641, + "learning_rate": 0.00019667926205823517, + "loss": 2.6638, + "step": 757 + }, + { + "epoch": 0.016844444444444443, + "grad_norm": 0.9491451382637024, + "learning_rate": 0.00019667481662591688, + "loss": 2.2324, + "step": 758 + }, + { + "epoch": 0.016866666666666665, + "grad_norm": 1.1342917680740356, + "learning_rate": 0.0001966703711935986, + "loss": 2.2155, + "step": 759 + }, + { + "epoch": 0.016888888888888887, + "grad_norm": 1.0377998352050781, + "learning_rate": 0.0001966659257612803, + "loss": 2.0908, + "step": 760 + }, + { + "epoch": 0.01691111111111111, + "grad_norm": 1.5156100988388062, + "learning_rate": 0.000196661480328962, + "loss": 1.7761, + "step": 761 + }, + { + "epoch": 0.016933333333333335, + "grad_norm": 1.339430570602417, + "learning_rate": 0.00019665703489664372, + "loss": 2.4221, + "step": 762 + }, + { + "epoch": 0.016955555555555557, + "grad_norm": 1.0605875253677368, + "learning_rate": 0.0001966525894643254, + "loss": 2.3038, + "step": 763 + }, + { + "epoch": 0.01697777777777778, + "grad_norm": 1.099420428276062, + "learning_rate": 0.00019664814403200714, + "loss": 1.8862, + "step": 764 + }, + { + "epoch": 0.017, + "grad_norm": 0.9548482894897461, + "learning_rate": 0.00019664369859968882, + "loss": 1.9038, + "step": 765 + }, + { + "epoch": 0.017022222222222223, + "grad_norm": 1.0867154598236084, + "learning_rate": 0.00019663925316737053, + "loss": 2.3261, + "step": 766 + }, + { + "epoch": 0.017044444444444445, + "grad_norm": 1.0911372900009155, + "learning_rate": 0.00019663480773505224, + "loss": 2.1344, + "step": 767 + }, + { + "epoch": 0.017066666666666667, + "grad_norm": 1.2783464193344116, + "learning_rate": 0.00019663036230273395, + "loss": 2.0554, + "step": 768 + }, + { + "epoch": 0.01708888888888889, + "grad_norm": 1.0362484455108643, + "learning_rate": 0.00019662591687041566, + "loss": 1.9389, + "step": 769 + }, + { + "epoch": 0.01711111111111111, + "grad_norm": 1.4606289863586426, + "learning_rate": 0.00019662147143809737, + "loss": 1.4451, + "step": 770 + }, + { + "epoch": 0.017133333333333334, + "grad_norm": 1.1501736640930176, + "learning_rate": 0.00019661702600577908, + "loss": 2.4976, + "step": 771 + }, + { + "epoch": 0.017155555555555556, + "grad_norm": 1.2100738286972046, + "learning_rate": 0.00019661258057346076, + "loss": 2.1542, + "step": 772 + }, + { + "epoch": 0.017177777777777778, + "grad_norm": 1.2099733352661133, + "learning_rate": 0.0001966081351411425, + "loss": 2.2964, + "step": 773 + }, + { + "epoch": 0.0172, + "grad_norm": 0.9988672137260437, + "learning_rate": 0.00019660368970882418, + "loss": 1.6329, + "step": 774 + }, + { + "epoch": 0.017222222222222222, + "grad_norm": 1.2203208208084106, + "learning_rate": 0.0001965992442765059, + "loss": 1.9813, + "step": 775 + }, + { + "epoch": 0.017244444444444444, + "grad_norm": 1.2115823030471802, + "learning_rate": 0.0001965947988441876, + "loss": 2.5386, + "step": 776 + }, + { + "epoch": 0.017266666666666666, + "grad_norm": 1.1591236591339111, + "learning_rate": 0.0001965903534118693, + "loss": 2.2034, + "step": 777 + }, + { + "epoch": 0.01728888888888889, + "grad_norm": 1.2802622318267822, + "learning_rate": 0.00019658590797955102, + "loss": 1.9755, + "step": 778 + }, + { + "epoch": 0.01731111111111111, + "grad_norm": 1.5906323194503784, + "learning_rate": 0.00019658146254723273, + "loss": 2.1452, + "step": 779 + }, + { + "epoch": 0.017333333333333333, + "grad_norm": 1.6918163299560547, + "learning_rate": 0.00019657701711491444, + "loss": 2.0825, + "step": 780 + }, + { + "epoch": 0.017355555555555555, + "grad_norm": 1.3963426351547241, + "learning_rate": 0.00019657257168259615, + "loss": 2.6064, + "step": 781 + }, + { + "epoch": 0.017377777777777777, + "grad_norm": 1.2364081144332886, + "learning_rate": 0.00019656812625027786, + "loss": 2.3085, + "step": 782 + }, + { + "epoch": 0.0174, + "grad_norm": 1.233431339263916, + "learning_rate": 0.00019656368081795954, + "loss": 1.4694, + "step": 783 + }, + { + "epoch": 0.01742222222222222, + "grad_norm": 1.1503186225891113, + "learning_rate": 0.00019655923538564128, + "loss": 1.8187, + "step": 784 + }, + { + "epoch": 0.017444444444444443, + "grad_norm": 1.1116048097610474, + "learning_rate": 0.00019655478995332296, + "loss": 1.8397, + "step": 785 + }, + { + "epoch": 0.017466666666666665, + "grad_norm": 1.279958963394165, + "learning_rate": 0.00019655034452100467, + "loss": 2.1105, + "step": 786 + }, + { + "epoch": 0.01748888888888889, + "grad_norm": 1.1690638065338135, + "learning_rate": 0.0001965458990886864, + "loss": 1.8329, + "step": 787 + }, + { + "epoch": 0.017511111111111113, + "grad_norm": 1.4253699779510498, + "learning_rate": 0.0001965414536563681, + "loss": 2.4336, + "step": 788 + }, + { + "epoch": 0.017533333333333335, + "grad_norm": 1.2776070833206177, + "learning_rate": 0.0001965370082240498, + "loss": 2.4518, + "step": 789 + }, + { + "epoch": 0.017555555555555557, + "grad_norm": 1.512034296989441, + "learning_rate": 0.0001965325627917315, + "loss": 2.1827, + "step": 790 + }, + { + "epoch": 0.01757777777777778, + "grad_norm": 1.1982293128967285, + "learning_rate": 0.00019652811735941322, + "loss": 1.9153, + "step": 791 + }, + { + "epoch": 0.0176, + "grad_norm": 1.2013659477233887, + "learning_rate": 0.0001965236719270949, + "loss": 2.081, + "step": 792 + }, + { + "epoch": 0.017622222222222223, + "grad_norm": 1.1781667470932007, + "learning_rate": 0.00019651922649477664, + "loss": 2.0006, + "step": 793 + }, + { + "epoch": 0.017644444444444445, + "grad_norm": 1.2165113687515259, + "learning_rate": 0.00019651478106245832, + "loss": 1.7922, + "step": 794 + }, + { + "epoch": 0.017666666666666667, + "grad_norm": 1.2281546592712402, + "learning_rate": 0.00019651033563014003, + "loss": 2.0171, + "step": 795 + }, + { + "epoch": 0.01768888888888889, + "grad_norm": 1.2754110097885132, + "learning_rate": 0.00019650589019782176, + "loss": 1.662, + "step": 796 + }, + { + "epoch": 0.01771111111111111, + "grad_norm": 1.219094157218933, + "learning_rate": 0.00019650144476550345, + "loss": 1.9778, + "step": 797 + }, + { + "epoch": 0.017733333333333334, + "grad_norm": 1.177097201347351, + "learning_rate": 0.00019649699933318518, + "loss": 1.9318, + "step": 798 + }, + { + "epoch": 0.017755555555555556, + "grad_norm": 1.5781985521316528, + "learning_rate": 0.00019649255390086687, + "loss": 1.7374, + "step": 799 + }, + { + "epoch": 0.017777777777777778, + "grad_norm": 1.26176118850708, + "learning_rate": 0.00019648810846854858, + "loss": 1.6688, + "step": 800 + }, + { + "epoch": 0.0178, + "grad_norm": 1.1339136362075806, + "learning_rate": 0.00019648366303623029, + "loss": 1.5807, + "step": 801 + }, + { + "epoch": 0.017822222222222222, + "grad_norm": 1.3230016231536865, + "learning_rate": 0.000196479217603912, + "loss": 3.0471, + "step": 802 + }, + { + "epoch": 0.017844444444444444, + "grad_norm": 1.4688678979873657, + "learning_rate": 0.00019647477217159368, + "loss": 1.3478, + "step": 803 + }, + { + "epoch": 0.017866666666666666, + "grad_norm": 1.306009292602539, + "learning_rate": 0.00019647032673927541, + "loss": 2.7983, + "step": 804 + }, + { + "epoch": 0.017888888888888888, + "grad_norm": 1.1074703931808472, + "learning_rate": 0.00019646588130695712, + "loss": 2.3747, + "step": 805 + }, + { + "epoch": 0.01791111111111111, + "grad_norm": 1.3425999879837036, + "learning_rate": 0.0001964614358746388, + "loss": 2.726, + "step": 806 + }, + { + "epoch": 0.017933333333333332, + "grad_norm": 1.1015830039978027, + "learning_rate": 0.00019645699044232054, + "loss": 2.3845, + "step": 807 + }, + { + "epoch": 0.017955555555555554, + "grad_norm": 0.9824787378311157, + "learning_rate": 0.00019645254501000223, + "loss": 2.2274, + "step": 808 + }, + { + "epoch": 0.017977777777777777, + "grad_norm": 1.1457710266113281, + "learning_rate": 0.00019644809957768394, + "loss": 2.5331, + "step": 809 + }, + { + "epoch": 0.018, + "grad_norm": 1.09781014919281, + "learning_rate": 0.00019644365414536564, + "loss": 2.2203, + "step": 810 + }, + { + "epoch": 0.01802222222222222, + "grad_norm": 1.3251962661743164, + "learning_rate": 0.00019643920871304735, + "loss": 2.3068, + "step": 811 + }, + { + "epoch": 0.018044444444444443, + "grad_norm": 1.0364882946014404, + "learning_rate": 0.00019643476328072906, + "loss": 2.0702, + "step": 812 + }, + { + "epoch": 0.01806666666666667, + "grad_norm": 1.027541160583496, + "learning_rate": 0.00019643031784841077, + "loss": 2.3624, + "step": 813 + }, + { + "epoch": 0.01808888888888889, + "grad_norm": 1.0804171562194824, + "learning_rate": 0.00019642587241609248, + "loss": 2.2597, + "step": 814 + }, + { + "epoch": 0.018111111111111113, + "grad_norm": 0.9873744249343872, + "learning_rate": 0.00019642142698377417, + "loss": 2.0124, + "step": 815 + }, + { + "epoch": 0.018133333333333335, + "grad_norm": 1.2539011240005493, + "learning_rate": 0.0001964169815514559, + "loss": 1.6722, + "step": 816 + }, + { + "epoch": 0.018155555555555557, + "grad_norm": 1.0545837879180908, + "learning_rate": 0.00019641253611913758, + "loss": 1.9449, + "step": 817 + }, + { + "epoch": 0.01817777777777778, + "grad_norm": 1.0569536685943604, + "learning_rate": 0.00019640809068681932, + "loss": 2.1474, + "step": 818 + }, + { + "epoch": 0.0182, + "grad_norm": 1.0982191562652588, + "learning_rate": 0.000196403645254501, + "loss": 2.0039, + "step": 819 + }, + { + "epoch": 0.018222222222222223, + "grad_norm": 1.1790661811828613, + "learning_rate": 0.00019639919982218271, + "loss": 2.2475, + "step": 820 + }, + { + "epoch": 0.018244444444444445, + "grad_norm": 1.2144410610198975, + "learning_rate": 0.00019639475438986442, + "loss": 2.005, + "step": 821 + }, + { + "epoch": 0.018266666666666667, + "grad_norm": 1.3091073036193848, + "learning_rate": 0.00019639030895754613, + "loss": 2.2285, + "step": 822 + }, + { + "epoch": 0.01828888888888889, + "grad_norm": 1.0567389726638794, + "learning_rate": 0.00019638586352522784, + "loss": 1.681, + "step": 823 + }, + { + "epoch": 0.01831111111111111, + "grad_norm": 1.2873115539550781, + "learning_rate": 0.00019638141809290955, + "loss": 2.4649, + "step": 824 + }, + { + "epoch": 0.018333333333333333, + "grad_norm": 1.1891435384750366, + "learning_rate": 0.00019637697266059126, + "loss": 2.0758, + "step": 825 + }, + { + "epoch": 0.018355555555555556, + "grad_norm": 1.301710605621338, + "learning_rate": 0.00019637252722827294, + "loss": 2.2872, + "step": 826 + }, + { + "epoch": 0.018377777777777778, + "grad_norm": 1.0890244245529175, + "learning_rate": 0.00019636808179595468, + "loss": 1.8396, + "step": 827 + }, + { + "epoch": 0.0184, + "grad_norm": 1.1202166080474854, + "learning_rate": 0.00019636363636363636, + "loss": 2.0805, + "step": 828 + }, + { + "epoch": 0.018422222222222222, + "grad_norm": 2.2393441200256348, + "learning_rate": 0.00019635919093131807, + "loss": 0.5444, + "step": 829 + }, + { + "epoch": 0.018444444444444444, + "grad_norm": 1.2420040369033813, + "learning_rate": 0.00019635474549899978, + "loss": 1.9836, + "step": 830 + }, + { + "epoch": 0.018466666666666666, + "grad_norm": 1.038867473602295, + "learning_rate": 0.0001963503000666815, + "loss": 1.7146, + "step": 831 + }, + { + "epoch": 0.018488888888888888, + "grad_norm": 1.1635878086090088, + "learning_rate": 0.0001963458546343632, + "loss": 1.7218, + "step": 832 + }, + { + "epoch": 0.01851111111111111, + "grad_norm": 1.0368382930755615, + "learning_rate": 0.0001963414092020449, + "loss": 1.3076, + "step": 833 + }, + { + "epoch": 0.018533333333333332, + "grad_norm": 0.943245530128479, + "learning_rate": 0.00019633696376972662, + "loss": 1.1374, + "step": 834 + }, + { + "epoch": 0.018555555555555554, + "grad_norm": 1.2916659116744995, + "learning_rate": 0.00019633251833740833, + "loss": 2.3984, + "step": 835 + }, + { + "epoch": 0.018577777777777776, + "grad_norm": 1.0505813360214233, + "learning_rate": 0.00019632807290509004, + "loss": 1.6111, + "step": 836 + }, + { + "epoch": 0.0186, + "grad_norm": 1.16885244846344, + "learning_rate": 0.00019632362747277172, + "loss": 1.683, + "step": 837 + }, + { + "epoch": 0.01862222222222222, + "grad_norm": 1.203165054321289, + "learning_rate": 0.00019631918204045346, + "loss": 2.2429, + "step": 838 + }, + { + "epoch": 0.018644444444444446, + "grad_norm": 2.2412188053131104, + "learning_rate": 0.00019631473660813514, + "loss": 2.1415, + "step": 839 + }, + { + "epoch": 0.018666666666666668, + "grad_norm": 1.2367819547653198, + "learning_rate": 0.00019631029117581685, + "loss": 2.2188, + "step": 840 + }, + { + "epoch": 0.01868888888888889, + "grad_norm": 1.673090934753418, + "learning_rate": 0.00019630584574349856, + "loss": 1.4442, + "step": 841 + }, + { + "epoch": 0.018711111111111112, + "grad_norm": 1.2908966541290283, + "learning_rate": 0.00019630140031118027, + "loss": 2.2486, + "step": 842 + }, + { + "epoch": 0.018733333333333334, + "grad_norm": 1.2924500703811646, + "learning_rate": 0.00019629695487886198, + "loss": 1.9328, + "step": 843 + }, + { + "epoch": 0.018755555555555557, + "grad_norm": 1.275480031967163, + "learning_rate": 0.0001962925094465437, + "loss": 1.7754, + "step": 844 + }, + { + "epoch": 0.01877777777777778, + "grad_norm": 1.1931178569793701, + "learning_rate": 0.0001962880640142254, + "loss": 2.1881, + "step": 845 + }, + { + "epoch": 0.0188, + "grad_norm": 2.039440393447876, + "learning_rate": 0.00019628361858190708, + "loss": 1.644, + "step": 846 + }, + { + "epoch": 0.018822222222222223, + "grad_norm": 1.3467886447906494, + "learning_rate": 0.00019627917314958882, + "loss": 2.2548, + "step": 847 + }, + { + "epoch": 0.018844444444444445, + "grad_norm": 1.3075599670410156, + "learning_rate": 0.0001962747277172705, + "loss": 2.0337, + "step": 848 + }, + { + "epoch": 0.018866666666666667, + "grad_norm": 1.1949859857559204, + "learning_rate": 0.0001962702822849522, + "loss": 1.9284, + "step": 849 + }, + { + "epoch": 0.01888888888888889, + "grad_norm": 1.2792781591415405, + "learning_rate": 0.00019626583685263392, + "loss": 1.0456, + "step": 850 + }, + { + "epoch": 0.01891111111111111, + "grad_norm": 1.4490439891815186, + "learning_rate": 0.00019626139142031563, + "loss": 1.6746, + "step": 851 + }, + { + "epoch": 0.018933333333333333, + "grad_norm": 1.1604878902435303, + "learning_rate": 0.00019625694598799734, + "loss": 1.7505, + "step": 852 + }, + { + "epoch": 0.018955555555555555, + "grad_norm": 0.9291083812713623, + "learning_rate": 0.00019625250055567905, + "loss": 2.5427, + "step": 853 + }, + { + "epoch": 0.018977777777777777, + "grad_norm": 1.5711733102798462, + "learning_rate": 0.00019624805512336076, + "loss": 0.2669, + "step": 854 + }, + { + "epoch": 0.019, + "grad_norm": 1.1600127220153809, + "learning_rate": 0.00019624360969104247, + "loss": 2.9463, + "step": 855 + }, + { + "epoch": 0.01902222222222222, + "grad_norm": 1.0230916738510132, + "learning_rate": 0.00019623916425872418, + "loss": 2.6563, + "step": 856 + }, + { + "epoch": 0.019044444444444444, + "grad_norm": 0.9486801028251648, + "learning_rate": 0.00019623471882640586, + "loss": 1.8925, + "step": 857 + }, + { + "epoch": 0.019066666666666666, + "grad_norm": 1.044983983039856, + "learning_rate": 0.0001962302733940876, + "loss": 2.311, + "step": 858 + }, + { + "epoch": 0.019088888888888888, + "grad_norm": 1.4333350658416748, + "learning_rate": 0.00019622582796176928, + "loss": 1.7861, + "step": 859 + }, + { + "epoch": 0.01911111111111111, + "grad_norm": 1.5485827922821045, + "learning_rate": 0.000196221382529451, + "loss": 1.7814, + "step": 860 + }, + { + "epoch": 0.019133333333333332, + "grad_norm": 1.0253639221191406, + "learning_rate": 0.00019621693709713273, + "loss": 2.3211, + "step": 861 + }, + { + "epoch": 0.019155555555555554, + "grad_norm": 1.0021156072616577, + "learning_rate": 0.0001962124916648144, + "loss": 2.2516, + "step": 862 + }, + { + "epoch": 0.019177777777777776, + "grad_norm": 1.083513855934143, + "learning_rate": 0.00019620804623249612, + "loss": 2.483, + "step": 863 + }, + { + "epoch": 0.0192, + "grad_norm": 1.0141162872314453, + "learning_rate": 0.00019620360080017783, + "loss": 2.1131, + "step": 864 + }, + { + "epoch": 0.019222222222222224, + "grad_norm": 1.1440132856369019, + "learning_rate": 0.00019619915536785954, + "loss": 2.3115, + "step": 865 + }, + { + "epoch": 0.019244444444444446, + "grad_norm": 1.368955373764038, + "learning_rate": 0.00019619470993554122, + "loss": 2.438, + "step": 866 + }, + { + "epoch": 0.019266666666666668, + "grad_norm": 1.09905207157135, + "learning_rate": 0.00019619026450322296, + "loss": 2.1312, + "step": 867 + }, + { + "epoch": 0.01928888888888889, + "grad_norm": 1.049364686012268, + "learning_rate": 0.00019618581907090464, + "loss": 2.0062, + "step": 868 + }, + { + "epoch": 0.019311111111111112, + "grad_norm": 0.9739032983779907, + "learning_rate": 0.00019618137363858635, + "loss": 1.693, + "step": 869 + }, + { + "epoch": 0.019333333333333334, + "grad_norm": 0.9700818061828613, + "learning_rate": 0.00019617692820626809, + "loss": 2.0532, + "step": 870 + }, + { + "epoch": 0.019355555555555556, + "grad_norm": 1.3672065734863281, + "learning_rate": 0.00019617248277394977, + "loss": 1.429, + "step": 871 + }, + { + "epoch": 0.01937777777777778, + "grad_norm": 1.079664707183838, + "learning_rate": 0.00019616803734163148, + "loss": 2.0825, + "step": 872 + }, + { + "epoch": 0.0194, + "grad_norm": 1.2146960496902466, + "learning_rate": 0.0001961635919093132, + "loss": 2.2426, + "step": 873 + }, + { + "epoch": 0.019422222222222223, + "grad_norm": 1.24970543384552, + "learning_rate": 0.0001961591464769949, + "loss": 2.6886, + "step": 874 + }, + { + "epoch": 0.019444444444444445, + "grad_norm": 1.195928931236267, + "learning_rate": 0.0001961547010446766, + "loss": 2.4466, + "step": 875 + }, + { + "epoch": 0.019466666666666667, + "grad_norm": 1.179833173751831, + "learning_rate": 0.00019615025561235832, + "loss": 2.2829, + "step": 876 + }, + { + "epoch": 0.01948888888888889, + "grad_norm": 1.1945130825042725, + "learning_rate": 0.00019614581018004, + "loss": 2.418, + "step": 877 + }, + { + "epoch": 0.01951111111111111, + "grad_norm": 1.167978286743164, + "learning_rate": 0.00019614136474772174, + "loss": 2.4884, + "step": 878 + }, + { + "epoch": 0.019533333333333333, + "grad_norm": 1.125403642654419, + "learning_rate": 0.00019613691931540345, + "loss": 2.1588, + "step": 879 + }, + { + "epoch": 0.019555555555555555, + "grad_norm": 1.150924801826477, + "learning_rate": 0.00019613247388308513, + "loss": 2.1924, + "step": 880 + }, + { + "epoch": 0.019577777777777777, + "grad_norm": 1.2554140090942383, + "learning_rate": 0.00019612802845076687, + "loss": 2.2575, + "step": 881 + }, + { + "epoch": 0.0196, + "grad_norm": 1.0867589712142944, + "learning_rate": 0.00019612358301844855, + "loss": 1.9348, + "step": 882 + }, + { + "epoch": 0.01962222222222222, + "grad_norm": 1.228159785270691, + "learning_rate": 0.00019611913758613026, + "loss": 2.1239, + "step": 883 + }, + { + "epoch": 0.019644444444444444, + "grad_norm": 1.3001697063446045, + "learning_rate": 0.00019611469215381197, + "loss": 2.0723, + "step": 884 + }, + { + "epoch": 0.019666666666666666, + "grad_norm": 1.325709581375122, + "learning_rate": 0.00019611024672149368, + "loss": 2.3303, + "step": 885 + }, + { + "epoch": 0.019688888888888888, + "grad_norm": 1.2864207029342651, + "learning_rate": 0.00019610580128917539, + "loss": 1.96, + "step": 886 + }, + { + "epoch": 0.01971111111111111, + "grad_norm": 1.255982756614685, + "learning_rate": 0.0001961013558568571, + "loss": 1.8032, + "step": 887 + }, + { + "epoch": 0.019733333333333332, + "grad_norm": 1.2519142627716064, + "learning_rate": 0.0001960969104245388, + "loss": 1.9856, + "step": 888 + }, + { + "epoch": 0.019755555555555554, + "grad_norm": 1.3303425312042236, + "learning_rate": 0.0001960924649922205, + "loss": 0.3838, + "step": 889 + }, + { + "epoch": 0.019777777777777776, + "grad_norm": 1.2367528676986694, + "learning_rate": 0.00019608801955990222, + "loss": 2.0583, + "step": 890 + }, + { + "epoch": 0.0198, + "grad_norm": 1.3811371326446533, + "learning_rate": 0.0001960835741275839, + "loss": 2.1395, + "step": 891 + }, + { + "epoch": 0.019822222222222224, + "grad_norm": 1.7128000259399414, + "learning_rate": 0.00019607912869526564, + "loss": 2.0093, + "step": 892 + }, + { + "epoch": 0.019844444444444446, + "grad_norm": 1.5509915351867676, + "learning_rate": 0.00019607468326294733, + "loss": 2.571, + "step": 893 + }, + { + "epoch": 0.019866666666666668, + "grad_norm": 1.2489700317382812, + "learning_rate": 0.00019607023783062904, + "loss": 1.582, + "step": 894 + }, + { + "epoch": 0.01988888888888889, + "grad_norm": 1.2955539226531982, + "learning_rate": 0.00019606579239831075, + "loss": 1.6916, + "step": 895 + }, + { + "epoch": 0.019911111111111112, + "grad_norm": 1.4643043279647827, + "learning_rate": 0.00019606134696599246, + "loss": 2.022, + "step": 896 + }, + { + "epoch": 0.019933333333333334, + "grad_norm": 1.5307050943374634, + "learning_rate": 0.00019605690153367416, + "loss": 2.0634, + "step": 897 + }, + { + "epoch": 0.019955555555555556, + "grad_norm": 1.3590905666351318, + "learning_rate": 0.00019605245610135587, + "loss": 1.5713, + "step": 898 + }, + { + "epoch": 0.01997777777777778, + "grad_norm": 1.562294602394104, + "learning_rate": 0.00019604801066903758, + "loss": 1.7607, + "step": 899 + }, + { + "epoch": 0.02, + "grad_norm": 1.8767348527908325, + "learning_rate": 0.00019604356523671927, + "loss": 2.1073, + "step": 900 + }, + { + "epoch": 0.020022222222222223, + "grad_norm": 1.0802743434906006, + "learning_rate": 0.000196039119804401, + "loss": 2.7056, + "step": 901 + }, + { + "epoch": 0.020044444444444445, + "grad_norm": 2.3722715377807617, + "learning_rate": 0.00019603467437208269, + "loss": 1.38, + "step": 902 + }, + { + "epoch": 0.020066666666666667, + "grad_norm": 1.0593788623809814, + "learning_rate": 0.0001960302289397644, + "loss": 2.5719, + "step": 903 + }, + { + "epoch": 0.02008888888888889, + "grad_norm": 1.0191380977630615, + "learning_rate": 0.0001960257835074461, + "loss": 2.4799, + "step": 904 + }, + { + "epoch": 0.02011111111111111, + "grad_norm": 0.9760773777961731, + "learning_rate": 0.00019602133807512781, + "loss": 2.1631, + "step": 905 + }, + { + "epoch": 0.020133333333333333, + "grad_norm": 1.1734133958816528, + "learning_rate": 0.00019601689264280952, + "loss": 2.8479, + "step": 906 + }, + { + "epoch": 0.020155555555555555, + "grad_norm": 1.0349823236465454, + "learning_rate": 0.00019601244721049123, + "loss": 2.4701, + "step": 907 + }, + { + "epoch": 0.020177777777777777, + "grad_norm": 1.1129311323165894, + "learning_rate": 0.00019600800177817294, + "loss": 3.0119, + "step": 908 + }, + { + "epoch": 0.0202, + "grad_norm": 0.8805875778198242, + "learning_rate": 0.00019600355634585463, + "loss": 2.0471, + "step": 909 + }, + { + "epoch": 0.02022222222222222, + "grad_norm": 0.9662013649940491, + "learning_rate": 0.00019599911091353636, + "loss": 2.1242, + "step": 910 + }, + { + "epoch": 0.020244444444444443, + "grad_norm": 1.1028411388397217, + "learning_rate": 0.00019599466548121805, + "loss": 2.1906, + "step": 911 + }, + { + "epoch": 0.020266666666666665, + "grad_norm": 1.1514785289764404, + "learning_rate": 0.00019599022004889978, + "loss": 2.4322, + "step": 912 + }, + { + "epoch": 0.020288888888888888, + "grad_norm": 1.16688871383667, + "learning_rate": 0.00019598577461658146, + "loss": 2.4395, + "step": 913 + }, + { + "epoch": 0.02031111111111111, + "grad_norm": 1.4184373617172241, + "learning_rate": 0.00019598132918426317, + "loss": 1.2305, + "step": 914 + }, + { + "epoch": 0.02033333333333333, + "grad_norm": 1.03030264377594, + "learning_rate": 0.00019597688375194488, + "loss": 2.2355, + "step": 915 + }, + { + "epoch": 0.020355555555555557, + "grad_norm": 1.3763560056686401, + "learning_rate": 0.0001959724383196266, + "loss": 1.1956, + "step": 916 + }, + { + "epoch": 0.02037777777777778, + "grad_norm": 1.0465972423553467, + "learning_rate": 0.0001959679928873083, + "loss": 1.8871, + "step": 917 + }, + { + "epoch": 0.0204, + "grad_norm": 1.0120636224746704, + "learning_rate": 0.00019596354745499, + "loss": 1.9974, + "step": 918 + }, + { + "epoch": 0.020422222222222224, + "grad_norm": 1.0328166484832764, + "learning_rate": 0.00019595910202267172, + "loss": 2.0037, + "step": 919 + }, + { + "epoch": 0.020444444444444446, + "grad_norm": 1.0897443294525146, + "learning_rate": 0.0001959546565903534, + "loss": 1.7993, + "step": 920 + }, + { + "epoch": 0.020466666666666668, + "grad_norm": 1.1461929082870483, + "learning_rate": 0.00019595021115803514, + "loss": 1.8812, + "step": 921 + }, + { + "epoch": 0.02048888888888889, + "grad_norm": 1.2209994792938232, + "learning_rate": 0.00019594576572571682, + "loss": 2.072, + "step": 922 + }, + { + "epoch": 0.020511111111111112, + "grad_norm": 1.172695279121399, + "learning_rate": 0.00019594132029339853, + "loss": 2.1074, + "step": 923 + }, + { + "epoch": 0.020533333333333334, + "grad_norm": 1.0516802072525024, + "learning_rate": 0.00019593687486108024, + "loss": 2.0596, + "step": 924 + }, + { + "epoch": 0.020555555555555556, + "grad_norm": 1.3836328983306885, + "learning_rate": 0.00019593242942876195, + "loss": 1.7834, + "step": 925 + }, + { + "epoch": 0.020577777777777778, + "grad_norm": 1.0988030433654785, + "learning_rate": 0.00019592798399644366, + "loss": 2.4386, + "step": 926 + }, + { + "epoch": 0.0206, + "grad_norm": 1.2603306770324707, + "learning_rate": 0.00019592353856412537, + "loss": 1.9224, + "step": 927 + }, + { + "epoch": 0.020622222222222222, + "grad_norm": 1.2427294254302979, + "learning_rate": 0.00019591909313180708, + "loss": 2.0508, + "step": 928 + }, + { + "epoch": 0.020644444444444444, + "grad_norm": 1.2592589855194092, + "learning_rate": 0.00019591464769948876, + "loss": 0.9818, + "step": 929 + }, + { + "epoch": 0.020666666666666667, + "grad_norm": 1.216002106666565, + "learning_rate": 0.0001959102022671705, + "loss": 1.968, + "step": 930 + }, + { + "epoch": 0.02068888888888889, + "grad_norm": 1.0482780933380127, + "learning_rate": 0.00019590575683485218, + "loss": 1.9463, + "step": 931 + }, + { + "epoch": 0.02071111111111111, + "grad_norm": 1.1712830066680908, + "learning_rate": 0.00019590131140253392, + "loss": 2.2402, + "step": 932 + }, + { + "epoch": 0.020733333333333333, + "grad_norm": 1.2022780179977417, + "learning_rate": 0.0001958968659702156, + "loss": 2.2141, + "step": 933 + }, + { + "epoch": 0.020755555555555555, + "grad_norm": 1.3972703218460083, + "learning_rate": 0.0001958924205378973, + "loss": 2.5702, + "step": 934 + }, + { + "epoch": 0.020777777777777777, + "grad_norm": 1.3721685409545898, + "learning_rate": 0.00019588797510557905, + "loss": 1.9768, + "step": 935 + }, + { + "epoch": 0.0208, + "grad_norm": 1.477299690246582, + "learning_rate": 0.00019588352967326073, + "loss": 2.271, + "step": 936 + }, + { + "epoch": 0.02082222222222222, + "grad_norm": 1.2655388116836548, + "learning_rate": 0.00019587908424094244, + "loss": 2.1486, + "step": 937 + }, + { + "epoch": 0.020844444444444443, + "grad_norm": 1.2654677629470825, + "learning_rate": 0.00019587463880862415, + "loss": 2.1803, + "step": 938 + }, + { + "epoch": 0.020866666666666665, + "grad_norm": 1.217732548713684, + "learning_rate": 0.00019587019337630586, + "loss": 1.8073, + "step": 939 + }, + { + "epoch": 0.020888888888888887, + "grad_norm": 1.2355321645736694, + "learning_rate": 0.00019586574794398754, + "loss": 2.1258, + "step": 940 + }, + { + "epoch": 0.02091111111111111, + "grad_norm": 1.1818342208862305, + "learning_rate": 0.00019586130251166928, + "loss": 1.8276, + "step": 941 + }, + { + "epoch": 0.020933333333333335, + "grad_norm": 1.1487818956375122, + "learning_rate": 0.00019585685707935096, + "loss": 1.6831, + "step": 942 + }, + { + "epoch": 0.020955555555555557, + "grad_norm": 1.2802660465240479, + "learning_rate": 0.00019585241164703267, + "loss": 1.6609, + "step": 943 + }, + { + "epoch": 0.02097777777777778, + "grad_norm": 1.1527976989746094, + "learning_rate": 0.0001958479662147144, + "loss": 1.6833, + "step": 944 + }, + { + "epoch": 0.021, + "grad_norm": 1.3876123428344727, + "learning_rate": 0.0001958435207823961, + "loss": 2.3983, + "step": 945 + }, + { + "epoch": 0.021022222222222223, + "grad_norm": 1.2040034532546997, + "learning_rate": 0.0001958390753500778, + "loss": 1.846, + "step": 946 + }, + { + "epoch": 0.021044444444444445, + "grad_norm": 1.370119571685791, + "learning_rate": 0.0001958346299177595, + "loss": 1.8897, + "step": 947 + }, + { + "epoch": 0.021066666666666668, + "grad_norm": 1.3019564151763916, + "learning_rate": 0.00019583018448544122, + "loss": 1.8344, + "step": 948 + }, + { + "epoch": 0.02108888888888889, + "grad_norm": 1.4427218437194824, + "learning_rate": 0.00019582573905312293, + "loss": 1.7637, + "step": 949 + }, + { + "epoch": 0.021111111111111112, + "grad_norm": 1.5034881830215454, + "learning_rate": 0.00019582129362080464, + "loss": 1.0761, + "step": 950 + }, + { + "epoch": 0.021133333333333334, + "grad_norm": 1.1429578065872192, + "learning_rate": 0.00019581684818848632, + "loss": 2.7195, + "step": 951 + }, + { + "epoch": 0.021155555555555556, + "grad_norm": 0.976854681968689, + "learning_rate": 0.00019581240275616806, + "loss": 2.3101, + "step": 952 + }, + { + "epoch": 0.021177777777777778, + "grad_norm": 1.206167221069336, + "learning_rate": 0.00019580795732384977, + "loss": 1.7676, + "step": 953 + }, + { + "epoch": 0.0212, + "grad_norm": 0.972571849822998, + "learning_rate": 0.00019580351189153145, + "loss": 2.54, + "step": 954 + }, + { + "epoch": 0.021222222222222222, + "grad_norm": 1.1512590646743774, + "learning_rate": 0.0001957990664592132, + "loss": 2.24, + "step": 955 + }, + { + "epoch": 0.021244444444444444, + "grad_norm": 1.3974167108535767, + "learning_rate": 0.00019579462102689487, + "loss": 2.0927, + "step": 956 + }, + { + "epoch": 0.021266666666666666, + "grad_norm": 1.048025131225586, + "learning_rate": 0.00019579017559457658, + "loss": 2.2076, + "step": 957 + }, + { + "epoch": 0.02128888888888889, + "grad_norm": 1.2170542478561401, + "learning_rate": 0.0001957857301622583, + "loss": 2.3151, + "step": 958 + }, + { + "epoch": 0.02131111111111111, + "grad_norm": 1.132617712020874, + "learning_rate": 0.00019578128472994, + "loss": 2.5876, + "step": 959 + }, + { + "epoch": 0.021333333333333333, + "grad_norm": 1.075210690498352, + "learning_rate": 0.0001957768392976217, + "loss": 2.1453, + "step": 960 + }, + { + "epoch": 0.021355555555555555, + "grad_norm": 1.2410504817962646, + "learning_rate": 0.00019577239386530342, + "loss": 2.6506, + "step": 961 + }, + { + "epoch": 0.021377777777777777, + "grad_norm": 1.3010751008987427, + "learning_rate": 0.00019576794843298513, + "loss": 2.4697, + "step": 962 + }, + { + "epoch": 0.0214, + "grad_norm": 1.0129830837249756, + "learning_rate": 0.0001957635030006668, + "loss": 1.4227, + "step": 963 + }, + { + "epoch": 0.02142222222222222, + "grad_norm": 0.6315566897392273, + "learning_rate": 0.00019575905756834855, + "loss": 0.0922, + "step": 964 + }, + { + "epoch": 0.021444444444444443, + "grad_norm": 1.1320451498031616, + "learning_rate": 0.00019575461213603023, + "loss": 2.1428, + "step": 965 + }, + { + "epoch": 0.021466666666666665, + "grad_norm": 1.2234382629394531, + "learning_rate": 0.00019575016670371194, + "loss": 2.1096, + "step": 966 + }, + { + "epoch": 0.021488888888888887, + "grad_norm": 0.9147301912307739, + "learning_rate": 0.00019574572127139365, + "loss": 1.7953, + "step": 967 + }, + { + "epoch": 0.021511111111111113, + "grad_norm": 1.356390118598938, + "learning_rate": 0.00019574127583907536, + "loss": 2.2897, + "step": 968 + }, + { + "epoch": 0.021533333333333335, + "grad_norm": 1.0729771852493286, + "learning_rate": 0.00019573683040675707, + "loss": 1.756, + "step": 969 + }, + { + "epoch": 0.021555555555555557, + "grad_norm": 1.4511117935180664, + "learning_rate": 0.00019573238497443878, + "loss": 2.6018, + "step": 970 + }, + { + "epoch": 0.02157777777777778, + "grad_norm": 1.0890446901321411, + "learning_rate": 0.0001957279395421205, + "loss": 1.9825, + "step": 971 + }, + { + "epoch": 0.0216, + "grad_norm": 1.0413049459457397, + "learning_rate": 0.0001957234941098022, + "loss": 1.881, + "step": 972 + }, + { + "epoch": 0.021622222222222223, + "grad_norm": 1.1469613313674927, + "learning_rate": 0.0001957190486774839, + "loss": 2.1205, + "step": 973 + }, + { + "epoch": 0.021644444444444445, + "grad_norm": 1.2220079898834229, + "learning_rate": 0.0001957146032451656, + "loss": 1.8111, + "step": 974 + }, + { + "epoch": 0.021666666666666667, + "grad_norm": 1.2006953954696655, + "learning_rate": 0.00019571015781284733, + "loss": 2.1679, + "step": 975 + }, + { + "epoch": 0.02168888888888889, + "grad_norm": 1.1270962953567505, + "learning_rate": 0.000195705712380529, + "loss": 1.0779, + "step": 976 + }, + { + "epoch": 0.02171111111111111, + "grad_norm": 1.1960642337799072, + "learning_rate": 0.00019570126694821072, + "loss": 2.047, + "step": 977 + }, + { + "epoch": 0.021733333333333334, + "grad_norm": 1.4884071350097656, + "learning_rate": 0.00019569682151589243, + "loss": 2.0778, + "step": 978 + }, + { + "epoch": 0.021755555555555556, + "grad_norm": 1.5839117765426636, + "learning_rate": 0.00019569237608357414, + "loss": 1.7589, + "step": 979 + }, + { + "epoch": 0.021777777777777778, + "grad_norm": 1.19338858127594, + "learning_rate": 0.00019568793065125585, + "loss": 2.1839, + "step": 980 + }, + { + "epoch": 0.0218, + "grad_norm": 1.2875008583068848, + "learning_rate": 0.00019568348521893756, + "loss": 1.7998, + "step": 981 + }, + { + "epoch": 0.021822222222222222, + "grad_norm": 1.341842770576477, + "learning_rate": 0.00019567903978661927, + "loss": 1.8036, + "step": 982 + }, + { + "epoch": 0.021844444444444444, + "grad_norm": 1.2057856321334839, + "learning_rate": 0.00019567459435430095, + "loss": 2.4206, + "step": 983 + }, + { + "epoch": 0.021866666666666666, + "grad_norm": 1.2523908615112305, + "learning_rate": 0.00019567014892198268, + "loss": 2.2547, + "step": 984 + }, + { + "epoch": 0.02188888888888889, + "grad_norm": 1.0343761444091797, + "learning_rate": 0.00019566570348966437, + "loss": 1.8124, + "step": 985 + }, + { + "epoch": 0.02191111111111111, + "grad_norm": 1.5447239875793457, + "learning_rate": 0.0001956612580573461, + "loss": 2.615, + "step": 986 + }, + { + "epoch": 0.021933333333333332, + "grad_norm": 1.5843077898025513, + "learning_rate": 0.0001956568126250278, + "loss": 2.2762, + "step": 987 + }, + { + "epoch": 0.021955555555555555, + "grad_norm": 1.115618109703064, + "learning_rate": 0.0001956523671927095, + "loss": 1.8599, + "step": 988 + }, + { + "epoch": 0.021977777777777777, + "grad_norm": 1.467014193534851, + "learning_rate": 0.0001956479217603912, + "loss": 2.2977, + "step": 989 + }, + { + "epoch": 0.022, + "grad_norm": 1.3508834838867188, + "learning_rate": 0.00019564347632807292, + "loss": 2.311, + "step": 990 + }, + { + "epoch": 0.02202222222222222, + "grad_norm": 1.1721075773239136, + "learning_rate": 0.00019563903089575462, + "loss": 1.8702, + "step": 991 + }, + { + "epoch": 0.022044444444444443, + "grad_norm": 1.4061206579208374, + "learning_rate": 0.00019563458546343633, + "loss": 1.9824, + "step": 992 + }, + { + "epoch": 0.022066666666666665, + "grad_norm": 1.1400818824768066, + "learning_rate": 0.00019563014003111804, + "loss": 1.8775, + "step": 993 + }, + { + "epoch": 0.02208888888888889, + "grad_norm": 1.2500072717666626, + "learning_rate": 0.00019562569459879973, + "loss": 2.1389, + "step": 994 + }, + { + "epoch": 0.022111111111111113, + "grad_norm": 1.1026194095611572, + "learning_rate": 0.00019562124916648146, + "loss": 1.8361, + "step": 995 + }, + { + "epoch": 0.022133333333333335, + "grad_norm": 1.262624740600586, + "learning_rate": 0.00019561680373416315, + "loss": 1.9002, + "step": 996 + }, + { + "epoch": 0.022155555555555557, + "grad_norm": 1.2566834688186646, + "learning_rate": 0.00019561235830184486, + "loss": 1.7795, + "step": 997 + }, + { + "epoch": 0.02217777777777778, + "grad_norm": 1.3451493978500366, + "learning_rate": 0.00019560791286952657, + "loss": 2.1366, + "step": 998 + }, + { + "epoch": 0.0222, + "grad_norm": 1.2510582208633423, + "learning_rate": 0.00019560346743720827, + "loss": 1.6197, + "step": 999 + }, + { + "epoch": 0.022222222222222223, + "grad_norm": 1.2556939125061035, + "learning_rate": 0.00019559902200488998, + "loss": 1.3633, + "step": 1000 + }, + { + "epoch": 0.022244444444444445, + "grad_norm": 0.848939061164856, + "learning_rate": 0.0001955945765725717, + "loss": 2.5007, + "step": 1001 + }, + { + "epoch": 0.022266666666666667, + "grad_norm": 1.0787360668182373, + "learning_rate": 0.0001955901311402534, + "loss": 2.1481, + "step": 1002 + }, + { + "epoch": 0.02228888888888889, + "grad_norm": 1.044460654258728, + "learning_rate": 0.00019558568570793509, + "loss": 2.3699, + "step": 1003 + }, + { + "epoch": 0.02231111111111111, + "grad_norm": 0.9113267660140991, + "learning_rate": 0.00019558124027561682, + "loss": 2.1719, + "step": 1004 + }, + { + "epoch": 0.022333333333333334, + "grad_norm": 1.0063265562057495, + "learning_rate": 0.0001955767948432985, + "loss": 2.3777, + "step": 1005 + }, + { + "epoch": 0.022355555555555556, + "grad_norm": 0.9605908393859863, + "learning_rate": 0.00019557234941098024, + "loss": 2.2322, + "step": 1006 + }, + { + "epoch": 0.022377777777777778, + "grad_norm": 0.9526219367980957, + "learning_rate": 0.00019556790397866192, + "loss": 2.1858, + "step": 1007 + }, + { + "epoch": 0.0224, + "grad_norm": 0.9146535992622375, + "learning_rate": 0.00019556345854634363, + "loss": 2.2971, + "step": 1008 + }, + { + "epoch": 0.022422222222222222, + "grad_norm": 0.973808765411377, + "learning_rate": 0.00019555901311402537, + "loss": 2.1981, + "step": 1009 + }, + { + "epoch": 0.022444444444444444, + "grad_norm": 1.3780828714370728, + "learning_rate": 0.00019555456768170705, + "loss": 1.4589, + "step": 1010 + }, + { + "epoch": 0.022466666666666666, + "grad_norm": 1.200380802154541, + "learning_rate": 0.00019555012224938876, + "loss": 2.0646, + "step": 1011 + }, + { + "epoch": 0.022488888888888888, + "grad_norm": 1.0672061443328857, + "learning_rate": 0.00019554567681707047, + "loss": 2.0919, + "step": 1012 + }, + { + "epoch": 0.02251111111111111, + "grad_norm": 1.0158803462982178, + "learning_rate": 0.00019554123138475218, + "loss": 2.165, + "step": 1013 + }, + { + "epoch": 0.022533333333333332, + "grad_norm": 1.2931088209152222, + "learning_rate": 0.00019553678595243386, + "loss": 1.9598, + "step": 1014 + }, + { + "epoch": 0.022555555555555554, + "grad_norm": 1.1174200773239136, + "learning_rate": 0.0001955323405201156, + "loss": 1.8869, + "step": 1015 + }, + { + "epoch": 0.022577777777777776, + "grad_norm": 1.2968811988830566, + "learning_rate": 0.00019552789508779728, + "loss": 1.8709, + "step": 1016 + }, + { + "epoch": 0.0226, + "grad_norm": 1.1070488691329956, + "learning_rate": 0.000195523449655479, + "loss": 1.5826, + "step": 1017 + }, + { + "epoch": 0.02262222222222222, + "grad_norm": 1.1246074438095093, + "learning_rate": 0.00019551900422316073, + "loss": 1.9008, + "step": 1018 + }, + { + "epoch": 0.022644444444444443, + "grad_norm": 1.4724538326263428, + "learning_rate": 0.0001955145587908424, + "loss": 1.9687, + "step": 1019 + }, + { + "epoch": 0.02266666666666667, + "grad_norm": 1.1362316608428955, + "learning_rate": 0.00019551011335852412, + "loss": 2.2574, + "step": 1020 + }, + { + "epoch": 0.02268888888888889, + "grad_norm": 1.030013918876648, + "learning_rate": 0.00019550566792620583, + "loss": 1.8649, + "step": 1021 + }, + { + "epoch": 0.022711111111111112, + "grad_norm": 1.0296804904937744, + "learning_rate": 0.00019550122249388754, + "loss": 1.9746, + "step": 1022 + }, + { + "epoch": 0.022733333333333335, + "grad_norm": 1.0721232891082764, + "learning_rate": 0.00019549677706156922, + "loss": 2.0352, + "step": 1023 + }, + { + "epoch": 0.022755555555555557, + "grad_norm": 1.4004583358764648, + "learning_rate": 0.00019549233162925096, + "loss": 2.079, + "step": 1024 + }, + { + "epoch": 0.02277777777777778, + "grad_norm": 1.5219146013259888, + "learning_rate": 0.00019548788619693264, + "loss": 2.554, + "step": 1025 + }, + { + "epoch": 0.0228, + "grad_norm": 1.1802712678909302, + "learning_rate": 0.00019548344076461438, + "loss": 1.3831, + "step": 1026 + }, + { + "epoch": 0.022822222222222223, + "grad_norm": 1.1997747421264648, + "learning_rate": 0.0001954789953322961, + "loss": 2.23, + "step": 1027 + }, + { + "epoch": 0.022844444444444445, + "grad_norm": 1.3436768054962158, + "learning_rate": 0.00019547454989997777, + "loss": 2.1588, + "step": 1028 + }, + { + "epoch": 0.022866666666666667, + "grad_norm": 1.6653196811676025, + "learning_rate": 0.0001954701044676595, + "loss": 2.0499, + "step": 1029 + }, + { + "epoch": 0.02288888888888889, + "grad_norm": 1.479083776473999, + "learning_rate": 0.0001954656590353412, + "loss": 2.1749, + "step": 1030 + }, + { + "epoch": 0.02291111111111111, + "grad_norm": 1.25801420211792, + "learning_rate": 0.0001954612136030229, + "loss": 2.3237, + "step": 1031 + }, + { + "epoch": 0.022933333333333333, + "grad_norm": 1.2146965265274048, + "learning_rate": 0.0001954567681707046, + "loss": 1.9281, + "step": 1032 + }, + { + "epoch": 0.022955555555555555, + "grad_norm": 1.1866048574447632, + "learning_rate": 0.00019545232273838632, + "loss": 2.1571, + "step": 1033 + }, + { + "epoch": 0.022977777777777778, + "grad_norm": 1.1639046669006348, + "learning_rate": 0.00019544787730606803, + "loss": 1.5634, + "step": 1034 + }, + { + "epoch": 0.023, + "grad_norm": 1.333937644958496, + "learning_rate": 0.00019544343187374974, + "loss": 2.0379, + "step": 1035 + }, + { + "epoch": 0.02302222222222222, + "grad_norm": 1.1640256643295288, + "learning_rate": 0.00019543898644143145, + "loss": 1.8631, + "step": 1036 + }, + { + "epoch": 0.023044444444444444, + "grad_norm": 1.238248586654663, + "learning_rate": 0.00019543454100911313, + "loss": 1.7345, + "step": 1037 + }, + { + "epoch": 0.023066666666666666, + "grad_norm": 1.0815786123275757, + "learning_rate": 0.00019543009557679487, + "loss": 1.1185, + "step": 1038 + }, + { + "epoch": 0.023088888888888888, + "grad_norm": 1.4080270528793335, + "learning_rate": 0.00019542565014447655, + "loss": 2.1232, + "step": 1039 + }, + { + "epoch": 0.02311111111111111, + "grad_norm": 1.3079044818878174, + "learning_rate": 0.00019542120471215826, + "loss": 2.1561, + "step": 1040 + }, + { + "epoch": 0.023133333333333332, + "grad_norm": 1.2550265789031982, + "learning_rate": 0.00019541675927983997, + "loss": 1.8651, + "step": 1041 + }, + { + "epoch": 0.023155555555555554, + "grad_norm": 1.2704882621765137, + "learning_rate": 0.00019541231384752168, + "loss": 1.7722, + "step": 1042 + }, + { + "epoch": 0.023177777777777776, + "grad_norm": 1.1533430814743042, + "learning_rate": 0.0001954078684152034, + "loss": 1.7708, + "step": 1043 + }, + { + "epoch": 0.0232, + "grad_norm": 1.2300595045089722, + "learning_rate": 0.0001954034229828851, + "loss": 1.8022, + "step": 1044 + }, + { + "epoch": 0.02322222222222222, + "grad_norm": 1.298561930656433, + "learning_rate": 0.0001953989775505668, + "loss": 1.8205, + "step": 1045 + }, + { + "epoch": 0.023244444444444446, + "grad_norm": 1.3184154033660889, + "learning_rate": 0.00019539453211824852, + "loss": 2.1188, + "step": 1046 + }, + { + "epoch": 0.023266666666666668, + "grad_norm": 1.3662607669830322, + "learning_rate": 0.00019539008668593023, + "loss": 2.0165, + "step": 1047 + }, + { + "epoch": 0.02328888888888889, + "grad_norm": 1.4113154411315918, + "learning_rate": 0.0001953856412536119, + "loss": 1.8712, + "step": 1048 + }, + { + "epoch": 0.023311111111111112, + "grad_norm": 1.5894526243209839, + "learning_rate": 0.00019538119582129365, + "loss": 2.2097, + "step": 1049 + }, + { + "epoch": 0.023333333333333334, + "grad_norm": 1.606162428855896, + "learning_rate": 0.00019537675038897533, + "loss": 1.7208, + "step": 1050 + }, + { + "epoch": 0.023355555555555556, + "grad_norm": 1.8017663955688477, + "learning_rate": 0.00019537230495665704, + "loss": 1.6968, + "step": 1051 + }, + { + "epoch": 0.02337777777777778, + "grad_norm": 0.898545503616333, + "learning_rate": 0.00019536785952433875, + "loss": 2.2294, + "step": 1052 + }, + { + "epoch": 0.0234, + "grad_norm": 1.1432520151138306, + "learning_rate": 0.00019536341409202046, + "loss": 2.3774, + "step": 1053 + }, + { + "epoch": 0.023422222222222223, + "grad_norm": 0.9966428875923157, + "learning_rate": 0.00019535896865970217, + "loss": 2.0966, + "step": 1054 + }, + { + "epoch": 0.023444444444444445, + "grad_norm": 1.1529353857040405, + "learning_rate": 0.00019535452322738388, + "loss": 2.9607, + "step": 1055 + }, + { + "epoch": 0.023466666666666667, + "grad_norm": 1.0590641498565674, + "learning_rate": 0.0001953500777950656, + "loss": 2.3729, + "step": 1056 + }, + { + "epoch": 0.02348888888888889, + "grad_norm": 1.1788803339004517, + "learning_rate": 0.00019534563236274727, + "loss": 2.0186, + "step": 1057 + }, + { + "epoch": 0.02351111111111111, + "grad_norm": 1.3938393592834473, + "learning_rate": 0.000195341186930429, + "loss": 1.4386, + "step": 1058 + }, + { + "epoch": 0.023533333333333333, + "grad_norm": 1.0461190938949585, + "learning_rate": 0.0001953367414981107, + "loss": 2.2823, + "step": 1059 + }, + { + "epoch": 0.023555555555555555, + "grad_norm": 1.4732369184494019, + "learning_rate": 0.0001953322960657924, + "loss": 2.0163, + "step": 1060 + }, + { + "epoch": 0.023577777777777777, + "grad_norm": 1.1343518495559692, + "learning_rate": 0.0001953278506334741, + "loss": 2.1538, + "step": 1061 + }, + { + "epoch": 0.0236, + "grad_norm": 1.224971890449524, + "learning_rate": 0.00019532340520115582, + "loss": 2.4465, + "step": 1062 + }, + { + "epoch": 0.02362222222222222, + "grad_norm": 1.2219271659851074, + "learning_rate": 0.00019531895976883753, + "loss": 2.0159, + "step": 1063 + }, + { + "epoch": 0.023644444444444444, + "grad_norm": 1.1038373708724976, + "learning_rate": 0.00019531451433651924, + "loss": 1.9716, + "step": 1064 + }, + { + "epoch": 0.023666666666666666, + "grad_norm": 1.0893348455429077, + "learning_rate": 0.00019531006890420095, + "loss": 1.7639, + "step": 1065 + }, + { + "epoch": 0.023688888888888888, + "grad_norm": 1.0139858722686768, + "learning_rate": 0.00019530562347188266, + "loss": 2.218, + "step": 1066 + }, + { + "epoch": 0.02371111111111111, + "grad_norm": 1.2331516742706299, + "learning_rate": 0.00019530117803956437, + "loss": 2.3592, + "step": 1067 + }, + { + "epoch": 0.023733333333333332, + "grad_norm": 1.1039979457855225, + "learning_rate": 0.00019529673260724605, + "loss": 1.9273, + "step": 1068 + }, + { + "epoch": 0.023755555555555554, + "grad_norm": 1.436119794845581, + "learning_rate": 0.00019529228717492779, + "loss": 2.1083, + "step": 1069 + }, + { + "epoch": 0.023777777777777776, + "grad_norm": 1.0804810523986816, + "learning_rate": 0.00019528784174260947, + "loss": 1.7501, + "step": 1070 + }, + { + "epoch": 0.0238, + "grad_norm": 1.2185988426208496, + "learning_rate": 0.00019528339631029118, + "loss": 2.149, + "step": 1071 + }, + { + "epoch": 0.023822222222222224, + "grad_norm": 1.1719928979873657, + "learning_rate": 0.0001952789508779729, + "loss": 1.993, + "step": 1072 + }, + { + "epoch": 0.023844444444444446, + "grad_norm": 1.6356178522109985, + "learning_rate": 0.0001952745054456546, + "loss": 2.8068, + "step": 1073 + }, + { + "epoch": 0.023866666666666668, + "grad_norm": 1.1543465852737427, + "learning_rate": 0.0001952700600133363, + "loss": 2.0547, + "step": 1074 + }, + { + "epoch": 0.02388888888888889, + "grad_norm": 1.1319878101348877, + "learning_rate": 0.00019526561458101802, + "loss": 2.0876, + "step": 1075 + }, + { + "epoch": 0.023911111111111112, + "grad_norm": 1.2772685289382935, + "learning_rate": 0.00019526116914869973, + "loss": 2.2336, + "step": 1076 + }, + { + "epoch": 0.023933333333333334, + "grad_norm": 0.9529381394386292, + "learning_rate": 0.0001952567237163814, + "loss": 1.6518, + "step": 1077 + }, + { + "epoch": 0.023955555555555556, + "grad_norm": 1.26215660572052, + "learning_rate": 0.00019525227828406315, + "loss": 2.3245, + "step": 1078 + }, + { + "epoch": 0.02397777777777778, + "grad_norm": 1.1040377616882324, + "learning_rate": 0.00019524783285174483, + "loss": 1.9655, + "step": 1079 + }, + { + "epoch": 0.024, + "grad_norm": 1.2873084545135498, + "learning_rate": 0.00019524338741942654, + "loss": 2.0115, + "step": 1080 + }, + { + "epoch": 0.024022222222222223, + "grad_norm": 1.0961894989013672, + "learning_rate": 0.00019523894198710825, + "loss": 1.806, + "step": 1081 + }, + { + "epoch": 0.024044444444444445, + "grad_norm": 1.0821303129196167, + "learning_rate": 0.00019523449655478996, + "loss": 2.027, + "step": 1082 + }, + { + "epoch": 0.024066666666666667, + "grad_norm": 1.16420578956604, + "learning_rate": 0.0001952300511224717, + "loss": 2.0187, + "step": 1083 + }, + { + "epoch": 0.02408888888888889, + "grad_norm": 1.0927135944366455, + "learning_rate": 0.00019522560569015338, + "loss": 1.5185, + "step": 1084 + }, + { + "epoch": 0.02411111111111111, + "grad_norm": 1.2788599729537964, + "learning_rate": 0.00019522116025783509, + "loss": 1.8329, + "step": 1085 + }, + { + "epoch": 0.024133333333333333, + "grad_norm": 0.9920259714126587, + "learning_rate": 0.0001952167148255168, + "loss": 0.8753, + "step": 1086 + }, + { + "epoch": 0.024155555555555555, + "grad_norm": 1.2359035015106201, + "learning_rate": 0.0001952122693931985, + "loss": 2.3306, + "step": 1087 + }, + { + "epoch": 0.024177777777777777, + "grad_norm": 1.3450963497161865, + "learning_rate": 0.0001952078239608802, + "loss": 1.969, + "step": 1088 + }, + { + "epoch": 0.0242, + "grad_norm": 1.2884758710861206, + "learning_rate": 0.00019520337852856192, + "loss": 1.687, + "step": 1089 + }, + { + "epoch": 0.02422222222222222, + "grad_norm": 1.1487677097320557, + "learning_rate": 0.0001951989330962436, + "loss": 1.9651, + "step": 1090 + }, + { + "epoch": 0.024244444444444443, + "grad_norm": 1.2130123376846313, + "learning_rate": 0.00019519448766392532, + "loss": 2.0887, + "step": 1091 + }, + { + "epoch": 0.024266666666666666, + "grad_norm": 1.3776239156723022, + "learning_rate": 0.00019519004223160705, + "loss": 1.8375, + "step": 1092 + }, + { + "epoch": 0.024288888888888888, + "grad_norm": 1.2455872297286987, + "learning_rate": 0.00019518559679928874, + "loss": 1.9519, + "step": 1093 + }, + { + "epoch": 0.02431111111111111, + "grad_norm": 1.3093212842941284, + "learning_rate": 0.00019518115136697044, + "loss": 2.0387, + "step": 1094 + }, + { + "epoch": 0.024333333333333332, + "grad_norm": 1.227171778678894, + "learning_rate": 0.00019517670593465215, + "loss": 1.9908, + "step": 1095 + }, + { + "epoch": 0.024355555555555554, + "grad_norm": 1.207175374031067, + "learning_rate": 0.00019517226050233386, + "loss": 1.8354, + "step": 1096 + }, + { + "epoch": 0.02437777777777778, + "grad_norm": 1.1748722791671753, + "learning_rate": 0.00019516781507001555, + "loss": 1.6467, + "step": 1097 + }, + { + "epoch": 0.0244, + "grad_norm": 1.3979183435440063, + "learning_rate": 0.00019516336963769728, + "loss": 1.6041, + "step": 1098 + }, + { + "epoch": 0.024422222222222224, + "grad_norm": 1.6925382614135742, + "learning_rate": 0.00019515892420537897, + "loss": 0.7031, + "step": 1099 + }, + { + "epoch": 0.024444444444444446, + "grad_norm": 1.2615066766738892, + "learning_rate": 0.0001951544787730607, + "loss": 1.1416, + "step": 1100 + }, + { + "epoch": 0.024466666666666668, + "grad_norm": 1.1813077926635742, + "learning_rate": 0.0001951500333407424, + "loss": 1.403, + "step": 1101 + }, + { + "epoch": 0.02448888888888889, + "grad_norm": 1.0336699485778809, + "learning_rate": 0.0001951455879084241, + "loss": 2.6675, + "step": 1102 + }, + { + "epoch": 0.024511111111111112, + "grad_norm": 1.214032769203186, + "learning_rate": 0.00019514114247610583, + "loss": 1.8028, + "step": 1103 + }, + { + "epoch": 0.024533333333333334, + "grad_norm": 0.963882327079773, + "learning_rate": 0.00019513669704378751, + "loss": 1.9305, + "step": 1104 + }, + { + "epoch": 0.024555555555555556, + "grad_norm": 1.1044516563415527, + "learning_rate": 0.00019513225161146922, + "loss": 2.3171, + "step": 1105 + }, + { + "epoch": 0.024577777777777778, + "grad_norm": 0.985139012336731, + "learning_rate": 0.00019512780617915093, + "loss": 2.2231, + "step": 1106 + }, + { + "epoch": 0.0246, + "grad_norm": 0.9848358631134033, + "learning_rate": 0.00019512336074683264, + "loss": 2.3816, + "step": 1107 + }, + { + "epoch": 0.024622222222222222, + "grad_norm": 0.980165421962738, + "learning_rate": 0.00019511891531451435, + "loss": 2.2091, + "step": 1108 + }, + { + "epoch": 0.024644444444444445, + "grad_norm": 1.1980235576629639, + "learning_rate": 0.00019511446988219606, + "loss": 2.369, + "step": 1109 + }, + { + "epoch": 0.024666666666666667, + "grad_norm": 1.3036571741104126, + "learning_rate": 0.00019511002444987777, + "loss": 2.2841, + "step": 1110 + }, + { + "epoch": 0.02468888888888889, + "grad_norm": 1.1008864641189575, + "learning_rate": 0.00019510557901755945, + "loss": 2.2994, + "step": 1111 + }, + { + "epoch": 0.02471111111111111, + "grad_norm": 1.2121913433074951, + "learning_rate": 0.0001951011335852412, + "loss": 2.4577, + "step": 1112 + }, + { + "epoch": 0.024733333333333333, + "grad_norm": 1.0463905334472656, + "learning_rate": 0.00019509668815292287, + "loss": 2.0624, + "step": 1113 + }, + { + "epoch": 0.024755555555555555, + "grad_norm": 1.2892800569534302, + "learning_rate": 0.00019509224272060458, + "loss": 2.353, + "step": 1114 + }, + { + "epoch": 0.024777777777777777, + "grad_norm": 1.0605815649032593, + "learning_rate": 0.0001950877972882863, + "loss": 2.1136, + "step": 1115 + }, + { + "epoch": 0.0248, + "grad_norm": 1.5927958488464355, + "learning_rate": 0.000195083351855968, + "loss": 1.126, + "step": 1116 + }, + { + "epoch": 0.02482222222222222, + "grad_norm": 1.2583246231079102, + "learning_rate": 0.0001950789064236497, + "loss": 2.3797, + "step": 1117 + }, + { + "epoch": 0.024844444444444443, + "grad_norm": 1.2638978958129883, + "learning_rate": 0.00019507446099133142, + "loss": 2.0774, + "step": 1118 + }, + { + "epoch": 0.024866666666666665, + "grad_norm": 1.0343905687332153, + "learning_rate": 0.00019507001555901313, + "loss": 1.9243, + "step": 1119 + }, + { + "epoch": 0.024888888888888887, + "grad_norm": 1.281557321548462, + "learning_rate": 0.00019506557012669484, + "loss": 2.2395, + "step": 1120 + }, + { + "epoch": 0.02491111111111111, + "grad_norm": 1.052554726600647, + "learning_rate": 0.00019506112469437655, + "loss": 2.0102, + "step": 1121 + }, + { + "epoch": 0.02493333333333333, + "grad_norm": 1.2490876913070679, + "learning_rate": 0.00019505667926205823, + "loss": 2.4319, + "step": 1122 + }, + { + "epoch": 0.024955555555555557, + "grad_norm": 1.3211621046066284, + "learning_rate": 0.00019505223382973997, + "loss": 2.3475, + "step": 1123 + }, + { + "epoch": 0.02497777777777778, + "grad_norm": 0.9402294754981995, + "learning_rate": 0.00019504778839742165, + "loss": 1.7655, + "step": 1124 + }, + { + "epoch": 0.025, + "grad_norm": 1.2580010890960693, + "learning_rate": 0.00019504334296510336, + "loss": 2.4544, + "step": 1125 + }, + { + "epoch": 0.025022222222222223, + "grad_norm": 1.1899590492248535, + "learning_rate": 0.00019503889753278507, + "loss": 2.1395, + "step": 1126 + }, + { + "epoch": 0.025044444444444446, + "grad_norm": 1.2790266275405884, + "learning_rate": 0.00019503445210046678, + "loss": 2.4838, + "step": 1127 + }, + { + "epoch": 0.025066666666666668, + "grad_norm": 1.245686650276184, + "learning_rate": 0.0001950300066681485, + "loss": 2.0529, + "step": 1128 + }, + { + "epoch": 0.02508888888888889, + "grad_norm": 1.2443344593048096, + "learning_rate": 0.0001950255612358302, + "loss": 2.2989, + "step": 1129 + }, + { + "epoch": 0.025111111111111112, + "grad_norm": 1.1254640817642212, + "learning_rate": 0.0001950211158035119, + "loss": 1.0433, + "step": 1130 + }, + { + "epoch": 0.025133333333333334, + "grad_norm": 1.1890602111816406, + "learning_rate": 0.0001950166703711936, + "loss": 1.9323, + "step": 1131 + }, + { + "epoch": 0.025155555555555556, + "grad_norm": 1.330928921699524, + "learning_rate": 0.00019501222493887533, + "loss": 2.1855, + "step": 1132 + }, + { + "epoch": 0.025177777777777778, + "grad_norm": 1.2115062475204468, + "learning_rate": 0.000195007779506557, + "loss": 2.4286, + "step": 1133 + }, + { + "epoch": 0.0252, + "grad_norm": 1.2747929096221924, + "learning_rate": 0.00019500333407423872, + "loss": 2.3222, + "step": 1134 + }, + { + "epoch": 0.025222222222222222, + "grad_norm": 1.1796200275421143, + "learning_rate": 0.00019499888864192043, + "loss": 1.74, + "step": 1135 + }, + { + "epoch": 0.025244444444444444, + "grad_norm": 1.188921332359314, + "learning_rate": 0.00019499444320960214, + "loss": 1.9163, + "step": 1136 + }, + { + "epoch": 0.025266666666666666, + "grad_norm": 1.1332416534423828, + "learning_rate": 0.00019498999777728385, + "loss": 2.3866, + "step": 1137 + }, + { + "epoch": 0.02528888888888889, + "grad_norm": 1.1673275232315063, + "learning_rate": 0.00019498555234496556, + "loss": 1.9911, + "step": 1138 + }, + { + "epoch": 0.02531111111111111, + "grad_norm": 1.134661078453064, + "learning_rate": 0.00019498110691264727, + "loss": 2.1997, + "step": 1139 + }, + { + "epoch": 0.025333333333333333, + "grad_norm": 1.2574539184570312, + "learning_rate": 0.00019497666148032898, + "loss": 1.9596, + "step": 1140 + }, + { + "epoch": 0.025355555555555555, + "grad_norm": 1.228989601135254, + "learning_rate": 0.0001949722160480107, + "loss": 2.1093, + "step": 1141 + }, + { + "epoch": 0.025377777777777777, + "grad_norm": 1.3804113864898682, + "learning_rate": 0.00019496777061569237, + "loss": 1.8141, + "step": 1142 + }, + { + "epoch": 0.0254, + "grad_norm": 1.1694203615188599, + "learning_rate": 0.0001949633251833741, + "loss": 1.8447, + "step": 1143 + }, + { + "epoch": 0.02542222222222222, + "grad_norm": 1.310980200767517, + "learning_rate": 0.0001949588797510558, + "loss": 1.9746, + "step": 1144 + }, + { + "epoch": 0.025444444444444443, + "grad_norm": 1.3951598405838013, + "learning_rate": 0.0001949544343187375, + "loss": 1.2972, + "step": 1145 + }, + { + "epoch": 0.025466666666666665, + "grad_norm": 1.416224718093872, + "learning_rate": 0.0001949499888864192, + "loss": 2.1878, + "step": 1146 + }, + { + "epoch": 0.025488888888888887, + "grad_norm": 1.3105324506759644, + "learning_rate": 0.00019494554345410092, + "loss": 1.8619, + "step": 1147 + }, + { + "epoch": 0.02551111111111111, + "grad_norm": 1.3476706743240356, + "learning_rate": 0.00019494109802178263, + "loss": 1.8611, + "step": 1148 + }, + { + "epoch": 0.025533333333333335, + "grad_norm": 1.3699945211410522, + "learning_rate": 0.00019493665258946434, + "loss": 1.6287, + "step": 1149 + }, + { + "epoch": 0.025555555555555557, + "grad_norm": 1.2437164783477783, + "learning_rate": 0.00019493220715714605, + "loss": 0.8335, + "step": 1150 + }, + { + "epoch": 0.02557777777777778, + "grad_norm": 1.1608917713165283, + "learning_rate": 0.00019492776172482773, + "loss": 2.7488, + "step": 1151 + }, + { + "epoch": 0.0256, + "grad_norm": 1.418111801147461, + "learning_rate": 0.00019492331629250947, + "loss": 1.6998, + "step": 1152 + }, + { + "epoch": 0.025622222222222223, + "grad_norm": 1.16179621219635, + "learning_rate": 0.00019491887086019115, + "loss": 2.8624, + "step": 1153 + }, + { + "epoch": 0.025644444444444445, + "grad_norm": 1.1213630437850952, + "learning_rate": 0.00019491442542787286, + "loss": 2.5019, + "step": 1154 + }, + { + "epoch": 0.025666666666666667, + "grad_norm": 1.0603446960449219, + "learning_rate": 0.00019490997999555457, + "loss": 2.2936, + "step": 1155 + }, + { + "epoch": 0.02568888888888889, + "grad_norm": 1.340588927268982, + "learning_rate": 0.00019490553456323628, + "loss": 2.6255, + "step": 1156 + }, + { + "epoch": 0.02571111111111111, + "grad_norm": 1.236148715019226, + "learning_rate": 0.00019490108913091802, + "loss": 3.0501, + "step": 1157 + }, + { + "epoch": 0.025733333333333334, + "grad_norm": 1.0395097732543945, + "learning_rate": 0.0001948966436985997, + "loss": 2.1866, + "step": 1158 + }, + { + "epoch": 0.025755555555555556, + "grad_norm": 1.3539642095565796, + "learning_rate": 0.0001948921982662814, + "loss": 1.3182, + "step": 1159 + }, + { + "epoch": 0.025777777777777778, + "grad_norm": 1.3083500862121582, + "learning_rate": 0.00019488775283396312, + "loss": 2.6018, + "step": 1160 + }, + { + "epoch": 0.0258, + "grad_norm": 1.0796172618865967, + "learning_rate": 0.00019488330740164483, + "loss": 2.6513, + "step": 1161 + }, + { + "epoch": 0.025822222222222222, + "grad_norm": 1.2697334289550781, + "learning_rate": 0.0001948788619693265, + "loss": 2.2013, + "step": 1162 + }, + { + "epoch": 0.025844444444444444, + "grad_norm": 1.0582184791564941, + "learning_rate": 0.00019487441653700825, + "loss": 2.0292, + "step": 1163 + }, + { + "epoch": 0.025866666666666666, + "grad_norm": 1.3058019876480103, + "learning_rate": 0.00019486997110468993, + "loss": 2.8424, + "step": 1164 + }, + { + "epoch": 0.02588888888888889, + "grad_norm": 1.2775273323059082, + "learning_rate": 0.00019486552567237164, + "loss": 2.2763, + "step": 1165 + }, + { + "epoch": 0.02591111111111111, + "grad_norm": 1.0722092390060425, + "learning_rate": 0.00019486108024005337, + "loss": 2.1916, + "step": 1166 + }, + { + "epoch": 0.025933333333333333, + "grad_norm": 1.059139609336853, + "learning_rate": 0.00019485663480773506, + "loss": 1.8808, + "step": 1167 + }, + { + "epoch": 0.025955555555555555, + "grad_norm": 1.2093608379364014, + "learning_rate": 0.00019485218937541677, + "loss": 1.1219, + "step": 1168 + }, + { + "epoch": 0.025977777777777777, + "grad_norm": 1.1014114618301392, + "learning_rate": 0.00019484774394309848, + "loss": 1.9382, + "step": 1169 + }, + { + "epoch": 0.026, + "grad_norm": 1.217060923576355, + "learning_rate": 0.00019484329851078019, + "loss": 1.9028, + "step": 1170 + }, + { + "epoch": 0.02602222222222222, + "grad_norm": 1.2138227224349976, + "learning_rate": 0.00019483885307846187, + "loss": 1.6307, + "step": 1171 + }, + { + "epoch": 0.026044444444444443, + "grad_norm": 1.1286808252334595, + "learning_rate": 0.0001948344076461436, + "loss": 2.0932, + "step": 1172 + }, + { + "epoch": 0.026066666666666665, + "grad_norm": 1.077871322631836, + "learning_rate": 0.0001948299622138253, + "loss": 2.1862, + "step": 1173 + }, + { + "epoch": 0.026088888888888887, + "grad_norm": 1.0957635641098022, + "learning_rate": 0.000194825516781507, + "loss": 2.355, + "step": 1174 + }, + { + "epoch": 0.026111111111111113, + "grad_norm": 1.175184726715088, + "learning_rate": 0.00019482107134918873, + "loss": 2.2048, + "step": 1175 + }, + { + "epoch": 0.026133333333333335, + "grad_norm": 1.0757033824920654, + "learning_rate": 0.00019481662591687042, + "loss": 1.9491, + "step": 1176 + }, + { + "epoch": 0.026155555555555557, + "grad_norm": 1.245074987411499, + "learning_rate": 0.00019481218048455215, + "loss": 2.4058, + "step": 1177 + }, + { + "epoch": 0.02617777777777778, + "grad_norm": 1.2693395614624023, + "learning_rate": 0.00019480773505223384, + "loss": 1.8193, + "step": 1178 + }, + { + "epoch": 0.0262, + "grad_norm": 3.4802279472351074, + "learning_rate": 0.00019480328961991555, + "loss": 2.3058, + "step": 1179 + }, + { + "epoch": 0.026222222222222223, + "grad_norm": 1.3163621425628662, + "learning_rate": 0.00019479884418759726, + "loss": 1.9709, + "step": 1180 + }, + { + "epoch": 0.026244444444444445, + "grad_norm": 1.238189697265625, + "learning_rate": 0.00019479439875527896, + "loss": 2.1445, + "step": 1181 + }, + { + "epoch": 0.026266666666666667, + "grad_norm": 1.2765611410140991, + "learning_rate": 0.00019478995332296067, + "loss": 2.4536, + "step": 1182 + }, + { + "epoch": 0.02628888888888889, + "grad_norm": 1.5361064672470093, + "learning_rate": 0.00019478550789064238, + "loss": 2.2518, + "step": 1183 + }, + { + "epoch": 0.02631111111111111, + "grad_norm": 1.3082013130187988, + "learning_rate": 0.0001947810624583241, + "loss": 2.1818, + "step": 1184 + }, + { + "epoch": 0.026333333333333334, + "grad_norm": 1.2827892303466797, + "learning_rate": 0.00019477661702600578, + "loss": 2.4141, + "step": 1185 + }, + { + "epoch": 0.026355555555555556, + "grad_norm": 1.220987319946289, + "learning_rate": 0.0001947721715936875, + "loss": 1.9836, + "step": 1186 + }, + { + "epoch": 0.026377777777777778, + "grad_norm": 1.1629095077514648, + "learning_rate": 0.0001947677261613692, + "loss": 1.8445, + "step": 1187 + }, + { + "epoch": 0.0264, + "grad_norm": 1.3694647550582886, + "learning_rate": 0.0001947632807290509, + "loss": 2.7007, + "step": 1188 + }, + { + "epoch": 0.026422222222222222, + "grad_norm": 1.1854382753372192, + "learning_rate": 0.00019475883529673261, + "loss": 1.6938, + "step": 1189 + }, + { + "epoch": 0.026444444444444444, + "grad_norm": 1.101824402809143, + "learning_rate": 0.00019475438986441432, + "loss": 1.7714, + "step": 1190 + }, + { + "epoch": 0.026466666666666666, + "grad_norm": 1.2787611484527588, + "learning_rate": 0.00019474994443209603, + "loss": 2.2184, + "step": 1191 + }, + { + "epoch": 0.026488888888888888, + "grad_norm": 1.3073357343673706, + "learning_rate": 0.00019474549899977774, + "loss": 1.6379, + "step": 1192 + }, + { + "epoch": 0.02651111111111111, + "grad_norm": 1.2038830518722534, + "learning_rate": 0.00019474105356745945, + "loss": 1.8835, + "step": 1193 + }, + { + "epoch": 0.026533333333333332, + "grad_norm": 1.2815767526626587, + "learning_rate": 0.00019473660813514114, + "loss": 1.9622, + "step": 1194 + }, + { + "epoch": 0.026555555555555554, + "grad_norm": 1.0407130718231201, + "learning_rate": 0.00019473216270282287, + "loss": 1.5951, + "step": 1195 + }, + { + "epoch": 0.026577777777777777, + "grad_norm": 1.453759789466858, + "learning_rate": 0.00019472771727050455, + "loss": 1.038, + "step": 1196 + }, + { + "epoch": 0.0266, + "grad_norm": 1.2668274641036987, + "learning_rate": 0.0001947232718381863, + "loss": 1.9063, + "step": 1197 + }, + { + "epoch": 0.02662222222222222, + "grad_norm": 1.4073950052261353, + "learning_rate": 0.00019471882640586797, + "loss": 2.1085, + "step": 1198 + }, + { + "epoch": 0.026644444444444443, + "grad_norm": 1.3361334800720215, + "learning_rate": 0.00019471438097354968, + "loss": 1.3393, + "step": 1199 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 0.722981333732605, + "learning_rate": 0.0001947099355412314, + "loss": 0.0912, + "step": 1200 + }, + { + "epoch": 0.02668888888888889, + "grad_norm": 0.9477525949478149, + "learning_rate": 0.0001947054901089131, + "loss": 2.5653, + "step": 1201 + }, + { + "epoch": 0.026711111111111113, + "grad_norm": 1.0072487592697144, + "learning_rate": 0.0001947010446765948, + "loss": 2.4661, + "step": 1202 + }, + { + "epoch": 0.026733333333333335, + "grad_norm": 1.0508699417114258, + "learning_rate": 0.00019469659924427652, + "loss": 1.3733, + "step": 1203 + }, + { + "epoch": 0.026755555555555557, + "grad_norm": 1.0274931192398071, + "learning_rate": 0.00019469215381195823, + "loss": 2.2663, + "step": 1204 + }, + { + "epoch": 0.02677777777777778, + "grad_norm": 0.8572414517402649, + "learning_rate": 0.00019468770837963991, + "loss": 2.1395, + "step": 1205 + }, + { + "epoch": 0.0268, + "grad_norm": 1.1803396940231323, + "learning_rate": 0.00019468326294732165, + "loss": 2.0215, + "step": 1206 + }, + { + "epoch": 0.026822222222222223, + "grad_norm": 1.150394082069397, + "learning_rate": 0.00019467881751500333, + "loss": 2.0467, + "step": 1207 + }, + { + "epoch": 0.026844444444444445, + "grad_norm": 1.0651057958602905, + "learning_rate": 0.00019467437208268504, + "loss": 2.5328, + "step": 1208 + }, + { + "epoch": 0.026866666666666667, + "grad_norm": 1.0690408945083618, + "learning_rate": 0.00019466992665036675, + "loss": 2.4902, + "step": 1209 + }, + { + "epoch": 0.02688888888888889, + "grad_norm": 1.0403834581375122, + "learning_rate": 0.00019466548121804846, + "loss": 2.024, + "step": 1210 + }, + { + "epoch": 0.02691111111111111, + "grad_norm": 1.1264804601669312, + "learning_rate": 0.00019466103578573017, + "loss": 2.1916, + "step": 1211 + }, + { + "epoch": 0.026933333333333333, + "grad_norm": 1.1276426315307617, + "learning_rate": 0.00019465659035341188, + "loss": 1.9421, + "step": 1212 + }, + { + "epoch": 0.026955555555555556, + "grad_norm": 1.0314738750457764, + "learning_rate": 0.0001946521449210936, + "loss": 2.1186, + "step": 1213 + }, + { + "epoch": 0.026977777777777778, + "grad_norm": 1.1098157167434692, + "learning_rate": 0.0001946476994887753, + "loss": 2.3507, + "step": 1214 + }, + { + "epoch": 0.027, + "grad_norm": 1.0965838432312012, + "learning_rate": 0.000194643254056457, + "loss": 2.2288, + "step": 1215 + }, + { + "epoch": 0.027022222222222222, + "grad_norm": 1.1094284057617188, + "learning_rate": 0.0001946388086241387, + "loss": 1.9247, + "step": 1216 + }, + { + "epoch": 0.027044444444444444, + "grad_norm": 1.1005126237869263, + "learning_rate": 0.00019463436319182043, + "loss": 2.0896, + "step": 1217 + }, + { + "epoch": 0.027066666666666666, + "grad_norm": 1.2850568294525146, + "learning_rate": 0.0001946299177595021, + "loss": 2.2682, + "step": 1218 + }, + { + "epoch": 0.027088888888888888, + "grad_norm": 1.1261446475982666, + "learning_rate": 0.00019462547232718382, + "loss": 2.4721, + "step": 1219 + }, + { + "epoch": 0.02711111111111111, + "grad_norm": 1.5027034282684326, + "learning_rate": 0.00019462102689486553, + "loss": 2.1297, + "step": 1220 + }, + { + "epoch": 0.027133333333333332, + "grad_norm": 1.2198916673660278, + "learning_rate": 0.00019461658146254724, + "loss": 2.3307, + "step": 1221 + }, + { + "epoch": 0.027155555555555554, + "grad_norm": 1.075852394104004, + "learning_rate": 0.00019461213603022895, + "loss": 2.0701, + "step": 1222 + }, + { + "epoch": 0.027177777777777776, + "grad_norm": 1.1298670768737793, + "learning_rate": 0.00019460769059791066, + "loss": 1.991, + "step": 1223 + }, + { + "epoch": 0.0272, + "grad_norm": 1.411704421043396, + "learning_rate": 0.00019460324516559237, + "loss": 2.2112, + "step": 1224 + }, + { + "epoch": 0.02722222222222222, + "grad_norm": 1.1783915758132935, + "learning_rate": 0.00019459879973327405, + "loss": 2.4095, + "step": 1225 + }, + { + "epoch": 0.027244444444444446, + "grad_norm": 1.1365594863891602, + "learning_rate": 0.0001945943543009558, + "loss": 2.2751, + "step": 1226 + }, + { + "epoch": 0.027266666666666668, + "grad_norm": 1.2395154237747192, + "learning_rate": 0.00019458990886863747, + "loss": 2.1341, + "step": 1227 + }, + { + "epoch": 0.02728888888888889, + "grad_norm": 1.252860188484192, + "learning_rate": 0.00019458546343631918, + "loss": 2.3777, + "step": 1228 + }, + { + "epoch": 0.027311111111111112, + "grad_norm": 1.1773203611373901, + "learning_rate": 0.0001945810180040009, + "loss": 2.0601, + "step": 1229 + }, + { + "epoch": 0.027333333333333334, + "grad_norm": 1.3787094354629517, + "learning_rate": 0.0001945765725716826, + "loss": 2.1147, + "step": 1230 + }, + { + "epoch": 0.027355555555555557, + "grad_norm": 1.217552900314331, + "learning_rate": 0.0001945721271393643, + "loss": 2.2812, + "step": 1231 + }, + { + "epoch": 0.02737777777777778, + "grad_norm": 1.1576565504074097, + "learning_rate": 0.00019456768170704602, + "loss": 2.1256, + "step": 1232 + }, + { + "epoch": 0.0274, + "grad_norm": 1.292887806892395, + "learning_rate": 0.00019456323627472773, + "loss": 0.8771, + "step": 1233 + }, + { + "epoch": 0.027422222222222223, + "grad_norm": 1.1745291948318481, + "learning_rate": 0.00019455879084240944, + "loss": 2.2621, + "step": 1234 + }, + { + "epoch": 0.027444444444444445, + "grad_norm": 1.247001051902771, + "learning_rate": 0.00019455434541009115, + "loss": 2.1468, + "step": 1235 + }, + { + "epoch": 0.027466666666666667, + "grad_norm": 1.190625786781311, + "learning_rate": 0.00019454989997777283, + "loss": 2.0587, + "step": 1236 + }, + { + "epoch": 0.02748888888888889, + "grad_norm": 1.2214797735214233, + "learning_rate": 0.00019454545454545457, + "loss": 1.781, + "step": 1237 + }, + { + "epoch": 0.02751111111111111, + "grad_norm": 1.5960838794708252, + "learning_rate": 0.00019454100911313625, + "loss": 1.8179, + "step": 1238 + }, + { + "epoch": 0.027533333333333333, + "grad_norm": 1.4947317838668823, + "learning_rate": 0.00019453656368081796, + "loss": 2.188, + "step": 1239 + }, + { + "epoch": 0.027555555555555555, + "grad_norm": 1.273147702217102, + "learning_rate": 0.0001945321182484997, + "loss": 2.0963, + "step": 1240 + }, + { + "epoch": 0.027577777777777777, + "grad_norm": 1.2269686460494995, + "learning_rate": 0.00019452767281618138, + "loss": 1.8463, + "step": 1241 + }, + { + "epoch": 0.0276, + "grad_norm": 1.2647767066955566, + "learning_rate": 0.0001945232273838631, + "loss": 1.8809, + "step": 1242 + }, + { + "epoch": 0.02762222222222222, + "grad_norm": 1.1288484334945679, + "learning_rate": 0.0001945187819515448, + "loss": 1.906, + "step": 1243 + }, + { + "epoch": 0.027644444444444444, + "grad_norm": 1.302137017250061, + "learning_rate": 0.0001945143365192265, + "loss": 2.0066, + "step": 1244 + }, + { + "epoch": 0.027666666666666666, + "grad_norm": 1.2215266227722168, + "learning_rate": 0.0001945098910869082, + "loss": 1.9374, + "step": 1245 + }, + { + "epoch": 0.027688888888888888, + "grad_norm": 1.2269611358642578, + "learning_rate": 0.00019450544565458993, + "loss": 2.0781, + "step": 1246 + }, + { + "epoch": 0.02771111111111111, + "grad_norm": 1.2925721406936646, + "learning_rate": 0.0001945010002222716, + "loss": 1.8259, + "step": 1247 + }, + { + "epoch": 0.027733333333333332, + "grad_norm": 1.4025661945343018, + "learning_rate": 0.00019449655478995332, + "loss": 2.0066, + "step": 1248 + }, + { + "epoch": 0.027755555555555554, + "grad_norm": 1.3912101984024048, + "learning_rate": 0.00019449210935763506, + "loss": 1.9679, + "step": 1249 + }, + { + "epoch": 0.027777777777777776, + "grad_norm": 1.420652985572815, + "learning_rate": 0.00019448766392531674, + "loss": 1.7046, + "step": 1250 + }, + { + "epoch": 0.0278, + "grad_norm": 0.873573362827301, + "learning_rate": 0.00019448321849299845, + "loss": 2.1924, + "step": 1251 + }, + { + "epoch": 0.027822222222222224, + "grad_norm": 1.0372943878173828, + "learning_rate": 0.00019447877306068016, + "loss": 2.2954, + "step": 1252 + }, + { + "epoch": 0.027844444444444446, + "grad_norm": 1.1162431240081787, + "learning_rate": 0.00019447432762836187, + "loss": 2.8007, + "step": 1253 + }, + { + "epoch": 0.027866666666666668, + "grad_norm": 0.9934016466140747, + "learning_rate": 0.00019446988219604358, + "loss": 2.2842, + "step": 1254 + }, + { + "epoch": 0.02788888888888889, + "grad_norm": 1.0474344491958618, + "learning_rate": 0.0001944654367637253, + "loss": 2.2648, + "step": 1255 + }, + { + "epoch": 0.027911111111111112, + "grad_norm": 0.996784508228302, + "learning_rate": 0.000194460991331407, + "loss": 2.2121, + "step": 1256 + }, + { + "epoch": 0.027933333333333334, + "grad_norm": 1.0645532608032227, + "learning_rate": 0.0001944565458990887, + "loss": 2.2929, + "step": 1257 + }, + { + "epoch": 0.027955555555555556, + "grad_norm": 0.9318027496337891, + "learning_rate": 0.00019445210046677042, + "loss": 1.7996, + "step": 1258 + }, + { + "epoch": 0.02797777777777778, + "grad_norm": 1.061118483543396, + "learning_rate": 0.0001944476550344521, + "loss": 2.3344, + "step": 1259 + }, + { + "epoch": 0.028, + "grad_norm": 0.9383622407913208, + "learning_rate": 0.00019444320960213383, + "loss": 2.1927, + "step": 1260 + }, + { + "epoch": 0.028022222222222223, + "grad_norm": 1.0568608045578003, + "learning_rate": 0.00019443876416981552, + "loss": 2.3142, + "step": 1261 + }, + { + "epoch": 0.028044444444444445, + "grad_norm": 1.0255627632141113, + "learning_rate": 0.00019443431873749723, + "loss": 2.3116, + "step": 1262 + }, + { + "epoch": 0.028066666666666667, + "grad_norm": 1.041566014289856, + "learning_rate": 0.00019442987330517894, + "loss": 2.3714, + "step": 1263 + }, + { + "epoch": 0.02808888888888889, + "grad_norm": 0.9897044897079468, + "learning_rate": 0.00019442542787286065, + "loss": 1.7907, + "step": 1264 + }, + { + "epoch": 0.02811111111111111, + "grad_norm": 1.1739486455917358, + "learning_rate": 0.00019442098244054236, + "loss": 2.2275, + "step": 1265 + }, + { + "epoch": 0.028133333333333333, + "grad_norm": 1.1079760789871216, + "learning_rate": 0.00019441653700822407, + "loss": 1.8037, + "step": 1266 + }, + { + "epoch": 0.028155555555555555, + "grad_norm": 1.1482577323913574, + "learning_rate": 0.00019441209157590578, + "loss": 2.6314, + "step": 1267 + }, + { + "epoch": 0.028177777777777777, + "grad_norm": 1.2702312469482422, + "learning_rate": 0.00019440764614358746, + "loss": 2.4174, + "step": 1268 + }, + { + "epoch": 0.0282, + "grad_norm": 1.071201205253601, + "learning_rate": 0.0001944032007112692, + "loss": 2.1592, + "step": 1269 + }, + { + "epoch": 0.02822222222222222, + "grad_norm": 1.2168118953704834, + "learning_rate": 0.00019439875527895088, + "loss": 1.3144, + "step": 1270 + }, + { + "epoch": 0.028244444444444444, + "grad_norm": 0.9309527277946472, + "learning_rate": 0.00019439430984663261, + "loss": 0.9456, + "step": 1271 + }, + { + "epoch": 0.028266666666666666, + "grad_norm": 1.0577387809753418, + "learning_rate": 0.0001943898644143143, + "loss": 1.7066, + "step": 1272 + }, + { + "epoch": 0.028288888888888888, + "grad_norm": 1.4418216943740845, + "learning_rate": 0.000194385418981996, + "loss": 1.0888, + "step": 1273 + }, + { + "epoch": 0.02831111111111111, + "grad_norm": 1.1914469003677368, + "learning_rate": 0.00019438097354967772, + "loss": 2.3328, + "step": 1274 + }, + { + "epoch": 0.028333333333333332, + "grad_norm": 1.2854276895523071, + "learning_rate": 0.00019437652811735942, + "loss": 2.004, + "step": 1275 + }, + { + "epoch": 0.028355555555555554, + "grad_norm": 1.3212635517120361, + "learning_rate": 0.00019437208268504113, + "loss": 2.2386, + "step": 1276 + }, + { + "epoch": 0.028377777777777776, + "grad_norm": 1.329047441482544, + "learning_rate": 0.00019436763725272284, + "loss": 2.1721, + "step": 1277 + }, + { + "epoch": 0.0284, + "grad_norm": 1.1866283416748047, + "learning_rate": 0.00019436319182040455, + "loss": 1.9114, + "step": 1278 + }, + { + "epoch": 0.028422222222222224, + "grad_norm": 1.1386148929595947, + "learning_rate": 0.00019435874638808624, + "loss": 2.1556, + "step": 1279 + }, + { + "epoch": 0.028444444444444446, + "grad_norm": 1.3197382688522339, + "learning_rate": 0.00019435430095576797, + "loss": 2.1826, + "step": 1280 + }, + { + "epoch": 0.028466666666666668, + "grad_norm": 1.2695705890655518, + "learning_rate": 0.00019434985552344966, + "loss": 2.3299, + "step": 1281 + }, + { + "epoch": 0.02848888888888889, + "grad_norm": 1.1248879432678223, + "learning_rate": 0.00019434541009113137, + "loss": 1.991, + "step": 1282 + }, + { + "epoch": 0.028511111111111112, + "grad_norm": 1.207562804222107, + "learning_rate": 0.00019434096465881307, + "loss": 1.9923, + "step": 1283 + }, + { + "epoch": 0.028533333333333334, + "grad_norm": 1.2124333381652832, + "learning_rate": 0.00019433651922649478, + "loss": 1.8989, + "step": 1284 + }, + { + "epoch": 0.028555555555555556, + "grad_norm": 1.1476439237594604, + "learning_rate": 0.0001943320737941765, + "loss": 2.1744, + "step": 1285 + }, + { + "epoch": 0.02857777777777778, + "grad_norm": 1.2253168821334839, + "learning_rate": 0.0001943276283618582, + "loss": 1.6782, + "step": 1286 + }, + { + "epoch": 0.0286, + "grad_norm": 1.1378833055496216, + "learning_rate": 0.0001943231829295399, + "loss": 1.8959, + "step": 1287 + }, + { + "epoch": 0.028622222222222223, + "grad_norm": 1.2446284294128418, + "learning_rate": 0.0001943187374972216, + "loss": 1.6362, + "step": 1288 + }, + { + "epoch": 0.028644444444444445, + "grad_norm": 1.1923396587371826, + "learning_rate": 0.00019431429206490333, + "loss": 1.9344, + "step": 1289 + }, + { + "epoch": 0.028666666666666667, + "grad_norm": 1.3250138759613037, + "learning_rate": 0.00019430984663258502, + "loss": 2.1485, + "step": 1290 + }, + { + "epoch": 0.02868888888888889, + "grad_norm": 1.3882908821105957, + "learning_rate": 0.00019430540120026675, + "loss": 2.0631, + "step": 1291 + }, + { + "epoch": 0.02871111111111111, + "grad_norm": 1.109960675239563, + "learning_rate": 0.00019430095576794843, + "loss": 1.7864, + "step": 1292 + }, + { + "epoch": 0.028733333333333333, + "grad_norm": 1.1570818424224854, + "learning_rate": 0.00019429651033563014, + "loss": 1.874, + "step": 1293 + }, + { + "epoch": 0.028755555555555555, + "grad_norm": 1.2383424043655396, + "learning_rate": 0.00019429206490331185, + "loss": 1.7137, + "step": 1294 + }, + { + "epoch": 0.028777777777777777, + "grad_norm": 1.4392592906951904, + "learning_rate": 0.00019428761947099356, + "loss": 2.069, + "step": 1295 + }, + { + "epoch": 0.0288, + "grad_norm": 1.1795039176940918, + "learning_rate": 0.00019428317403867527, + "loss": 1.9236, + "step": 1296 + }, + { + "epoch": 0.02882222222222222, + "grad_norm": 1.4787060022354126, + "learning_rate": 0.00019427872860635698, + "loss": 1.7577, + "step": 1297 + }, + { + "epoch": 0.028844444444444443, + "grad_norm": 1.6893764734268188, + "learning_rate": 0.0001942742831740387, + "loss": 1.1434, + "step": 1298 + }, + { + "epoch": 0.028866666666666665, + "grad_norm": 1.3988735675811768, + "learning_rate": 0.00019426983774172037, + "loss": 2.3227, + "step": 1299 + }, + { + "epoch": 0.028888888888888888, + "grad_norm": 1.283385992050171, + "learning_rate": 0.0001942653923094021, + "loss": 1.8439, + "step": 1300 + }, + { + "epoch": 0.02891111111111111, + "grad_norm": 1.0307422876358032, + "learning_rate": 0.0001942609468770838, + "loss": 2.5915, + "step": 1301 + }, + { + "epoch": 0.028933333333333332, + "grad_norm": 0.9281454086303711, + "learning_rate": 0.0001942565014447655, + "loss": 2.0899, + "step": 1302 + }, + { + "epoch": 0.028955555555555554, + "grad_norm": 1.477432370185852, + "learning_rate": 0.0001942520560124472, + "loss": 1.8982, + "step": 1303 + }, + { + "epoch": 0.02897777777777778, + "grad_norm": 1.2103277444839478, + "learning_rate": 0.00019424761058012892, + "loss": 2.3121, + "step": 1304 + }, + { + "epoch": 0.029, + "grad_norm": 1.067357063293457, + "learning_rate": 0.00019424316514781063, + "loss": 2.3956, + "step": 1305 + }, + { + "epoch": 0.029022222222222224, + "grad_norm": 1.192233681678772, + "learning_rate": 0.00019423871971549234, + "loss": 2.455, + "step": 1306 + }, + { + "epoch": 0.029044444444444446, + "grad_norm": 0.9351183176040649, + "learning_rate": 0.00019423427428317405, + "loss": 2.0264, + "step": 1307 + }, + { + "epoch": 0.029066666666666668, + "grad_norm": 1.0555620193481445, + "learning_rate": 0.00019422982885085573, + "loss": 2.33, + "step": 1308 + }, + { + "epoch": 0.02908888888888889, + "grad_norm": 1.138730764389038, + "learning_rate": 0.00019422538341853747, + "loss": 2.3118, + "step": 1309 + }, + { + "epoch": 0.029111111111111112, + "grad_norm": 1.0002659559249878, + "learning_rate": 0.00019422093798621915, + "loss": 2.0643, + "step": 1310 + }, + { + "epoch": 0.029133333333333334, + "grad_norm": 1.4970694780349731, + "learning_rate": 0.0001942164925539009, + "loss": 2.5997, + "step": 1311 + }, + { + "epoch": 0.029155555555555556, + "grad_norm": 1.0206420421600342, + "learning_rate": 0.00019421204712158257, + "loss": 1.9943, + "step": 1312 + }, + { + "epoch": 0.029177777777777778, + "grad_norm": 1.2522320747375488, + "learning_rate": 0.00019420760168926428, + "loss": 1.8723, + "step": 1313 + }, + { + "epoch": 0.0292, + "grad_norm": 1.070694088935852, + "learning_rate": 0.00019420315625694602, + "loss": 1.824, + "step": 1314 + }, + { + "epoch": 0.029222222222222222, + "grad_norm": 1.1262892484664917, + "learning_rate": 0.0001941987108246277, + "loss": 2.2919, + "step": 1315 + }, + { + "epoch": 0.029244444444444444, + "grad_norm": 1.1852346658706665, + "learning_rate": 0.0001941942653923094, + "loss": 2.0717, + "step": 1316 + }, + { + "epoch": 0.029266666666666667, + "grad_norm": 1.2012149095535278, + "learning_rate": 0.00019418981995999112, + "loss": 1.5736, + "step": 1317 + }, + { + "epoch": 0.02928888888888889, + "grad_norm": 1.2120734453201294, + "learning_rate": 0.00019418537452767283, + "loss": 2.1194, + "step": 1318 + }, + { + "epoch": 0.02931111111111111, + "grad_norm": 1.255656123161316, + "learning_rate": 0.0001941809290953545, + "loss": 1.9347, + "step": 1319 + }, + { + "epoch": 0.029333333333333333, + "grad_norm": 1.1959623098373413, + "learning_rate": 0.00019417648366303625, + "loss": 1.9494, + "step": 1320 + }, + { + "epoch": 0.029355555555555555, + "grad_norm": 1.16342031955719, + "learning_rate": 0.00019417203823071793, + "loss": 1.9815, + "step": 1321 + }, + { + "epoch": 0.029377777777777777, + "grad_norm": 1.1828595399856567, + "learning_rate": 0.00019416759279839964, + "loss": 2.1597, + "step": 1322 + }, + { + "epoch": 0.0294, + "grad_norm": 1.2549855709075928, + "learning_rate": 0.00019416314736608138, + "loss": 1.7943, + "step": 1323 + }, + { + "epoch": 0.02942222222222222, + "grad_norm": 1.229993224143982, + "learning_rate": 0.00019415870193376306, + "loss": 2.6202, + "step": 1324 + }, + { + "epoch": 0.029444444444444443, + "grad_norm": 1.1661776304244995, + "learning_rate": 0.00019415425650144477, + "loss": 1.9805, + "step": 1325 + }, + { + "epoch": 0.029466666666666665, + "grad_norm": 1.3411319255828857, + "learning_rate": 0.00019414981106912648, + "loss": 2.3422, + "step": 1326 + }, + { + "epoch": 0.029488888888888887, + "grad_norm": 1.3102893829345703, + "learning_rate": 0.0001941453656368082, + "loss": 2.0509, + "step": 1327 + }, + { + "epoch": 0.02951111111111111, + "grad_norm": 1.2834891080856323, + "learning_rate": 0.0001941409202044899, + "loss": 2.0528, + "step": 1328 + }, + { + "epoch": 0.029533333333333335, + "grad_norm": 1.2266889810562134, + "learning_rate": 0.0001941364747721716, + "loss": 1.7905, + "step": 1329 + }, + { + "epoch": 0.029555555555555557, + "grad_norm": 1.1042407751083374, + "learning_rate": 0.00019413202933985332, + "loss": 2.0377, + "step": 1330 + }, + { + "epoch": 0.02957777777777778, + "grad_norm": 1.2236758470535278, + "learning_rate": 0.00019412758390753503, + "loss": 1.6366, + "step": 1331 + }, + { + "epoch": 0.0296, + "grad_norm": 1.1336673498153687, + "learning_rate": 0.00019412313847521674, + "loss": 1.9529, + "step": 1332 + }, + { + "epoch": 0.029622222222222223, + "grad_norm": 1.3581266403198242, + "learning_rate": 0.00019411869304289842, + "loss": 1.6828, + "step": 1333 + }, + { + "epoch": 0.029644444444444445, + "grad_norm": 1.4858201742172241, + "learning_rate": 0.00019411424761058016, + "loss": 2.3644, + "step": 1334 + }, + { + "epoch": 0.029666666666666668, + "grad_norm": 1.1644988059997559, + "learning_rate": 0.00019410980217826184, + "loss": 1.9407, + "step": 1335 + }, + { + "epoch": 0.02968888888888889, + "grad_norm": 1.2442271709442139, + "learning_rate": 0.00019410535674594355, + "loss": 1.9879, + "step": 1336 + }, + { + "epoch": 0.029711111111111112, + "grad_norm": 1.237561821937561, + "learning_rate": 0.00019410091131362526, + "loss": 1.9786, + "step": 1337 + }, + { + "epoch": 0.029733333333333334, + "grad_norm": 1.1545387506484985, + "learning_rate": 0.00019409646588130697, + "loss": 2.0242, + "step": 1338 + }, + { + "epoch": 0.029755555555555556, + "grad_norm": 1.2471667528152466, + "learning_rate": 0.00019409202044898868, + "loss": 2.0459, + "step": 1339 + }, + { + "epoch": 0.029777777777777778, + "grad_norm": 1.1206274032592773, + "learning_rate": 0.0001940875750166704, + "loss": 1.5895, + "step": 1340 + }, + { + "epoch": 0.0298, + "grad_norm": 1.1637393236160278, + "learning_rate": 0.0001940831295843521, + "loss": 1.8555, + "step": 1341 + }, + { + "epoch": 0.029822222222222222, + "grad_norm": 1.1165112257003784, + "learning_rate": 0.00019407868415203378, + "loss": 1.8365, + "step": 1342 + }, + { + "epoch": 0.029844444444444444, + "grad_norm": 1.1864840984344482, + "learning_rate": 0.00019407423871971552, + "loss": 1.9016, + "step": 1343 + }, + { + "epoch": 0.029866666666666666, + "grad_norm": 1.2702369689941406, + "learning_rate": 0.0001940697932873972, + "loss": 2.1275, + "step": 1344 + }, + { + "epoch": 0.02988888888888889, + "grad_norm": 1.359662413597107, + "learning_rate": 0.0001940653478550789, + "loss": 1.8477, + "step": 1345 + }, + { + "epoch": 0.02991111111111111, + "grad_norm": 1.097072720527649, + "learning_rate": 0.00019406090242276062, + "loss": 1.0999, + "step": 1346 + }, + { + "epoch": 0.029933333333333333, + "grad_norm": 1.7537930011749268, + "learning_rate": 0.00019405645699044233, + "loss": 1.8284, + "step": 1347 + }, + { + "epoch": 0.029955555555555555, + "grad_norm": 1.150568962097168, + "learning_rate": 0.00019405201155812404, + "loss": 1.2282, + "step": 1348 + }, + { + "epoch": 0.029977777777777777, + "grad_norm": 1.365552544593811, + "learning_rate": 0.00019404756612580575, + "loss": 1.7724, + "step": 1349 + }, + { + "epoch": 0.03, + "grad_norm": 1.4891812801361084, + "learning_rate": 0.00019404312069348746, + "loss": 1.3562, + "step": 1350 + }, + { + "epoch": 0.03002222222222222, + "grad_norm": 1.115997552871704, + "learning_rate": 0.00019403867526116917, + "loss": 2.498, + "step": 1351 + }, + { + "epoch": 0.030044444444444443, + "grad_norm": 1.1016743183135986, + "learning_rate": 0.00019403422982885088, + "loss": 2.6421, + "step": 1352 + }, + { + "epoch": 0.030066666666666665, + "grad_norm": 0.9888730645179749, + "learning_rate": 0.00019402978439653256, + "loss": 2.4058, + "step": 1353 + }, + { + "epoch": 0.030088888888888887, + "grad_norm": 1.0507988929748535, + "learning_rate": 0.0001940253389642143, + "loss": 2.3708, + "step": 1354 + }, + { + "epoch": 0.030111111111111113, + "grad_norm": 1.081277847290039, + "learning_rate": 0.00019402089353189598, + "loss": 2.4283, + "step": 1355 + }, + { + "epoch": 0.030133333333333335, + "grad_norm": 1.2856868505477905, + "learning_rate": 0.0001940164480995777, + "loss": 1.3402, + "step": 1356 + }, + { + "epoch": 0.030155555555555557, + "grad_norm": 1.392534613609314, + "learning_rate": 0.0001940120026672594, + "loss": 2.6431, + "step": 1357 + }, + { + "epoch": 0.03017777777777778, + "grad_norm": 1.1537054777145386, + "learning_rate": 0.0001940075572349411, + "loss": 2.6096, + "step": 1358 + }, + { + "epoch": 0.0302, + "grad_norm": 1.141494631767273, + "learning_rate": 0.00019400311180262282, + "loss": 2.3316, + "step": 1359 + }, + { + "epoch": 0.030222222222222223, + "grad_norm": 1.0294886827468872, + "learning_rate": 0.00019399866637030453, + "loss": 2.3628, + "step": 1360 + }, + { + "epoch": 0.030244444444444445, + "grad_norm": 1.2637041807174683, + "learning_rate": 0.00019399422093798624, + "loss": 2.7852, + "step": 1361 + }, + { + "epoch": 0.030266666666666667, + "grad_norm": 1.108982801437378, + "learning_rate": 0.00019398977550566792, + "loss": 2.4429, + "step": 1362 + }, + { + "epoch": 0.03028888888888889, + "grad_norm": 1.092390537261963, + "learning_rate": 0.00019398533007334965, + "loss": 2.3518, + "step": 1363 + }, + { + "epoch": 0.03031111111111111, + "grad_norm": 1.0303348302841187, + "learning_rate": 0.00019398088464103134, + "loss": 2.0581, + "step": 1364 + }, + { + "epoch": 0.030333333333333334, + "grad_norm": 1.130509376525879, + "learning_rate": 0.00019397643920871305, + "loss": 2.103, + "step": 1365 + }, + { + "epoch": 0.030355555555555556, + "grad_norm": 1.0822972059249878, + "learning_rate": 0.00019397199377639476, + "loss": 2.2136, + "step": 1366 + }, + { + "epoch": 0.030377777777777778, + "grad_norm": 1.0611470937728882, + "learning_rate": 0.00019396754834407647, + "loss": 1.9926, + "step": 1367 + }, + { + "epoch": 0.0304, + "grad_norm": 1.2307448387145996, + "learning_rate": 0.00019396310291175818, + "loss": 2.3068, + "step": 1368 + }, + { + "epoch": 0.030422222222222222, + "grad_norm": 1.085154414176941, + "learning_rate": 0.00019395865747943989, + "loss": 2.1078, + "step": 1369 + }, + { + "epoch": 0.030444444444444444, + "grad_norm": 1.1920729875564575, + "learning_rate": 0.0001939542120471216, + "loss": 2.3139, + "step": 1370 + }, + { + "epoch": 0.030466666666666666, + "grad_norm": 1.1662993431091309, + "learning_rate": 0.0001939497666148033, + "loss": 1.7898, + "step": 1371 + }, + { + "epoch": 0.03048888888888889, + "grad_norm": 1.177247166633606, + "learning_rate": 0.00019394532118248501, + "loss": 2.6138, + "step": 1372 + }, + { + "epoch": 0.03051111111111111, + "grad_norm": 1.038445234298706, + "learning_rate": 0.0001939408757501667, + "loss": 1.9209, + "step": 1373 + }, + { + "epoch": 0.030533333333333332, + "grad_norm": 1.1034603118896484, + "learning_rate": 0.00019393643031784843, + "loss": 1.927, + "step": 1374 + }, + { + "epoch": 0.030555555555555555, + "grad_norm": 1.2844098806381226, + "learning_rate": 0.00019393198488553012, + "loss": 2.6916, + "step": 1375 + }, + { + "epoch": 0.030577777777777777, + "grad_norm": 1.2443362474441528, + "learning_rate": 0.00019392753945321183, + "loss": 1.9068, + "step": 1376 + }, + { + "epoch": 0.0306, + "grad_norm": 1.121250867843628, + "learning_rate": 0.00019392309402089354, + "loss": 2.5058, + "step": 1377 + }, + { + "epoch": 0.03062222222222222, + "grad_norm": 1.1697667837142944, + "learning_rate": 0.00019391864858857524, + "loss": 2.2245, + "step": 1378 + }, + { + "epoch": 0.030644444444444443, + "grad_norm": 1.1083139181137085, + "learning_rate": 0.00019391420315625695, + "loss": 1.7106, + "step": 1379 + }, + { + "epoch": 0.030666666666666665, + "grad_norm": 1.138747215270996, + "learning_rate": 0.00019390975772393866, + "loss": 2.186, + "step": 1380 + }, + { + "epoch": 0.03068888888888889, + "grad_norm": 1.1454265117645264, + "learning_rate": 0.00019390531229162037, + "loss": 1.867, + "step": 1381 + }, + { + "epoch": 0.030711111111111113, + "grad_norm": 1.1329401731491089, + "learning_rate": 0.00019390086685930206, + "loss": 2.0394, + "step": 1382 + }, + { + "epoch": 0.030733333333333335, + "grad_norm": 1.2314701080322266, + "learning_rate": 0.0001938964214269838, + "loss": 2.3292, + "step": 1383 + }, + { + "epoch": 0.030755555555555557, + "grad_norm": 1.2723467350006104, + "learning_rate": 0.00019389197599466548, + "loss": 1.9802, + "step": 1384 + }, + { + "epoch": 0.03077777777777778, + "grad_norm": 1.1512049436569214, + "learning_rate": 0.0001938875305623472, + "loss": 1.9535, + "step": 1385 + }, + { + "epoch": 0.0308, + "grad_norm": 1.3449974060058594, + "learning_rate": 0.0001938830851300289, + "loss": 2.2411, + "step": 1386 + }, + { + "epoch": 0.030822222222222223, + "grad_norm": 1.0658458471298218, + "learning_rate": 0.0001938786396977106, + "loss": 1.4589, + "step": 1387 + }, + { + "epoch": 0.030844444444444445, + "grad_norm": 1.0926259756088257, + "learning_rate": 0.00019387419426539234, + "loss": 1.9042, + "step": 1388 + }, + { + "epoch": 0.030866666666666667, + "grad_norm": 1.460528016090393, + "learning_rate": 0.00019386974883307402, + "loss": 1.1386, + "step": 1389 + }, + { + "epoch": 0.03088888888888889, + "grad_norm": 1.5868712663650513, + "learning_rate": 0.00019386530340075573, + "loss": 1.9883, + "step": 1390 + }, + { + "epoch": 0.03091111111111111, + "grad_norm": 1.166711449623108, + "learning_rate": 0.00019386085796843744, + "loss": 2.0818, + "step": 1391 + }, + { + "epoch": 0.030933333333333334, + "grad_norm": 1.1120319366455078, + "learning_rate": 0.00019385641253611915, + "loss": 1.7654, + "step": 1392 + }, + { + "epoch": 0.030955555555555556, + "grad_norm": 1.1007729768753052, + "learning_rate": 0.00019385196710380083, + "loss": 1.6074, + "step": 1393 + }, + { + "epoch": 0.030977777777777778, + "grad_norm": 1.2273107767105103, + "learning_rate": 0.00019384752167148257, + "loss": 1.9269, + "step": 1394 + }, + { + "epoch": 0.031, + "grad_norm": 1.3116095066070557, + "learning_rate": 0.00019384307623916425, + "loss": 2.1523, + "step": 1395 + }, + { + "epoch": 0.031022222222222222, + "grad_norm": 1.1881606578826904, + "learning_rate": 0.00019383863080684596, + "loss": 1.8844, + "step": 1396 + }, + { + "epoch": 0.031044444444444444, + "grad_norm": 1.218817949295044, + "learning_rate": 0.0001938341853745277, + "loss": 2.0528, + "step": 1397 + }, + { + "epoch": 0.031066666666666666, + "grad_norm": 1.0829542875289917, + "learning_rate": 0.00019382973994220938, + "loss": 1.2301, + "step": 1398 + }, + { + "epoch": 0.031088888888888888, + "grad_norm": 1.4752472639083862, + "learning_rate": 0.0001938252945098911, + "loss": 1.9669, + "step": 1399 + }, + { + "epoch": 0.03111111111111111, + "grad_norm": 1.309036374092102, + "learning_rate": 0.0001938208490775728, + "loss": 0.9291, + "step": 1400 + }, + { + "epoch": 0.031133333333333332, + "grad_norm": 0.9288570284843445, + "learning_rate": 0.0001938164036452545, + "loss": 2.4301, + "step": 1401 + }, + { + "epoch": 0.031155555555555554, + "grad_norm": 0.9948990941047668, + "learning_rate": 0.0001938119582129362, + "loss": 2.225, + "step": 1402 + }, + { + "epoch": 0.031177777777777776, + "grad_norm": 1.0610835552215576, + "learning_rate": 0.00019380751278061793, + "loss": 2.353, + "step": 1403 + }, + { + "epoch": 0.0312, + "grad_norm": 1.1045212745666504, + "learning_rate": 0.00019380306734829964, + "loss": 2.1797, + "step": 1404 + }, + { + "epoch": 0.03122222222222222, + "grad_norm": 1.0123965740203857, + "learning_rate": 0.00019379862191598135, + "loss": 2.4179, + "step": 1405 + }, + { + "epoch": 0.031244444444444443, + "grad_norm": 1.0992077589035034, + "learning_rate": 0.00019379417648366306, + "loss": 1.9835, + "step": 1406 + }, + { + "epoch": 0.031266666666666665, + "grad_norm": 1.0057796239852905, + "learning_rate": 0.00019378973105134474, + "loss": 2.2193, + "step": 1407 + }, + { + "epoch": 0.03128888888888889, + "grad_norm": 1.2860620021820068, + "learning_rate": 0.00019378528561902648, + "loss": 2.4437, + "step": 1408 + }, + { + "epoch": 0.03131111111111111, + "grad_norm": 1.0945990085601807, + "learning_rate": 0.00019378084018670816, + "loss": 2.4477, + "step": 1409 + }, + { + "epoch": 0.03133333333333333, + "grad_norm": 1.1119942665100098, + "learning_rate": 0.00019377639475438987, + "loss": 2.1461, + "step": 1410 + }, + { + "epoch": 0.03135555555555555, + "grad_norm": 1.1026381254196167, + "learning_rate": 0.00019377194932207158, + "loss": 1.9971, + "step": 1411 + }, + { + "epoch": 0.031377777777777775, + "grad_norm": 1.1910585165023804, + "learning_rate": 0.0001937675038897533, + "loss": 2.3534, + "step": 1412 + }, + { + "epoch": 0.0314, + "grad_norm": 1.024163842201233, + "learning_rate": 0.000193763058457435, + "loss": 2.3734, + "step": 1413 + }, + { + "epoch": 0.03142222222222222, + "grad_norm": 0.9941502809524536, + "learning_rate": 0.0001937586130251167, + "loss": 1.7481, + "step": 1414 + }, + { + "epoch": 0.03144444444444444, + "grad_norm": 1.148531198501587, + "learning_rate": 0.00019375416759279842, + "loss": 1.6367, + "step": 1415 + }, + { + "epoch": 0.031466666666666664, + "grad_norm": 1.237642765045166, + "learning_rate": 0.0001937497221604801, + "loss": 2.3194, + "step": 1416 + }, + { + "epoch": 0.031488888888888886, + "grad_norm": 1.2430555820465088, + "learning_rate": 0.00019374527672816184, + "loss": 1.971, + "step": 1417 + }, + { + "epoch": 0.03151111111111111, + "grad_norm": 1.136256217956543, + "learning_rate": 0.00019374083129584352, + "loss": 2.3264, + "step": 1418 + }, + { + "epoch": 0.03153333333333333, + "grad_norm": 0.9798897504806519, + "learning_rate": 0.00019373638586352523, + "loss": 2.0142, + "step": 1419 + }, + { + "epoch": 0.03155555555555556, + "grad_norm": 1.3951666355133057, + "learning_rate": 0.00019373194043120694, + "loss": 2.2698, + "step": 1420 + }, + { + "epoch": 0.03157777777777778, + "grad_norm": 1.1984292268753052, + "learning_rate": 0.00019372749499888865, + "loss": 2.006, + "step": 1421 + }, + { + "epoch": 0.0316, + "grad_norm": 1.3106690645217896, + "learning_rate": 0.00019372304956657036, + "loss": 2.2945, + "step": 1422 + }, + { + "epoch": 0.031622222222222225, + "grad_norm": 1.1117517948150635, + "learning_rate": 0.00019371860413425207, + "loss": 2.339, + "step": 1423 + }, + { + "epoch": 0.03164444444444445, + "grad_norm": 1.4951661825180054, + "learning_rate": 0.00019371415870193378, + "loss": 2.4683, + "step": 1424 + }, + { + "epoch": 0.03166666666666667, + "grad_norm": 1.1204643249511719, + "learning_rate": 0.0001937097132696155, + "loss": 2.1377, + "step": 1425 + }, + { + "epoch": 0.03168888888888889, + "grad_norm": 1.2401949167251587, + "learning_rate": 0.0001937052678372972, + "loss": 2.2256, + "step": 1426 + }, + { + "epoch": 0.031711111111111114, + "grad_norm": 1.2930660247802734, + "learning_rate": 0.00019370082240497888, + "loss": 2.0662, + "step": 1427 + }, + { + "epoch": 0.031733333333333336, + "grad_norm": 1.1530430316925049, + "learning_rate": 0.00019369637697266062, + "loss": 2.1822, + "step": 1428 + }, + { + "epoch": 0.03175555555555556, + "grad_norm": 1.1248830556869507, + "learning_rate": 0.0001936919315403423, + "loss": 2.0148, + "step": 1429 + }, + { + "epoch": 0.03177777777777778, + "grad_norm": 1.1415965557098389, + "learning_rate": 0.000193687486108024, + "loss": 2.0016, + "step": 1430 + }, + { + "epoch": 0.0318, + "grad_norm": 1.3775123357772827, + "learning_rate": 0.00019368304067570572, + "loss": 1.6689, + "step": 1431 + }, + { + "epoch": 0.031822222222222224, + "grad_norm": 1.552697777748108, + "learning_rate": 0.00019367859524338743, + "loss": 1.9926, + "step": 1432 + }, + { + "epoch": 0.031844444444444446, + "grad_norm": 1.0702333450317383, + "learning_rate": 0.00019367414981106914, + "loss": 1.8475, + "step": 1433 + }, + { + "epoch": 0.03186666666666667, + "grad_norm": 1.1794770956039429, + "learning_rate": 0.00019366970437875085, + "loss": 1.7853, + "step": 1434 + }, + { + "epoch": 0.03188888888888889, + "grad_norm": 1.177176833152771, + "learning_rate": 0.00019366525894643256, + "loss": 2.0982, + "step": 1435 + }, + { + "epoch": 0.03191111111111111, + "grad_norm": 1.3725336790084839, + "learning_rate": 0.00019366081351411424, + "loss": 1.9322, + "step": 1436 + }, + { + "epoch": 0.031933333333333334, + "grad_norm": 1.2420969009399414, + "learning_rate": 0.00019365636808179598, + "loss": 2.3835, + "step": 1437 + }, + { + "epoch": 0.031955555555555556, + "grad_norm": 1.4265022277832031, + "learning_rate": 0.00019365192264947766, + "loss": 2.0316, + "step": 1438 + }, + { + "epoch": 0.03197777777777778, + "grad_norm": 1.5354745388031006, + "learning_rate": 0.00019364747721715937, + "loss": 2.4962, + "step": 1439 + }, + { + "epoch": 0.032, + "grad_norm": 1.0933946371078491, + "learning_rate": 0.00019364303178484108, + "loss": 1.9257, + "step": 1440 + }, + { + "epoch": 0.03202222222222222, + "grad_norm": 1.3205199241638184, + "learning_rate": 0.0001936385863525228, + "loss": 2.2061, + "step": 1441 + }, + { + "epoch": 0.032044444444444445, + "grad_norm": 1.2373632192611694, + "learning_rate": 0.0001936341409202045, + "loss": 1.8192, + "step": 1442 + }, + { + "epoch": 0.03206666666666667, + "grad_norm": 1.3396754264831543, + "learning_rate": 0.0001936296954878862, + "loss": 2.4715, + "step": 1443 + }, + { + "epoch": 0.03208888888888889, + "grad_norm": 1.1843315362930298, + "learning_rate": 0.00019362525005556792, + "loss": 1.766, + "step": 1444 + }, + { + "epoch": 0.03211111111111111, + "grad_norm": 1.294612169265747, + "learning_rate": 0.00019362080462324963, + "loss": 2.2529, + "step": 1445 + }, + { + "epoch": 0.03213333333333333, + "grad_norm": 1.3959919214248657, + "learning_rate": 0.00019361635919093134, + "loss": 1.8962, + "step": 1446 + }, + { + "epoch": 0.032155555555555555, + "grad_norm": 1.978702425956726, + "learning_rate": 0.00019361191375861302, + "loss": 2.4322, + "step": 1447 + }, + { + "epoch": 0.03217777777777778, + "grad_norm": 1.40666663646698, + "learning_rate": 0.00019360746832629476, + "loss": 0.5895, + "step": 1448 + }, + { + "epoch": 0.0322, + "grad_norm": 1.2353925704956055, + "learning_rate": 0.00019360302289397644, + "loss": 1.4339, + "step": 1449 + }, + { + "epoch": 0.03222222222222222, + "grad_norm": 1.3274462223052979, + "learning_rate": 0.00019359857746165815, + "loss": 1.5845, + "step": 1450 + }, + { + "epoch": 0.032244444444444444, + "grad_norm": 0.9648881554603577, + "learning_rate": 0.00019359413202933986, + "loss": 2.3616, + "step": 1451 + }, + { + "epoch": 0.032266666666666666, + "grad_norm": 1.0016754865646362, + "learning_rate": 0.00019358968659702157, + "loss": 2.5862, + "step": 1452 + }, + { + "epoch": 0.03228888888888889, + "grad_norm": 0.9271038174629211, + "learning_rate": 0.00019358524116470328, + "loss": 2.4142, + "step": 1453 + }, + { + "epoch": 0.03231111111111111, + "grad_norm": 1.5624194145202637, + "learning_rate": 0.00019358079573238499, + "loss": 1.2929, + "step": 1454 + }, + { + "epoch": 0.03233333333333333, + "grad_norm": 1.1376678943634033, + "learning_rate": 0.0001935763503000667, + "loss": 2.502, + "step": 1455 + }, + { + "epoch": 0.032355555555555554, + "grad_norm": 1.0469105243682861, + "learning_rate": 0.00019357190486774838, + "loss": 2.0188, + "step": 1456 + }, + { + "epoch": 0.032377777777777776, + "grad_norm": 1.0091444253921509, + "learning_rate": 0.00019356745943543011, + "loss": 2.0905, + "step": 1457 + }, + { + "epoch": 0.0324, + "grad_norm": 1.0449639558792114, + "learning_rate": 0.0001935630140031118, + "loss": 2.3309, + "step": 1458 + }, + { + "epoch": 0.03242222222222222, + "grad_norm": 1.1234618425369263, + "learning_rate": 0.0001935585685707935, + "loss": 1.258, + "step": 1459 + }, + { + "epoch": 0.03244444444444444, + "grad_norm": 1.0038764476776123, + "learning_rate": 0.00019355412313847522, + "loss": 1.9646, + "step": 1460 + }, + { + "epoch": 0.032466666666666665, + "grad_norm": 1.1340619325637817, + "learning_rate": 0.00019354967770615693, + "loss": 2.0642, + "step": 1461 + }, + { + "epoch": 0.03248888888888889, + "grad_norm": 1.312368392944336, + "learning_rate": 0.00019354523227383866, + "loss": 1.9686, + "step": 1462 + }, + { + "epoch": 0.03251111111111111, + "grad_norm": 1.3528220653533936, + "learning_rate": 0.00019354078684152035, + "loss": 2.5536, + "step": 1463 + }, + { + "epoch": 0.03253333333333333, + "grad_norm": 1.0594779253005981, + "learning_rate": 0.00019353634140920206, + "loss": 2.1737, + "step": 1464 + }, + { + "epoch": 0.03255555555555555, + "grad_norm": 1.3068666458129883, + "learning_rate": 0.00019353189597688376, + "loss": 2.0797, + "step": 1465 + }, + { + "epoch": 0.032577777777777775, + "grad_norm": 1.1094759702682495, + "learning_rate": 0.00019352745054456547, + "loss": 2.083, + "step": 1466 + }, + { + "epoch": 0.0326, + "grad_norm": 1.749818205833435, + "learning_rate": 0.00019352300511224716, + "loss": 1.4231, + "step": 1467 + }, + { + "epoch": 0.03262222222222222, + "grad_norm": 1.2045254707336426, + "learning_rate": 0.0001935185596799289, + "loss": 2.2931, + "step": 1468 + }, + { + "epoch": 0.03264444444444444, + "grad_norm": 1.0714808702468872, + "learning_rate": 0.00019351411424761058, + "loss": 2.4447, + "step": 1469 + }, + { + "epoch": 0.03266666666666666, + "grad_norm": 1.3730173110961914, + "learning_rate": 0.00019350966881529229, + "loss": 2.2009, + "step": 1470 + }, + { + "epoch": 0.03268888888888889, + "grad_norm": 1.2142409086227417, + "learning_rate": 0.00019350522338297402, + "loss": 2.1613, + "step": 1471 + }, + { + "epoch": 0.032711111111111114, + "grad_norm": 1.6318351030349731, + "learning_rate": 0.0001935007779506557, + "loss": 2.2736, + "step": 1472 + }, + { + "epoch": 0.032733333333333337, + "grad_norm": 1.0275932550430298, + "learning_rate": 0.00019349633251833741, + "loss": 2.1899, + "step": 1473 + }, + { + "epoch": 0.03275555555555556, + "grad_norm": 1.305526614189148, + "learning_rate": 0.00019349188708601912, + "loss": 1.884, + "step": 1474 + }, + { + "epoch": 0.03277777777777778, + "grad_norm": 1.0775156021118164, + "learning_rate": 0.00019348744165370083, + "loss": 2.0182, + "step": 1475 + }, + { + "epoch": 0.0328, + "grad_norm": 1.2992222309112549, + "learning_rate": 0.00019348299622138252, + "loss": 2.5619, + "step": 1476 + }, + { + "epoch": 0.032822222222222225, + "grad_norm": 1.20382559299469, + "learning_rate": 0.00019347855078906425, + "loss": 1.8367, + "step": 1477 + }, + { + "epoch": 0.03284444444444445, + "grad_norm": 1.132842779159546, + "learning_rate": 0.00019347410535674596, + "loss": 2.2789, + "step": 1478 + }, + { + "epoch": 0.03286666666666667, + "grad_norm": 1.4192887544631958, + "learning_rate": 0.00019346965992442767, + "loss": 2.5217, + "step": 1479 + }, + { + "epoch": 0.03288888888888889, + "grad_norm": 1.5791467428207397, + "learning_rate": 0.00019346521449210938, + "loss": 2.2756, + "step": 1480 + }, + { + "epoch": 0.03291111111111111, + "grad_norm": 1.1871541738510132, + "learning_rate": 0.00019346076905979106, + "loss": 2.155, + "step": 1481 + }, + { + "epoch": 0.032933333333333335, + "grad_norm": 1.2759143114089966, + "learning_rate": 0.0001934563236274728, + "loss": 1.3168, + "step": 1482 + }, + { + "epoch": 0.03295555555555556, + "grad_norm": 0.9883295893669128, + "learning_rate": 0.00019345187819515448, + "loss": 1.0488, + "step": 1483 + }, + { + "epoch": 0.03297777777777778, + "grad_norm": 1.1437863111495972, + "learning_rate": 0.0001934474327628362, + "loss": 1.8904, + "step": 1484 + }, + { + "epoch": 0.033, + "grad_norm": 1.1389312744140625, + "learning_rate": 0.0001934429873305179, + "loss": 2.086, + "step": 1485 + }, + { + "epoch": 0.033022222222222224, + "grad_norm": 1.2822202444076538, + "learning_rate": 0.0001934385418981996, + "loss": 2.2587, + "step": 1486 + }, + { + "epoch": 0.033044444444444446, + "grad_norm": 1.0431591272354126, + "learning_rate": 0.00019343409646588132, + "loss": 1.8495, + "step": 1487 + }, + { + "epoch": 0.03306666666666667, + "grad_norm": 1.1726051568984985, + "learning_rate": 0.00019342965103356303, + "loss": 2.138, + "step": 1488 + }, + { + "epoch": 0.03308888888888889, + "grad_norm": 1.3496167659759521, + "learning_rate": 0.00019342520560124474, + "loss": 1.9932, + "step": 1489 + }, + { + "epoch": 0.03311111111111111, + "grad_norm": 1.2583036422729492, + "learning_rate": 0.00019342076016892642, + "loss": 2.1386, + "step": 1490 + }, + { + "epoch": 0.033133333333333334, + "grad_norm": 1.4691636562347412, + "learning_rate": 0.00019341631473660816, + "loss": 1.3703, + "step": 1491 + }, + { + "epoch": 0.033155555555555556, + "grad_norm": 1.1774368286132812, + "learning_rate": 0.00019341186930428984, + "loss": 2.0667, + "step": 1492 + }, + { + "epoch": 0.03317777777777778, + "grad_norm": 1.3176870346069336, + "learning_rate": 0.00019340742387197155, + "loss": 1.7939, + "step": 1493 + }, + { + "epoch": 0.0332, + "grad_norm": 1.200920820236206, + "learning_rate": 0.00019340297843965326, + "loss": 1.8218, + "step": 1494 + }, + { + "epoch": 0.03322222222222222, + "grad_norm": 1.1005281209945679, + "learning_rate": 0.00019339853300733497, + "loss": 1.7146, + "step": 1495 + }, + { + "epoch": 0.033244444444444445, + "grad_norm": 1.296162486076355, + "learning_rate": 0.00019339408757501668, + "loss": 1.7528, + "step": 1496 + }, + { + "epoch": 0.03326666666666667, + "grad_norm": 1.3360410928726196, + "learning_rate": 0.0001933896421426984, + "loss": 2.0615, + "step": 1497 + }, + { + "epoch": 0.03328888888888889, + "grad_norm": 1.6123567819595337, + "learning_rate": 0.0001933851967103801, + "loss": 2.2322, + "step": 1498 + }, + { + "epoch": 0.03331111111111111, + "grad_norm": 1.3130148649215698, + "learning_rate": 0.0001933807512780618, + "loss": 1.9794, + "step": 1499 + }, + { + "epoch": 0.03333333333333333, + "grad_norm": 1.3729859590530396, + "learning_rate": 0.00019337630584574352, + "loss": 1.2751, + "step": 1500 + }, + { + "epoch": 0.033355555555555555, + "grad_norm": 1.1282742023468018, + "learning_rate": 0.0001933718604134252, + "loss": 1.2849, + "step": 1501 + }, + { + "epoch": 0.03337777777777778, + "grad_norm": 1.0388362407684326, + "learning_rate": 0.00019336741498110694, + "loss": 2.2858, + "step": 1502 + }, + { + "epoch": 0.0334, + "grad_norm": 1.169311285018921, + "learning_rate": 0.00019336296954878862, + "loss": 2.5737, + "step": 1503 + }, + { + "epoch": 0.03342222222222222, + "grad_norm": 1.2016757726669312, + "learning_rate": 0.00019335852411647033, + "loss": 2.4111, + "step": 1504 + }, + { + "epoch": 0.03344444444444444, + "grad_norm": 0.9759643077850342, + "learning_rate": 0.00019335407868415204, + "loss": 2.2419, + "step": 1505 + }, + { + "epoch": 0.033466666666666665, + "grad_norm": 0.9662378430366516, + "learning_rate": 0.00019334963325183375, + "loss": 2.0838, + "step": 1506 + }, + { + "epoch": 0.03348888888888889, + "grad_norm": 1.0994617938995361, + "learning_rate": 0.00019334518781951546, + "loss": 2.3815, + "step": 1507 + }, + { + "epoch": 0.03351111111111111, + "grad_norm": 1.055759310722351, + "learning_rate": 0.00019334074238719717, + "loss": 2.3268, + "step": 1508 + }, + { + "epoch": 0.03353333333333333, + "grad_norm": 1.0728514194488525, + "learning_rate": 0.00019333629695487888, + "loss": 1.9877, + "step": 1509 + }, + { + "epoch": 0.033555555555555554, + "grad_norm": 1.1055771112442017, + "learning_rate": 0.00019333185152256056, + "loss": 2.3137, + "step": 1510 + }, + { + "epoch": 0.033577777777777776, + "grad_norm": 1.1033469438552856, + "learning_rate": 0.0001933274060902423, + "loss": 2.1682, + "step": 1511 + }, + { + "epoch": 0.0336, + "grad_norm": 1.5016406774520874, + "learning_rate": 0.00019332296065792398, + "loss": 2.3402, + "step": 1512 + }, + { + "epoch": 0.03362222222222222, + "grad_norm": 0.9581237435340881, + "learning_rate": 0.0001933185152256057, + "loss": 2.0432, + "step": 1513 + }, + { + "epoch": 0.03364444444444444, + "grad_norm": 1.025452733039856, + "learning_rate": 0.0001933140697932874, + "loss": 1.9181, + "step": 1514 + }, + { + "epoch": 0.033666666666666664, + "grad_norm": 1.1646183729171753, + "learning_rate": 0.0001933096243609691, + "loss": 2.5041, + "step": 1515 + }, + { + "epoch": 0.033688888888888886, + "grad_norm": 1.073794960975647, + "learning_rate": 0.00019330517892865082, + "loss": 1.8492, + "step": 1516 + }, + { + "epoch": 0.03371111111111111, + "grad_norm": 1.1617109775543213, + "learning_rate": 0.00019330073349633253, + "loss": 2.2649, + "step": 1517 + }, + { + "epoch": 0.03373333333333333, + "grad_norm": 1.170148253440857, + "learning_rate": 0.00019329628806401424, + "loss": 1.948, + "step": 1518 + }, + { + "epoch": 0.03375555555555555, + "grad_norm": 1.0890510082244873, + "learning_rate": 0.00019329184263169595, + "loss": 1.9921, + "step": 1519 + }, + { + "epoch": 0.033777777777777775, + "grad_norm": 1.3151578903198242, + "learning_rate": 0.00019328739719937766, + "loss": 2.5887, + "step": 1520 + }, + { + "epoch": 0.0338, + "grad_norm": 1.1833549737930298, + "learning_rate": 0.00019328295176705934, + "loss": 2.0948, + "step": 1521 + }, + { + "epoch": 0.03382222222222222, + "grad_norm": 1.2709935903549194, + "learning_rate": 0.00019327850633474108, + "loss": 2.2601, + "step": 1522 + }, + { + "epoch": 0.03384444444444445, + "grad_norm": 1.0645160675048828, + "learning_rate": 0.00019327406090242276, + "loss": 1.8649, + "step": 1523 + }, + { + "epoch": 0.03386666666666667, + "grad_norm": 1.1719558238983154, + "learning_rate": 0.00019326961547010447, + "loss": 2.0675, + "step": 1524 + }, + { + "epoch": 0.03388888888888889, + "grad_norm": 1.251046061515808, + "learning_rate": 0.00019326517003778618, + "loss": 2.2127, + "step": 1525 + }, + { + "epoch": 0.033911111111111114, + "grad_norm": 1.2509682178497314, + "learning_rate": 0.0001932607246054679, + "loss": 2.3012, + "step": 1526 + }, + { + "epoch": 0.033933333333333336, + "grad_norm": 1.164339303970337, + "learning_rate": 0.0001932562791731496, + "loss": 2.0108, + "step": 1527 + }, + { + "epoch": 0.03395555555555556, + "grad_norm": 1.2120718955993652, + "learning_rate": 0.0001932518337408313, + "loss": 2.0606, + "step": 1528 + }, + { + "epoch": 0.03397777777777778, + "grad_norm": 1.1924437284469604, + "learning_rate": 0.00019324738830851302, + "loss": 1.7896, + "step": 1529 + }, + { + "epoch": 0.034, + "grad_norm": 1.42878258228302, + "learning_rate": 0.0001932429428761947, + "loss": 2.4899, + "step": 1530 + }, + { + "epoch": 0.034022222222222225, + "grad_norm": 1.4489352703094482, + "learning_rate": 0.00019323849744387644, + "loss": 2.0391, + "step": 1531 + }, + { + "epoch": 0.03404444444444445, + "grad_norm": 1.1656326055526733, + "learning_rate": 0.00019323405201155812, + "loss": 2.0498, + "step": 1532 + }, + { + "epoch": 0.03406666666666667, + "grad_norm": 1.5094213485717773, + "learning_rate": 0.00019322960657923983, + "loss": 2.577, + "step": 1533 + }, + { + "epoch": 0.03408888888888889, + "grad_norm": 1.2051565647125244, + "learning_rate": 0.00019322516114692154, + "loss": 2.0995, + "step": 1534 + }, + { + "epoch": 0.03411111111111111, + "grad_norm": 1.2065091133117676, + "learning_rate": 0.00019322071571460325, + "loss": 1.9204, + "step": 1535 + }, + { + "epoch": 0.034133333333333335, + "grad_norm": 1.180587887763977, + "learning_rate": 0.00019321627028228498, + "loss": 1.6939, + "step": 1536 + }, + { + "epoch": 0.03415555555555556, + "grad_norm": 1.3259631395339966, + "learning_rate": 0.00019321182484996667, + "loss": 1.8811, + "step": 1537 + }, + { + "epoch": 0.03417777777777778, + "grad_norm": 1.3118047714233398, + "learning_rate": 0.00019320737941764838, + "loss": 2.0082, + "step": 1538 + }, + { + "epoch": 0.0342, + "grad_norm": 1.3475799560546875, + "learning_rate": 0.0001932029339853301, + "loss": 2.048, + "step": 1539 + }, + { + "epoch": 0.03422222222222222, + "grad_norm": 1.1897367238998413, + "learning_rate": 0.0001931984885530118, + "loss": 1.8778, + "step": 1540 + }, + { + "epoch": 0.034244444444444445, + "grad_norm": 1.2741882801055908, + "learning_rate": 0.00019319404312069348, + "loss": 1.9792, + "step": 1541 + }, + { + "epoch": 0.03426666666666667, + "grad_norm": 1.103155493736267, + "learning_rate": 0.00019318959768837522, + "loss": 1.8665, + "step": 1542 + }, + { + "epoch": 0.03428888888888889, + "grad_norm": 1.1629788875579834, + "learning_rate": 0.0001931851522560569, + "loss": 1.7662, + "step": 1543 + }, + { + "epoch": 0.03431111111111111, + "grad_norm": 1.2028809785842896, + "learning_rate": 0.0001931807068237386, + "loss": 1.7697, + "step": 1544 + }, + { + "epoch": 0.034333333333333334, + "grad_norm": 1.0899524688720703, + "learning_rate": 0.00019317626139142034, + "loss": 1.5889, + "step": 1545 + }, + { + "epoch": 0.034355555555555556, + "grad_norm": 2.2114458084106445, + "learning_rate": 0.00019317181595910203, + "loss": 1.8964, + "step": 1546 + }, + { + "epoch": 0.03437777777777778, + "grad_norm": 1.3060212135314941, + "learning_rate": 0.00019316737052678374, + "loss": 0.9665, + "step": 1547 + }, + { + "epoch": 0.0344, + "grad_norm": 1.2669345140457153, + "learning_rate": 0.00019316292509446545, + "loss": 1.895, + "step": 1548 + }, + { + "epoch": 0.03442222222222222, + "grad_norm": 1.737618088722229, + "learning_rate": 0.00019315847966214716, + "loss": 2.2731, + "step": 1549 + }, + { + "epoch": 0.034444444444444444, + "grad_norm": 1.082196831703186, + "learning_rate": 0.00019315403422982884, + "loss": 0.6085, + "step": 1550 + }, + { + "epoch": 0.034466666666666666, + "grad_norm": 1.2861276865005493, + "learning_rate": 0.00019314958879751058, + "loss": 2.8675, + "step": 1551 + }, + { + "epoch": 0.03448888888888889, + "grad_norm": 1.0323752164840698, + "learning_rate": 0.00019314514336519228, + "loss": 2.9297, + "step": 1552 + }, + { + "epoch": 0.03451111111111111, + "grad_norm": 0.9915749430656433, + "learning_rate": 0.00019314069793287397, + "loss": 2.55, + "step": 1553 + }, + { + "epoch": 0.03453333333333333, + "grad_norm": 1.0444973707199097, + "learning_rate": 0.0001931362525005557, + "loss": 2.6642, + "step": 1554 + }, + { + "epoch": 0.034555555555555555, + "grad_norm": 0.9511508941650391, + "learning_rate": 0.00019313180706823739, + "loss": 2.0044, + "step": 1555 + }, + { + "epoch": 0.03457777777777778, + "grad_norm": 1.3596376180648804, + "learning_rate": 0.00019312736163591912, + "loss": 1.1496, + "step": 1556 + }, + { + "epoch": 0.0346, + "grad_norm": 1.0855063199996948, + "learning_rate": 0.0001931229162036008, + "loss": 2.3195, + "step": 1557 + }, + { + "epoch": 0.03462222222222222, + "grad_norm": 1.0310297012329102, + "learning_rate": 0.00019311847077128252, + "loss": 2.2401, + "step": 1558 + }, + { + "epoch": 0.03464444444444444, + "grad_norm": 1.2717889547348022, + "learning_rate": 0.00019311402533896422, + "loss": 2.5257, + "step": 1559 + }, + { + "epoch": 0.034666666666666665, + "grad_norm": 1.0537046194076538, + "learning_rate": 0.00019310957990664593, + "loss": 2.0173, + "step": 1560 + }, + { + "epoch": 0.03468888888888889, + "grad_norm": 1.0954219102859497, + "learning_rate": 0.00019310513447432764, + "loss": 2.2333, + "step": 1561 + }, + { + "epoch": 0.03471111111111111, + "grad_norm": 1.106155514717102, + "learning_rate": 0.00019310068904200935, + "loss": 1.7137, + "step": 1562 + }, + { + "epoch": 0.03473333333333333, + "grad_norm": 1.042556643486023, + "learning_rate": 0.00019309624360969106, + "loss": 1.7789, + "step": 1563 + }, + { + "epoch": 0.03475555555555555, + "grad_norm": 1.250775933265686, + "learning_rate": 0.00019309179817737275, + "loss": 2.2798, + "step": 1564 + }, + { + "epoch": 0.034777777777777776, + "grad_norm": 1.2479610443115234, + "learning_rate": 0.00019308735274505448, + "loss": 2.6462, + "step": 1565 + }, + { + "epoch": 0.0348, + "grad_norm": 1.0425524711608887, + "learning_rate": 0.00019308290731273617, + "loss": 1.8033, + "step": 1566 + }, + { + "epoch": 0.03482222222222222, + "grad_norm": 1.228369116783142, + "learning_rate": 0.00019307846188041787, + "loss": 2.6753, + "step": 1567 + }, + { + "epoch": 0.03484444444444444, + "grad_norm": 1.2939426898956299, + "learning_rate": 0.00019307401644809958, + "loss": 2.0066, + "step": 1568 + }, + { + "epoch": 0.034866666666666664, + "grad_norm": 1.106898546218872, + "learning_rate": 0.0001930695710157813, + "loss": 1.9016, + "step": 1569 + }, + { + "epoch": 0.034888888888888886, + "grad_norm": 1.0723423957824707, + "learning_rate": 0.000193065125583463, + "loss": 1.8617, + "step": 1570 + }, + { + "epoch": 0.03491111111111111, + "grad_norm": 1.1328529119491577, + "learning_rate": 0.0001930606801511447, + "loss": 2.1399, + "step": 1571 + }, + { + "epoch": 0.03493333333333333, + "grad_norm": 1.014874815940857, + "learning_rate": 0.00019305623471882642, + "loss": 1.8384, + "step": 1572 + }, + { + "epoch": 0.03495555555555555, + "grad_norm": 1.1854385137557983, + "learning_rate": 0.0001930517892865081, + "loss": 2.1582, + "step": 1573 + }, + { + "epoch": 0.03497777777777778, + "grad_norm": 1.204401969909668, + "learning_rate": 0.00019304734385418984, + "loss": 2.0826, + "step": 1574 + }, + { + "epoch": 0.035, + "grad_norm": 1.547637701034546, + "learning_rate": 0.00019304289842187152, + "loss": 2.0409, + "step": 1575 + }, + { + "epoch": 0.035022222222222225, + "grad_norm": 1.2782498598098755, + "learning_rate": 0.00019303845298955326, + "loss": 1.5767, + "step": 1576 + }, + { + "epoch": 0.03504444444444445, + "grad_norm": 1.264570951461792, + "learning_rate": 0.00019303400755723494, + "loss": 1.5904, + "step": 1577 + }, + { + "epoch": 0.03506666666666667, + "grad_norm": 1.0112229585647583, + "learning_rate": 0.00019302956212491665, + "loss": 1.1745, + "step": 1578 + }, + { + "epoch": 0.03508888888888889, + "grad_norm": 1.4174708127975464, + "learning_rate": 0.00019302511669259836, + "loss": 2.8066, + "step": 1579 + }, + { + "epoch": 0.035111111111111114, + "grad_norm": 1.2562214136123657, + "learning_rate": 0.00019302067126028007, + "loss": 1.7302, + "step": 1580 + }, + { + "epoch": 0.035133333333333336, + "grad_norm": 1.2634434700012207, + "learning_rate": 0.00019301622582796178, + "loss": 1.9925, + "step": 1581 + }, + { + "epoch": 0.03515555555555556, + "grad_norm": 1.2283315658569336, + "learning_rate": 0.0001930117803956435, + "loss": 2.2805, + "step": 1582 + }, + { + "epoch": 0.03517777777777778, + "grad_norm": 1.3432462215423584, + "learning_rate": 0.0001930073349633252, + "loss": 2.1874, + "step": 1583 + }, + { + "epoch": 0.0352, + "grad_norm": 1.4123488664627075, + "learning_rate": 0.00019300288953100688, + "loss": 2.3004, + "step": 1584 + }, + { + "epoch": 0.035222222222222224, + "grad_norm": 1.1645655632019043, + "learning_rate": 0.00019299844409868862, + "loss": 2.0793, + "step": 1585 + }, + { + "epoch": 0.035244444444444446, + "grad_norm": 1.1561622619628906, + "learning_rate": 0.0001929939986663703, + "loss": 2.1651, + "step": 1586 + }, + { + "epoch": 0.03526666666666667, + "grad_norm": 1.447200894355774, + "learning_rate": 0.000192989553234052, + "loss": 2.3525, + "step": 1587 + }, + { + "epoch": 0.03528888888888889, + "grad_norm": 1.1419998407363892, + "learning_rate": 0.00019298510780173372, + "loss": 1.901, + "step": 1588 + }, + { + "epoch": 0.03531111111111111, + "grad_norm": 1.2339032888412476, + "learning_rate": 0.00019298066236941543, + "loss": 2.1305, + "step": 1589 + }, + { + "epoch": 0.035333333333333335, + "grad_norm": 1.2740687131881714, + "learning_rate": 0.00019297621693709714, + "loss": 1.9447, + "step": 1590 + }, + { + "epoch": 0.03535555555555556, + "grad_norm": 1.2346866130828857, + "learning_rate": 0.00019297177150477885, + "loss": 1.8371, + "step": 1591 + }, + { + "epoch": 0.03537777777777778, + "grad_norm": 1.367735505104065, + "learning_rate": 0.00019296732607246056, + "loss": 2.483, + "step": 1592 + }, + { + "epoch": 0.0354, + "grad_norm": 1.1464039087295532, + "learning_rate": 0.00019296288064014227, + "loss": 1.8843, + "step": 1593 + }, + { + "epoch": 0.03542222222222222, + "grad_norm": 1.0014337301254272, + "learning_rate": 0.00019295843520782398, + "loss": 1.6699, + "step": 1594 + }, + { + "epoch": 0.035444444444444445, + "grad_norm": 1.1374380588531494, + "learning_rate": 0.00019295398977550566, + "loss": 1.6318, + "step": 1595 + }, + { + "epoch": 0.03546666666666667, + "grad_norm": 1.027539849281311, + "learning_rate": 0.0001929495443431874, + "loss": 1.3634, + "step": 1596 + }, + { + "epoch": 0.03548888888888889, + "grad_norm": 1.2553808689117432, + "learning_rate": 0.00019294509891086908, + "loss": 1.92, + "step": 1597 + }, + { + "epoch": 0.03551111111111111, + "grad_norm": 1.5323386192321777, + "learning_rate": 0.0001929406534785508, + "loss": 2.0675, + "step": 1598 + }, + { + "epoch": 0.03553333333333333, + "grad_norm": 1.322381854057312, + "learning_rate": 0.0001929362080462325, + "loss": 1.8776, + "step": 1599 + }, + { + "epoch": 0.035555555555555556, + "grad_norm": 1.1956552267074585, + "learning_rate": 0.0001929317626139142, + "loss": 1.535, + "step": 1600 + }, + { + "epoch": 0.03557777777777778, + "grad_norm": 1.0654809474945068, + "learning_rate": 0.00019292731718159592, + "loss": 2.5483, + "step": 1601 + }, + { + "epoch": 0.0356, + "grad_norm": 0.9427987933158875, + "learning_rate": 0.00019292287174927763, + "loss": 2.3314, + "step": 1602 + }, + { + "epoch": 0.03562222222222222, + "grad_norm": 1.0185790061950684, + "learning_rate": 0.00019291842631695934, + "loss": 2.2234, + "step": 1603 + }, + { + "epoch": 0.035644444444444444, + "grad_norm": 1.0985407829284668, + "learning_rate": 0.00019291398088464102, + "loss": 2.1942, + "step": 1604 + }, + { + "epoch": 0.035666666666666666, + "grad_norm": 1.17117178440094, + "learning_rate": 0.00019290953545232276, + "loss": 2.5517, + "step": 1605 + }, + { + "epoch": 0.03568888888888889, + "grad_norm": 1.4354678392410278, + "learning_rate": 0.00019290509002000444, + "loss": 2.3936, + "step": 1606 + }, + { + "epoch": 0.03571111111111111, + "grad_norm": 0.9360921382904053, + "learning_rate": 0.00019290064458768615, + "loss": 1.985, + "step": 1607 + }, + { + "epoch": 0.03573333333333333, + "grad_norm": 1.102998971939087, + "learning_rate": 0.00019289619915536786, + "loss": 2.1309, + "step": 1608 + }, + { + "epoch": 0.035755555555555554, + "grad_norm": 1.000748872756958, + "learning_rate": 0.00019289175372304957, + "loss": 2.1232, + "step": 1609 + }, + { + "epoch": 0.035777777777777776, + "grad_norm": 1.1651393175125122, + "learning_rate": 0.00019288730829073128, + "loss": 1.6339, + "step": 1610 + }, + { + "epoch": 0.0358, + "grad_norm": 1.0569050312042236, + "learning_rate": 0.000192882862858413, + "loss": 2.2817, + "step": 1611 + }, + { + "epoch": 0.03582222222222222, + "grad_norm": 1.1219130754470825, + "learning_rate": 0.0001928784174260947, + "loss": 2.1398, + "step": 1612 + }, + { + "epoch": 0.03584444444444444, + "grad_norm": 1.4168156385421753, + "learning_rate": 0.0001928739719937764, + "loss": 1.6243, + "step": 1613 + }, + { + "epoch": 0.035866666666666665, + "grad_norm": 1.0991692543029785, + "learning_rate": 0.00019286952656145812, + "loss": 2.3464, + "step": 1614 + }, + { + "epoch": 0.03588888888888889, + "grad_norm": 1.196455717086792, + "learning_rate": 0.0001928650811291398, + "loss": 2.1513, + "step": 1615 + }, + { + "epoch": 0.03591111111111111, + "grad_norm": 1.131048321723938, + "learning_rate": 0.00019286063569682154, + "loss": 2.2837, + "step": 1616 + }, + { + "epoch": 0.03593333333333333, + "grad_norm": 1.0808967351913452, + "learning_rate": 0.00019285619026450322, + "loss": 2.1656, + "step": 1617 + }, + { + "epoch": 0.03595555555555555, + "grad_norm": 1.131663203239441, + "learning_rate": 0.00019285174483218493, + "loss": 2.2383, + "step": 1618 + }, + { + "epoch": 0.035977777777777775, + "grad_norm": 1.8503128290176392, + "learning_rate": 0.00019284729939986667, + "loss": 1.199, + "step": 1619 + }, + { + "epoch": 0.036, + "grad_norm": 1.1101024150848389, + "learning_rate": 0.00019284285396754835, + "loss": 1.9646, + "step": 1620 + }, + { + "epoch": 0.03602222222222222, + "grad_norm": 1.0288583040237427, + "learning_rate": 0.00019283840853523006, + "loss": 1.9303, + "step": 1621 + }, + { + "epoch": 0.03604444444444444, + "grad_norm": 1.068770408630371, + "learning_rate": 0.00019283396310291177, + "loss": 2.1843, + "step": 1622 + }, + { + "epoch": 0.036066666666666664, + "grad_norm": 1.0957071781158447, + "learning_rate": 0.00019282951767059348, + "loss": 1.9444, + "step": 1623 + }, + { + "epoch": 0.036088888888888886, + "grad_norm": 1.1025582551956177, + "learning_rate": 0.00019282507223827516, + "loss": 1.8602, + "step": 1624 + }, + { + "epoch": 0.03611111111111111, + "grad_norm": 1.0950126647949219, + "learning_rate": 0.0001928206268059569, + "loss": 2.1894, + "step": 1625 + }, + { + "epoch": 0.03613333333333334, + "grad_norm": 1.1343626976013184, + "learning_rate": 0.0001928161813736386, + "loss": 1.9778, + "step": 1626 + }, + { + "epoch": 0.03615555555555556, + "grad_norm": 1.1559494733810425, + "learning_rate": 0.0001928117359413203, + "loss": 1.6899, + "step": 1627 + }, + { + "epoch": 0.03617777777777778, + "grad_norm": 1.2241156101226807, + "learning_rate": 0.00019280729050900203, + "loss": 2.0864, + "step": 1628 + }, + { + "epoch": 0.0362, + "grad_norm": 0.7917470932006836, + "learning_rate": 0.0001928028450766837, + "loss": 0.9533, + "step": 1629 + }, + { + "epoch": 0.036222222222222225, + "grad_norm": 1.103376030921936, + "learning_rate": 0.00019279839964436542, + "loss": 1.8007, + "step": 1630 + }, + { + "epoch": 0.03624444444444445, + "grad_norm": 1.1854441165924072, + "learning_rate": 0.00019279395421204713, + "loss": 1.9496, + "step": 1631 + }, + { + "epoch": 0.03626666666666667, + "grad_norm": 1.283071756362915, + "learning_rate": 0.00019278950877972884, + "loss": 2.0651, + "step": 1632 + }, + { + "epoch": 0.03628888888888889, + "grad_norm": 1.3536968231201172, + "learning_rate": 0.00019278506334741055, + "loss": 2.3606, + "step": 1633 + }, + { + "epoch": 0.03631111111111111, + "grad_norm": 1.1884193420410156, + "learning_rate": 0.00019278061791509226, + "loss": 1.6877, + "step": 1634 + }, + { + "epoch": 0.036333333333333336, + "grad_norm": 1.1790130138397217, + "learning_rate": 0.00019277617248277397, + "loss": 1.7944, + "step": 1635 + }, + { + "epoch": 0.03635555555555556, + "grad_norm": 1.4631588459014893, + "learning_rate": 0.00019277172705045568, + "loss": 2.0584, + "step": 1636 + }, + { + "epoch": 0.03637777777777778, + "grad_norm": 1.1450132131576538, + "learning_rate": 0.00019276728161813739, + "loss": 1.9185, + "step": 1637 + }, + { + "epoch": 0.0364, + "grad_norm": 1.4707188606262207, + "learning_rate": 0.00019276283618581907, + "loss": 2.3511, + "step": 1638 + }, + { + "epoch": 0.036422222222222224, + "grad_norm": 1.3113077878952026, + "learning_rate": 0.0001927583907535008, + "loss": 2.3162, + "step": 1639 + }, + { + "epoch": 0.036444444444444446, + "grad_norm": 1.2973928451538086, + "learning_rate": 0.0001927539453211825, + "loss": 1.9532, + "step": 1640 + }, + { + "epoch": 0.03646666666666667, + "grad_norm": 1.091458797454834, + "learning_rate": 0.0001927494998888642, + "loss": 1.8042, + "step": 1641 + }, + { + "epoch": 0.03648888888888889, + "grad_norm": 1.2639678716659546, + "learning_rate": 0.0001927450544565459, + "loss": 1.9437, + "step": 1642 + }, + { + "epoch": 0.03651111111111111, + "grad_norm": 1.384123682975769, + "learning_rate": 0.00019274060902422762, + "loss": 2.0447, + "step": 1643 + }, + { + "epoch": 0.036533333333333334, + "grad_norm": 1.5155600309371948, + "learning_rate": 0.00019273616359190933, + "loss": 2.1028, + "step": 1644 + }, + { + "epoch": 0.036555555555555556, + "grad_norm": 1.74246084690094, + "learning_rate": 0.00019273171815959104, + "loss": 2.019, + "step": 1645 + }, + { + "epoch": 0.03657777777777778, + "grad_norm": 1.4755514860153198, + "learning_rate": 0.00019272727272727274, + "loss": 2.1065, + "step": 1646 + }, + { + "epoch": 0.0366, + "grad_norm": 0.9459998607635498, + "learning_rate": 0.00019272282729495443, + "loss": 0.8836, + "step": 1647 + }, + { + "epoch": 0.03662222222222222, + "grad_norm": 1.3147807121276855, + "learning_rate": 0.00019271838186263616, + "loss": 1.893, + "step": 1648 + }, + { + "epoch": 0.036644444444444445, + "grad_norm": 1.478476643562317, + "learning_rate": 0.00019271393643031785, + "loss": 1.5637, + "step": 1649 + }, + { + "epoch": 0.03666666666666667, + "grad_norm": 1.6118906736373901, + "learning_rate": 0.00019270949099799958, + "loss": 1.5086, + "step": 1650 + }, + { + "epoch": 0.03668888888888889, + "grad_norm": 0.8905341625213623, + "learning_rate": 0.00019270504556568127, + "loss": 2.4148, + "step": 1651 + }, + { + "epoch": 0.03671111111111111, + "grad_norm": 0.8563937544822693, + "learning_rate": 0.00019270060013336298, + "loss": 2.2786, + "step": 1652 + }, + { + "epoch": 0.03673333333333333, + "grad_norm": 0.9282917380332947, + "learning_rate": 0.00019269615470104469, + "loss": 2.3942, + "step": 1653 + }, + { + "epoch": 0.036755555555555555, + "grad_norm": 1.0072396993637085, + "learning_rate": 0.0001926917092687264, + "loss": 1.3516, + "step": 1654 + }, + { + "epoch": 0.03677777777777778, + "grad_norm": 0.6960182189941406, + "learning_rate": 0.0001926872638364081, + "loss": 1.0296, + "step": 1655 + }, + { + "epoch": 0.0368, + "grad_norm": 1.1755566596984863, + "learning_rate": 0.00019268281840408981, + "loss": 3.0354, + "step": 1656 + }, + { + "epoch": 0.03682222222222222, + "grad_norm": 1.2352008819580078, + "learning_rate": 0.00019267837297177152, + "loss": 2.5728, + "step": 1657 + }, + { + "epoch": 0.036844444444444444, + "grad_norm": 1.0424734354019165, + "learning_rate": 0.0001926739275394532, + "loss": 2.1906, + "step": 1658 + }, + { + "epoch": 0.036866666666666666, + "grad_norm": 0.9990553855895996, + "learning_rate": 0.00019266948210713494, + "loss": 2.3221, + "step": 1659 + }, + { + "epoch": 0.03688888888888889, + "grad_norm": 1.0603668689727783, + "learning_rate": 0.00019266503667481663, + "loss": 2.3523, + "step": 1660 + }, + { + "epoch": 0.03691111111111111, + "grad_norm": 1.1015915870666504, + "learning_rate": 0.00019266059124249833, + "loss": 2.4637, + "step": 1661 + }, + { + "epoch": 0.03693333333333333, + "grad_norm": 1.0183284282684326, + "learning_rate": 0.00019265614581018004, + "loss": 2.1596, + "step": 1662 + }, + { + "epoch": 0.036955555555555554, + "grad_norm": 1.097563624382019, + "learning_rate": 0.00019265170037786175, + "loss": 2.3855, + "step": 1663 + }, + { + "epoch": 0.036977777777777776, + "grad_norm": 1.0424779653549194, + "learning_rate": 0.00019264725494554346, + "loss": 2.1794, + "step": 1664 + }, + { + "epoch": 0.037, + "grad_norm": 1.0053038597106934, + "learning_rate": 0.00019264280951322517, + "loss": 2.0104, + "step": 1665 + }, + { + "epoch": 0.03702222222222222, + "grad_norm": 1.2662198543548584, + "learning_rate": 0.00019263836408090688, + "loss": 2.3109, + "step": 1666 + }, + { + "epoch": 0.03704444444444444, + "grad_norm": 1.0046722888946533, + "learning_rate": 0.00019263391864858857, + "loss": 2.3037, + "step": 1667 + }, + { + "epoch": 0.037066666666666664, + "grad_norm": 1.1860179901123047, + "learning_rate": 0.0001926294732162703, + "loss": 2.537, + "step": 1668 + }, + { + "epoch": 0.037088888888888887, + "grad_norm": 1.0056655406951904, + "learning_rate": 0.00019262502778395198, + "loss": 1.9345, + "step": 1669 + }, + { + "epoch": 0.03711111111111111, + "grad_norm": 1.1387861967086792, + "learning_rate": 0.00019262058235163372, + "loss": 1.224, + "step": 1670 + }, + { + "epoch": 0.03713333333333333, + "grad_norm": 1.0878708362579346, + "learning_rate": 0.0001926161369193154, + "loss": 2.1147, + "step": 1671 + }, + { + "epoch": 0.03715555555555555, + "grad_norm": 1.1541792154312134, + "learning_rate": 0.00019261169148699711, + "loss": 2.3138, + "step": 1672 + }, + { + "epoch": 0.037177777777777775, + "grad_norm": 1.2388761043548584, + "learning_rate": 0.00019260724605467882, + "loss": 2.0522, + "step": 1673 + }, + { + "epoch": 0.0372, + "grad_norm": 1.0342973470687866, + "learning_rate": 0.00019260280062236053, + "loss": 1.9513, + "step": 1674 + }, + { + "epoch": 0.03722222222222222, + "grad_norm": 1.2679888010025024, + "learning_rate": 0.00019259835519004224, + "loss": 1.982, + "step": 1675 + }, + { + "epoch": 0.03724444444444444, + "grad_norm": 1.2131075859069824, + "learning_rate": 0.00019259390975772395, + "loss": 2.1498, + "step": 1676 + }, + { + "epoch": 0.03726666666666666, + "grad_norm": 0.9604787230491638, + "learning_rate": 0.00019258946432540566, + "loss": 1.5668, + "step": 1677 + }, + { + "epoch": 0.03728888888888889, + "grad_norm": 1.054021954536438, + "learning_rate": 0.00019258501889308734, + "loss": 1.8568, + "step": 1678 + }, + { + "epoch": 0.037311111111111114, + "grad_norm": 1.190492868423462, + "learning_rate": 0.00019258057346076908, + "loss": 0.9899, + "step": 1679 + }, + { + "epoch": 0.037333333333333336, + "grad_norm": 1.5572409629821777, + "learning_rate": 0.00019257612802845076, + "loss": 2.3164, + "step": 1680 + }, + { + "epoch": 0.03735555555555556, + "grad_norm": 1.1587527990341187, + "learning_rate": 0.00019257168259613247, + "loss": 2.1015, + "step": 1681 + }, + { + "epoch": 0.03737777777777778, + "grad_norm": 1.2043633460998535, + "learning_rate": 0.00019256723716381418, + "loss": 1.9227, + "step": 1682 + }, + { + "epoch": 0.0374, + "grad_norm": 1.2729018926620483, + "learning_rate": 0.0001925627917314959, + "loss": 2.0728, + "step": 1683 + }, + { + "epoch": 0.037422222222222225, + "grad_norm": 1.287742018699646, + "learning_rate": 0.0001925583462991776, + "loss": 2.4982, + "step": 1684 + }, + { + "epoch": 0.03744444444444445, + "grad_norm": 1.3554203510284424, + "learning_rate": 0.0001925539008668593, + "loss": 2.3082, + "step": 1685 + }, + { + "epoch": 0.03746666666666667, + "grad_norm": 1.2895474433898926, + "learning_rate": 0.00019254945543454102, + "loss": 2.2616, + "step": 1686 + }, + { + "epoch": 0.03748888888888889, + "grad_norm": 1.2018258571624756, + "learning_rate": 0.0001925450100022227, + "loss": 1.9035, + "step": 1687 + }, + { + "epoch": 0.03751111111111111, + "grad_norm": 1.336531639099121, + "learning_rate": 0.00019254056456990444, + "loss": 2.2862, + "step": 1688 + }, + { + "epoch": 0.037533333333333335, + "grad_norm": 1.0696642398834229, + "learning_rate": 0.00019253611913758612, + "loss": 0.9648, + "step": 1689 + }, + { + "epoch": 0.03755555555555556, + "grad_norm": 1.5599923133850098, + "learning_rate": 0.00019253167370526786, + "loss": 1.6956, + "step": 1690 + }, + { + "epoch": 0.03757777777777778, + "grad_norm": 1.049018144607544, + "learning_rate": 0.00019252722827294957, + "loss": 1.6086, + "step": 1691 + }, + { + "epoch": 0.0376, + "grad_norm": 1.2631961107254028, + "learning_rate": 0.00019252278284063125, + "loss": 1.5529, + "step": 1692 + }, + { + "epoch": 0.037622222222222224, + "grad_norm": 1.404136300086975, + "learning_rate": 0.000192518337408313, + "loss": 2.0185, + "step": 1693 + }, + { + "epoch": 0.037644444444444446, + "grad_norm": 1.5357671976089478, + "learning_rate": 0.00019251389197599467, + "loss": 2.2575, + "step": 1694 + }, + { + "epoch": 0.03766666666666667, + "grad_norm": 1.2799744606018066, + "learning_rate": 0.00019250944654367638, + "loss": 1.8321, + "step": 1695 + }, + { + "epoch": 0.03768888888888889, + "grad_norm": 1.5406770706176758, + "learning_rate": 0.0001925050011113581, + "loss": 2.0424, + "step": 1696 + }, + { + "epoch": 0.03771111111111111, + "grad_norm": 1.5023655891418457, + "learning_rate": 0.0001925005556790398, + "loss": 2.0837, + "step": 1697 + }, + { + "epoch": 0.037733333333333334, + "grad_norm": 1.220178484916687, + "learning_rate": 0.00019249611024672148, + "loss": 1.6124, + "step": 1698 + }, + { + "epoch": 0.037755555555555556, + "grad_norm": 2.6782243251800537, + "learning_rate": 0.00019249166481440322, + "loss": 0.1081, + "step": 1699 + }, + { + "epoch": 0.03777777777777778, + "grad_norm": 0.9028381705284119, + "learning_rate": 0.00019248721938208493, + "loss": 0.5841, + "step": 1700 + }, + { + "epoch": 0.0378, + "grad_norm": 1.136002779006958, + "learning_rate": 0.0001924827739497666, + "loss": 2.7293, + "step": 1701 + }, + { + "epoch": 0.03782222222222222, + "grad_norm": 1.3147175312042236, + "learning_rate": 0.00019247832851744835, + "loss": 2.8613, + "step": 1702 + }, + { + "epoch": 0.037844444444444444, + "grad_norm": 1.1160030364990234, + "learning_rate": 0.00019247388308513003, + "loss": 2.5977, + "step": 1703 + }, + { + "epoch": 0.037866666666666667, + "grad_norm": 1.2921942472457886, + "learning_rate": 0.00019246943765281174, + "loss": 2.3137, + "step": 1704 + }, + { + "epoch": 0.03788888888888889, + "grad_norm": 0.9941746592521667, + "learning_rate": 0.00019246499222049345, + "loss": 1.8767, + "step": 1705 + }, + { + "epoch": 0.03791111111111111, + "grad_norm": 1.2339857816696167, + "learning_rate": 0.00019246054678817516, + "loss": 2.1385, + "step": 1706 + }, + { + "epoch": 0.03793333333333333, + "grad_norm": 1.158557415008545, + "learning_rate": 0.00019245610135585687, + "loss": 1.5991, + "step": 1707 + }, + { + "epoch": 0.037955555555555555, + "grad_norm": 1.146208643913269, + "learning_rate": 0.00019245165592353858, + "loss": 2.2618, + "step": 1708 + }, + { + "epoch": 0.03797777777777778, + "grad_norm": 1.0277339220046997, + "learning_rate": 0.0001924472104912203, + "loss": 2.3643, + "step": 1709 + }, + { + "epoch": 0.038, + "grad_norm": 1.0269960165023804, + "learning_rate": 0.000192442765058902, + "loss": 2.0639, + "step": 1710 + }, + { + "epoch": 0.03802222222222222, + "grad_norm": 1.0692329406738281, + "learning_rate": 0.0001924383196265837, + "loss": 1.7411, + "step": 1711 + }, + { + "epoch": 0.03804444444444444, + "grad_norm": 1.3326133489608765, + "learning_rate": 0.0001924338741942654, + "loss": 2.2134, + "step": 1712 + }, + { + "epoch": 0.038066666666666665, + "grad_norm": 0.9918487668037415, + "learning_rate": 0.00019242942876194713, + "loss": 1.4232, + "step": 1713 + }, + { + "epoch": 0.03808888888888889, + "grad_norm": 1.0250266790390015, + "learning_rate": 0.0001924249833296288, + "loss": 1.9448, + "step": 1714 + }, + { + "epoch": 0.03811111111111111, + "grad_norm": 1.34917414188385, + "learning_rate": 0.00019242053789731052, + "loss": 2.4693, + "step": 1715 + }, + { + "epoch": 0.03813333333333333, + "grad_norm": 1.2300838232040405, + "learning_rate": 0.00019241609246499223, + "loss": 2.1846, + "step": 1716 + }, + { + "epoch": 0.038155555555555554, + "grad_norm": 0.9363498091697693, + "learning_rate": 0.00019241164703267394, + "loss": 1.0052, + "step": 1717 + }, + { + "epoch": 0.038177777777777776, + "grad_norm": 1.1219052076339722, + "learning_rate": 0.00019240720160035565, + "loss": 1.9205, + "step": 1718 + }, + { + "epoch": 0.0382, + "grad_norm": 1.4701693058013916, + "learning_rate": 0.00019240275616803736, + "loss": 1.9902, + "step": 1719 + }, + { + "epoch": 0.03822222222222222, + "grad_norm": 1.2562336921691895, + "learning_rate": 0.00019239831073571907, + "loss": 2.4119, + "step": 1720 + }, + { + "epoch": 0.03824444444444444, + "grad_norm": 1.2237027883529663, + "learning_rate": 0.00019239386530340075, + "loss": 1.7287, + "step": 1721 + }, + { + "epoch": 0.038266666666666664, + "grad_norm": 1.2052242755889893, + "learning_rate": 0.00019238941987108249, + "loss": 2.5344, + "step": 1722 + }, + { + "epoch": 0.038288888888888886, + "grad_norm": 0.9924613237380981, + "learning_rate": 0.00019238497443876417, + "loss": 1.7375, + "step": 1723 + }, + { + "epoch": 0.03831111111111111, + "grad_norm": 1.08962082862854, + "learning_rate": 0.00019238052900644588, + "loss": 2.1573, + "step": 1724 + }, + { + "epoch": 0.03833333333333333, + "grad_norm": 1.3142993450164795, + "learning_rate": 0.0001923760835741276, + "loss": 2.4923, + "step": 1725 + }, + { + "epoch": 0.03835555555555555, + "grad_norm": 1.0707851648330688, + "learning_rate": 0.0001923716381418093, + "loss": 1.9195, + "step": 1726 + }, + { + "epoch": 0.038377777777777775, + "grad_norm": 1.232883334159851, + "learning_rate": 0.000192367192709491, + "loss": 2.4728, + "step": 1727 + }, + { + "epoch": 0.0384, + "grad_norm": 1.2929331064224243, + "learning_rate": 0.00019236274727717272, + "loss": 2.4331, + "step": 1728 + }, + { + "epoch": 0.038422222222222226, + "grad_norm": 1.191250205039978, + "learning_rate": 0.00019235830184485443, + "loss": 2.2616, + "step": 1729 + }, + { + "epoch": 0.03844444444444445, + "grad_norm": 1.129345417022705, + "learning_rate": 0.00019235385641253614, + "loss": 2.0167, + "step": 1730 + }, + { + "epoch": 0.03846666666666667, + "grad_norm": 1.148284912109375, + "learning_rate": 0.00019234941098021785, + "loss": 2.053, + "step": 1731 + }, + { + "epoch": 0.03848888888888889, + "grad_norm": 1.1987674236297607, + "learning_rate": 0.00019234496554789953, + "loss": 1.875, + "step": 1732 + }, + { + "epoch": 0.038511111111111114, + "grad_norm": 0.9068574905395508, + "learning_rate": 0.00019234052011558126, + "loss": 0.7785, + "step": 1733 + }, + { + "epoch": 0.038533333333333336, + "grad_norm": 1.0912137031555176, + "learning_rate": 0.00019233607468326295, + "loss": 1.7885, + "step": 1734 + }, + { + "epoch": 0.03855555555555556, + "grad_norm": 1.255879521369934, + "learning_rate": 0.00019233162925094466, + "loss": 2.1068, + "step": 1735 + }, + { + "epoch": 0.03857777777777778, + "grad_norm": 1.1832062005996704, + "learning_rate": 0.00019232718381862637, + "loss": 2.2488, + "step": 1736 + }, + { + "epoch": 0.0386, + "grad_norm": 1.4971884489059448, + "learning_rate": 0.00019232273838630808, + "loss": 2.012, + "step": 1737 + }, + { + "epoch": 0.038622222222222224, + "grad_norm": 1.253125548362732, + "learning_rate": 0.00019231829295398979, + "loss": 1.9059, + "step": 1738 + }, + { + "epoch": 0.03864444444444445, + "grad_norm": 1.2260684967041016, + "learning_rate": 0.0001923138475216715, + "loss": 1.7284, + "step": 1739 + }, + { + "epoch": 0.03866666666666667, + "grad_norm": 1.1737374067306519, + "learning_rate": 0.0001923094020893532, + "loss": 2.164, + "step": 1740 + }, + { + "epoch": 0.03868888888888889, + "grad_norm": 1.16877019405365, + "learning_rate": 0.0001923049566570349, + "loss": 2.0229, + "step": 1741 + }, + { + "epoch": 0.03871111111111111, + "grad_norm": 0.9355736374855042, + "learning_rate": 0.00019230051122471662, + "loss": 1.0844, + "step": 1742 + }, + { + "epoch": 0.038733333333333335, + "grad_norm": 1.0740021467208862, + "learning_rate": 0.0001922960657923983, + "loss": 1.4236, + "step": 1743 + }, + { + "epoch": 0.03875555555555556, + "grad_norm": 1.2170355319976807, + "learning_rate": 0.00019229162036008002, + "loss": 1.845, + "step": 1744 + }, + { + "epoch": 0.03877777777777778, + "grad_norm": 1.4682364463806152, + "learning_rate": 0.00019228717492776173, + "loss": 2.192, + "step": 1745 + }, + { + "epoch": 0.0388, + "grad_norm": 1.6630189418792725, + "learning_rate": 0.00019228272949544344, + "loss": 2.353, + "step": 1746 + }, + { + "epoch": 0.03882222222222222, + "grad_norm": 1.3849523067474365, + "learning_rate": 0.00019227828406312515, + "loss": 2.1318, + "step": 1747 + }, + { + "epoch": 0.038844444444444445, + "grad_norm": 1.407485008239746, + "learning_rate": 0.00019227383863080685, + "loss": 1.7946, + "step": 1748 + }, + { + "epoch": 0.03886666666666667, + "grad_norm": 1.2454653978347778, + "learning_rate": 0.00019226939319848856, + "loss": 1.8537, + "step": 1749 + }, + { + "epoch": 0.03888888888888889, + "grad_norm": 1.2907649278640747, + "learning_rate": 0.00019226494776617027, + "loss": 1.8048, + "step": 1750 + }, + { + "epoch": 0.03891111111111111, + "grad_norm": 0.984199047088623, + "learning_rate": 0.00019226050233385198, + "loss": 2.1876, + "step": 1751 + }, + { + "epoch": 0.038933333333333334, + "grad_norm": 1.2915271520614624, + "learning_rate": 0.00019225605690153367, + "loss": 2.7688, + "step": 1752 + }, + { + "epoch": 0.038955555555555556, + "grad_norm": 1.1002089977264404, + "learning_rate": 0.0001922516114692154, + "loss": 2.7393, + "step": 1753 + }, + { + "epoch": 0.03897777777777778, + "grad_norm": 0.9147074222564697, + "learning_rate": 0.00019224716603689709, + "loss": 1.3076, + "step": 1754 + }, + { + "epoch": 0.039, + "grad_norm": 0.9948516488075256, + "learning_rate": 0.0001922427206045788, + "loss": 2.1483, + "step": 1755 + }, + { + "epoch": 0.03902222222222222, + "grad_norm": 1.1838185787200928, + "learning_rate": 0.0001922382751722605, + "loss": 2.004, + "step": 1756 + }, + { + "epoch": 0.039044444444444444, + "grad_norm": 0.9836131930351257, + "learning_rate": 0.00019223382973994221, + "loss": 2.2423, + "step": 1757 + }, + { + "epoch": 0.039066666666666666, + "grad_norm": 1.2149583101272583, + "learning_rate": 0.00019222938430762392, + "loss": 1.126, + "step": 1758 + }, + { + "epoch": 0.03908888888888889, + "grad_norm": 1.1118990182876587, + "learning_rate": 0.00019222493887530563, + "loss": 2.6146, + "step": 1759 + }, + { + "epoch": 0.03911111111111111, + "grad_norm": 0.9626356363296509, + "learning_rate": 0.00019222049344298734, + "loss": 1.8598, + "step": 1760 + }, + { + "epoch": 0.03913333333333333, + "grad_norm": 1.1309908628463745, + "learning_rate": 0.00019221604801066903, + "loss": 2.3963, + "step": 1761 + }, + { + "epoch": 0.039155555555555555, + "grad_norm": 1.1834784746170044, + "learning_rate": 0.00019221160257835076, + "loss": 2.0128, + "step": 1762 + }, + { + "epoch": 0.03917777777777778, + "grad_norm": 1.1508394479751587, + "learning_rate": 0.00019220715714603245, + "loss": 2.3134, + "step": 1763 + }, + { + "epoch": 0.0392, + "grad_norm": 1.193302869796753, + "learning_rate": 0.00019220271171371418, + "loss": 2.5307, + "step": 1764 + }, + { + "epoch": 0.03922222222222222, + "grad_norm": 1.186457872390747, + "learning_rate": 0.0001921982662813959, + "loss": 2.4956, + "step": 1765 + }, + { + "epoch": 0.03924444444444444, + "grad_norm": 1.466609239578247, + "learning_rate": 0.00019219382084907757, + "loss": 3.0103, + "step": 1766 + }, + { + "epoch": 0.039266666666666665, + "grad_norm": 1.1625009775161743, + "learning_rate": 0.0001921893754167593, + "loss": 2.1725, + "step": 1767 + }, + { + "epoch": 0.03928888888888889, + "grad_norm": 1.0614113807678223, + "learning_rate": 0.000192184929984441, + "loss": 1.9708, + "step": 1768 + }, + { + "epoch": 0.03931111111111111, + "grad_norm": 1.2324970960617065, + "learning_rate": 0.0001921804845521227, + "loss": 2.3021, + "step": 1769 + }, + { + "epoch": 0.03933333333333333, + "grad_norm": 1.1604976654052734, + "learning_rate": 0.0001921760391198044, + "loss": 1.9542, + "step": 1770 + }, + { + "epoch": 0.03935555555555555, + "grad_norm": 1.2036832571029663, + "learning_rate": 0.00019217159368748612, + "loss": 1.793, + "step": 1771 + }, + { + "epoch": 0.039377777777777775, + "grad_norm": 1.0490174293518066, + "learning_rate": 0.0001921671482551678, + "loss": 1.8467, + "step": 1772 + }, + { + "epoch": 0.0394, + "grad_norm": 1.2819703817367554, + "learning_rate": 0.00019216270282284954, + "loss": 2.285, + "step": 1773 + }, + { + "epoch": 0.03942222222222222, + "grad_norm": 1.321698784828186, + "learning_rate": 0.00019215825739053125, + "loss": 1.8766, + "step": 1774 + }, + { + "epoch": 0.03944444444444444, + "grad_norm": 1.1334456205368042, + "learning_rate": 0.00019215381195821293, + "loss": 1.9917, + "step": 1775 + }, + { + "epoch": 0.039466666666666664, + "grad_norm": 1.4410911798477173, + "learning_rate": 0.00019214936652589467, + "loss": 2.2526, + "step": 1776 + }, + { + "epoch": 0.039488888888888886, + "grad_norm": 1.0513566732406616, + "learning_rate": 0.00019214492109357635, + "loss": 1.7513, + "step": 1777 + }, + { + "epoch": 0.03951111111111111, + "grad_norm": 1.254146933555603, + "learning_rate": 0.00019214047566125806, + "loss": 2.009, + "step": 1778 + }, + { + "epoch": 0.03953333333333333, + "grad_norm": 1.2576804161071777, + "learning_rate": 0.00019213603022893977, + "loss": 1.9602, + "step": 1779 + }, + { + "epoch": 0.03955555555555555, + "grad_norm": 1.8374196290969849, + "learning_rate": 0.00019213158479662148, + "loss": 2.0253, + "step": 1780 + }, + { + "epoch": 0.03957777777777778, + "grad_norm": 1.1337549686431885, + "learning_rate": 0.00019212713936430316, + "loss": 2.1113, + "step": 1781 + }, + { + "epoch": 0.0396, + "grad_norm": 1.330061912536621, + "learning_rate": 0.0001921226939319849, + "loss": 2.01, + "step": 1782 + }, + { + "epoch": 0.039622222222222225, + "grad_norm": 2.5931622982025146, + "learning_rate": 0.0001921182484996666, + "loss": 0.7704, + "step": 1783 + }, + { + "epoch": 0.03964444444444445, + "grad_norm": 1.2280597686767578, + "learning_rate": 0.00019211380306734832, + "loss": 2.1062, + "step": 1784 + }, + { + "epoch": 0.03966666666666667, + "grad_norm": 1.3232183456420898, + "learning_rate": 0.00019210935763503003, + "loss": 1.9899, + "step": 1785 + }, + { + "epoch": 0.03968888888888889, + "grad_norm": 1.3776732683181763, + "learning_rate": 0.0001921049122027117, + "loss": 2.0363, + "step": 1786 + }, + { + "epoch": 0.039711111111111114, + "grad_norm": 1.3296781778335571, + "learning_rate": 0.00019210046677039345, + "loss": 1.9252, + "step": 1787 + }, + { + "epoch": 0.039733333333333336, + "grad_norm": 1.2858179807662964, + "learning_rate": 0.00019209602133807513, + "loss": 2.1333, + "step": 1788 + }, + { + "epoch": 0.03975555555555556, + "grad_norm": 1.5770024061203003, + "learning_rate": 0.00019209157590575684, + "loss": 1.9526, + "step": 1789 + }, + { + "epoch": 0.03977777777777778, + "grad_norm": 1.169321060180664, + "learning_rate": 0.00019208713047343855, + "loss": 1.5478, + "step": 1790 + }, + { + "epoch": 0.0398, + "grad_norm": 1.3757535219192505, + "learning_rate": 0.00019208268504112026, + "loss": 1.8472, + "step": 1791 + }, + { + "epoch": 0.039822222222222224, + "grad_norm": 1.3419402837753296, + "learning_rate": 0.00019207823960880197, + "loss": 1.7444, + "step": 1792 + }, + { + "epoch": 0.039844444444444446, + "grad_norm": 1.5073256492614746, + "learning_rate": 0.00019207379417648368, + "loss": 2.0931, + "step": 1793 + }, + { + "epoch": 0.03986666666666667, + "grad_norm": 1.3753446340560913, + "learning_rate": 0.0001920693487441654, + "loss": 1.6753, + "step": 1794 + }, + { + "epoch": 0.03988888888888889, + "grad_norm": 1.4067362546920776, + "learning_rate": 0.00019206490331184707, + "loss": 1.6566, + "step": 1795 + }, + { + "epoch": 0.03991111111111111, + "grad_norm": 1.3025190830230713, + "learning_rate": 0.0001920604578795288, + "loss": 1.8397, + "step": 1796 + }, + { + "epoch": 0.039933333333333335, + "grad_norm": 1.521903157234192, + "learning_rate": 0.0001920560124472105, + "loss": 1.9017, + "step": 1797 + }, + { + "epoch": 0.03995555555555556, + "grad_norm": 1.7126338481903076, + "learning_rate": 0.0001920515670148922, + "loss": 2.2629, + "step": 1798 + }, + { + "epoch": 0.03997777777777778, + "grad_norm": 1.5529956817626953, + "learning_rate": 0.0001920471215825739, + "loss": 1.6043, + "step": 1799 + }, + { + "epoch": 0.04, + "grad_norm": 1.7723318338394165, + "learning_rate": 0.00019204267615025562, + "loss": 2.2176, + "step": 1800 + }, + { + "epoch": 0.04002222222222222, + "grad_norm": 1.1991795301437378, + "learning_rate": 0.00019203823071793733, + "loss": 3.281, + "step": 1801 + }, + { + "epoch": 0.040044444444444445, + "grad_norm": 1.3677946329116821, + "learning_rate": 0.00019203378528561904, + "loss": 2.1734, + "step": 1802 + }, + { + "epoch": 0.04006666666666667, + "grad_norm": 1.0866068601608276, + "learning_rate": 0.00019202933985330075, + "loss": 2.5766, + "step": 1803 + }, + { + "epoch": 0.04008888888888889, + "grad_norm": 1.1193768978118896, + "learning_rate": 0.00019202489442098246, + "loss": 2.478, + "step": 1804 + }, + { + "epoch": 0.04011111111111111, + "grad_norm": 1.3724201917648315, + "learning_rate": 0.00019202044898866417, + "loss": 2.5114, + "step": 1805 + }, + { + "epoch": 0.04013333333333333, + "grad_norm": 0.9693953394889832, + "learning_rate": 0.00019201600355634585, + "loss": 2.2679, + "step": 1806 + }, + { + "epoch": 0.040155555555555555, + "grad_norm": 1.1534337997436523, + "learning_rate": 0.0001920115581240276, + "loss": 2.1458, + "step": 1807 + }, + { + "epoch": 0.04017777777777778, + "grad_norm": 1.200800895690918, + "learning_rate": 0.00019200711269170927, + "loss": 2.363, + "step": 1808 + }, + { + "epoch": 0.0402, + "grad_norm": 1.1132547855377197, + "learning_rate": 0.00019200266725939098, + "loss": 2.1045, + "step": 1809 + }, + { + "epoch": 0.04022222222222222, + "grad_norm": 1.2257728576660156, + "learning_rate": 0.0001919982218270727, + "loss": 2.6259, + "step": 1810 + }, + { + "epoch": 0.040244444444444444, + "grad_norm": 0.910944938659668, + "learning_rate": 0.0001919937763947544, + "loss": 1.8674, + "step": 1811 + }, + { + "epoch": 0.040266666666666666, + "grad_norm": 1.0394186973571777, + "learning_rate": 0.0001919893309624361, + "loss": 2.0576, + "step": 1812 + }, + { + "epoch": 0.04028888888888889, + "grad_norm": 1.2120990753173828, + "learning_rate": 0.00019198488553011782, + "loss": 2.1069, + "step": 1813 + }, + { + "epoch": 0.04031111111111111, + "grad_norm": 1.1127886772155762, + "learning_rate": 0.00019198044009779953, + "loss": 1.666, + "step": 1814 + }, + { + "epoch": 0.04033333333333333, + "grad_norm": 1.0183290243148804, + "learning_rate": 0.0001919759946654812, + "loss": 1.9361, + "step": 1815 + }, + { + "epoch": 0.040355555555555554, + "grad_norm": 1.260033130645752, + "learning_rate": 0.00019197154923316295, + "loss": 2.1165, + "step": 1816 + }, + { + "epoch": 0.040377777777777776, + "grad_norm": 1.2956593036651611, + "learning_rate": 0.00019196710380084463, + "loss": 2.3572, + "step": 1817 + }, + { + "epoch": 0.0404, + "grad_norm": 1.1641860008239746, + "learning_rate": 0.00019196265836852634, + "loss": 1.2891, + "step": 1818 + }, + { + "epoch": 0.04042222222222222, + "grad_norm": 1.1531250476837158, + "learning_rate": 0.00019195821293620805, + "loss": 1.7384, + "step": 1819 + }, + { + "epoch": 0.04044444444444444, + "grad_norm": 1.1654103994369507, + "learning_rate": 0.00019195376750388976, + "loss": 2.0527, + "step": 1820 + }, + { + "epoch": 0.040466666666666665, + "grad_norm": 1.1668634414672852, + "learning_rate": 0.00019194932207157147, + "loss": 2.3365, + "step": 1821 + }, + { + "epoch": 0.04048888888888889, + "grad_norm": 1.055076003074646, + "learning_rate": 0.00019194487663925318, + "loss": 1.9914, + "step": 1822 + }, + { + "epoch": 0.04051111111111111, + "grad_norm": 1.306888222694397, + "learning_rate": 0.0001919404312069349, + "loss": 2.3354, + "step": 1823 + }, + { + "epoch": 0.04053333333333333, + "grad_norm": 1.0843337774276733, + "learning_rate": 0.0001919359857746166, + "loss": 2.1434, + "step": 1824 + }, + { + "epoch": 0.04055555555555555, + "grad_norm": 1.167205810546875, + "learning_rate": 0.0001919315403422983, + "loss": 1.9047, + "step": 1825 + }, + { + "epoch": 0.040577777777777775, + "grad_norm": 1.0783348083496094, + "learning_rate": 0.00019192709490998, + "loss": 2.0416, + "step": 1826 + }, + { + "epoch": 0.0406, + "grad_norm": 1.4117889404296875, + "learning_rate": 0.00019192264947766173, + "loss": 2.6675, + "step": 1827 + }, + { + "epoch": 0.04062222222222222, + "grad_norm": 1.2423501014709473, + "learning_rate": 0.0001919182040453434, + "loss": 1.9645, + "step": 1828 + }, + { + "epoch": 0.04064444444444444, + "grad_norm": 1.4264363050460815, + "learning_rate": 0.00019191375861302512, + "loss": 2.4745, + "step": 1829 + }, + { + "epoch": 0.04066666666666666, + "grad_norm": 1.229703426361084, + "learning_rate": 0.00019190931318070683, + "loss": 2.2294, + "step": 1830 + }, + { + "epoch": 0.040688888888888886, + "grad_norm": 1.2256559133529663, + "learning_rate": 0.00019190486774838854, + "loss": 2.0544, + "step": 1831 + }, + { + "epoch": 0.040711111111111115, + "grad_norm": 1.4052708148956299, + "learning_rate": 0.00019190042231607025, + "loss": 2.5493, + "step": 1832 + }, + { + "epoch": 0.04073333333333334, + "grad_norm": 1.0882868766784668, + "learning_rate": 0.00019189597688375196, + "loss": 1.7074, + "step": 1833 + }, + { + "epoch": 0.04075555555555556, + "grad_norm": 1.136404037475586, + "learning_rate": 0.00019189153145143367, + "loss": 1.7895, + "step": 1834 + }, + { + "epoch": 0.04077777777777778, + "grad_norm": 1.478893756866455, + "learning_rate": 0.00019188708601911535, + "loss": 2.1396, + "step": 1835 + }, + { + "epoch": 0.0408, + "grad_norm": 1.1789064407348633, + "learning_rate": 0.00019188264058679708, + "loss": 1.9921, + "step": 1836 + }, + { + "epoch": 0.040822222222222225, + "grad_norm": 1.2615991830825806, + "learning_rate": 0.00019187819515447877, + "loss": 1.9984, + "step": 1837 + }, + { + "epoch": 0.04084444444444445, + "grad_norm": 1.2081987857818604, + "learning_rate": 0.00019187374972216048, + "loss": 1.7769, + "step": 1838 + }, + { + "epoch": 0.04086666666666667, + "grad_norm": 2.0135223865509033, + "learning_rate": 0.0001918693042898422, + "loss": 2.5425, + "step": 1839 + }, + { + "epoch": 0.04088888888888889, + "grad_norm": 1.2716548442840576, + "learning_rate": 0.0001918648588575239, + "loss": 1.8521, + "step": 1840 + }, + { + "epoch": 0.04091111111111111, + "grad_norm": 1.3172060251235962, + "learning_rate": 0.00019186041342520563, + "loss": 1.8708, + "step": 1841 + }, + { + "epoch": 0.040933333333333335, + "grad_norm": 1.390977144241333, + "learning_rate": 0.00019185596799288732, + "loss": 2.1785, + "step": 1842 + }, + { + "epoch": 0.04095555555555556, + "grad_norm": 1.1495133638381958, + "learning_rate": 0.00019185152256056902, + "loss": 1.8629, + "step": 1843 + }, + { + "epoch": 0.04097777777777778, + "grad_norm": 1.3957880735397339, + "learning_rate": 0.00019184707712825073, + "loss": 1.938, + "step": 1844 + }, + { + "epoch": 0.041, + "grad_norm": 1.5530160665512085, + "learning_rate": 0.00019184263169593244, + "loss": 2.178, + "step": 1845 + }, + { + "epoch": 0.041022222222222224, + "grad_norm": 1.5242080688476562, + "learning_rate": 0.00019183818626361413, + "loss": 2.2788, + "step": 1846 + }, + { + "epoch": 0.041044444444444446, + "grad_norm": 1.5541326999664307, + "learning_rate": 0.00019183374083129586, + "loss": 2.0234, + "step": 1847 + }, + { + "epoch": 0.04106666666666667, + "grad_norm": 1.292238712310791, + "learning_rate": 0.00019182929539897757, + "loss": 1.8976, + "step": 1848 + }, + { + "epoch": 0.04108888888888889, + "grad_norm": 1.21194589138031, + "learning_rate": 0.00019182484996665926, + "loss": 1.8551, + "step": 1849 + }, + { + "epoch": 0.04111111111111111, + "grad_norm": 1.2845172882080078, + "learning_rate": 0.000191820404534341, + "loss": 1.1576, + "step": 1850 + }, + { + "epoch": 0.041133333333333334, + "grad_norm": 1.0696463584899902, + "learning_rate": 0.00019181595910202267, + "loss": 1.1998, + "step": 1851 + }, + { + "epoch": 0.041155555555555556, + "grad_norm": 0.9326448440551758, + "learning_rate": 0.00019181151366970438, + "loss": 2.2532, + "step": 1852 + }, + { + "epoch": 0.04117777777777778, + "grad_norm": 0.9580495953559875, + "learning_rate": 0.0001918070682373861, + "loss": 2.2173, + "step": 1853 + }, + { + "epoch": 0.0412, + "grad_norm": 1.163463830947876, + "learning_rate": 0.0001918026228050678, + "loss": 2.4942, + "step": 1854 + }, + { + "epoch": 0.04122222222222222, + "grad_norm": 1.0326623916625977, + "learning_rate": 0.00019179817737274949, + "loss": 2.2857, + "step": 1855 + }, + { + "epoch": 0.041244444444444445, + "grad_norm": 1.1594367027282715, + "learning_rate": 0.00019179373194043122, + "loss": 2.4411, + "step": 1856 + }, + { + "epoch": 0.04126666666666667, + "grad_norm": 0.9663302898406982, + "learning_rate": 0.00019178928650811293, + "loss": 2.3332, + "step": 1857 + }, + { + "epoch": 0.04128888888888889, + "grad_norm": 1.1134085655212402, + "learning_rate": 0.00019178484107579464, + "loss": 2.2708, + "step": 1858 + }, + { + "epoch": 0.04131111111111111, + "grad_norm": 1.1311769485473633, + "learning_rate": 0.00019178039564347635, + "loss": 2.0297, + "step": 1859 + }, + { + "epoch": 0.04133333333333333, + "grad_norm": 1.1480071544647217, + "learning_rate": 0.00019177595021115803, + "loss": 2.255, + "step": 1860 + }, + { + "epoch": 0.041355555555555555, + "grad_norm": 1.3008390665054321, + "learning_rate": 0.00019177150477883977, + "loss": 2.2869, + "step": 1861 + }, + { + "epoch": 0.04137777777777778, + "grad_norm": 1.1569377183914185, + "learning_rate": 0.00019176705934652145, + "loss": 2.0248, + "step": 1862 + }, + { + "epoch": 0.0414, + "grad_norm": 1.2025002241134644, + "learning_rate": 0.00019176261391420316, + "loss": 2.5978, + "step": 1863 + }, + { + "epoch": 0.04142222222222222, + "grad_norm": 1.0956943035125732, + "learning_rate": 0.00019175816848188487, + "loss": 1.7053, + "step": 1864 + }, + { + "epoch": 0.041444444444444443, + "grad_norm": 1.1871134042739868, + "learning_rate": 0.00019175372304956658, + "loss": 2.1594, + "step": 1865 + }, + { + "epoch": 0.041466666666666666, + "grad_norm": 1.2127585411071777, + "learning_rate": 0.0001917492776172483, + "loss": 2.8572, + "step": 1866 + }, + { + "epoch": 0.04148888888888889, + "grad_norm": 1.0137825012207031, + "learning_rate": 0.00019174483218493, + "loss": 2.019, + "step": 1867 + }, + { + "epoch": 0.04151111111111111, + "grad_norm": 1.3373006582260132, + "learning_rate": 0.0001917403867526117, + "loss": 2.3209, + "step": 1868 + }, + { + "epoch": 0.04153333333333333, + "grad_norm": 1.067268967628479, + "learning_rate": 0.0001917359413202934, + "loss": 2.2086, + "step": 1869 + }, + { + "epoch": 0.041555555555555554, + "grad_norm": 1.0184361934661865, + "learning_rate": 0.00019173149588797513, + "loss": 1.8515, + "step": 1870 + }, + { + "epoch": 0.041577777777777776, + "grad_norm": 1.0436663627624512, + "learning_rate": 0.0001917270504556568, + "loss": 1.9124, + "step": 1871 + }, + { + "epoch": 0.0416, + "grad_norm": 1.1637758016586304, + "learning_rate": 0.00019172260502333852, + "loss": 2.2636, + "step": 1872 + }, + { + "epoch": 0.04162222222222222, + "grad_norm": 1.303212285041809, + "learning_rate": 0.00019171815959102023, + "loss": 2.1515, + "step": 1873 + }, + { + "epoch": 0.04164444444444444, + "grad_norm": 1.107704997062683, + "learning_rate": 0.00019171371415870194, + "loss": 1.749, + "step": 1874 + }, + { + "epoch": 0.041666666666666664, + "grad_norm": 1.062366008758545, + "learning_rate": 0.00019170926872638365, + "loss": 1.793, + "step": 1875 + }, + { + "epoch": 0.041688888888888886, + "grad_norm": 1.4433813095092773, + "learning_rate": 0.00019170482329406536, + "loss": 2.0772, + "step": 1876 + }, + { + "epoch": 0.04171111111111111, + "grad_norm": 1.2462506294250488, + "learning_rate": 0.00019170037786174707, + "loss": 2.0799, + "step": 1877 + }, + { + "epoch": 0.04173333333333333, + "grad_norm": 1.2223600149154663, + "learning_rate": 0.00019169593242942878, + "loss": 2.1752, + "step": 1878 + }, + { + "epoch": 0.04175555555555555, + "grad_norm": 1.185003638267517, + "learning_rate": 0.0001916914869971105, + "loss": 2.1943, + "step": 1879 + }, + { + "epoch": 0.041777777777777775, + "grad_norm": 1.332453966140747, + "learning_rate": 0.00019168704156479217, + "loss": 2.0462, + "step": 1880 + }, + { + "epoch": 0.0418, + "grad_norm": 1.2166739702224731, + "learning_rate": 0.0001916825961324739, + "loss": 2.085, + "step": 1881 + }, + { + "epoch": 0.04182222222222222, + "grad_norm": 1.2287523746490479, + "learning_rate": 0.0001916781507001556, + "loss": 2.1032, + "step": 1882 + }, + { + "epoch": 0.04184444444444444, + "grad_norm": 1.4310650825500488, + "learning_rate": 0.0001916737052678373, + "loss": 1.8752, + "step": 1883 + }, + { + "epoch": 0.04186666666666667, + "grad_norm": 1.894676923751831, + "learning_rate": 0.000191669259835519, + "loss": 1.5636, + "step": 1884 + }, + { + "epoch": 0.04188888888888889, + "grad_norm": 1.3769009113311768, + "learning_rate": 0.00019166481440320072, + "loss": 2.1381, + "step": 1885 + }, + { + "epoch": 0.041911111111111114, + "grad_norm": 1.2243010997772217, + "learning_rate": 0.00019166036897088243, + "loss": 2.2507, + "step": 1886 + }, + { + "epoch": 0.041933333333333336, + "grad_norm": 1.433355689048767, + "learning_rate": 0.00019165592353856414, + "loss": 2.3409, + "step": 1887 + }, + { + "epoch": 0.04195555555555556, + "grad_norm": 1.450310230255127, + "learning_rate": 0.00019165147810624585, + "loss": 2.1942, + "step": 1888 + }, + { + "epoch": 0.04197777777777778, + "grad_norm": 1.0777829885482788, + "learning_rate": 0.00019164703267392753, + "loss": 1.0536, + "step": 1889 + }, + { + "epoch": 0.042, + "grad_norm": 1.162574052810669, + "learning_rate": 0.00019164258724160927, + "loss": 1.9861, + "step": 1890 + }, + { + "epoch": 0.042022222222222225, + "grad_norm": 1.26123046875, + "learning_rate": 0.00019163814180929095, + "loss": 1.8709, + "step": 1891 + }, + { + "epoch": 0.04204444444444445, + "grad_norm": 1.343668818473816, + "learning_rate": 0.00019163369637697266, + "loss": 2.2974, + "step": 1892 + }, + { + "epoch": 0.04206666666666667, + "grad_norm": 1.3049241304397583, + "learning_rate": 0.00019162925094465437, + "loss": 1.8877, + "step": 1893 + }, + { + "epoch": 0.04208888888888889, + "grad_norm": 1.3508896827697754, + "learning_rate": 0.00019162480551233608, + "loss": 1.475, + "step": 1894 + }, + { + "epoch": 0.04211111111111111, + "grad_norm": 1.3263405561447144, + "learning_rate": 0.0001916203600800178, + "loss": 2.1018, + "step": 1895 + }, + { + "epoch": 0.042133333333333335, + "grad_norm": 1.1588985919952393, + "learning_rate": 0.0001916159146476995, + "loss": 1.8846, + "step": 1896 + }, + { + "epoch": 0.04215555555555556, + "grad_norm": 1.2116475105285645, + "learning_rate": 0.0001916114692153812, + "loss": 1.7266, + "step": 1897 + }, + { + "epoch": 0.04217777777777778, + "grad_norm": 1.6070256233215332, + "learning_rate": 0.00019160702378306292, + "loss": 1.507, + "step": 1898 + }, + { + "epoch": 0.0422, + "grad_norm": 1.2048518657684326, + "learning_rate": 0.00019160257835074463, + "loss": 1.6388, + "step": 1899 + }, + { + "epoch": 0.042222222222222223, + "grad_norm": 1.258184790611267, + "learning_rate": 0.0001915981329184263, + "loss": 1.0054, + "step": 1900 + }, + { + "epoch": 0.042244444444444446, + "grad_norm": 0.9699717164039612, + "learning_rate": 0.00019159368748610805, + "loss": 2.2259, + "step": 1901 + }, + { + "epoch": 0.04226666666666667, + "grad_norm": 0.9850199222564697, + "learning_rate": 0.00019158924205378973, + "loss": 2.2399, + "step": 1902 + }, + { + "epoch": 0.04228888888888889, + "grad_norm": 1.1542946100234985, + "learning_rate": 0.00019158479662147144, + "loss": 2.7975, + "step": 1903 + }, + { + "epoch": 0.04231111111111111, + "grad_norm": 1.0074743032455444, + "learning_rate": 0.00019158035118915315, + "loss": 2.0686, + "step": 1904 + }, + { + "epoch": 0.042333333333333334, + "grad_norm": 1.0204215049743652, + "learning_rate": 0.00019157590575683486, + "loss": 2.3164, + "step": 1905 + }, + { + "epoch": 0.042355555555555556, + "grad_norm": 1.078226923942566, + "learning_rate": 0.00019157146032451657, + "loss": 2.4789, + "step": 1906 + }, + { + "epoch": 0.04237777777777778, + "grad_norm": 1.1347357034683228, + "learning_rate": 0.00019156701489219828, + "loss": 2.1502, + "step": 1907 + }, + { + "epoch": 0.0424, + "grad_norm": 1.0686572790145874, + "learning_rate": 0.00019156256945988, + "loss": 2.4498, + "step": 1908 + }, + { + "epoch": 0.04242222222222222, + "grad_norm": 1.219796061515808, + "learning_rate": 0.00019155812402756167, + "loss": 2.1141, + "step": 1909 + }, + { + "epoch": 0.042444444444444444, + "grad_norm": 1.14406156539917, + "learning_rate": 0.0001915536785952434, + "loss": 2.4928, + "step": 1910 + }, + { + "epoch": 0.042466666666666666, + "grad_norm": 1.0536446571350098, + "learning_rate": 0.0001915492331629251, + "loss": 2.208, + "step": 1911 + }, + { + "epoch": 0.04248888888888889, + "grad_norm": 0.9767941832542419, + "learning_rate": 0.0001915447877306068, + "loss": 2.286, + "step": 1912 + }, + { + "epoch": 0.04251111111111111, + "grad_norm": 1.0415289402008057, + "learning_rate": 0.00019154034229828854, + "loss": 1.9729, + "step": 1913 + }, + { + "epoch": 0.04253333333333333, + "grad_norm": 1.1619441509246826, + "learning_rate": 0.00019153589686597022, + "loss": 1.7091, + "step": 1914 + }, + { + "epoch": 0.042555555555555555, + "grad_norm": 1.118539571762085, + "learning_rate": 0.00019153145143365195, + "loss": 2.1521, + "step": 1915 + }, + { + "epoch": 0.04257777777777778, + "grad_norm": 1.1259968280792236, + "learning_rate": 0.00019152700600133364, + "loss": 2.5297, + "step": 1916 + }, + { + "epoch": 0.0426, + "grad_norm": 1.3698863983154297, + "learning_rate": 0.00019152256056901535, + "loss": 1.892, + "step": 1917 + }, + { + "epoch": 0.04262222222222222, + "grad_norm": 1.1201448440551758, + "learning_rate": 0.00019151811513669706, + "loss": 2.1697, + "step": 1918 + }, + { + "epoch": 0.04264444444444444, + "grad_norm": 1.2097538709640503, + "learning_rate": 0.00019151366970437877, + "loss": 2.183, + "step": 1919 + }, + { + "epoch": 0.042666666666666665, + "grad_norm": 1.2014886140823364, + "learning_rate": 0.00019150922427206045, + "loss": 2.2489, + "step": 1920 + }, + { + "epoch": 0.04268888888888889, + "grad_norm": 1.113774061203003, + "learning_rate": 0.00019150477883974219, + "loss": 2.1225, + "step": 1921 + }, + { + "epoch": 0.04271111111111111, + "grad_norm": 1.1442086696624756, + "learning_rate": 0.0001915003334074239, + "loss": 1.9999, + "step": 1922 + }, + { + "epoch": 0.04273333333333333, + "grad_norm": 1.0915108919143677, + "learning_rate": 0.00019149588797510558, + "loss": 2.1103, + "step": 1923 + }, + { + "epoch": 0.042755555555555554, + "grad_norm": 1.295320749282837, + "learning_rate": 0.00019149144254278731, + "loss": 2.3109, + "step": 1924 + }, + { + "epoch": 0.042777777777777776, + "grad_norm": 1.1278232336044312, + "learning_rate": 0.000191486997110469, + "loss": 1.6493, + "step": 1925 + }, + { + "epoch": 0.0428, + "grad_norm": 1.3750613927841187, + "learning_rate": 0.0001914825516781507, + "loss": 2.5288, + "step": 1926 + }, + { + "epoch": 0.04282222222222222, + "grad_norm": 1.1537458896636963, + "learning_rate": 0.00019147810624583242, + "loss": 1.7565, + "step": 1927 + }, + { + "epoch": 0.04284444444444444, + "grad_norm": 1.107997179031372, + "learning_rate": 0.00019147366081351413, + "loss": 2.2038, + "step": 1928 + }, + { + "epoch": 0.042866666666666664, + "grad_norm": 2.357999086380005, + "learning_rate": 0.0001914692153811958, + "loss": 2.1204, + "step": 1929 + }, + { + "epoch": 0.042888888888888886, + "grad_norm": 1.1876354217529297, + "learning_rate": 0.00019146476994887754, + "loss": 2.0501, + "step": 1930 + }, + { + "epoch": 0.04291111111111111, + "grad_norm": 1.4727190732955933, + "learning_rate": 0.00019146032451655925, + "loss": 2.4526, + "step": 1931 + }, + { + "epoch": 0.04293333333333333, + "grad_norm": 1.2574357986450195, + "learning_rate": 0.00019145587908424094, + "loss": 2.4175, + "step": 1932 + }, + { + "epoch": 0.04295555555555555, + "grad_norm": 1.3092460632324219, + "learning_rate": 0.00019145143365192267, + "loss": 1.9369, + "step": 1933 + }, + { + "epoch": 0.042977777777777774, + "grad_norm": 0.7002347111701965, + "learning_rate": 0.00019144698821960436, + "loss": 0.8446, + "step": 1934 + }, + { + "epoch": 0.043, + "grad_norm": 1.3503941297531128, + "learning_rate": 0.0001914425427872861, + "loss": 2.1603, + "step": 1935 + }, + { + "epoch": 0.043022222222222226, + "grad_norm": 1.2673624753952026, + "learning_rate": 0.00019143809735496778, + "loss": 2.2836, + "step": 1936 + }, + { + "epoch": 0.04304444444444445, + "grad_norm": 1.2485898733139038, + "learning_rate": 0.00019143365192264949, + "loss": 1.973, + "step": 1937 + }, + { + "epoch": 0.04306666666666667, + "grad_norm": 1.2386231422424316, + "learning_rate": 0.0001914292064903312, + "loss": 2.2743, + "step": 1938 + }, + { + "epoch": 0.04308888888888889, + "grad_norm": 1.2765767574310303, + "learning_rate": 0.0001914247610580129, + "loss": 1.9542, + "step": 1939 + }, + { + "epoch": 0.043111111111111114, + "grad_norm": 1.3189082145690918, + "learning_rate": 0.00019142031562569461, + "loss": 2.005, + "step": 1940 + }, + { + "epoch": 0.043133333333333336, + "grad_norm": 1.1719998121261597, + "learning_rate": 0.00019141587019337632, + "loss": 1.6759, + "step": 1941 + }, + { + "epoch": 0.04315555555555556, + "grad_norm": 1.3698196411132812, + "learning_rate": 0.00019141142476105803, + "loss": 2.3095, + "step": 1942 + }, + { + "epoch": 0.04317777777777778, + "grad_norm": 1.6985986232757568, + "learning_rate": 0.00019140697932873972, + "loss": 1.8207, + "step": 1943 + }, + { + "epoch": 0.0432, + "grad_norm": 1.4392225742340088, + "learning_rate": 0.00019140253389642145, + "loss": 2.0524, + "step": 1944 + }, + { + "epoch": 0.043222222222222224, + "grad_norm": 1.4467380046844482, + "learning_rate": 0.00019139808846410313, + "loss": 2.2741, + "step": 1945 + }, + { + "epoch": 0.043244444444444446, + "grad_norm": 1.2616316080093384, + "learning_rate": 0.00019139364303178484, + "loss": 2.1121, + "step": 1946 + }, + { + "epoch": 0.04326666666666667, + "grad_norm": 1.4060750007629395, + "learning_rate": 0.00019138919759946655, + "loss": 1.3509, + "step": 1947 + }, + { + "epoch": 0.04328888888888889, + "grad_norm": 1.632578730583191, + "learning_rate": 0.00019138475216714826, + "loss": 1.7544, + "step": 1948 + }, + { + "epoch": 0.04331111111111111, + "grad_norm": 1.547832727432251, + "learning_rate": 0.00019138030673482997, + "loss": 1.671, + "step": 1949 + }, + { + "epoch": 0.043333333333333335, + "grad_norm": 1.5339981317520142, + "learning_rate": 0.00019137586130251168, + "loss": 0.7453, + "step": 1950 + }, + { + "epoch": 0.04335555555555556, + "grad_norm": 1.1269524097442627, + "learning_rate": 0.0001913714158701934, + "loss": 2.4914, + "step": 1951 + }, + { + "epoch": 0.04337777777777778, + "grad_norm": 0.9670594334602356, + "learning_rate": 0.00019136697043787508, + "loss": 2.0237, + "step": 1952 + }, + { + "epoch": 0.0434, + "grad_norm": 1.0013749599456787, + "learning_rate": 0.0001913625250055568, + "loss": 2.1902, + "step": 1953 + }, + { + "epoch": 0.04342222222222222, + "grad_norm": 0.9302488565444946, + "learning_rate": 0.0001913580795732385, + "loss": 0.0561, + "step": 1954 + }, + { + "epoch": 0.043444444444444445, + "grad_norm": 1.3020941019058228, + "learning_rate": 0.00019135363414092023, + "loss": 2.0093, + "step": 1955 + }, + { + "epoch": 0.04346666666666667, + "grad_norm": 1.2969642877578735, + "learning_rate": 0.00019134918870860191, + "loss": 2.6568, + "step": 1956 + }, + { + "epoch": 0.04348888888888889, + "grad_norm": 1.1942919492721558, + "learning_rate": 0.00019134474327628362, + "loss": 2.7805, + "step": 1957 + }, + { + "epoch": 0.04351111111111111, + "grad_norm": 1.395605206489563, + "learning_rate": 0.00019134029784396533, + "loss": 2.2032, + "step": 1958 + }, + { + "epoch": 0.043533333333333334, + "grad_norm": 1.089299201965332, + "learning_rate": 0.00019133585241164704, + "loss": 2.3004, + "step": 1959 + }, + { + "epoch": 0.043555555555555556, + "grad_norm": 1.1255239248275757, + "learning_rate": 0.00019133140697932875, + "loss": 1.267, + "step": 1960 + }, + { + "epoch": 0.04357777777777778, + "grad_norm": 1.1029146909713745, + "learning_rate": 0.00019132696154701046, + "loss": 1.8903, + "step": 1961 + }, + { + "epoch": 0.0436, + "grad_norm": 1.4411638975143433, + "learning_rate": 0.00019132251611469217, + "loss": 2.3138, + "step": 1962 + }, + { + "epoch": 0.04362222222222222, + "grad_norm": 1.036385416984558, + "learning_rate": 0.00019131807068237385, + "loss": 2.1527, + "step": 1963 + }, + { + "epoch": 0.043644444444444444, + "grad_norm": 1.1047844886779785, + "learning_rate": 0.0001913136252500556, + "loss": 2.4258, + "step": 1964 + }, + { + "epoch": 0.043666666666666666, + "grad_norm": 1.3916735649108887, + "learning_rate": 0.00019130917981773727, + "loss": 1.8861, + "step": 1965 + }, + { + "epoch": 0.04368888888888889, + "grad_norm": 1.0504308938980103, + "learning_rate": 0.00019130473438541898, + "loss": 1.9441, + "step": 1966 + }, + { + "epoch": 0.04371111111111111, + "grad_norm": 1.0184171199798584, + "learning_rate": 0.0001913002889531007, + "loss": 1.4679, + "step": 1967 + }, + { + "epoch": 0.04373333333333333, + "grad_norm": 1.156490683555603, + "learning_rate": 0.0001912958435207824, + "loss": 1.7375, + "step": 1968 + }, + { + "epoch": 0.043755555555555554, + "grad_norm": 1.1118831634521484, + "learning_rate": 0.0001912913980884641, + "loss": 2.0988, + "step": 1969 + }, + { + "epoch": 0.04377777777777778, + "grad_norm": 1.3156795501708984, + "learning_rate": 0.00019128695265614582, + "loss": 2.2782, + "step": 1970 + }, + { + "epoch": 0.0438, + "grad_norm": 1.2438026666641235, + "learning_rate": 0.00019128250722382753, + "loss": 2.2393, + "step": 1971 + }, + { + "epoch": 0.04382222222222222, + "grad_norm": 1.1352112293243408, + "learning_rate": 0.00019127806179150924, + "loss": 1.9712, + "step": 1972 + }, + { + "epoch": 0.04384444444444444, + "grad_norm": 1.2578608989715576, + "learning_rate": 0.00019127361635919095, + "loss": 1.9257, + "step": 1973 + }, + { + "epoch": 0.043866666666666665, + "grad_norm": 1.28665292263031, + "learning_rate": 0.00019126917092687263, + "loss": 2.2718, + "step": 1974 + }, + { + "epoch": 0.04388888888888889, + "grad_norm": 1.2211873531341553, + "learning_rate": 0.00019126472549455437, + "loss": 1.4196, + "step": 1975 + }, + { + "epoch": 0.04391111111111111, + "grad_norm": 0.8537003993988037, + "learning_rate": 0.00019126028006223605, + "loss": 1.1943, + "step": 1976 + }, + { + "epoch": 0.04393333333333333, + "grad_norm": 1.29036283493042, + "learning_rate": 0.00019125583462991776, + "loss": 2.3325, + "step": 1977 + }, + { + "epoch": 0.04395555555555555, + "grad_norm": 1.3858702182769775, + "learning_rate": 0.00019125138919759947, + "loss": 2.1372, + "step": 1978 + }, + { + "epoch": 0.043977777777777775, + "grad_norm": 1.198378324508667, + "learning_rate": 0.00019124694376528118, + "loss": 1.8914, + "step": 1979 + }, + { + "epoch": 0.044, + "grad_norm": 1.4767128229141235, + "learning_rate": 0.0001912424983329629, + "loss": 2.2288, + "step": 1980 + }, + { + "epoch": 0.04402222222222222, + "grad_norm": 1.3688275814056396, + "learning_rate": 0.0001912380529006446, + "loss": 2.3921, + "step": 1981 + }, + { + "epoch": 0.04404444444444444, + "grad_norm": 1.4493945837020874, + "learning_rate": 0.0001912336074683263, + "loss": 2.1145, + "step": 1982 + }, + { + "epoch": 0.044066666666666664, + "grad_norm": 1.1819411516189575, + "learning_rate": 0.000191229162036008, + "loss": 2.0534, + "step": 1983 + }, + { + "epoch": 0.044088888888888886, + "grad_norm": 1.3783243894577026, + "learning_rate": 0.00019122471660368973, + "loss": 2.0948, + "step": 1984 + }, + { + "epoch": 0.04411111111111111, + "grad_norm": 1.2227838039398193, + "learning_rate": 0.0001912202711713714, + "loss": 1.8041, + "step": 1985 + }, + { + "epoch": 0.04413333333333333, + "grad_norm": 1.240958571434021, + "learning_rate": 0.00019121582573905312, + "loss": 2.1281, + "step": 1986 + }, + { + "epoch": 0.04415555555555556, + "grad_norm": 1.241132378578186, + "learning_rate": 0.00019121138030673486, + "loss": 1.5316, + "step": 1987 + }, + { + "epoch": 0.04417777777777778, + "grad_norm": 1.322931170463562, + "learning_rate": 0.00019120693487441654, + "loss": 1.7657, + "step": 1988 + }, + { + "epoch": 0.0442, + "grad_norm": 1.4412667751312256, + "learning_rate": 0.00019120248944209825, + "loss": 1.9451, + "step": 1989 + }, + { + "epoch": 0.044222222222222225, + "grad_norm": 1.4083698987960815, + "learning_rate": 0.00019119804400977996, + "loss": 2.0041, + "step": 1990 + }, + { + "epoch": 0.04424444444444445, + "grad_norm": 1.2746927738189697, + "learning_rate": 0.00019119359857746167, + "loss": 1.8777, + "step": 1991 + }, + { + "epoch": 0.04426666666666667, + "grad_norm": 1.3022764921188354, + "learning_rate": 0.00019118915314514338, + "loss": 1.8062, + "step": 1992 + }, + { + "epoch": 0.04428888888888889, + "grad_norm": 1.1984270811080933, + "learning_rate": 0.0001911847077128251, + "loss": 1.7355, + "step": 1993 + }, + { + "epoch": 0.044311111111111114, + "grad_norm": 1.4208557605743408, + "learning_rate": 0.00019118026228050677, + "loss": 1.7095, + "step": 1994 + }, + { + "epoch": 0.044333333333333336, + "grad_norm": 1.6517865657806396, + "learning_rate": 0.0001911758168481885, + "loss": 1.9629, + "step": 1995 + }, + { + "epoch": 0.04435555555555556, + "grad_norm": 1.5286154747009277, + "learning_rate": 0.00019117137141587022, + "loss": 2.1979, + "step": 1996 + }, + { + "epoch": 0.04437777777777778, + "grad_norm": 1.7356926202774048, + "learning_rate": 0.0001911669259835519, + "loss": 0.1054, + "step": 1997 + }, + { + "epoch": 0.0444, + "grad_norm": 1.2469139099121094, + "learning_rate": 0.00019116248055123364, + "loss": 1.1958, + "step": 1998 + }, + { + "epoch": 0.044422222222222224, + "grad_norm": 1.6873579025268555, + "learning_rate": 0.00019115803511891532, + "loss": 1.839, + "step": 1999 + }, + { + "epoch": 0.044444444444444446, + "grad_norm": 1.4254117012023926, + "learning_rate": 0.00019115358968659703, + "loss": 1.5337, + "step": 2000 + }, + { + "epoch": 0.04446666666666667, + "grad_norm": 1.0838704109191895, + "learning_rate": 0.00019114914425427874, + "loss": 1.106, + "step": 2001 + }, + { + "epoch": 0.04448888888888889, + "grad_norm": 0.7966216206550598, + "learning_rate": 0.00019114469882196045, + "loss": 1.2112, + "step": 2002 + }, + { + "epoch": 0.04451111111111111, + "grad_norm": 1.0265352725982666, + "learning_rate": 0.00019114025338964213, + "loss": 2.415, + "step": 2003 + }, + { + "epoch": 0.044533333333333334, + "grad_norm": 1.2135584354400635, + "learning_rate": 0.00019113580795732387, + "loss": 2.7277, + "step": 2004 + }, + { + "epoch": 0.04455555555555556, + "grad_norm": 1.117538332939148, + "learning_rate": 0.00019113136252500558, + "loss": 2.5271, + "step": 2005 + }, + { + "epoch": 0.04457777777777778, + "grad_norm": 1.1192454099655151, + "learning_rate": 0.00019112691709268726, + "loss": 2.2969, + "step": 2006 + }, + { + "epoch": 0.0446, + "grad_norm": 1.1067897081375122, + "learning_rate": 0.000191122471660369, + "loss": 2.2771, + "step": 2007 + }, + { + "epoch": 0.04462222222222222, + "grad_norm": 1.0281237363815308, + "learning_rate": 0.00019111802622805068, + "loss": 2.0571, + "step": 2008 + }, + { + "epoch": 0.044644444444444445, + "grad_norm": 1.2204391956329346, + "learning_rate": 0.0001911135807957324, + "loss": 2.255, + "step": 2009 + }, + { + "epoch": 0.04466666666666667, + "grad_norm": 1.030470609664917, + "learning_rate": 0.0001911091353634141, + "loss": 1.4896, + "step": 2010 + }, + { + "epoch": 0.04468888888888889, + "grad_norm": 1.093339204788208, + "learning_rate": 0.0001911046899310958, + "loss": 1.9308, + "step": 2011 + }, + { + "epoch": 0.04471111111111111, + "grad_norm": 1.2781885862350464, + "learning_rate": 0.00019110024449877752, + "loss": 2.6854, + "step": 2012 + }, + { + "epoch": 0.04473333333333333, + "grad_norm": 1.1154255867004395, + "learning_rate": 0.00019109579906645923, + "loss": 1.9294, + "step": 2013 + }, + { + "epoch": 0.044755555555555555, + "grad_norm": 1.0550360679626465, + "learning_rate": 0.00019109135363414094, + "loss": 1.9543, + "step": 2014 + }, + { + "epoch": 0.04477777777777778, + "grad_norm": 1.0893977880477905, + "learning_rate": 0.00019108690820182265, + "loss": 1.8128, + "step": 2015 + }, + { + "epoch": 0.0448, + "grad_norm": 1.181086540222168, + "learning_rate": 0.00019108246276950436, + "loss": 1.7576, + "step": 2016 + }, + { + "epoch": 0.04482222222222222, + "grad_norm": 1.1394709348678589, + "learning_rate": 0.00019107801733718604, + "loss": 2.2219, + "step": 2017 + }, + { + "epoch": 0.044844444444444444, + "grad_norm": 1.3633637428283691, + "learning_rate": 0.00019107357190486777, + "loss": 0.7607, + "step": 2018 + }, + { + "epoch": 0.044866666666666666, + "grad_norm": 1.1842632293701172, + "learning_rate": 0.00019106912647254946, + "loss": 2.5356, + "step": 2019 + }, + { + "epoch": 0.04488888888888889, + "grad_norm": 1.2533390522003174, + "learning_rate": 0.00019106468104023117, + "loss": 1.867, + "step": 2020 + }, + { + "epoch": 0.04491111111111111, + "grad_norm": 1.0170044898986816, + "learning_rate": 0.00019106023560791288, + "loss": 1.7942, + "step": 2021 + }, + { + "epoch": 0.04493333333333333, + "grad_norm": 1.183278203010559, + "learning_rate": 0.00019105579017559459, + "loss": 2.045, + "step": 2022 + }, + { + "epoch": 0.044955555555555554, + "grad_norm": 1.187788963317871, + "learning_rate": 0.0001910513447432763, + "loss": 1.8856, + "step": 2023 + }, + { + "epoch": 0.044977777777777776, + "grad_norm": 1.1496013402938843, + "learning_rate": 0.000191046899310958, + "loss": 2.0814, + "step": 2024 + }, + { + "epoch": 0.045, + "grad_norm": 1.2607262134552002, + "learning_rate": 0.00019104245387863971, + "loss": 2.246, + "step": 2025 + }, + { + "epoch": 0.04502222222222222, + "grad_norm": 1.063953161239624, + "learning_rate": 0.0001910380084463214, + "loss": 1.874, + "step": 2026 + }, + { + "epoch": 0.04504444444444444, + "grad_norm": 1.1491808891296387, + "learning_rate": 0.00019103356301400313, + "loss": 2.1215, + "step": 2027 + }, + { + "epoch": 0.045066666666666665, + "grad_norm": 1.3369731903076172, + "learning_rate": 0.00019102911758168482, + "loss": 2.0328, + "step": 2028 + }, + { + "epoch": 0.04508888888888889, + "grad_norm": 1.2467083930969238, + "learning_rate": 0.00019102467214936655, + "loss": 1.9431, + "step": 2029 + }, + { + "epoch": 0.04511111111111111, + "grad_norm": 1.3760888576507568, + "learning_rate": 0.00019102022671704824, + "loss": 2.2211, + "step": 2030 + }, + { + "epoch": 0.04513333333333333, + "grad_norm": 1.152650237083435, + "learning_rate": 0.00019101578128472995, + "loss": 2.0473, + "step": 2031 + }, + { + "epoch": 0.04515555555555555, + "grad_norm": 1.8000417947769165, + "learning_rate": 0.00019101133585241165, + "loss": 1.0655, + "step": 2032 + }, + { + "epoch": 0.045177777777777775, + "grad_norm": 1.390941858291626, + "learning_rate": 0.00019100689042009336, + "loss": 2.0624, + "step": 2033 + }, + { + "epoch": 0.0452, + "grad_norm": 1.2860257625579834, + "learning_rate": 0.00019100244498777507, + "loss": 2.0774, + "step": 2034 + }, + { + "epoch": 0.04522222222222222, + "grad_norm": 1.1774852275848389, + "learning_rate": 0.00019099799955545678, + "loss": 1.8678, + "step": 2035 + }, + { + "epoch": 0.04524444444444444, + "grad_norm": 1.122209906578064, + "learning_rate": 0.0001909935541231385, + "loss": 1.7027, + "step": 2036 + }, + { + "epoch": 0.04526666666666666, + "grad_norm": 1.410127878189087, + "learning_rate": 0.00019098910869082018, + "loss": 1.893, + "step": 2037 + }, + { + "epoch": 0.045288888888888885, + "grad_norm": 1.2421706914901733, + "learning_rate": 0.0001909846632585019, + "loss": 1.9216, + "step": 2038 + }, + { + "epoch": 0.045311111111111115, + "grad_norm": 1.2033071517944336, + "learning_rate": 0.0001909802178261836, + "loss": 1.7059, + "step": 2039 + }, + { + "epoch": 0.04533333333333334, + "grad_norm": 1.1801608800888062, + "learning_rate": 0.0001909757723938653, + "loss": 1.8569, + "step": 2040 + }, + { + "epoch": 0.04535555555555556, + "grad_norm": 1.1812193393707275, + "learning_rate": 0.00019097132696154701, + "loss": 1.6449, + "step": 2041 + }, + { + "epoch": 0.04537777777777778, + "grad_norm": 1.3143105506896973, + "learning_rate": 0.00019096688152922872, + "loss": 2.0052, + "step": 2042 + }, + { + "epoch": 0.0454, + "grad_norm": 1.5356136560440063, + "learning_rate": 0.00019096243609691043, + "loss": 1.9767, + "step": 2043 + }, + { + "epoch": 0.045422222222222225, + "grad_norm": 1.32579505443573, + "learning_rate": 0.00019095799066459214, + "loss": 2.267, + "step": 2044 + }, + { + "epoch": 0.04544444444444445, + "grad_norm": 1.5171310901641846, + "learning_rate": 0.00019095354523227385, + "loss": 2.0841, + "step": 2045 + }, + { + "epoch": 0.04546666666666667, + "grad_norm": 1.3797420263290405, + "learning_rate": 0.00019094909979995554, + "loss": 2.0436, + "step": 2046 + }, + { + "epoch": 0.04548888888888889, + "grad_norm": 1.2719680070877075, + "learning_rate": 0.00019094465436763727, + "loss": 2.1284, + "step": 2047 + }, + { + "epoch": 0.04551111111111111, + "grad_norm": 1.4168221950531006, + "learning_rate": 0.00019094020893531895, + "loss": 2.1104, + "step": 2048 + }, + { + "epoch": 0.045533333333333335, + "grad_norm": 1.7456079721450806, + "learning_rate": 0.0001909357635030007, + "loss": 2.0084, + "step": 2049 + }, + { + "epoch": 0.04555555555555556, + "grad_norm": 1.3407574892044067, + "learning_rate": 0.00019093131807068237, + "loss": 1.985, + "step": 2050 + }, + { + "epoch": 0.04557777777777778, + "grad_norm": 1.072956919670105, + "learning_rate": 0.00019092687263836408, + "loss": 2.4159, + "step": 2051 + }, + { + "epoch": 0.0456, + "grad_norm": 1.1648443937301636, + "learning_rate": 0.0001909224272060458, + "loss": 2.5451, + "step": 2052 + }, + { + "epoch": 0.045622222222222224, + "grad_norm": 1.623420238494873, + "learning_rate": 0.0001909179817737275, + "loss": 0.0626, + "step": 2053 + }, + { + "epoch": 0.045644444444444446, + "grad_norm": 0.9642564654350281, + "learning_rate": 0.0001909135363414092, + "loss": 2.3418, + "step": 2054 + }, + { + "epoch": 0.04566666666666667, + "grad_norm": 0.9753633737564087, + "learning_rate": 0.00019090909090909092, + "loss": 2.2821, + "step": 2055 + }, + { + "epoch": 0.04568888888888889, + "grad_norm": 0.9865321516990662, + "learning_rate": 0.00019090464547677263, + "loss": 2.3462, + "step": 2056 + }, + { + "epoch": 0.04571111111111111, + "grad_norm": 1.3280198574066162, + "learning_rate": 0.00019090020004445431, + "loss": 2.3088, + "step": 2057 + }, + { + "epoch": 0.045733333333333334, + "grad_norm": 1.1947888135910034, + "learning_rate": 0.00019089575461213605, + "loss": 2.1233, + "step": 2058 + }, + { + "epoch": 0.045755555555555556, + "grad_norm": 1.1185452938079834, + "learning_rate": 0.00019089130917981773, + "loss": 2.2391, + "step": 2059 + }, + { + "epoch": 0.04577777777777778, + "grad_norm": 1.1187952756881714, + "learning_rate": 0.00019088686374749944, + "loss": 2.3674, + "step": 2060 + }, + { + "epoch": 0.0458, + "grad_norm": 1.0084055662155151, + "learning_rate": 0.00019088241831518118, + "loss": 1.6806, + "step": 2061 + }, + { + "epoch": 0.04582222222222222, + "grad_norm": 1.1166616678237915, + "learning_rate": 0.00019087797288286286, + "loss": 1.7277, + "step": 2062 + }, + { + "epoch": 0.045844444444444445, + "grad_norm": 1.1746793985366821, + "learning_rate": 0.00019087352745054457, + "loss": 2.3354, + "step": 2063 + }, + { + "epoch": 0.04586666666666667, + "grad_norm": 1.0783172845840454, + "learning_rate": 0.00019086908201822628, + "loss": 2.0111, + "step": 2064 + }, + { + "epoch": 0.04588888888888889, + "grad_norm": 1.250605583190918, + "learning_rate": 0.000190864636585908, + "loss": 2.3621, + "step": 2065 + }, + { + "epoch": 0.04591111111111111, + "grad_norm": 1.1433264017105103, + "learning_rate": 0.00019086019115358967, + "loss": 2.1009, + "step": 2066 + }, + { + "epoch": 0.04593333333333333, + "grad_norm": 1.0566843748092651, + "learning_rate": 0.0001908557457212714, + "loss": 1.4429, + "step": 2067 + }, + { + "epoch": 0.045955555555555555, + "grad_norm": 1.267156720161438, + "learning_rate": 0.0001908513002889531, + "loss": 2.0563, + "step": 2068 + }, + { + "epoch": 0.04597777777777778, + "grad_norm": 1.165600299835205, + "learning_rate": 0.00019084685485663483, + "loss": 2.003, + "step": 2069 + }, + { + "epoch": 0.046, + "grad_norm": 1.1861345767974854, + "learning_rate": 0.00019084240942431654, + "loss": 1.8116, + "step": 2070 + }, + { + "epoch": 0.04602222222222222, + "grad_norm": 1.1564280986785889, + "learning_rate": 0.00019083796399199822, + "loss": 2.3152, + "step": 2071 + }, + { + "epoch": 0.04604444444444444, + "grad_norm": 1.4923527240753174, + "learning_rate": 0.00019083351855967996, + "loss": 1.2269, + "step": 2072 + }, + { + "epoch": 0.046066666666666665, + "grad_norm": 1.4147422313690186, + "learning_rate": 0.00019082907312736164, + "loss": 2.9776, + "step": 2073 + }, + { + "epoch": 0.04608888888888889, + "grad_norm": 1.1333788633346558, + "learning_rate": 0.00019082462769504335, + "loss": 1.9991, + "step": 2074 + }, + { + "epoch": 0.04611111111111111, + "grad_norm": 1.23317289352417, + "learning_rate": 0.00019082018226272506, + "loss": 2.314, + "step": 2075 + }, + { + "epoch": 0.04613333333333333, + "grad_norm": 1.3660361766815186, + "learning_rate": 0.00019081573683040677, + "loss": 2.0035, + "step": 2076 + }, + { + "epoch": 0.046155555555555554, + "grad_norm": 1.224594235420227, + "learning_rate": 0.00019081129139808845, + "loss": 2.8309, + "step": 2077 + }, + { + "epoch": 0.046177777777777776, + "grad_norm": 1.1179392337799072, + "learning_rate": 0.0001908068459657702, + "loss": 2.2855, + "step": 2078 + }, + { + "epoch": 0.0462, + "grad_norm": 1.2921150922775269, + "learning_rate": 0.0001908024005334519, + "loss": 2.5331, + "step": 2079 + }, + { + "epoch": 0.04622222222222222, + "grad_norm": 1.1048730611801147, + "learning_rate": 0.00019079795510113358, + "loss": 1.9631, + "step": 2080 + }, + { + "epoch": 0.04624444444444444, + "grad_norm": 1.2944539785385132, + "learning_rate": 0.00019079350966881532, + "loss": 2.3925, + "step": 2081 + }, + { + "epoch": 0.046266666666666664, + "grad_norm": 1.1384243965148926, + "learning_rate": 0.000190789064236497, + "loss": 1.9401, + "step": 2082 + }, + { + "epoch": 0.046288888888888886, + "grad_norm": 1.2576638460159302, + "learning_rate": 0.0001907846188041787, + "loss": 2.0843, + "step": 2083 + }, + { + "epoch": 0.04631111111111111, + "grad_norm": 1.1739925146102905, + "learning_rate": 0.00019078017337186042, + "loss": 1.9975, + "step": 2084 + }, + { + "epoch": 0.04633333333333333, + "grad_norm": 1.2365814447402954, + "learning_rate": 0.00019077572793954213, + "loss": 1.7943, + "step": 2085 + }, + { + "epoch": 0.04635555555555555, + "grad_norm": 1.1880892515182495, + "learning_rate": 0.00019077128250722384, + "loss": 1.9764, + "step": 2086 + }, + { + "epoch": 0.046377777777777775, + "grad_norm": 1.3355467319488525, + "learning_rate": 0.00019076683707490555, + "loss": 1.8566, + "step": 2087 + }, + { + "epoch": 0.0464, + "grad_norm": 1.2710083723068237, + "learning_rate": 0.00019076239164258726, + "loss": 2.1024, + "step": 2088 + }, + { + "epoch": 0.04642222222222222, + "grad_norm": 1.2641454935073853, + "learning_rate": 0.00019075794621026897, + "loss": 2.1059, + "step": 2089 + }, + { + "epoch": 0.04644444444444444, + "grad_norm": 0.8848752975463867, + "learning_rate": 0.00019075350077795068, + "loss": 0.0567, + "step": 2090 + }, + { + "epoch": 0.04646666666666667, + "grad_norm": 1.2439645528793335, + "learning_rate": 0.00019074905534563236, + "loss": 2.1156, + "step": 2091 + }, + { + "epoch": 0.04648888888888889, + "grad_norm": 1.2400275468826294, + "learning_rate": 0.0001907446099133141, + "loss": 1.8364, + "step": 2092 + }, + { + "epoch": 0.046511111111111114, + "grad_norm": 1.0821958780288696, + "learning_rate": 0.00019074016448099578, + "loss": 1.1447, + "step": 2093 + }, + { + "epoch": 0.046533333333333336, + "grad_norm": 1.4247181415557861, + "learning_rate": 0.0001907357190486775, + "loss": 2.2779, + "step": 2094 + }, + { + "epoch": 0.04655555555555556, + "grad_norm": 1.7097673416137695, + "learning_rate": 0.0001907312736163592, + "loss": 2.0062, + "step": 2095 + }, + { + "epoch": 0.04657777777777778, + "grad_norm": 1.294437050819397, + "learning_rate": 0.0001907268281840409, + "loss": 2.075, + "step": 2096 + }, + { + "epoch": 0.0466, + "grad_norm": 1.3077166080474854, + "learning_rate": 0.00019072238275172262, + "loss": 2.0455, + "step": 2097 + }, + { + "epoch": 0.046622222222222225, + "grad_norm": 1.5202935934066772, + "learning_rate": 0.00019071793731940433, + "loss": 2.1239, + "step": 2098 + }, + { + "epoch": 0.04664444444444445, + "grad_norm": 1.3648747205734253, + "learning_rate": 0.00019071349188708604, + "loss": 1.9094, + "step": 2099 + }, + { + "epoch": 0.04666666666666667, + "grad_norm": 1.1727713346481323, + "learning_rate": 0.00019070904645476772, + "loss": 0.6035, + "step": 2100 + }, + { + "epoch": 0.04668888888888889, + "grad_norm": 1.0592330694198608, + "learning_rate": 0.00019070460102244946, + "loss": 2.3043, + "step": 2101 + }, + { + "epoch": 0.04671111111111111, + "grad_norm": 1.4692808389663696, + "learning_rate": 0.00019070015559013114, + "loss": 0.0774, + "step": 2102 + }, + { + "epoch": 0.046733333333333335, + "grad_norm": 1.0427197217941284, + "learning_rate": 0.00019069571015781285, + "loss": 2.4598, + "step": 2103 + }, + { + "epoch": 0.04675555555555556, + "grad_norm": 0.9507056474685669, + "learning_rate": 0.00019069126472549456, + "loss": 2.253, + "step": 2104 + }, + { + "epoch": 0.04677777777777778, + "grad_norm": 1.0771783590316772, + "learning_rate": 0.00019068681929317627, + "loss": 2.4605, + "step": 2105 + }, + { + "epoch": 0.0468, + "grad_norm": 1.118393898010254, + "learning_rate": 0.00019068237386085798, + "loss": 2.2336, + "step": 2106 + }, + { + "epoch": 0.04682222222222222, + "grad_norm": 1.0407181978225708, + "learning_rate": 0.0001906779284285397, + "loss": 2.7806, + "step": 2107 + }, + { + "epoch": 0.046844444444444445, + "grad_norm": 1.0747175216674805, + "learning_rate": 0.0001906734829962214, + "loss": 2.3764, + "step": 2108 + }, + { + "epoch": 0.04686666666666667, + "grad_norm": 1.0551825761795044, + "learning_rate": 0.0001906690375639031, + "loss": 2.3002, + "step": 2109 + }, + { + "epoch": 0.04688888888888889, + "grad_norm": 0.9646710157394409, + "learning_rate": 0.00019066459213158482, + "loss": 0.9172, + "step": 2110 + }, + { + "epoch": 0.04691111111111111, + "grad_norm": 1.11587393283844, + "learning_rate": 0.0001906601466992665, + "loss": 2.1653, + "step": 2111 + }, + { + "epoch": 0.046933333333333334, + "grad_norm": 1.0653938055038452, + "learning_rate": 0.00019065570126694823, + "loss": 2.3112, + "step": 2112 + }, + { + "epoch": 0.046955555555555556, + "grad_norm": 1.295440912246704, + "learning_rate": 0.00019065125583462992, + "loss": 2.3961, + "step": 2113 + }, + { + "epoch": 0.04697777777777778, + "grad_norm": 1.1522328853607178, + "learning_rate": 0.00019064681040231163, + "loss": 2.315, + "step": 2114 + }, + { + "epoch": 0.047, + "grad_norm": 1.2604814767837524, + "learning_rate": 0.00019064236496999334, + "loss": 2.3902, + "step": 2115 + }, + { + "epoch": 0.04702222222222222, + "grad_norm": 1.2390669584274292, + "learning_rate": 0.00019063791953767505, + "loss": 2.076, + "step": 2116 + }, + { + "epoch": 0.047044444444444444, + "grad_norm": 1.0419986248016357, + "learning_rate": 0.00019063347410535676, + "loss": 2.1553, + "step": 2117 + }, + { + "epoch": 0.047066666666666666, + "grad_norm": 1.4347931146621704, + "learning_rate": 0.00019062902867303847, + "loss": 2.3195, + "step": 2118 + }, + { + "epoch": 0.04708888888888889, + "grad_norm": 0.8490489721298218, + "learning_rate": 0.00019062458324072017, + "loss": 0.7223, + "step": 2119 + }, + { + "epoch": 0.04711111111111111, + "grad_norm": 1.05935537815094, + "learning_rate": 0.00019062013780840186, + "loss": 1.9971, + "step": 2120 + }, + { + "epoch": 0.04713333333333333, + "grad_norm": 1.193286657333374, + "learning_rate": 0.0001906156923760836, + "loss": 2.0918, + "step": 2121 + }, + { + "epoch": 0.047155555555555555, + "grad_norm": 1.3203314542770386, + "learning_rate": 0.00019061124694376528, + "loss": 2.3659, + "step": 2122 + }, + { + "epoch": 0.04717777777777778, + "grad_norm": 1.1700646877288818, + "learning_rate": 0.00019060680151144699, + "loss": 1.9754, + "step": 2123 + }, + { + "epoch": 0.0472, + "grad_norm": 1.1315226554870605, + "learning_rate": 0.0001906023560791287, + "loss": 2.2132, + "step": 2124 + }, + { + "epoch": 0.04722222222222222, + "grad_norm": 1.391614317893982, + "learning_rate": 0.0001905979106468104, + "loss": 2.4032, + "step": 2125 + }, + { + "epoch": 0.04724444444444444, + "grad_norm": 1.2647062540054321, + "learning_rate": 0.00019059346521449212, + "loss": 2.3213, + "step": 2126 + }, + { + "epoch": 0.047266666666666665, + "grad_norm": 1.7268121242523193, + "learning_rate": 0.00019058901978217382, + "loss": 2.4066, + "step": 2127 + }, + { + "epoch": 0.04728888888888889, + "grad_norm": 1.2878731489181519, + "learning_rate": 0.00019058457434985553, + "loss": 2.2262, + "step": 2128 + }, + { + "epoch": 0.04731111111111111, + "grad_norm": 1.2903292179107666, + "learning_rate": 0.00019058012891753724, + "loss": 1.6896, + "step": 2129 + }, + { + "epoch": 0.04733333333333333, + "grad_norm": 1.0576634407043457, + "learning_rate": 0.00019057568348521895, + "loss": 1.1286, + "step": 2130 + }, + { + "epoch": 0.047355555555555554, + "grad_norm": 1.6381458044052124, + "learning_rate": 0.00019057123805290064, + "loss": 1.8195, + "step": 2131 + }, + { + "epoch": 0.047377777777777776, + "grad_norm": 1.3932732343673706, + "learning_rate": 0.00019056679262058237, + "loss": 2.1326, + "step": 2132 + }, + { + "epoch": 0.0474, + "grad_norm": 1.4780395030975342, + "learning_rate": 0.00019056234718826406, + "loss": 1.8217, + "step": 2133 + }, + { + "epoch": 0.04742222222222222, + "grad_norm": 1.263351559638977, + "learning_rate": 0.00019055790175594576, + "loss": 1.9574, + "step": 2134 + }, + { + "epoch": 0.04744444444444444, + "grad_norm": 1.241752028465271, + "learning_rate": 0.0001905534563236275, + "loss": 1.987, + "step": 2135 + }, + { + "epoch": 0.047466666666666664, + "grad_norm": 1.1108345985412598, + "learning_rate": 0.00019054901089130918, + "loss": 1.7884, + "step": 2136 + }, + { + "epoch": 0.047488888888888886, + "grad_norm": 1.3020201921463013, + "learning_rate": 0.0001905445654589909, + "loss": 1.625, + "step": 2137 + }, + { + "epoch": 0.04751111111111111, + "grad_norm": 1.0572000741958618, + "learning_rate": 0.0001905401200266726, + "loss": 1.5847, + "step": 2138 + }, + { + "epoch": 0.04753333333333333, + "grad_norm": 1.4975395202636719, + "learning_rate": 0.0001905356745943543, + "loss": 2.4322, + "step": 2139 + }, + { + "epoch": 0.04755555555555555, + "grad_norm": 1.4509907960891724, + "learning_rate": 0.000190531229162036, + "loss": 2.0507, + "step": 2140 + }, + { + "epoch": 0.047577777777777774, + "grad_norm": 1.9150265455245972, + "learning_rate": 0.00019052678372971773, + "loss": 1.9737, + "step": 2141 + }, + { + "epoch": 0.0476, + "grad_norm": 1.4166738986968994, + "learning_rate": 0.00019052233829739941, + "loss": 1.8219, + "step": 2142 + }, + { + "epoch": 0.047622222222222226, + "grad_norm": 1.3880231380462646, + "learning_rate": 0.00019051789286508115, + "loss": 1.8047, + "step": 2143 + }, + { + "epoch": 0.04764444444444445, + "grad_norm": 1.6355503797531128, + "learning_rate": 0.00019051344743276286, + "loss": 2.1546, + "step": 2144 + }, + { + "epoch": 0.04766666666666667, + "grad_norm": 1.199230670928955, + "learning_rate": 0.00019050900200044454, + "loss": 1.6743, + "step": 2145 + }, + { + "epoch": 0.04768888888888889, + "grad_norm": 1.1767323017120361, + "learning_rate": 0.00019050455656812628, + "loss": 1.5314, + "step": 2146 + }, + { + "epoch": 0.047711111111111114, + "grad_norm": 1.4286943674087524, + "learning_rate": 0.00019050011113580796, + "loss": 2.0015, + "step": 2147 + }, + { + "epoch": 0.047733333333333336, + "grad_norm": 1.2978568077087402, + "learning_rate": 0.00019049566570348967, + "loss": 1.8082, + "step": 2148 + }, + { + "epoch": 0.04775555555555556, + "grad_norm": 1.5738790035247803, + "learning_rate": 0.00019049122027117138, + "loss": 1.7127, + "step": 2149 + }, + { + "epoch": 0.04777777777777778, + "grad_norm": 1.3680119514465332, + "learning_rate": 0.0001904867748388531, + "loss": 1.7397, + "step": 2150 + }, + { + "epoch": 0.0478, + "grad_norm": 0.9539645910263062, + "learning_rate": 0.00019048232940653477, + "loss": 2.3155, + "step": 2151 + }, + { + "epoch": 0.047822222222222224, + "grad_norm": 1.417159914970398, + "learning_rate": 0.0001904778839742165, + "loss": 1.0597, + "step": 2152 + }, + { + "epoch": 0.047844444444444446, + "grad_norm": 0.9663378596305847, + "learning_rate": 0.00019047343854189822, + "loss": 2.2059, + "step": 2153 + }, + { + "epoch": 0.04786666666666667, + "grad_norm": 1.683668851852417, + "learning_rate": 0.0001904689931095799, + "loss": 1.9764, + "step": 2154 + }, + { + "epoch": 0.04788888888888889, + "grad_norm": 1.0001846551895142, + "learning_rate": 0.00019046454767726164, + "loss": 2.107, + "step": 2155 + }, + { + "epoch": 0.04791111111111111, + "grad_norm": 1.2340439558029175, + "learning_rate": 0.00019046010224494332, + "loss": 2.2413, + "step": 2156 + }, + { + "epoch": 0.047933333333333335, + "grad_norm": 1.0808637142181396, + "learning_rate": 0.00019045565681262503, + "loss": 1.9932, + "step": 2157 + }, + { + "epoch": 0.04795555555555556, + "grad_norm": 1.0250990390777588, + "learning_rate": 0.00019045121138030674, + "loss": 2.1214, + "step": 2158 + }, + { + "epoch": 0.04797777777777778, + "grad_norm": 1.1706652641296387, + "learning_rate": 0.00019044676594798845, + "loss": 1.9382, + "step": 2159 + }, + { + "epoch": 0.048, + "grad_norm": 1.2695238590240479, + "learning_rate": 0.00019044232051567013, + "loss": 2.2234, + "step": 2160 + }, + { + "epoch": 0.04802222222222222, + "grad_norm": 1.4212697744369507, + "learning_rate": 0.00019043787508335187, + "loss": 1.8555, + "step": 2161 + }, + { + "epoch": 0.048044444444444445, + "grad_norm": 1.1343293190002441, + "learning_rate": 0.00019043342965103358, + "loss": 2.1405, + "step": 2162 + }, + { + "epoch": 0.04806666666666667, + "grad_norm": 1.3218437433242798, + "learning_rate": 0.0001904289842187153, + "loss": 2.6169, + "step": 2163 + }, + { + "epoch": 0.04808888888888889, + "grad_norm": 1.0020099878311157, + "learning_rate": 0.000190424538786397, + "loss": 2.0023, + "step": 2164 + }, + { + "epoch": 0.04811111111111111, + "grad_norm": 1.350276231765747, + "learning_rate": 0.00019042009335407868, + "loss": 2.6103, + "step": 2165 + }, + { + "epoch": 0.048133333333333334, + "grad_norm": 1.2699103355407715, + "learning_rate": 0.00019041564792176042, + "loss": 1.8697, + "step": 2166 + }, + { + "epoch": 0.048155555555555556, + "grad_norm": 1.1885381937026978, + "learning_rate": 0.0001904112024894421, + "loss": 2.2919, + "step": 2167 + }, + { + "epoch": 0.04817777777777778, + "grad_norm": 1.2810090780258179, + "learning_rate": 0.0001904067570571238, + "loss": 2.0597, + "step": 2168 + }, + { + "epoch": 0.0482, + "grad_norm": 2.396024227142334, + "learning_rate": 0.00019040231162480552, + "loss": 1.4093, + "step": 2169 + }, + { + "epoch": 0.04822222222222222, + "grad_norm": 1.027547001838684, + "learning_rate": 0.00019039786619248723, + "loss": 1.8365, + "step": 2170 + }, + { + "epoch": 0.048244444444444444, + "grad_norm": 1.0564228296279907, + "learning_rate": 0.00019039342076016894, + "loss": 1.9258, + "step": 2171 + }, + { + "epoch": 0.048266666666666666, + "grad_norm": 1.2358144521713257, + "learning_rate": 0.00019038897532785065, + "loss": 2.2448, + "step": 2172 + }, + { + "epoch": 0.04828888888888889, + "grad_norm": 1.2327159643173218, + "learning_rate": 0.00019038452989553236, + "loss": 2.3958, + "step": 2173 + }, + { + "epoch": 0.04831111111111111, + "grad_norm": 1.0633187294006348, + "learning_rate": 0.00019038008446321404, + "loss": 1.9441, + "step": 2174 + }, + { + "epoch": 0.04833333333333333, + "grad_norm": 1.302017092704773, + "learning_rate": 0.00019037563903089578, + "loss": 1.6284, + "step": 2175 + }, + { + "epoch": 0.048355555555555554, + "grad_norm": 1.05088472366333, + "learning_rate": 0.00019037119359857746, + "loss": 1.5891, + "step": 2176 + }, + { + "epoch": 0.048377777777777776, + "grad_norm": 1.2050260305404663, + "learning_rate": 0.00019036674816625917, + "loss": 1.5844, + "step": 2177 + }, + { + "epoch": 0.0484, + "grad_norm": 1.3763909339904785, + "learning_rate": 0.00019036230273394088, + "loss": 2.0295, + "step": 2178 + }, + { + "epoch": 0.04842222222222222, + "grad_norm": 1.5020549297332764, + "learning_rate": 0.0001903578573016226, + "loss": 1.8206, + "step": 2179 + }, + { + "epoch": 0.04844444444444444, + "grad_norm": 1.5366060733795166, + "learning_rate": 0.0001903534118693043, + "loss": 1.9703, + "step": 2180 + }, + { + "epoch": 0.048466666666666665, + "grad_norm": 1.2061278820037842, + "learning_rate": 0.000190348966436986, + "loss": 1.9894, + "step": 2181 + }, + { + "epoch": 0.04848888888888889, + "grad_norm": 1.2145047187805176, + "learning_rate": 0.00019034452100466772, + "loss": 1.8444, + "step": 2182 + }, + { + "epoch": 0.04851111111111111, + "grad_norm": 1.2839096784591675, + "learning_rate": 0.00019034007557234943, + "loss": 1.9565, + "step": 2183 + }, + { + "epoch": 0.04853333333333333, + "grad_norm": 1.1375908851623535, + "learning_rate": 0.00019033563014003114, + "loss": 1.9852, + "step": 2184 + }, + { + "epoch": 0.04855555555555555, + "grad_norm": 1.331023097038269, + "learning_rate": 0.00019033118470771282, + "loss": 1.876, + "step": 2185 + }, + { + "epoch": 0.048577777777777775, + "grad_norm": 1.1749649047851562, + "learning_rate": 0.00019032673927539456, + "loss": 0.9166, + "step": 2186 + }, + { + "epoch": 0.0486, + "grad_norm": 1.216256856918335, + "learning_rate": 0.00019032229384307624, + "loss": 1.8611, + "step": 2187 + }, + { + "epoch": 0.04862222222222222, + "grad_norm": 1.2460013628005981, + "learning_rate": 0.00019031784841075795, + "loss": 1.7576, + "step": 2188 + }, + { + "epoch": 0.04864444444444444, + "grad_norm": 1.45947265625, + "learning_rate": 0.00019031340297843966, + "loss": 2.3157, + "step": 2189 + }, + { + "epoch": 0.048666666666666664, + "grad_norm": 1.2837003469467163, + "learning_rate": 0.00019030895754612137, + "loss": 2.1593, + "step": 2190 + }, + { + "epoch": 0.048688888888888886, + "grad_norm": 1.4052823781967163, + "learning_rate": 0.00019030451211380308, + "loss": 2.1313, + "step": 2191 + }, + { + "epoch": 0.04871111111111111, + "grad_norm": 1.762028694152832, + "learning_rate": 0.0001903000666814848, + "loss": 2.0798, + "step": 2192 + }, + { + "epoch": 0.04873333333333333, + "grad_norm": 1.1744486093521118, + "learning_rate": 0.0001902956212491665, + "loss": 1.8133, + "step": 2193 + }, + { + "epoch": 0.04875555555555556, + "grad_norm": 1.1974390745162964, + "learning_rate": 0.00019029117581684818, + "loss": 2.1615, + "step": 2194 + }, + { + "epoch": 0.04877777777777778, + "grad_norm": 1.6326253414154053, + "learning_rate": 0.00019028673038452992, + "loss": 1.8916, + "step": 2195 + }, + { + "epoch": 0.0488, + "grad_norm": 2.239137887954712, + "learning_rate": 0.0001902822849522116, + "loss": 1.1461, + "step": 2196 + }, + { + "epoch": 0.048822222222222225, + "grad_norm": 0.8935621380805969, + "learning_rate": 0.0001902778395198933, + "loss": 0.7864, + "step": 2197 + }, + { + "epoch": 0.04884444444444445, + "grad_norm": 1.669737458229065, + "learning_rate": 0.00019027339408757502, + "loss": 2.1494, + "step": 2198 + }, + { + "epoch": 0.04886666666666667, + "grad_norm": 1.5537737607955933, + "learning_rate": 0.00019026894865525673, + "loss": 1.9874, + "step": 2199 + }, + { + "epoch": 0.04888888888888889, + "grad_norm": 1.5555442571640015, + "learning_rate": 0.00019026450322293844, + "loss": 1.4338, + "step": 2200 + }, + { + "epoch": 0.048911111111111114, + "grad_norm": 1.1961041688919067, + "learning_rate": 0.00019026005779062015, + "loss": 2.144, + "step": 2201 + }, + { + "epoch": 0.048933333333333336, + "grad_norm": 1.071886658668518, + "learning_rate": 0.00019025561235830186, + "loss": 2.2126, + "step": 2202 + }, + { + "epoch": 0.04895555555555556, + "grad_norm": 1.0875595808029175, + "learning_rate": 0.00019025116692598357, + "loss": 2.3797, + "step": 2203 + }, + { + "epoch": 0.04897777777777778, + "grad_norm": 1.0179904699325562, + "learning_rate": 0.00019024672149366528, + "loss": 1.3905, + "step": 2204 + }, + { + "epoch": 0.049, + "grad_norm": 1.1108838319778442, + "learning_rate": 0.00019024227606134696, + "loss": 2.5139, + "step": 2205 + }, + { + "epoch": 0.049022222222222224, + "grad_norm": 1.3807833194732666, + "learning_rate": 0.0001902378306290287, + "loss": 2.2536, + "step": 2206 + }, + { + "epoch": 0.049044444444444446, + "grad_norm": 0.9900107383728027, + "learning_rate": 0.00019023338519671038, + "loss": 1.9655, + "step": 2207 + }, + { + "epoch": 0.04906666666666667, + "grad_norm": 1.012878179550171, + "learning_rate": 0.0001902289397643921, + "loss": 1.8911, + "step": 2208 + }, + { + "epoch": 0.04908888888888889, + "grad_norm": 1.0251420736312866, + "learning_rate": 0.00019022449433207382, + "loss": 2.1765, + "step": 2209 + }, + { + "epoch": 0.04911111111111111, + "grad_norm": 1.1455473899841309, + "learning_rate": 0.0001902200488997555, + "loss": 2.4118, + "step": 2210 + }, + { + "epoch": 0.049133333333333334, + "grad_norm": 1.1235398054122925, + "learning_rate": 0.00019021560346743722, + "loss": 2.2401, + "step": 2211 + }, + { + "epoch": 0.049155555555555557, + "grad_norm": 1.4231849908828735, + "learning_rate": 0.00019021115803511893, + "loss": 2.1533, + "step": 2212 + }, + { + "epoch": 0.04917777777777778, + "grad_norm": 1.2946346998214722, + "learning_rate": 0.00019020671260280064, + "loss": 2.3782, + "step": 2213 + }, + { + "epoch": 0.0492, + "grad_norm": 1.089881181716919, + "learning_rate": 0.00019020226717048232, + "loss": 1.8458, + "step": 2214 + }, + { + "epoch": 0.04922222222222222, + "grad_norm": 1.3264265060424805, + "learning_rate": 0.00019019782173816405, + "loss": 2.1016, + "step": 2215 + }, + { + "epoch": 0.049244444444444445, + "grad_norm": 1.1876800060272217, + "learning_rate": 0.00019019337630584574, + "loss": 1.9285, + "step": 2216 + }, + { + "epoch": 0.04926666666666667, + "grad_norm": 1.311055302619934, + "learning_rate": 0.00019018893087352745, + "loss": 2.1146, + "step": 2217 + }, + { + "epoch": 0.04928888888888889, + "grad_norm": 0.4364464581012726, + "learning_rate": 0.00019018448544120918, + "loss": 0.0333, + "step": 2218 + }, + { + "epoch": 0.04931111111111111, + "grad_norm": 1.1805363893508911, + "learning_rate": 0.00019018004000889087, + "loss": 2.3977, + "step": 2219 + }, + { + "epoch": 0.04933333333333333, + "grad_norm": 1.148947834968567, + "learning_rate": 0.0001901755945765726, + "loss": 1.8525, + "step": 2220 + }, + { + "epoch": 0.049355555555555555, + "grad_norm": 1.3265146017074585, + "learning_rate": 0.00019017114914425428, + "loss": 2.0379, + "step": 2221 + }, + { + "epoch": 0.04937777777777778, + "grad_norm": 1.1382170915603638, + "learning_rate": 0.000190166703711936, + "loss": 2.1619, + "step": 2222 + }, + { + "epoch": 0.0494, + "grad_norm": 1.3868470191955566, + "learning_rate": 0.0001901622582796177, + "loss": 2.0016, + "step": 2223 + }, + { + "epoch": 0.04942222222222222, + "grad_norm": 1.4530396461486816, + "learning_rate": 0.00019015781284729941, + "loss": 2.335, + "step": 2224 + }, + { + "epoch": 0.049444444444444444, + "grad_norm": 1.0688259601593018, + "learning_rate": 0.0001901533674149811, + "loss": 1.9109, + "step": 2225 + }, + { + "epoch": 0.049466666666666666, + "grad_norm": 1.3365429639816284, + "learning_rate": 0.00019014892198266283, + "loss": 2.3869, + "step": 2226 + }, + { + "epoch": 0.04948888888888889, + "grad_norm": 1.1728482246398926, + "learning_rate": 0.00019014447655034454, + "loss": 2.1609, + "step": 2227 + }, + { + "epoch": 0.04951111111111111, + "grad_norm": 1.1781708002090454, + "learning_rate": 0.00019014003111802623, + "loss": 2.1051, + "step": 2228 + }, + { + "epoch": 0.04953333333333333, + "grad_norm": 1.1372687816619873, + "learning_rate": 0.00019013558568570796, + "loss": 1.5913, + "step": 2229 + }, + { + "epoch": 0.049555555555555554, + "grad_norm": 1.1523760557174683, + "learning_rate": 0.00019013114025338964, + "loss": 2.1097, + "step": 2230 + }, + { + "epoch": 0.049577777777777776, + "grad_norm": 1.2923730611801147, + "learning_rate": 0.00019012669482107135, + "loss": 1.8981, + "step": 2231 + }, + { + "epoch": 0.0496, + "grad_norm": 1.347650170326233, + "learning_rate": 0.00019012224938875306, + "loss": 2.0159, + "step": 2232 + }, + { + "epoch": 0.04962222222222222, + "grad_norm": 1.1617511510849, + "learning_rate": 0.00019011780395643477, + "loss": 1.7733, + "step": 2233 + }, + { + "epoch": 0.04964444444444444, + "grad_norm": 1.1228108406066895, + "learning_rate": 0.00019011335852411648, + "loss": 1.8163, + "step": 2234 + }, + { + "epoch": 0.049666666666666665, + "grad_norm": 1.2512744665145874, + "learning_rate": 0.0001901089130917982, + "loss": 2.153, + "step": 2235 + }, + { + "epoch": 0.04968888888888889, + "grad_norm": 1.3398948907852173, + "learning_rate": 0.0001901044676594799, + "loss": 2.3011, + "step": 2236 + }, + { + "epoch": 0.04971111111111111, + "grad_norm": 1.2189030647277832, + "learning_rate": 0.0001901000222271616, + "loss": 1.8891, + "step": 2237 + }, + { + "epoch": 0.04973333333333333, + "grad_norm": 1.3764220476150513, + "learning_rate": 0.00019009557679484332, + "loss": 2.114, + "step": 2238 + }, + { + "epoch": 0.04975555555555555, + "grad_norm": 1.0513441562652588, + "learning_rate": 0.000190091131362525, + "loss": 1.5712, + "step": 2239 + }, + { + "epoch": 0.049777777777777775, + "grad_norm": 1.280617117881775, + "learning_rate": 0.00019008668593020674, + "loss": 2.1301, + "step": 2240 + }, + { + "epoch": 0.0498, + "grad_norm": 1.305253028869629, + "learning_rate": 0.00019008224049788842, + "loss": 1.5889, + "step": 2241 + }, + { + "epoch": 0.04982222222222222, + "grad_norm": 1.6078585386276245, + "learning_rate": 0.00019007779506557013, + "loss": 2.0905, + "step": 2242 + }, + { + "epoch": 0.04984444444444444, + "grad_norm": 1.3110101222991943, + "learning_rate": 0.00019007334963325184, + "loss": 2.0125, + "step": 2243 + }, + { + "epoch": 0.04986666666666666, + "grad_norm": 1.2234842777252197, + "learning_rate": 0.00019006890420093355, + "loss": 1.8807, + "step": 2244 + }, + { + "epoch": 0.04988888888888889, + "grad_norm": 1.4274346828460693, + "learning_rate": 0.00019006445876861526, + "loss": 1.6449, + "step": 2245 + }, + { + "epoch": 0.049911111111111114, + "grad_norm": 1.4516068696975708, + "learning_rate": 0.00019006001333629697, + "loss": 2.474, + "step": 2246 + }, + { + "epoch": 0.049933333333333337, + "grad_norm": 1.3782916069030762, + "learning_rate": 0.00019005556790397868, + "loss": 1.211, + "step": 2247 + }, + { + "epoch": 0.04995555555555556, + "grad_norm": 1.2721515893936157, + "learning_rate": 0.00019005112247166036, + "loss": 1.8499, + "step": 2248 + }, + { + "epoch": 0.04997777777777778, + "grad_norm": 1.2720251083374023, + "learning_rate": 0.0001900466770393421, + "loss": 1.4365, + "step": 2249 + }, + { + "epoch": 0.05, + "grad_norm": 1.4843260049819946, + "learning_rate": 0.00019004223160702378, + "loss": 1.24, + "step": 2250 + }, + { + "epoch": 0.050022222222222225, + "grad_norm": 1.1406223773956299, + "learning_rate": 0.0001900377861747055, + "loss": 2.8505, + "step": 2251 + }, + { + "epoch": 0.05004444444444445, + "grad_norm": 1.1631907224655151, + "learning_rate": 0.0001900333407423872, + "loss": 2.967, + "step": 2252 + }, + { + "epoch": 0.05006666666666667, + "grad_norm": 0.9673673510551453, + "learning_rate": 0.0001900288953100689, + "loss": 2.215, + "step": 2253 + }, + { + "epoch": 0.05008888888888889, + "grad_norm": 1.1196608543395996, + "learning_rate": 0.00019002444987775062, + "loss": 2.296, + "step": 2254 + }, + { + "epoch": 0.05011111111111111, + "grad_norm": 1.0573066473007202, + "learning_rate": 0.00019002000444543233, + "loss": 2.808, + "step": 2255 + }, + { + "epoch": 0.050133333333333335, + "grad_norm": 0.9258370399475098, + "learning_rate": 0.00019001555901311404, + "loss": 2.0213, + "step": 2256 + }, + { + "epoch": 0.05015555555555556, + "grad_norm": 1.032148838043213, + "learning_rate": 0.00019001111358079575, + "loss": 2.4364, + "step": 2257 + }, + { + "epoch": 0.05017777777777778, + "grad_norm": 1.0564199686050415, + "learning_rate": 0.00019000666814847746, + "loss": 2.0706, + "step": 2258 + }, + { + "epoch": 0.0502, + "grad_norm": 1.120741605758667, + "learning_rate": 0.00019000222271615914, + "loss": 2.0469, + "step": 2259 + }, + { + "epoch": 0.050222222222222224, + "grad_norm": 1.114100694656372, + "learning_rate": 0.00018999777728384088, + "loss": 2.2511, + "step": 2260 + }, + { + "epoch": 0.050244444444444446, + "grad_norm": 1.1014926433563232, + "learning_rate": 0.00018999333185152256, + "loss": 2.1234, + "step": 2261 + }, + { + "epoch": 0.05026666666666667, + "grad_norm": 1.182754635810852, + "learning_rate": 0.00018998888641920427, + "loss": 2.2326, + "step": 2262 + }, + { + "epoch": 0.05028888888888889, + "grad_norm": 1.2462025880813599, + "learning_rate": 0.00018998444098688598, + "loss": 2.5571, + "step": 2263 + }, + { + "epoch": 0.05031111111111111, + "grad_norm": 1.003087043762207, + "learning_rate": 0.0001899799955545677, + "loss": 1.7838, + "step": 2264 + }, + { + "epoch": 0.050333333333333334, + "grad_norm": 1.1985787153244019, + "learning_rate": 0.0001899755501222494, + "loss": 2.373, + "step": 2265 + }, + { + "epoch": 0.050355555555555556, + "grad_norm": 1.1282902956008911, + "learning_rate": 0.0001899711046899311, + "loss": 2.3078, + "step": 2266 + }, + { + "epoch": 0.05037777777777778, + "grad_norm": 1.0998181104660034, + "learning_rate": 0.00018996665925761282, + "loss": 1.9219, + "step": 2267 + }, + { + "epoch": 0.0504, + "grad_norm": 1.2063664197921753, + "learning_rate": 0.0001899622138252945, + "loss": 2.4054, + "step": 2268 + }, + { + "epoch": 0.05042222222222222, + "grad_norm": 1.4806365966796875, + "learning_rate": 0.00018995776839297624, + "loss": 2.2313, + "step": 2269 + }, + { + "epoch": 0.050444444444444445, + "grad_norm": 1.0827125310897827, + "learning_rate": 0.00018995332296065792, + "loss": 1.6185, + "step": 2270 + }, + { + "epoch": 0.05046666666666667, + "grad_norm": 1.2718685865402222, + "learning_rate": 0.00018994887752833963, + "loss": 2.1157, + "step": 2271 + }, + { + "epoch": 0.05048888888888889, + "grad_norm": 1.129123330116272, + "learning_rate": 0.00018994443209602134, + "loss": 2.0411, + "step": 2272 + }, + { + "epoch": 0.05051111111111111, + "grad_norm": 1.2838066816329956, + "learning_rate": 0.00018993998666370305, + "loss": 2.0199, + "step": 2273 + }, + { + "epoch": 0.05053333333333333, + "grad_norm": 1.083335280418396, + "learning_rate": 0.00018993554123138476, + "loss": 1.6263, + "step": 2274 + }, + { + "epoch": 0.050555555555555555, + "grad_norm": 1.3512511253356934, + "learning_rate": 0.00018993109579906647, + "loss": 2.0137, + "step": 2275 + }, + { + "epoch": 0.05057777777777778, + "grad_norm": 1.3298662900924683, + "learning_rate": 0.00018992665036674818, + "loss": 2.0815, + "step": 2276 + }, + { + "epoch": 0.0506, + "grad_norm": 1.516985297203064, + "learning_rate": 0.0001899222049344299, + "loss": 2.3133, + "step": 2277 + }, + { + "epoch": 0.05062222222222222, + "grad_norm": 1.2454760074615479, + "learning_rate": 0.0001899177595021116, + "loss": 2.0556, + "step": 2278 + }, + { + "epoch": 0.05064444444444444, + "grad_norm": 1.2082703113555908, + "learning_rate": 0.00018991331406979328, + "loss": 1.9505, + "step": 2279 + }, + { + "epoch": 0.050666666666666665, + "grad_norm": 0.983023464679718, + "learning_rate": 0.00018990886863747502, + "loss": 1.2615, + "step": 2280 + }, + { + "epoch": 0.05068888888888889, + "grad_norm": 1.316780686378479, + "learning_rate": 0.0001899044232051567, + "loss": 1.9937, + "step": 2281 + }, + { + "epoch": 0.05071111111111111, + "grad_norm": 1.427194356918335, + "learning_rate": 0.0001898999777728384, + "loss": 2.2436, + "step": 2282 + }, + { + "epoch": 0.05073333333333333, + "grad_norm": 1.6661731004714966, + "learning_rate": 0.00018989553234052015, + "loss": 0.0851, + "step": 2283 + }, + { + "epoch": 0.050755555555555554, + "grad_norm": 1.2097456455230713, + "learning_rate": 0.00018989108690820183, + "loss": 1.6042, + "step": 2284 + }, + { + "epoch": 0.050777777777777776, + "grad_norm": 1.269895315170288, + "learning_rate": 0.00018988664147588354, + "loss": 1.9546, + "step": 2285 + }, + { + "epoch": 0.0508, + "grad_norm": 1.3030612468719482, + "learning_rate": 0.00018988219604356525, + "loss": 2.1369, + "step": 2286 + }, + { + "epoch": 0.05082222222222222, + "grad_norm": 1.2111833095550537, + "learning_rate": 0.00018987775061124696, + "loss": 1.9118, + "step": 2287 + }, + { + "epoch": 0.05084444444444444, + "grad_norm": 1.5516785383224487, + "learning_rate": 0.00018987330517892864, + "loss": 1.7997, + "step": 2288 + }, + { + "epoch": 0.050866666666666664, + "grad_norm": 1.3370234966278076, + "learning_rate": 0.00018986885974661038, + "loss": 1.9019, + "step": 2289 + }, + { + "epoch": 0.050888888888888886, + "grad_norm": 1.9784932136535645, + "learning_rate": 0.00018986441431429206, + "loss": 2.3373, + "step": 2290 + }, + { + "epoch": 0.05091111111111111, + "grad_norm": 1.2709294557571411, + "learning_rate": 0.00018985996888197377, + "loss": 2.1115, + "step": 2291 + }, + { + "epoch": 0.05093333333333333, + "grad_norm": 1.4198848009109497, + "learning_rate": 0.0001898555234496555, + "loss": 1.852, + "step": 2292 + }, + { + "epoch": 0.05095555555555555, + "grad_norm": 1.337188959121704, + "learning_rate": 0.0001898510780173372, + "loss": 2.3314, + "step": 2293 + }, + { + "epoch": 0.050977777777777775, + "grad_norm": 1.2728619575500488, + "learning_rate": 0.00018984663258501892, + "loss": 1.8133, + "step": 2294 + }, + { + "epoch": 0.051, + "grad_norm": 1.3903908729553223, + "learning_rate": 0.0001898421871527006, + "loss": 2.3299, + "step": 2295 + }, + { + "epoch": 0.05102222222222222, + "grad_norm": 1.030693769454956, + "learning_rate": 0.00018983774172038232, + "loss": 0.7797, + "step": 2296 + }, + { + "epoch": 0.05104444444444445, + "grad_norm": 1.488663673400879, + "learning_rate": 0.00018983329628806403, + "loss": 1.9355, + "step": 2297 + }, + { + "epoch": 0.05106666666666667, + "grad_norm": 1.2341729402542114, + "learning_rate": 0.00018982885085574574, + "loss": 1.9369, + "step": 2298 + }, + { + "epoch": 0.05108888888888889, + "grad_norm": 2.313055992126465, + "learning_rate": 0.00018982440542342742, + "loss": 0.8939, + "step": 2299 + }, + { + "epoch": 0.051111111111111114, + "grad_norm": 1.303525447845459, + "learning_rate": 0.00018981995999110916, + "loss": 1.1322, + "step": 2300 + }, + { + "epoch": 0.051133333333333336, + "grad_norm": 0.9481244683265686, + "learning_rate": 0.00018981551455879086, + "loss": 2.4678, + "step": 2301 + }, + { + "epoch": 0.05115555555555556, + "grad_norm": 1.2568217515945435, + "learning_rate": 0.00018981106912647255, + "loss": 2.2967, + "step": 2302 + }, + { + "epoch": 0.05117777777777778, + "grad_norm": 1.009139895439148, + "learning_rate": 0.00018980662369415428, + "loss": 2.2559, + "step": 2303 + }, + { + "epoch": 0.0512, + "grad_norm": 0.9287073016166687, + "learning_rate": 0.00018980217826183597, + "loss": 2.3218, + "step": 2304 + }, + { + "epoch": 0.051222222222222225, + "grad_norm": 1.0955108404159546, + "learning_rate": 0.00018979773282951768, + "loss": 2.3199, + "step": 2305 + }, + { + "epoch": 0.05124444444444445, + "grad_norm": 1.0093859434127808, + "learning_rate": 0.00018979328739719939, + "loss": 2.2353, + "step": 2306 + }, + { + "epoch": 0.05126666666666667, + "grad_norm": 0.9418924450874329, + "learning_rate": 0.0001897888419648811, + "loss": 1.6572, + "step": 2307 + }, + { + "epoch": 0.05128888888888889, + "grad_norm": 1.0343866348266602, + "learning_rate": 0.0001897843965325628, + "loss": 2.2157, + "step": 2308 + }, + { + "epoch": 0.05131111111111111, + "grad_norm": 1.1496596336364746, + "learning_rate": 0.00018977995110024451, + "loss": 2.3266, + "step": 2309 + }, + { + "epoch": 0.051333333333333335, + "grad_norm": 0.9841002821922302, + "learning_rate": 0.00018977550566792622, + "loss": 2.0782, + "step": 2310 + }, + { + "epoch": 0.05135555555555556, + "grad_norm": 1.158416509628296, + "learning_rate": 0.0001897710602356079, + "loss": 2.4363, + "step": 2311 + }, + { + "epoch": 0.05137777777777778, + "grad_norm": 1.21837317943573, + "learning_rate": 0.00018976661480328964, + "loss": 2.6334, + "step": 2312 + }, + { + "epoch": 0.0514, + "grad_norm": 1.5002174377441406, + "learning_rate": 0.00018976216937097133, + "loss": 2.1274, + "step": 2313 + }, + { + "epoch": 0.05142222222222222, + "grad_norm": 1.1424044370651245, + "learning_rate": 0.00018975772393865306, + "loss": 2.4683, + "step": 2314 + }, + { + "epoch": 0.051444444444444445, + "grad_norm": 0.9944825768470764, + "learning_rate": 0.00018975327850633475, + "loss": 1.8226, + "step": 2315 + }, + { + "epoch": 0.05146666666666667, + "grad_norm": 1.1477516889572144, + "learning_rate": 0.00018974883307401645, + "loss": 2.1133, + "step": 2316 + }, + { + "epoch": 0.05148888888888889, + "grad_norm": 1.0240275859832764, + "learning_rate": 0.00018974438764169816, + "loss": 1.7058, + "step": 2317 + }, + { + "epoch": 0.05151111111111111, + "grad_norm": 1.2768690586090088, + "learning_rate": 0.00018973994220937987, + "loss": 2.6642, + "step": 2318 + }, + { + "epoch": 0.051533333333333334, + "grad_norm": 1.1745579242706299, + "learning_rate": 0.00018973549677706158, + "loss": 2.4401, + "step": 2319 + }, + { + "epoch": 0.051555555555555556, + "grad_norm": 1.1885981559753418, + "learning_rate": 0.0001897310513447433, + "loss": 1.8775, + "step": 2320 + }, + { + "epoch": 0.05157777777777778, + "grad_norm": 1.4170076847076416, + "learning_rate": 0.000189726605912425, + "loss": 2.3107, + "step": 2321 + }, + { + "epoch": 0.0516, + "grad_norm": 1.2378846406936646, + "learning_rate": 0.00018972216048010669, + "loss": 2.1506, + "step": 2322 + }, + { + "epoch": 0.05162222222222222, + "grad_norm": 1.1762984991073608, + "learning_rate": 0.00018971771504778842, + "loss": 1.9022, + "step": 2323 + }, + { + "epoch": 0.051644444444444444, + "grad_norm": 1.5881881713867188, + "learning_rate": 0.0001897132696154701, + "loss": 2.3016, + "step": 2324 + }, + { + "epoch": 0.051666666666666666, + "grad_norm": 1.3380208015441895, + "learning_rate": 0.00018970882418315181, + "loss": 2.0756, + "step": 2325 + }, + { + "epoch": 0.05168888888888889, + "grad_norm": 1.231576919555664, + "learning_rate": 0.00018970437875083352, + "loss": 2.102, + "step": 2326 + }, + { + "epoch": 0.05171111111111111, + "grad_norm": 1.0062800645828247, + "learning_rate": 0.00018969993331851523, + "loss": 1.7528, + "step": 2327 + }, + { + "epoch": 0.05173333333333333, + "grad_norm": 1.196985125541687, + "learning_rate": 0.00018969548788619694, + "loss": 2.1386, + "step": 2328 + }, + { + "epoch": 0.051755555555555555, + "grad_norm": 1.203781008720398, + "learning_rate": 0.00018969104245387865, + "loss": 1.6447, + "step": 2329 + }, + { + "epoch": 0.05177777777777778, + "grad_norm": 1.3276416063308716, + "learning_rate": 0.00018968659702156036, + "loss": 2.3762, + "step": 2330 + }, + { + "epoch": 0.0518, + "grad_norm": 1.246086835861206, + "learning_rate": 0.00018968215158924204, + "loss": 1.9903, + "step": 2331 + }, + { + "epoch": 0.05182222222222222, + "grad_norm": 1.1679178476333618, + "learning_rate": 0.00018967770615692378, + "loss": 1.6781, + "step": 2332 + }, + { + "epoch": 0.05184444444444444, + "grad_norm": 1.2968538999557495, + "learning_rate": 0.00018967326072460546, + "loss": 2.1941, + "step": 2333 + }, + { + "epoch": 0.051866666666666665, + "grad_norm": 1.2440041303634644, + "learning_rate": 0.0001896688152922872, + "loss": 1.5251, + "step": 2334 + }, + { + "epoch": 0.05188888888888889, + "grad_norm": 1.2177753448486328, + "learning_rate": 0.00018966436985996888, + "loss": 1.9533, + "step": 2335 + }, + { + "epoch": 0.05191111111111111, + "grad_norm": 1.5729150772094727, + "learning_rate": 0.0001896599244276506, + "loss": 2.2132, + "step": 2336 + }, + { + "epoch": 0.05193333333333333, + "grad_norm": 1.2729722261428833, + "learning_rate": 0.0001896554789953323, + "loss": 1.9398, + "step": 2337 + }, + { + "epoch": 0.05195555555555555, + "grad_norm": 1.475525140762329, + "learning_rate": 0.000189651033563014, + "loss": 2.2079, + "step": 2338 + }, + { + "epoch": 0.051977777777777776, + "grad_norm": 1.564623475074768, + "learning_rate": 0.00018964658813069572, + "loss": 2.2597, + "step": 2339 + }, + { + "epoch": 0.052, + "grad_norm": 1.4291465282440186, + "learning_rate": 0.00018964214269837743, + "loss": 2.5056, + "step": 2340 + }, + { + "epoch": 0.05202222222222222, + "grad_norm": 1.27070152759552, + "learning_rate": 0.00018963769726605914, + "loss": 1.6326, + "step": 2341 + }, + { + "epoch": 0.05204444444444444, + "grad_norm": 1.1755186319351196, + "learning_rate": 0.00018963325183374082, + "loss": 1.6277, + "step": 2342 + }, + { + "epoch": 0.052066666666666664, + "grad_norm": 1.3973621129989624, + "learning_rate": 0.00018962880640142256, + "loss": 2.0718, + "step": 2343 + }, + { + "epoch": 0.052088888888888886, + "grad_norm": 1.537056803703308, + "learning_rate": 0.00018962436096910424, + "loss": 1.8861, + "step": 2344 + }, + { + "epoch": 0.05211111111111111, + "grad_norm": 1.6013939380645752, + "learning_rate": 0.00018961991553678595, + "loss": 2.0865, + "step": 2345 + }, + { + "epoch": 0.05213333333333333, + "grad_norm": 1.6155565977096558, + "learning_rate": 0.00018961547010446766, + "loss": 1.9949, + "step": 2346 + }, + { + "epoch": 0.05215555555555555, + "grad_norm": 1.3884861469268799, + "learning_rate": 0.00018961102467214937, + "loss": 2.253, + "step": 2347 + }, + { + "epoch": 0.052177777777777774, + "grad_norm": 1.1273061037063599, + "learning_rate": 0.00018960657923983108, + "loss": 0.8344, + "step": 2348 + }, + { + "epoch": 0.0522, + "grad_norm": 1.4665790796279907, + "learning_rate": 0.0001896021338075128, + "loss": 1.8642, + "step": 2349 + }, + { + "epoch": 0.052222222222222225, + "grad_norm": 1.0834414958953857, + "learning_rate": 0.0001895976883751945, + "loss": 0.921, + "step": 2350 + }, + { + "epoch": 0.05224444444444445, + "grad_norm": 1.3091169595718384, + "learning_rate": 0.0001895932429428762, + "loss": 2.7127, + "step": 2351 + }, + { + "epoch": 0.05226666666666667, + "grad_norm": 1.173563003540039, + "learning_rate": 0.00018958879751055792, + "loss": 2.8469, + "step": 2352 + }, + { + "epoch": 0.05228888888888889, + "grad_norm": 1.0140055418014526, + "learning_rate": 0.0001895843520782396, + "loss": 1.4903, + "step": 2353 + }, + { + "epoch": 0.052311111111111114, + "grad_norm": 0.9908082485198975, + "learning_rate": 0.00018957990664592134, + "loss": 2.0947, + "step": 2354 + }, + { + "epoch": 0.052333333333333336, + "grad_norm": 1.8170055150985718, + "learning_rate": 0.00018957546121360302, + "loss": 2.7524, + "step": 2355 + }, + { + "epoch": 0.05235555555555556, + "grad_norm": 1.0227460861206055, + "learning_rate": 0.00018957101578128473, + "loss": 2.2746, + "step": 2356 + }, + { + "epoch": 0.05237777777777778, + "grad_norm": 0.9263565540313721, + "learning_rate": 0.00018956657034896647, + "loss": 1.7847, + "step": 2357 + }, + { + "epoch": 0.0524, + "grad_norm": 1.2337859869003296, + "learning_rate": 0.00018956212491664815, + "loss": 2.4752, + "step": 2358 + }, + { + "epoch": 0.052422222222222224, + "grad_norm": 1.171648383140564, + "learning_rate": 0.00018955767948432986, + "loss": 2.4235, + "step": 2359 + }, + { + "epoch": 0.052444444444444446, + "grad_norm": 0.9819696545600891, + "learning_rate": 0.00018955323405201157, + "loss": 1.115, + "step": 2360 + }, + { + "epoch": 0.05246666666666667, + "grad_norm": 1.077548861503601, + "learning_rate": 0.00018954878861969328, + "loss": 1.7721, + "step": 2361 + }, + { + "epoch": 0.05248888888888889, + "grad_norm": 1.0623936653137207, + "learning_rate": 0.00018954434318737496, + "loss": 2.3041, + "step": 2362 + }, + { + "epoch": 0.05251111111111111, + "grad_norm": 1.0431392192840576, + "learning_rate": 0.0001895398977550567, + "loss": 1.928, + "step": 2363 + }, + { + "epoch": 0.052533333333333335, + "grad_norm": 1.1533517837524414, + "learning_rate": 0.00018953545232273838, + "loss": 2.0593, + "step": 2364 + }, + { + "epoch": 0.05255555555555556, + "grad_norm": 1.4033219814300537, + "learning_rate": 0.0001895310068904201, + "loss": 2.4855, + "step": 2365 + }, + { + "epoch": 0.05257777777777778, + "grad_norm": 0.9098128080368042, + "learning_rate": 0.00018952656145810183, + "loss": 1.464, + "step": 2366 + }, + { + "epoch": 0.0526, + "grad_norm": 1.2354823350906372, + "learning_rate": 0.0001895221160257835, + "loss": 2.6515, + "step": 2367 + }, + { + "epoch": 0.05262222222222222, + "grad_norm": 1.0878663063049316, + "learning_rate": 0.00018951767059346522, + "loss": 2.0154, + "step": 2368 + }, + { + "epoch": 0.052644444444444445, + "grad_norm": 1.2616039514541626, + "learning_rate": 0.00018951322516114693, + "loss": 2.1318, + "step": 2369 + }, + { + "epoch": 0.05266666666666667, + "grad_norm": 1.3192627429962158, + "learning_rate": 0.00018950877972882864, + "loss": 2.0905, + "step": 2370 + }, + { + "epoch": 0.05268888888888889, + "grad_norm": 1.243998646736145, + "learning_rate": 0.00018950433429651035, + "loss": 2.0889, + "step": 2371 + }, + { + "epoch": 0.05271111111111111, + "grad_norm": 1.3276753425598145, + "learning_rate": 0.00018949988886419206, + "loss": 2.0204, + "step": 2372 + }, + { + "epoch": 0.05273333333333333, + "grad_norm": 1.1520330905914307, + "learning_rate": 0.00018949544343187374, + "loss": 1.8058, + "step": 2373 + }, + { + "epoch": 0.052755555555555556, + "grad_norm": 1.5755805969238281, + "learning_rate": 0.00018949099799955548, + "loss": 2.2712, + "step": 2374 + }, + { + "epoch": 0.05277777777777778, + "grad_norm": 1.265557050704956, + "learning_rate": 0.0001894865525672372, + "loss": 1.8071, + "step": 2375 + }, + { + "epoch": 0.0528, + "grad_norm": 1.1964306831359863, + "learning_rate": 0.00018948210713491887, + "loss": 2.0829, + "step": 2376 + }, + { + "epoch": 0.05282222222222222, + "grad_norm": 1.7723175287246704, + "learning_rate": 0.0001894776617026006, + "loss": 2.4585, + "step": 2377 + }, + { + "epoch": 0.052844444444444444, + "grad_norm": 1.2948371171951294, + "learning_rate": 0.0001894732162702823, + "loss": 1.7931, + "step": 2378 + }, + { + "epoch": 0.052866666666666666, + "grad_norm": 1.6545947790145874, + "learning_rate": 0.000189468770837964, + "loss": 2.627, + "step": 2379 + }, + { + "epoch": 0.05288888888888889, + "grad_norm": 1.1918590068817139, + "learning_rate": 0.0001894643254056457, + "loss": 2.4832, + "step": 2380 + }, + { + "epoch": 0.05291111111111111, + "grad_norm": 1.3209351301193237, + "learning_rate": 0.00018945987997332742, + "loss": 2.0956, + "step": 2381 + }, + { + "epoch": 0.05293333333333333, + "grad_norm": 1.279868483543396, + "learning_rate": 0.00018945543454100913, + "loss": 1.9356, + "step": 2382 + }, + { + "epoch": 0.052955555555555554, + "grad_norm": 1.2751002311706543, + "learning_rate": 0.00018945098910869084, + "loss": 1.7475, + "step": 2383 + }, + { + "epoch": 0.052977777777777776, + "grad_norm": 1.2927143573760986, + "learning_rate": 0.00018944654367637255, + "loss": 2.2396, + "step": 2384 + }, + { + "epoch": 0.053, + "grad_norm": 1.314698338508606, + "learning_rate": 0.00018944209824405423, + "loss": 1.7448, + "step": 2385 + }, + { + "epoch": 0.05302222222222222, + "grad_norm": 1.3616132736206055, + "learning_rate": 0.00018943765281173597, + "loss": 2.1451, + "step": 2386 + }, + { + "epoch": 0.05304444444444444, + "grad_norm": 1.2678908109664917, + "learning_rate": 0.00018943320737941765, + "loss": 2.2548, + "step": 2387 + }, + { + "epoch": 0.053066666666666665, + "grad_norm": 1.2714632749557495, + "learning_rate": 0.00018942876194709936, + "loss": 1.8186, + "step": 2388 + }, + { + "epoch": 0.05308888888888889, + "grad_norm": 1.1509929895401, + "learning_rate": 0.00018942431651478107, + "loss": 1.5296, + "step": 2389 + }, + { + "epoch": 0.05311111111111111, + "grad_norm": 1.3871374130249023, + "learning_rate": 0.00018941987108246278, + "loss": 1.701, + "step": 2390 + }, + { + "epoch": 0.05313333333333333, + "grad_norm": 1.2524795532226562, + "learning_rate": 0.0001894154256501445, + "loss": 2.0234, + "step": 2391 + }, + { + "epoch": 0.05315555555555555, + "grad_norm": 1.1746879816055298, + "learning_rate": 0.0001894109802178262, + "loss": 1.6097, + "step": 2392 + }, + { + "epoch": 0.053177777777777775, + "grad_norm": 1.928781509399414, + "learning_rate": 0.0001894065347855079, + "loss": 1.6618, + "step": 2393 + }, + { + "epoch": 0.0532, + "grad_norm": 1.4668447971343994, + "learning_rate": 0.00018940208935318962, + "loss": 1.9964, + "step": 2394 + }, + { + "epoch": 0.05322222222222222, + "grad_norm": 1.4051446914672852, + "learning_rate": 0.00018939764392087133, + "loss": 2.0399, + "step": 2395 + }, + { + "epoch": 0.05324444444444444, + "grad_norm": 1.2799900770187378, + "learning_rate": 0.000189393198488553, + "loss": 1.769, + "step": 2396 + }, + { + "epoch": 0.053266666666666664, + "grad_norm": 1.543502926826477, + "learning_rate": 0.00018938875305623474, + "loss": 1.965, + "step": 2397 + }, + { + "epoch": 0.053288888888888886, + "grad_norm": 2.0054454803466797, + "learning_rate": 0.00018938430762391643, + "loss": 2.0078, + "step": 2398 + }, + { + "epoch": 0.05331111111111111, + "grad_norm": 1.122998595237732, + "learning_rate": 0.00018937986219159814, + "loss": 0.6365, + "step": 2399 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 1.3832374811172485, + "learning_rate": 0.00018937541675927985, + "loss": 1.4609, + "step": 2400 + }, + { + "epoch": 0.05335555555555556, + "grad_norm": 1.0088211297988892, + "learning_rate": 0.00018937097132696156, + "loss": 2.3437, + "step": 2401 + }, + { + "epoch": 0.05337777777777778, + "grad_norm": 1.1041789054870605, + "learning_rate": 0.00018936652589464327, + "loss": 2.8084, + "step": 2402 + }, + { + "epoch": 0.0534, + "grad_norm": 1.1989312171936035, + "learning_rate": 0.00018936208046232497, + "loss": 2.8785, + "step": 2403 + }, + { + "epoch": 0.053422222222222225, + "grad_norm": 0.70741868019104, + "learning_rate": 0.00018935763503000668, + "loss": 0.8932, + "step": 2404 + }, + { + "epoch": 0.05344444444444445, + "grad_norm": 0.9797938466072083, + "learning_rate": 0.00018935318959768837, + "loss": 2.1857, + "step": 2405 + }, + { + "epoch": 0.05346666666666667, + "grad_norm": 1.1413230895996094, + "learning_rate": 0.0001893487441653701, + "loss": 2.2059, + "step": 2406 + }, + { + "epoch": 0.05348888888888889, + "grad_norm": 0.9932123422622681, + "learning_rate": 0.00018934429873305179, + "loss": 2.5113, + "step": 2407 + }, + { + "epoch": 0.05351111111111111, + "grad_norm": 1.2092759609222412, + "learning_rate": 0.00018933985330073352, + "loss": 1.8474, + "step": 2408 + }, + { + "epoch": 0.053533333333333336, + "grad_norm": 1.3358006477355957, + "learning_rate": 0.0001893354078684152, + "loss": 2.5141, + "step": 2409 + }, + { + "epoch": 0.05355555555555556, + "grad_norm": 1.2211167812347412, + "learning_rate": 0.00018933096243609692, + "loss": 2.0904, + "step": 2410 + }, + { + "epoch": 0.05357777777777778, + "grad_norm": 1.1042029857635498, + "learning_rate": 0.00018932651700377862, + "loss": 2.2942, + "step": 2411 + }, + { + "epoch": 0.0536, + "grad_norm": 1.422839641571045, + "learning_rate": 0.00018932207157146033, + "loss": 2.3406, + "step": 2412 + }, + { + "epoch": 0.053622222222222224, + "grad_norm": 1.5759137868881226, + "learning_rate": 0.00018931762613914204, + "loss": 2.7206, + "step": 2413 + }, + { + "epoch": 0.053644444444444446, + "grad_norm": 1.405296802520752, + "learning_rate": 0.00018931318070682375, + "loss": 2.7824, + "step": 2414 + }, + { + "epoch": 0.05366666666666667, + "grad_norm": 1.0691838264465332, + "learning_rate": 0.00018930873527450546, + "loss": 1.8771, + "step": 2415 + }, + { + "epoch": 0.05368888888888889, + "grad_norm": 1.08065927028656, + "learning_rate": 0.00018930428984218715, + "loss": 1.8229, + "step": 2416 + }, + { + "epoch": 0.05371111111111111, + "grad_norm": 1.0633454322814941, + "learning_rate": 0.00018929984440986888, + "loss": 1.9051, + "step": 2417 + }, + { + "epoch": 0.053733333333333334, + "grad_norm": 1.177459716796875, + "learning_rate": 0.00018929539897755056, + "loss": 1.9052, + "step": 2418 + }, + { + "epoch": 0.053755555555555556, + "grad_norm": 1.132089376449585, + "learning_rate": 0.00018929095354523227, + "loss": 2.1315, + "step": 2419 + }, + { + "epoch": 0.05377777777777778, + "grad_norm": 1.1427791118621826, + "learning_rate": 0.00018928650811291398, + "loss": 2.0587, + "step": 2420 + }, + { + "epoch": 0.0538, + "grad_norm": 1.231881022453308, + "learning_rate": 0.0001892820626805957, + "loss": 2.3537, + "step": 2421 + }, + { + "epoch": 0.05382222222222222, + "grad_norm": 1.288120150566101, + "learning_rate": 0.0001892776172482774, + "loss": 2.3701, + "step": 2422 + }, + { + "epoch": 0.053844444444444445, + "grad_norm": 1.191667914390564, + "learning_rate": 0.0001892731718159591, + "loss": 2.3219, + "step": 2423 + }, + { + "epoch": 0.05386666666666667, + "grad_norm": 1.1937075853347778, + "learning_rate": 0.00018926872638364082, + "loss": 2.1728, + "step": 2424 + }, + { + "epoch": 0.05388888888888889, + "grad_norm": 1.0441638231277466, + "learning_rate": 0.0001892642809513225, + "loss": 1.4542, + "step": 2425 + }, + { + "epoch": 0.05391111111111111, + "grad_norm": 1.3653444051742554, + "learning_rate": 0.00018925983551900424, + "loss": 2.1975, + "step": 2426 + }, + { + "epoch": 0.05393333333333333, + "grad_norm": 1.2391129732131958, + "learning_rate": 0.00018925539008668592, + "loss": 2.2715, + "step": 2427 + }, + { + "epoch": 0.053955555555555555, + "grad_norm": 1.4954770803451538, + "learning_rate": 0.00018925094465436766, + "loss": 1.6288, + "step": 2428 + }, + { + "epoch": 0.05397777777777778, + "grad_norm": 1.317981481552124, + "learning_rate": 0.00018924649922204934, + "loss": 2.3077, + "step": 2429 + }, + { + "epoch": 0.054, + "grad_norm": 1.3335977792739868, + "learning_rate": 0.00018924205378973105, + "loss": 1.9617, + "step": 2430 + }, + { + "epoch": 0.05402222222222222, + "grad_norm": 1.132349967956543, + "learning_rate": 0.0001892376083574128, + "loss": 2.0535, + "step": 2431 + }, + { + "epoch": 0.054044444444444444, + "grad_norm": 1.3031768798828125, + "learning_rate": 0.00018923316292509447, + "loss": 2.2856, + "step": 2432 + }, + { + "epoch": 0.054066666666666666, + "grad_norm": 1.1036758422851562, + "learning_rate": 0.00018922871749277618, + "loss": 1.6712, + "step": 2433 + }, + { + "epoch": 0.05408888888888889, + "grad_norm": 1.314907193183899, + "learning_rate": 0.0001892242720604579, + "loss": 1.6712, + "step": 2434 + }, + { + "epoch": 0.05411111111111111, + "grad_norm": 1.287028431892395, + "learning_rate": 0.0001892198266281396, + "loss": 2.1933, + "step": 2435 + }, + { + "epoch": 0.05413333333333333, + "grad_norm": 1.4043248891830444, + "learning_rate": 0.00018921538119582128, + "loss": 2.0347, + "step": 2436 + }, + { + "epoch": 0.054155555555555554, + "grad_norm": 1.3338160514831543, + "learning_rate": 0.00018921093576350302, + "loss": 1.5641, + "step": 2437 + }, + { + "epoch": 0.054177777777777776, + "grad_norm": 1.1076841354370117, + "learning_rate": 0.0001892064903311847, + "loss": 1.9741, + "step": 2438 + }, + { + "epoch": 0.0542, + "grad_norm": 1.3298640251159668, + "learning_rate": 0.0001892020448988664, + "loss": 1.8845, + "step": 2439 + }, + { + "epoch": 0.05422222222222222, + "grad_norm": 1.237134337425232, + "learning_rate": 0.00018919759946654815, + "loss": 2.0562, + "step": 2440 + }, + { + "epoch": 0.05424444444444444, + "grad_norm": 1.533353328704834, + "learning_rate": 0.00018919315403422983, + "loss": 2.2939, + "step": 2441 + }, + { + "epoch": 0.054266666666666664, + "grad_norm": 1.239883303642273, + "learning_rate": 0.00018918870860191154, + "loss": 1.865, + "step": 2442 + }, + { + "epoch": 0.054288888888888887, + "grad_norm": 1.0204641819000244, + "learning_rate": 0.00018918426316959325, + "loss": 1.0265, + "step": 2443 + }, + { + "epoch": 0.05431111111111111, + "grad_norm": 1.455061435699463, + "learning_rate": 0.00018917981773727496, + "loss": 2.3005, + "step": 2444 + }, + { + "epoch": 0.05433333333333333, + "grad_norm": 1.2822335958480835, + "learning_rate": 0.00018917537230495664, + "loss": 2.352, + "step": 2445 + }, + { + "epoch": 0.05435555555555555, + "grad_norm": 1.1937792301177979, + "learning_rate": 0.00018917092687263838, + "loss": 1.9667, + "step": 2446 + }, + { + "epoch": 0.054377777777777775, + "grad_norm": 1.2129205465316772, + "learning_rate": 0.00018916648144032006, + "loss": 1.5441, + "step": 2447 + }, + { + "epoch": 0.0544, + "grad_norm": 1.2139372825622559, + "learning_rate": 0.0001891620360080018, + "loss": 1.5881, + "step": 2448 + }, + { + "epoch": 0.05442222222222222, + "grad_norm": 1.614974856376648, + "learning_rate": 0.0001891575905756835, + "loss": 1.9697, + "step": 2449 + }, + { + "epoch": 0.05444444444444444, + "grad_norm": 1.494932770729065, + "learning_rate": 0.0001891531451433652, + "loss": 1.5232, + "step": 2450 + }, + { + "epoch": 0.05446666666666666, + "grad_norm": 1.0456159114837646, + "learning_rate": 0.00018914869971104693, + "loss": 2.0489, + "step": 2451 + }, + { + "epoch": 0.05448888888888889, + "grad_norm": 0.24582913517951965, + "learning_rate": 0.0001891442542787286, + "loss": 0.0238, + "step": 2452 + }, + { + "epoch": 0.054511111111111114, + "grad_norm": 1.1495356559753418, + "learning_rate": 0.00018913980884641032, + "loss": 2.7597, + "step": 2453 + }, + { + "epoch": 0.054533333333333336, + "grad_norm": 1.0543262958526611, + "learning_rate": 0.00018913536341409203, + "loss": 2.2041, + "step": 2454 + }, + { + "epoch": 0.05455555555555556, + "grad_norm": 1.4828373193740845, + "learning_rate": 0.00018913091798177374, + "loss": 2.629, + "step": 2455 + }, + { + "epoch": 0.05457777777777778, + "grad_norm": 1.1645830869674683, + "learning_rate": 0.00018912647254945545, + "loss": 2.3529, + "step": 2456 + }, + { + "epoch": 0.0546, + "grad_norm": 1.1288797855377197, + "learning_rate": 0.00018912202711713716, + "loss": 1.9734, + "step": 2457 + }, + { + "epoch": 0.054622222222222225, + "grad_norm": 1.039430022239685, + "learning_rate": 0.00018911758168481887, + "loss": 2.4457, + "step": 2458 + }, + { + "epoch": 0.05464444444444445, + "grad_norm": 0.9661824703216553, + "learning_rate": 0.00018911313625250055, + "loss": 2.0711, + "step": 2459 + }, + { + "epoch": 0.05466666666666667, + "grad_norm": 1.3233098983764648, + "learning_rate": 0.0001891086908201823, + "loss": 2.3527, + "step": 2460 + }, + { + "epoch": 0.05468888888888889, + "grad_norm": 1.210202932357788, + "learning_rate": 0.00018910424538786397, + "loss": 2.3941, + "step": 2461 + }, + { + "epoch": 0.05471111111111111, + "grad_norm": 1.165424108505249, + "learning_rate": 0.00018909979995554568, + "loss": 2.2124, + "step": 2462 + }, + { + "epoch": 0.054733333333333335, + "grad_norm": 1.0688230991363525, + "learning_rate": 0.0001890953545232274, + "loss": 2.1726, + "step": 2463 + }, + { + "epoch": 0.05475555555555556, + "grad_norm": 1.1547540426254272, + "learning_rate": 0.0001890909090909091, + "loss": 2.0078, + "step": 2464 + }, + { + "epoch": 0.05477777777777778, + "grad_norm": 1.1661717891693115, + "learning_rate": 0.0001890864636585908, + "loss": 1.8699, + "step": 2465 + }, + { + "epoch": 0.0548, + "grad_norm": 1.0058127641677856, + "learning_rate": 0.00018908201822627252, + "loss": 2.1049, + "step": 2466 + }, + { + "epoch": 0.054822222222222224, + "grad_norm": 1.408481478691101, + "learning_rate": 0.00018907757279395423, + "loss": 1.9875, + "step": 2467 + }, + { + "epoch": 0.054844444444444446, + "grad_norm": 1.2111340761184692, + "learning_rate": 0.00018907312736163594, + "loss": 2.6125, + "step": 2468 + }, + { + "epoch": 0.05486666666666667, + "grad_norm": 1.196250319480896, + "learning_rate": 0.00018906868192931765, + "loss": 2.1727, + "step": 2469 + }, + { + "epoch": 0.05488888888888889, + "grad_norm": 1.0017157793045044, + "learning_rate": 0.00018906423649699933, + "loss": 2.0192, + "step": 2470 + }, + { + "epoch": 0.05491111111111111, + "grad_norm": 1.1697108745574951, + "learning_rate": 0.00018905979106468107, + "loss": 2.2805, + "step": 2471 + }, + { + "epoch": 0.054933333333333334, + "grad_norm": 1.292067527770996, + "learning_rate": 0.00018905534563236275, + "loss": 2.3587, + "step": 2472 + }, + { + "epoch": 0.054955555555555556, + "grad_norm": 1.3392435312271118, + "learning_rate": 0.00018905090020004446, + "loss": 2.1746, + "step": 2473 + }, + { + "epoch": 0.05497777777777778, + "grad_norm": 1.0832107067108154, + "learning_rate": 0.00018904645476772617, + "loss": 1.9875, + "step": 2474 + }, + { + "epoch": 0.055, + "grad_norm": 1.2673426866531372, + "learning_rate": 0.00018904200933540788, + "loss": 2.2346, + "step": 2475 + }, + { + "epoch": 0.05502222222222222, + "grad_norm": 1.0961675643920898, + "learning_rate": 0.0001890375639030896, + "loss": 1.9001, + "step": 2476 + }, + { + "epoch": 0.055044444444444444, + "grad_norm": 1.5389955043792725, + "learning_rate": 0.0001890331184707713, + "loss": 2.1704, + "step": 2477 + }, + { + "epoch": 0.05506666666666667, + "grad_norm": 1.1380915641784668, + "learning_rate": 0.000189028673038453, + "loss": 1.5925, + "step": 2478 + }, + { + "epoch": 0.05508888888888889, + "grad_norm": 1.1954318284988403, + "learning_rate": 0.0001890242276061347, + "loss": 1.8853, + "step": 2479 + }, + { + "epoch": 0.05511111111111111, + "grad_norm": 1.4532486200332642, + "learning_rate": 0.00018901978217381643, + "loss": 2.3578, + "step": 2480 + }, + { + "epoch": 0.05513333333333333, + "grad_norm": 1.2123574018478394, + "learning_rate": 0.0001890153367414981, + "loss": 2.0524, + "step": 2481 + }, + { + "epoch": 0.055155555555555555, + "grad_norm": 1.3489240407943726, + "learning_rate": 0.00018901089130917982, + "loss": 1.9921, + "step": 2482 + }, + { + "epoch": 0.05517777777777778, + "grad_norm": 1.2275818586349487, + "learning_rate": 0.00018900644587686153, + "loss": 1.0391, + "step": 2483 + }, + { + "epoch": 0.0552, + "grad_norm": 1.301775574684143, + "learning_rate": 0.00018900200044454324, + "loss": 2.1361, + "step": 2484 + }, + { + "epoch": 0.05522222222222222, + "grad_norm": 1.177973747253418, + "learning_rate": 0.00018899755501222495, + "loss": 1.7752, + "step": 2485 + }, + { + "epoch": 0.05524444444444444, + "grad_norm": 1.614419937133789, + "learning_rate": 0.00018899310957990666, + "loss": 2.0485, + "step": 2486 + }, + { + "epoch": 0.055266666666666665, + "grad_norm": 1.4591861963272095, + "learning_rate": 0.00018898866414758837, + "loss": 2.6826, + "step": 2487 + }, + { + "epoch": 0.05528888888888889, + "grad_norm": 1.234574317932129, + "learning_rate": 0.00018898421871527008, + "loss": 1.8722, + "step": 2488 + }, + { + "epoch": 0.05531111111111111, + "grad_norm": 1.2190479040145874, + "learning_rate": 0.00018897977328295179, + "loss": 1.6645, + "step": 2489 + }, + { + "epoch": 0.05533333333333333, + "grad_norm": 1.2094649076461792, + "learning_rate": 0.00018897532785063347, + "loss": 1.7016, + "step": 2490 + }, + { + "epoch": 0.055355555555555554, + "grad_norm": 1.2158609628677368, + "learning_rate": 0.0001889708824183152, + "loss": 1.6962, + "step": 2491 + }, + { + "epoch": 0.055377777777777776, + "grad_norm": 1.3388298749923706, + "learning_rate": 0.0001889664369859969, + "loss": 1.8867, + "step": 2492 + }, + { + "epoch": 0.0554, + "grad_norm": 1.4496742486953735, + "learning_rate": 0.0001889619915536786, + "loss": 2.1865, + "step": 2493 + }, + { + "epoch": 0.05542222222222222, + "grad_norm": 1.4807302951812744, + "learning_rate": 0.0001889575461213603, + "loss": 1.861, + "step": 2494 + }, + { + "epoch": 0.05544444444444444, + "grad_norm": 1.8118335008621216, + "learning_rate": 0.00018895310068904202, + "loss": 1.6623, + "step": 2495 + }, + { + "epoch": 0.055466666666666664, + "grad_norm": 1.4286296367645264, + "learning_rate": 0.00018894865525672373, + "loss": 2.0063, + "step": 2496 + }, + { + "epoch": 0.055488888888888886, + "grad_norm": 1.2867096662521362, + "learning_rate": 0.00018894420982440544, + "loss": 1.6976, + "step": 2497 + }, + { + "epoch": 0.05551111111111111, + "grad_norm": 1.3115135431289673, + "learning_rate": 0.00018893976439208714, + "loss": 1.7672, + "step": 2498 + }, + { + "epoch": 0.05553333333333333, + "grad_norm": 1.1507395505905151, + "learning_rate": 0.00018893531895976883, + "loss": 0.9649, + "step": 2499 + }, + { + "epoch": 0.05555555555555555, + "grad_norm": 1.5662176609039307, + "learning_rate": 0.00018893087352745056, + "loss": 1.1995, + "step": 2500 + }, + { + "epoch": 0.055577777777777775, + "grad_norm": 1.036569595336914, + "learning_rate": 0.00018892642809513225, + "loss": 2.6401, + "step": 2501 + }, + { + "epoch": 0.0556, + "grad_norm": 1.2533944845199585, + "learning_rate": 0.00018892198266281396, + "loss": 1.2099, + "step": 2502 + }, + { + "epoch": 0.055622222222222226, + "grad_norm": 0.9114360809326172, + "learning_rate": 0.00018891753723049567, + "loss": 2.2516, + "step": 2503 + }, + { + "epoch": 0.05564444444444445, + "grad_norm": 0.8984512090682983, + "learning_rate": 0.00018891309179817738, + "loss": 2.0534, + "step": 2504 + }, + { + "epoch": 0.05566666666666667, + "grad_norm": 0.8923514485359192, + "learning_rate": 0.0001889086463658591, + "loss": 1.7531, + "step": 2505 + }, + { + "epoch": 0.05568888888888889, + "grad_norm": 1.4881649017333984, + "learning_rate": 0.0001889042009335408, + "loss": 2.4426, + "step": 2506 + }, + { + "epoch": 0.055711111111111114, + "grad_norm": 1.2478203773498535, + "learning_rate": 0.0001888997555012225, + "loss": 2.4129, + "step": 2507 + }, + { + "epoch": 0.055733333333333336, + "grad_norm": 1.231635570526123, + "learning_rate": 0.00018889531006890421, + "loss": 1.8812, + "step": 2508 + }, + { + "epoch": 0.05575555555555556, + "grad_norm": 1.1915603876113892, + "learning_rate": 0.00018889086463658592, + "loss": 2.1337, + "step": 2509 + }, + { + "epoch": 0.05577777777777778, + "grad_norm": 1.236119270324707, + "learning_rate": 0.0001888864192042676, + "loss": 2.4318, + "step": 2510 + }, + { + "epoch": 0.0558, + "grad_norm": 1.2447643280029297, + "learning_rate": 0.00018888197377194934, + "loss": 2.0202, + "step": 2511 + }, + { + "epoch": 0.055822222222222224, + "grad_norm": 1.2412337064743042, + "learning_rate": 0.00018887752833963103, + "loss": 1.8919, + "step": 2512 + }, + { + "epoch": 0.05584444444444445, + "grad_norm": 1.2132288217544556, + "learning_rate": 0.00018887308290731273, + "loss": 1.6845, + "step": 2513 + }, + { + "epoch": 0.05586666666666667, + "grad_norm": 0.9563615918159485, + "learning_rate": 0.00018886863747499447, + "loss": 1.2756, + "step": 2514 + }, + { + "epoch": 0.05588888888888889, + "grad_norm": 1.4900014400482178, + "learning_rate": 0.00018886419204267615, + "loss": 2.0221, + "step": 2515 + }, + { + "epoch": 0.05591111111111111, + "grad_norm": 1.4225016832351685, + "learning_rate": 0.00018885974661035786, + "loss": 2.4016, + "step": 2516 + }, + { + "epoch": 0.055933333333333335, + "grad_norm": 1.2294126749038696, + "learning_rate": 0.00018885530117803957, + "loss": 2.046, + "step": 2517 + }, + { + "epoch": 0.05595555555555556, + "grad_norm": 0.9636179804801941, + "learning_rate": 0.00018885085574572128, + "loss": 1.3756, + "step": 2518 + }, + { + "epoch": 0.05597777777777778, + "grad_norm": 1.2330832481384277, + "learning_rate": 0.00018884641031340297, + "loss": 1.9757, + "step": 2519 + }, + { + "epoch": 0.056, + "grad_norm": 1.3391579389572144, + "learning_rate": 0.0001888419648810847, + "loss": 1.9916, + "step": 2520 + }, + { + "epoch": 0.05602222222222222, + "grad_norm": 1.2452796697616577, + "learning_rate": 0.00018883751944876638, + "loss": 2.2848, + "step": 2521 + }, + { + "epoch": 0.056044444444444445, + "grad_norm": 1.3527039289474487, + "learning_rate": 0.00018883307401644812, + "loss": 2.2526, + "step": 2522 + }, + { + "epoch": 0.05606666666666667, + "grad_norm": 1.3589142560958862, + "learning_rate": 0.00018882862858412983, + "loss": 2.0975, + "step": 2523 + }, + { + "epoch": 0.05608888888888889, + "grad_norm": 1.259299397468567, + "learning_rate": 0.0001888241831518115, + "loss": 2.0097, + "step": 2524 + }, + { + "epoch": 0.05611111111111111, + "grad_norm": 1.4315937757492065, + "learning_rate": 0.00018881973771949325, + "loss": 1.7777, + "step": 2525 + }, + { + "epoch": 0.056133333333333334, + "grad_norm": 1.1376361846923828, + "learning_rate": 0.00018881529228717493, + "loss": 2.2056, + "step": 2526 + }, + { + "epoch": 0.056155555555555556, + "grad_norm": 0.8034170269966125, + "learning_rate": 0.00018881084685485664, + "loss": 0.7347, + "step": 2527 + }, + { + "epoch": 0.05617777777777778, + "grad_norm": 1.4560273885726929, + "learning_rate": 0.00018880640142253835, + "loss": 2.2216, + "step": 2528 + }, + { + "epoch": 0.0562, + "grad_norm": 1.181087613105774, + "learning_rate": 0.00018880195599022006, + "loss": 1.8212, + "step": 2529 + }, + { + "epoch": 0.05622222222222222, + "grad_norm": 0.8451790809631348, + "learning_rate": 0.00018879751055790177, + "loss": 0.7923, + "step": 2530 + }, + { + "epoch": 0.056244444444444444, + "grad_norm": 1.3709419965744019, + "learning_rate": 0.00018879306512558348, + "loss": 2.2324, + "step": 2531 + }, + { + "epoch": 0.056266666666666666, + "grad_norm": 1.372127890586853, + "learning_rate": 0.0001887886196932652, + "loss": 2.0432, + "step": 2532 + }, + { + "epoch": 0.05628888888888889, + "grad_norm": 1.4520469903945923, + "learning_rate": 0.00018878417426094687, + "loss": 2.358, + "step": 2533 + }, + { + "epoch": 0.05631111111111111, + "grad_norm": 1.3024083375930786, + "learning_rate": 0.0001887797288286286, + "loss": 2.4057, + "step": 2534 + }, + { + "epoch": 0.05633333333333333, + "grad_norm": 1.2385015487670898, + "learning_rate": 0.0001887752833963103, + "loss": 1.9186, + "step": 2535 + }, + { + "epoch": 0.056355555555555555, + "grad_norm": 1.5507334470748901, + "learning_rate": 0.000188770837963992, + "loss": 2.2698, + "step": 2536 + }, + { + "epoch": 0.05637777777777778, + "grad_norm": 1.4196962118148804, + "learning_rate": 0.0001887663925316737, + "loss": 1.8153, + "step": 2537 + }, + { + "epoch": 0.0564, + "grad_norm": 1.2866084575653076, + "learning_rate": 0.00018876194709935542, + "loss": 2.0998, + "step": 2538 + }, + { + "epoch": 0.05642222222222222, + "grad_norm": 1.331620454788208, + "learning_rate": 0.00018875750166703713, + "loss": 1.8027, + "step": 2539 + }, + { + "epoch": 0.05644444444444444, + "grad_norm": 1.1863762140274048, + "learning_rate": 0.00018875305623471884, + "loss": 1.8618, + "step": 2540 + }, + { + "epoch": 0.056466666666666665, + "grad_norm": 1.1917874813079834, + "learning_rate": 0.00018874861080240055, + "loss": 1.776, + "step": 2541 + }, + { + "epoch": 0.05648888888888889, + "grad_norm": 1.3376266956329346, + "learning_rate": 0.00018874416537008226, + "loss": 2.1375, + "step": 2542 + }, + { + "epoch": 0.05651111111111111, + "grad_norm": 1.483438491821289, + "learning_rate": 0.00018873971993776397, + "loss": 2.0117, + "step": 2543 + }, + { + "epoch": 0.05653333333333333, + "grad_norm": 1.204397439956665, + "learning_rate": 0.00018873527450544565, + "loss": 1.9788, + "step": 2544 + }, + { + "epoch": 0.05655555555555555, + "grad_norm": 1.2496213912963867, + "learning_rate": 0.0001887308290731274, + "loss": 1.6697, + "step": 2545 + }, + { + "epoch": 0.056577777777777775, + "grad_norm": 1.2381025552749634, + "learning_rate": 0.00018872638364080907, + "loss": 1.9932, + "step": 2546 + }, + { + "epoch": 0.0566, + "grad_norm": 0.9621703624725342, + "learning_rate": 0.00018872193820849078, + "loss": 1.0976, + "step": 2547 + }, + { + "epoch": 0.05662222222222222, + "grad_norm": 1.4206795692443848, + "learning_rate": 0.0001887174927761725, + "loss": 2.4123, + "step": 2548 + }, + { + "epoch": 0.05664444444444444, + "grad_norm": 1.7977161407470703, + "learning_rate": 0.0001887130473438542, + "loss": 2.0407, + "step": 2549 + }, + { + "epoch": 0.056666666666666664, + "grad_norm": 1.200404167175293, + "learning_rate": 0.0001887086019115359, + "loss": 0.7282, + "step": 2550 + }, + { + "epoch": 0.056688888888888886, + "grad_norm": 1.2886850833892822, + "learning_rate": 0.00018870415647921762, + "loss": 2.8743, + "step": 2551 + }, + { + "epoch": 0.05671111111111111, + "grad_norm": 1.3046247959136963, + "learning_rate": 0.00018869971104689933, + "loss": 2.721, + "step": 2552 + }, + { + "epoch": 0.05673333333333333, + "grad_norm": 0.9942330718040466, + "learning_rate": 0.000188695265614581, + "loss": 2.8455, + "step": 2553 + }, + { + "epoch": 0.05675555555555555, + "grad_norm": 1.0440577268600464, + "learning_rate": 0.00018869082018226275, + "loss": 2.2894, + "step": 2554 + }, + { + "epoch": 0.05677777777777778, + "grad_norm": 1.0470658540725708, + "learning_rate": 0.00018868637474994443, + "loss": 2.5528, + "step": 2555 + }, + { + "epoch": 0.0568, + "grad_norm": 1.0190290212631226, + "learning_rate": 0.00018868192931762614, + "loss": 2.4568, + "step": 2556 + }, + { + "epoch": 0.056822222222222225, + "grad_norm": 1.4050205945968628, + "learning_rate": 0.00018867748388530785, + "loss": 2.1209, + "step": 2557 + }, + { + "epoch": 0.05684444444444445, + "grad_norm": 1.1558541059494019, + "learning_rate": 0.00018867303845298956, + "loss": 2.3952, + "step": 2558 + }, + { + "epoch": 0.05686666666666667, + "grad_norm": 1.1200963258743286, + "learning_rate": 0.00018866859302067127, + "loss": 2.0985, + "step": 2559 + }, + { + "epoch": 0.05688888888888889, + "grad_norm": 1.091135025024414, + "learning_rate": 0.00018866414758835298, + "loss": 1.8624, + "step": 2560 + }, + { + "epoch": 0.056911111111111114, + "grad_norm": 1.581621527671814, + "learning_rate": 0.0001886597021560347, + "loss": 3.2137, + "step": 2561 + }, + { + "epoch": 0.056933333333333336, + "grad_norm": 1.1373692750930786, + "learning_rate": 0.0001886552567237164, + "loss": 1.992, + "step": 2562 + }, + { + "epoch": 0.05695555555555556, + "grad_norm": 1.4724087715148926, + "learning_rate": 0.0001886508112913981, + "loss": 2.0838, + "step": 2563 + }, + { + "epoch": 0.05697777777777778, + "grad_norm": 1.3630752563476562, + "learning_rate": 0.0001886463658590798, + "loss": 1.7094, + "step": 2564 + }, + { + "epoch": 0.057, + "grad_norm": 1.2479501962661743, + "learning_rate": 0.00018864192042676153, + "loss": 2.1034, + "step": 2565 + }, + { + "epoch": 0.057022222222222224, + "grad_norm": 1.1085615158081055, + "learning_rate": 0.0001886374749944432, + "loss": 1.8555, + "step": 2566 + }, + { + "epoch": 0.057044444444444446, + "grad_norm": 1.1923258304595947, + "learning_rate": 0.00018863302956212492, + "loss": 1.9177, + "step": 2567 + }, + { + "epoch": 0.05706666666666667, + "grad_norm": 1.0570402145385742, + "learning_rate": 0.00018862858412980663, + "loss": 1.6675, + "step": 2568 + }, + { + "epoch": 0.05708888888888889, + "grad_norm": 1.3930308818817139, + "learning_rate": 0.00018862413869748834, + "loss": 2.0568, + "step": 2569 + }, + { + "epoch": 0.05711111111111111, + "grad_norm": 1.2459723949432373, + "learning_rate": 0.00018861969326517005, + "loss": 2.5248, + "step": 2570 + }, + { + "epoch": 0.057133333333333335, + "grad_norm": 1.4689371585845947, + "learning_rate": 0.00018861524783285176, + "loss": 1.9445, + "step": 2571 + }, + { + "epoch": 0.05715555555555556, + "grad_norm": 1.2268513441085815, + "learning_rate": 0.00018861080240053347, + "loss": 2.1856, + "step": 2572 + }, + { + "epoch": 0.05717777777777778, + "grad_norm": 1.2996394634246826, + "learning_rate": 0.00018860635696821515, + "loss": 2.4146, + "step": 2573 + }, + { + "epoch": 0.0572, + "grad_norm": 1.3084443807601929, + "learning_rate": 0.00018860191153589689, + "loss": 2.2153, + "step": 2574 + }, + { + "epoch": 0.05722222222222222, + "grad_norm": 1.2762608528137207, + "learning_rate": 0.00018859746610357857, + "loss": 2.0201, + "step": 2575 + }, + { + "epoch": 0.057244444444444445, + "grad_norm": 1.3511669635772705, + "learning_rate": 0.00018859302067126028, + "loss": 1.9618, + "step": 2576 + }, + { + "epoch": 0.05726666666666667, + "grad_norm": 1.2813236713409424, + "learning_rate": 0.000188588575238942, + "loss": 1.7119, + "step": 2577 + }, + { + "epoch": 0.05728888888888889, + "grad_norm": 1.080528736114502, + "learning_rate": 0.0001885841298066237, + "loss": 1.4051, + "step": 2578 + }, + { + "epoch": 0.05731111111111111, + "grad_norm": 1.3457008600234985, + "learning_rate": 0.00018857968437430543, + "loss": 1.9014, + "step": 2579 + }, + { + "epoch": 0.05733333333333333, + "grad_norm": 1.1213107109069824, + "learning_rate": 0.00018857523894198712, + "loss": 1.9722, + "step": 2580 + }, + { + "epoch": 0.057355555555555555, + "grad_norm": 1.2997187376022339, + "learning_rate": 0.00018857079350966883, + "loss": 2.1289, + "step": 2581 + }, + { + "epoch": 0.05737777777777778, + "grad_norm": 1.1378041505813599, + "learning_rate": 0.00018856634807735054, + "loss": 1.8117, + "step": 2582 + }, + { + "epoch": 0.0574, + "grad_norm": 1.3709129095077515, + "learning_rate": 0.00018856190264503225, + "loss": 2.0827, + "step": 2583 + }, + { + "epoch": 0.05742222222222222, + "grad_norm": 1.2919036149978638, + "learning_rate": 0.00018855745721271393, + "loss": 2.0347, + "step": 2584 + }, + { + "epoch": 0.057444444444444444, + "grad_norm": 1.0655790567398071, + "learning_rate": 0.00018855301178039566, + "loss": 1.7323, + "step": 2585 + }, + { + "epoch": 0.057466666666666666, + "grad_norm": 1.2686959505081177, + "learning_rate": 0.00018854856634807735, + "loss": 1.7882, + "step": 2586 + }, + { + "epoch": 0.05748888888888889, + "grad_norm": 1.206129789352417, + "learning_rate": 0.00018854412091575906, + "loss": 1.6563, + "step": 2587 + }, + { + "epoch": 0.05751111111111111, + "grad_norm": 1.3334760665893555, + "learning_rate": 0.0001885396754834408, + "loss": 1.8783, + "step": 2588 + }, + { + "epoch": 0.05753333333333333, + "grad_norm": 1.4101591110229492, + "learning_rate": 0.00018853523005112248, + "loss": 1.9708, + "step": 2589 + }, + { + "epoch": 0.057555555555555554, + "grad_norm": 1.1265485286712646, + "learning_rate": 0.00018853078461880419, + "loss": 1.5324, + "step": 2590 + }, + { + "epoch": 0.057577777777777776, + "grad_norm": 1.4062831401824951, + "learning_rate": 0.0001885263391864859, + "loss": 1.9158, + "step": 2591 + }, + { + "epoch": 0.0576, + "grad_norm": 1.3258615732192993, + "learning_rate": 0.0001885218937541676, + "loss": 1.8876, + "step": 2592 + }, + { + "epoch": 0.05762222222222222, + "grad_norm": 1.366902470588684, + "learning_rate": 0.0001885174483218493, + "loss": 2.2955, + "step": 2593 + }, + { + "epoch": 0.05764444444444444, + "grad_norm": 1.2706516981124878, + "learning_rate": 0.00018851300288953102, + "loss": 1.6714, + "step": 2594 + }, + { + "epoch": 0.057666666666666665, + "grad_norm": 1.4717543125152588, + "learning_rate": 0.0001885085574572127, + "loss": 1.9276, + "step": 2595 + }, + { + "epoch": 0.05768888888888889, + "grad_norm": 1.4014904499053955, + "learning_rate": 0.00018850411202489442, + "loss": 1.5478, + "step": 2596 + }, + { + "epoch": 0.05771111111111111, + "grad_norm": 1.5884499549865723, + "learning_rate": 0.00018849966659257615, + "loss": 2.1932, + "step": 2597 + }, + { + "epoch": 0.05773333333333333, + "grad_norm": 1.4640851020812988, + "learning_rate": 0.00018849522116025784, + "loss": 2.0769, + "step": 2598 + }, + { + "epoch": 0.05775555555555555, + "grad_norm": 1.5820749998092651, + "learning_rate": 0.00018849077572793957, + "loss": 1.3225, + "step": 2599 + }, + { + "epoch": 0.057777777777777775, + "grad_norm": 1.4387468099594116, + "learning_rate": 0.00018848633029562125, + "loss": 1.466, + "step": 2600 + }, + { + "epoch": 0.0578, + "grad_norm": 1.301875352859497, + "learning_rate": 0.00018848188486330296, + "loss": 1.2375, + "step": 2601 + }, + { + "epoch": 0.05782222222222222, + "grad_norm": 0.9710614681243896, + "learning_rate": 0.00018847743943098467, + "loss": 2.1691, + "step": 2602 + }, + { + "epoch": 0.05784444444444444, + "grad_norm": 1.0692071914672852, + "learning_rate": 0.00018847299399866638, + "loss": 2.5301, + "step": 2603 + }, + { + "epoch": 0.057866666666666663, + "grad_norm": 1.162587285041809, + "learning_rate": 0.0001884685485663481, + "loss": 2.226, + "step": 2604 + }, + { + "epoch": 0.057888888888888886, + "grad_norm": 1.0870006084442139, + "learning_rate": 0.0001884641031340298, + "loss": 2.213, + "step": 2605 + }, + { + "epoch": 0.05791111111111111, + "grad_norm": 1.3487595319747925, + "learning_rate": 0.0001884596577017115, + "loss": 2.5889, + "step": 2606 + }, + { + "epoch": 0.05793333333333334, + "grad_norm": 1.0310118198394775, + "learning_rate": 0.0001884552122693932, + "loss": 2.2075, + "step": 2607 + }, + { + "epoch": 0.05795555555555556, + "grad_norm": 1.3258577585220337, + "learning_rate": 0.00018845076683707493, + "loss": 2.1978, + "step": 2608 + }, + { + "epoch": 0.05797777777777778, + "grad_norm": 1.0879091024398804, + "learning_rate": 0.00018844632140475661, + "loss": 2.3445, + "step": 2609 + }, + { + "epoch": 0.058, + "grad_norm": 1.086910367012024, + "learning_rate": 0.00018844187597243832, + "loss": 2.0279, + "step": 2610 + }, + { + "epoch": 0.058022222222222225, + "grad_norm": 1.0693237781524658, + "learning_rate": 0.00018843743054012003, + "loss": 2.1559, + "step": 2611 + }, + { + "epoch": 0.05804444444444445, + "grad_norm": 1.2452982664108276, + "learning_rate": 0.00018843298510780174, + "loss": 2.185, + "step": 2612 + }, + { + "epoch": 0.05806666666666667, + "grad_norm": 1.248547911643982, + "learning_rate": 0.00018842853967548345, + "loss": 2.489, + "step": 2613 + }, + { + "epoch": 0.05808888888888889, + "grad_norm": 1.2178386449813843, + "learning_rate": 0.00018842409424316516, + "loss": 1.9774, + "step": 2614 + }, + { + "epoch": 0.05811111111111111, + "grad_norm": 1.3870599269866943, + "learning_rate": 0.00018841964881084687, + "loss": 2.0721, + "step": 2615 + }, + { + "epoch": 0.058133333333333335, + "grad_norm": 1.3151402473449707, + "learning_rate": 0.00018841520337852858, + "loss": 1.9932, + "step": 2616 + }, + { + "epoch": 0.05815555555555556, + "grad_norm": 1.1721808910369873, + "learning_rate": 0.0001884107579462103, + "loss": 1.9445, + "step": 2617 + }, + { + "epoch": 0.05817777777777778, + "grad_norm": 1.2163183689117432, + "learning_rate": 0.00018840631251389197, + "loss": 2.0455, + "step": 2618 + }, + { + "epoch": 0.0582, + "grad_norm": 1.1210755109786987, + "learning_rate": 0.0001884018670815737, + "loss": 2.0786, + "step": 2619 + }, + { + "epoch": 0.058222222222222224, + "grad_norm": 1.2193481922149658, + "learning_rate": 0.0001883974216492554, + "loss": 2.1058, + "step": 2620 + }, + { + "epoch": 0.058244444444444446, + "grad_norm": 1.35350501537323, + "learning_rate": 0.0001883929762169371, + "loss": 2.4217, + "step": 2621 + }, + { + "epoch": 0.05826666666666667, + "grad_norm": 1.2459526062011719, + "learning_rate": 0.0001883885307846188, + "loss": 1.9837, + "step": 2622 + }, + { + "epoch": 0.05828888888888889, + "grad_norm": 1.4048715829849243, + "learning_rate": 0.00018838408535230052, + "loss": 2.0499, + "step": 2623 + }, + { + "epoch": 0.05831111111111111, + "grad_norm": 1.2909272909164429, + "learning_rate": 0.00018837963991998223, + "loss": 2.4974, + "step": 2624 + }, + { + "epoch": 0.058333333333333334, + "grad_norm": 1.3306478261947632, + "learning_rate": 0.00018837519448766394, + "loss": 2.0874, + "step": 2625 + }, + { + "epoch": 0.058355555555555556, + "grad_norm": 1.4970335960388184, + "learning_rate": 0.00018837074905534565, + "loss": 2.4613, + "step": 2626 + }, + { + "epoch": 0.05837777777777778, + "grad_norm": 1.0698506832122803, + "learning_rate": 0.00018836630362302733, + "loss": 0.9444, + "step": 2627 + }, + { + "epoch": 0.0584, + "grad_norm": 0.9456402659416199, + "learning_rate": 0.00018836185819070907, + "loss": 0.8056, + "step": 2628 + }, + { + "epoch": 0.05842222222222222, + "grad_norm": 1.119666576385498, + "learning_rate": 0.00018835741275839075, + "loss": 1.778, + "step": 2629 + }, + { + "epoch": 0.058444444444444445, + "grad_norm": 1.1170711517333984, + "learning_rate": 0.00018835296732607246, + "loss": 1.6577, + "step": 2630 + }, + { + "epoch": 0.05846666666666667, + "grad_norm": 1.4737907648086548, + "learning_rate": 0.00018834852189375417, + "loss": 2.0255, + "step": 2631 + }, + { + "epoch": 0.05848888888888889, + "grad_norm": 0.8024235367774963, + "learning_rate": 0.00018834407646143588, + "loss": 0.042, + "step": 2632 + }, + { + "epoch": 0.05851111111111111, + "grad_norm": 0.9196134209632874, + "learning_rate": 0.0001883396310291176, + "loss": 1.1848, + "step": 2633 + }, + { + "epoch": 0.05853333333333333, + "grad_norm": 1.2150448560714722, + "learning_rate": 0.0001883351855967993, + "loss": 2.0621, + "step": 2634 + }, + { + "epoch": 0.058555555555555555, + "grad_norm": 1.2711851596832275, + "learning_rate": 0.000188330740164481, + "loss": 2.3663, + "step": 2635 + }, + { + "epoch": 0.05857777777777778, + "grad_norm": 1.1945533752441406, + "learning_rate": 0.00018832629473216272, + "loss": 1.9482, + "step": 2636 + }, + { + "epoch": 0.0586, + "grad_norm": 1.3538880348205566, + "learning_rate": 0.00018832184929984443, + "loss": 2.0037, + "step": 2637 + }, + { + "epoch": 0.05862222222222222, + "grad_norm": 1.2996848821640015, + "learning_rate": 0.0001883174038675261, + "loss": 1.845, + "step": 2638 + }, + { + "epoch": 0.058644444444444443, + "grad_norm": 1.2119286060333252, + "learning_rate": 0.00018831295843520785, + "loss": 1.9236, + "step": 2639 + }, + { + "epoch": 0.058666666666666666, + "grad_norm": 1.4044220447540283, + "learning_rate": 0.00018830851300288953, + "loss": 1.7563, + "step": 2640 + }, + { + "epoch": 0.05868888888888889, + "grad_norm": 1.4642359018325806, + "learning_rate": 0.00018830406757057124, + "loss": 2.1331, + "step": 2641 + }, + { + "epoch": 0.05871111111111111, + "grad_norm": 1.6892962455749512, + "learning_rate": 0.00018829962213825295, + "loss": 2.2671, + "step": 2642 + }, + { + "epoch": 0.05873333333333333, + "grad_norm": 1.24393630027771, + "learning_rate": 0.00018829517670593466, + "loss": 2.1696, + "step": 2643 + }, + { + "epoch": 0.058755555555555554, + "grad_norm": 1.2664800882339478, + "learning_rate": 0.00018829073127361637, + "loss": 1.893, + "step": 2644 + }, + { + "epoch": 0.058777777777777776, + "grad_norm": 1.2955024242401123, + "learning_rate": 0.00018828628584129808, + "loss": 1.7497, + "step": 2645 + }, + { + "epoch": 0.0588, + "grad_norm": 1.2515419721603394, + "learning_rate": 0.0001882818404089798, + "loss": 1.8957, + "step": 2646 + }, + { + "epoch": 0.05882222222222222, + "grad_norm": 1.1638329029083252, + "learning_rate": 0.00018827739497666147, + "loss": 1.8699, + "step": 2647 + }, + { + "epoch": 0.05884444444444444, + "grad_norm": 1.2965670824050903, + "learning_rate": 0.0001882729495443432, + "loss": 1.9793, + "step": 2648 + }, + { + "epoch": 0.058866666666666664, + "grad_norm": 1.412473201751709, + "learning_rate": 0.0001882685041120249, + "loss": 1.4989, + "step": 2649 + }, + { + "epoch": 0.058888888888888886, + "grad_norm": 1.6263394355773926, + "learning_rate": 0.0001882640586797066, + "loss": 1.9482, + "step": 2650 + }, + { + "epoch": 0.05891111111111111, + "grad_norm": 0.9874531030654907, + "learning_rate": 0.0001882596132473883, + "loss": 1.5364, + "step": 2651 + }, + { + "epoch": 0.05893333333333333, + "grad_norm": 1.2294578552246094, + "learning_rate": 0.00018825516781507002, + "loss": 2.4627, + "step": 2652 + }, + { + "epoch": 0.05895555555555555, + "grad_norm": 1.0111150741577148, + "learning_rate": 0.00018825072238275173, + "loss": 2.3569, + "step": 2653 + }, + { + "epoch": 0.058977777777777775, + "grad_norm": 0.9751931428909302, + "learning_rate": 0.00018824627695043344, + "loss": 2.2913, + "step": 2654 + }, + { + "epoch": 0.059, + "grad_norm": 0.8416575193405151, + "learning_rate": 0.00018824183151811515, + "loss": 1.6153, + "step": 2655 + }, + { + "epoch": 0.05902222222222222, + "grad_norm": 0.7639715075492859, + "learning_rate": 0.00018823738608579686, + "loss": 1.125, + "step": 2656 + }, + { + "epoch": 0.05904444444444444, + "grad_norm": 1.108520746231079, + "learning_rate": 0.00018823294065347857, + "loss": 2.386, + "step": 2657 + }, + { + "epoch": 0.05906666666666667, + "grad_norm": 1.0963854789733887, + "learning_rate": 0.00018822849522116025, + "loss": 2.1329, + "step": 2658 + }, + { + "epoch": 0.05908888888888889, + "grad_norm": 1.2453919649124146, + "learning_rate": 0.000188224049788842, + "loss": 2.0869, + "step": 2659 + }, + { + "epoch": 0.059111111111111114, + "grad_norm": 1.2493356466293335, + "learning_rate": 0.00018821960435652367, + "loss": 2.2241, + "step": 2660 + }, + { + "epoch": 0.059133333333333336, + "grad_norm": 1.305132269859314, + "learning_rate": 0.00018821515892420538, + "loss": 2.146, + "step": 2661 + }, + { + "epoch": 0.05915555555555556, + "grad_norm": 1.0485801696777344, + "learning_rate": 0.00018821071349188712, + "loss": 2.2145, + "step": 2662 + }, + { + "epoch": 0.05917777777777778, + "grad_norm": 1.009095549583435, + "learning_rate": 0.0001882062680595688, + "loss": 2.0429, + "step": 2663 + }, + { + "epoch": 0.0592, + "grad_norm": 1.1831285953521729, + "learning_rate": 0.0001882018226272505, + "loss": 2.0539, + "step": 2664 + }, + { + "epoch": 0.059222222222222225, + "grad_norm": 1.1024904251098633, + "learning_rate": 0.00018819737719493222, + "loss": 1.4612, + "step": 2665 + }, + { + "epoch": 0.05924444444444445, + "grad_norm": 1.5028462409973145, + "learning_rate": 0.00018819293176261393, + "loss": 2.0494, + "step": 2666 + }, + { + "epoch": 0.05926666666666667, + "grad_norm": 1.0544180870056152, + "learning_rate": 0.0001881884863302956, + "loss": 1.8696, + "step": 2667 + }, + { + "epoch": 0.05928888888888889, + "grad_norm": 1.3514580726623535, + "learning_rate": 0.00018818404089797735, + "loss": 2.3341, + "step": 2668 + }, + { + "epoch": 0.05931111111111111, + "grad_norm": 1.277117371559143, + "learning_rate": 0.00018817959546565903, + "loss": 2.0593, + "step": 2669 + }, + { + "epoch": 0.059333333333333335, + "grad_norm": 1.2876468896865845, + "learning_rate": 0.00018817515003334074, + "loss": 1.8874, + "step": 2670 + }, + { + "epoch": 0.05935555555555556, + "grad_norm": 1.3006914854049683, + "learning_rate": 0.00018817070460102248, + "loss": 2.2106, + "step": 2671 + }, + { + "epoch": 0.05937777777777778, + "grad_norm": 1.1542984247207642, + "learning_rate": 0.00018816625916870416, + "loss": 2.1074, + "step": 2672 + }, + { + "epoch": 0.0594, + "grad_norm": 1.2653757333755493, + "learning_rate": 0.0001881618137363859, + "loss": 2.1737, + "step": 2673 + }, + { + "epoch": 0.059422222222222223, + "grad_norm": 1.3577500581741333, + "learning_rate": 0.00018815736830406758, + "loss": 2.1686, + "step": 2674 + }, + { + "epoch": 0.059444444444444446, + "grad_norm": 1.3510795831680298, + "learning_rate": 0.0001881529228717493, + "loss": 1.8249, + "step": 2675 + }, + { + "epoch": 0.05946666666666667, + "grad_norm": 1.200465202331543, + "learning_rate": 0.000188148477439431, + "loss": 2.2109, + "step": 2676 + }, + { + "epoch": 0.05948888888888889, + "grad_norm": 1.402846336364746, + "learning_rate": 0.0001881440320071127, + "loss": 2.086, + "step": 2677 + }, + { + "epoch": 0.05951111111111111, + "grad_norm": 1.175559639930725, + "learning_rate": 0.00018813958657479442, + "loss": 2.0767, + "step": 2678 + }, + { + "epoch": 0.059533333333333334, + "grad_norm": 1.5343458652496338, + "learning_rate": 0.00018813514114247612, + "loss": 2.2539, + "step": 2679 + }, + { + "epoch": 0.059555555555555556, + "grad_norm": 1.3648189306259155, + "learning_rate": 0.00018813069571015783, + "loss": 1.8885, + "step": 2680 + }, + { + "epoch": 0.05957777777777778, + "grad_norm": 1.2665992975234985, + "learning_rate": 0.00018812625027783952, + "loss": 1.9425, + "step": 2681 + }, + { + "epoch": 0.0596, + "grad_norm": 1.395418643951416, + "learning_rate": 0.00018812180484552125, + "loss": 2.1067, + "step": 2682 + }, + { + "epoch": 0.05962222222222222, + "grad_norm": 1.5796053409576416, + "learning_rate": 0.00018811735941320294, + "loss": 2.3931, + "step": 2683 + }, + { + "epoch": 0.059644444444444444, + "grad_norm": 1.4654911756515503, + "learning_rate": 0.00018811291398088465, + "loss": 1.7199, + "step": 2684 + }, + { + "epoch": 0.059666666666666666, + "grad_norm": 1.3232920169830322, + "learning_rate": 0.00018810846854856636, + "loss": 1.835, + "step": 2685 + }, + { + "epoch": 0.05968888888888889, + "grad_norm": 1.433729648590088, + "learning_rate": 0.00018810402311624807, + "loss": 1.8563, + "step": 2686 + }, + { + "epoch": 0.05971111111111111, + "grad_norm": 1.12021005153656, + "learning_rate": 0.00018809957768392977, + "loss": 1.7091, + "step": 2687 + }, + { + "epoch": 0.05973333333333333, + "grad_norm": 1.5535043478012085, + "learning_rate": 0.00018809513225161148, + "loss": 1.6059, + "step": 2688 + }, + { + "epoch": 0.059755555555555555, + "grad_norm": 1.2253813743591309, + "learning_rate": 0.0001880906868192932, + "loss": 1.7265, + "step": 2689 + }, + { + "epoch": 0.05977777777777778, + "grad_norm": 1.642404317855835, + "learning_rate": 0.00018808624138697488, + "loss": 1.9222, + "step": 2690 + }, + { + "epoch": 0.0598, + "grad_norm": 1.5431791543960571, + "learning_rate": 0.0001880817959546566, + "loss": 2.1426, + "step": 2691 + }, + { + "epoch": 0.05982222222222222, + "grad_norm": 1.9136180877685547, + "learning_rate": 0.0001880773505223383, + "loss": 1.9685, + "step": 2692 + }, + { + "epoch": 0.05984444444444444, + "grad_norm": 1.5058226585388184, + "learning_rate": 0.00018807290509002003, + "loss": 2.2879, + "step": 2693 + }, + { + "epoch": 0.059866666666666665, + "grad_norm": 1.3893123865127563, + "learning_rate": 0.00018806845965770172, + "loss": 1.5688, + "step": 2694 + }, + { + "epoch": 0.05988888888888889, + "grad_norm": 1.2570210695266724, + "learning_rate": 0.00018806401422538342, + "loss": 1.6843, + "step": 2695 + }, + { + "epoch": 0.05991111111111111, + "grad_norm": 1.3790135383605957, + "learning_rate": 0.00018805956879306513, + "loss": 1.9682, + "step": 2696 + }, + { + "epoch": 0.05993333333333333, + "grad_norm": 1.2676455974578857, + "learning_rate": 0.00018805512336074684, + "loss": 1.82, + "step": 2697 + }, + { + "epoch": 0.059955555555555554, + "grad_norm": 1.3469589948654175, + "learning_rate": 0.00018805067792842855, + "loss": 1.9467, + "step": 2698 + }, + { + "epoch": 0.059977777777777776, + "grad_norm": 1.5633183717727661, + "learning_rate": 0.00018804623249611026, + "loss": 1.7995, + "step": 2699 + }, + { + "epoch": 0.06, + "grad_norm": 1.041155219078064, + "learning_rate": 0.00018804178706379197, + "loss": 0.8966, + "step": 2700 + }, + { + "epoch": 0.06002222222222222, + "grad_norm": 1.1135330200195312, + "learning_rate": 0.00018803734163147366, + "loss": 3.031, + "step": 2701 + }, + { + "epoch": 0.06004444444444444, + "grad_norm": 1.0869230031967163, + "learning_rate": 0.0001880328961991554, + "loss": 2.6311, + "step": 2702 + }, + { + "epoch": 0.060066666666666664, + "grad_norm": 1.550600290298462, + "learning_rate": 0.00018802845076683707, + "loss": 0.0537, + "step": 2703 + }, + { + "epoch": 0.060088888888888886, + "grad_norm": 1.0058884620666504, + "learning_rate": 0.00018802400533451878, + "loss": 2.2598, + "step": 2704 + }, + { + "epoch": 0.06011111111111111, + "grad_norm": 1.100688099861145, + "learning_rate": 0.0001880195599022005, + "loss": 2.4148, + "step": 2705 + }, + { + "epoch": 0.06013333333333333, + "grad_norm": 1.2154396772384644, + "learning_rate": 0.0001880151144698822, + "loss": 2.0538, + "step": 2706 + }, + { + "epoch": 0.06015555555555555, + "grad_norm": 1.4567221403121948, + "learning_rate": 0.0001880106690375639, + "loss": 2.2234, + "step": 2707 + }, + { + "epoch": 0.060177777777777774, + "grad_norm": 1.0870659351348877, + "learning_rate": 0.00018800622360524562, + "loss": 2.2513, + "step": 2708 + }, + { + "epoch": 0.0602, + "grad_norm": 1.1207247972488403, + "learning_rate": 0.00018800177817292733, + "loss": 2.1935, + "step": 2709 + }, + { + "epoch": 0.060222222222222226, + "grad_norm": 1.1757601499557495, + "learning_rate": 0.00018799733274060901, + "loss": 2.0448, + "step": 2710 + }, + { + "epoch": 0.06024444444444445, + "grad_norm": 1.1902306079864502, + "learning_rate": 0.00018799288730829075, + "loss": 2.0958, + "step": 2711 + }, + { + "epoch": 0.06026666666666667, + "grad_norm": 1.323156476020813, + "learning_rate": 0.00018798844187597243, + "loss": 2.2326, + "step": 2712 + }, + { + "epoch": 0.06028888888888889, + "grad_norm": 1.3958797454833984, + "learning_rate": 0.00018798399644365417, + "loss": 2.3245, + "step": 2713 + }, + { + "epoch": 0.060311111111111114, + "grad_norm": 1.2544927597045898, + "learning_rate": 0.00018797955101133585, + "loss": 2.0751, + "step": 2714 + }, + { + "epoch": 0.060333333333333336, + "grad_norm": 1.2878230810165405, + "learning_rate": 0.00018797510557901756, + "loss": 2.1235, + "step": 2715 + }, + { + "epoch": 0.06035555555555556, + "grad_norm": 1.384193778038025, + "learning_rate": 0.00018797066014669927, + "loss": 2.3822, + "step": 2716 + }, + { + "epoch": 0.06037777777777778, + "grad_norm": 1.3507394790649414, + "learning_rate": 0.00018796621471438098, + "loss": 2.4194, + "step": 2717 + }, + { + "epoch": 0.0604, + "grad_norm": 1.3843426704406738, + "learning_rate": 0.0001879617692820627, + "loss": 2.7205, + "step": 2718 + }, + { + "epoch": 0.060422222222222224, + "grad_norm": 1.4611835479736328, + "learning_rate": 0.0001879573238497444, + "loss": 2.2083, + "step": 2719 + }, + { + "epoch": 0.060444444444444446, + "grad_norm": 1.0997921228408813, + "learning_rate": 0.0001879528784174261, + "loss": 1.6927, + "step": 2720 + }, + { + "epoch": 0.06046666666666667, + "grad_norm": 1.1961749792099, + "learning_rate": 0.0001879484329851078, + "loss": 1.6353, + "step": 2721 + }, + { + "epoch": 0.06048888888888889, + "grad_norm": 1.074511170387268, + "learning_rate": 0.00018794398755278953, + "loss": 2.0993, + "step": 2722 + }, + { + "epoch": 0.06051111111111111, + "grad_norm": 1.551523208618164, + "learning_rate": 0.0001879395421204712, + "loss": 1.8092, + "step": 2723 + }, + { + "epoch": 0.060533333333333335, + "grad_norm": 1.3680505752563477, + "learning_rate": 0.00018793509668815292, + "loss": 1.9093, + "step": 2724 + }, + { + "epoch": 0.06055555555555556, + "grad_norm": 1.3623892068862915, + "learning_rate": 0.00018793065125583463, + "loss": 2.1595, + "step": 2725 + }, + { + "epoch": 0.06057777777777778, + "grad_norm": 1.5234910249710083, + "learning_rate": 0.00018792620582351634, + "loss": 2.2459, + "step": 2726 + }, + { + "epoch": 0.0606, + "grad_norm": 1.1238843202590942, + "learning_rate": 0.00018792176039119805, + "loss": 1.7761, + "step": 2727 + }, + { + "epoch": 0.06062222222222222, + "grad_norm": 1.1749337911605835, + "learning_rate": 0.00018791731495887976, + "loss": 2.0432, + "step": 2728 + }, + { + "epoch": 0.060644444444444445, + "grad_norm": 1.3248710632324219, + "learning_rate": 0.00018791286952656147, + "loss": 2.196, + "step": 2729 + }, + { + "epoch": 0.06066666666666667, + "grad_norm": 1.2294011116027832, + "learning_rate": 0.00018790842409424318, + "loss": 2.0522, + "step": 2730 + }, + { + "epoch": 0.06068888888888889, + "grad_norm": 1.3807874917984009, + "learning_rate": 0.0001879039786619249, + "loss": 2.4806, + "step": 2731 + }, + { + "epoch": 0.06071111111111111, + "grad_norm": 1.2333709001541138, + "learning_rate": 0.00018789953322960657, + "loss": 2.2595, + "step": 2732 + }, + { + "epoch": 0.060733333333333334, + "grad_norm": 1.2325271368026733, + "learning_rate": 0.0001878950877972883, + "loss": 2.0989, + "step": 2733 + }, + { + "epoch": 0.060755555555555556, + "grad_norm": 1.327795147895813, + "learning_rate": 0.00018789064236497, + "loss": 1.5228, + "step": 2734 + }, + { + "epoch": 0.06077777777777778, + "grad_norm": 1.1936326026916504, + "learning_rate": 0.0001878861969326517, + "loss": 2.1216, + "step": 2735 + }, + { + "epoch": 0.0608, + "grad_norm": 1.2500593662261963, + "learning_rate": 0.00018788175150033344, + "loss": 1.952, + "step": 2736 + }, + { + "epoch": 0.06082222222222222, + "grad_norm": 1.244486927986145, + "learning_rate": 0.00018787730606801512, + "loss": 2.3637, + "step": 2737 + }, + { + "epoch": 0.060844444444444444, + "grad_norm": 1.229892373085022, + "learning_rate": 0.00018787286063569683, + "loss": 1.8447, + "step": 2738 + }, + { + "epoch": 0.060866666666666666, + "grad_norm": 1.2490308284759521, + "learning_rate": 0.00018786841520337854, + "loss": 2.2677, + "step": 2739 + }, + { + "epoch": 0.06088888888888889, + "grad_norm": 1.5612094402313232, + "learning_rate": 0.00018786396977106025, + "loss": 2.5267, + "step": 2740 + }, + { + "epoch": 0.06091111111111111, + "grad_norm": 1.1999012231826782, + "learning_rate": 0.00018785952433874193, + "loss": 1.9312, + "step": 2741 + }, + { + "epoch": 0.06093333333333333, + "grad_norm": 1.425302505493164, + "learning_rate": 0.00018785507890642367, + "loss": 2.3815, + "step": 2742 + }, + { + "epoch": 0.060955555555555554, + "grad_norm": 1.2308077812194824, + "learning_rate": 0.00018785063347410535, + "loss": 1.955, + "step": 2743 + }, + { + "epoch": 0.06097777777777778, + "grad_norm": 1.270875096321106, + "learning_rate": 0.00018784618804178706, + "loss": 1.5138, + "step": 2744 + }, + { + "epoch": 0.061, + "grad_norm": 1.3588433265686035, + "learning_rate": 0.0001878417426094688, + "loss": 2.1025, + "step": 2745 + }, + { + "epoch": 0.06102222222222222, + "grad_norm": 1.3648747205734253, + "learning_rate": 0.00018783729717715048, + "loss": 1.4719, + "step": 2746 + }, + { + "epoch": 0.06104444444444444, + "grad_norm": 1.8942270278930664, + "learning_rate": 0.0001878328517448322, + "loss": 1.798, + "step": 2747 + }, + { + "epoch": 0.061066666666666665, + "grad_norm": 1.2607039213180542, + "learning_rate": 0.0001878284063125139, + "loss": 1.6084, + "step": 2748 + }, + { + "epoch": 0.06108888888888889, + "grad_norm": 1.2803078889846802, + "learning_rate": 0.0001878239608801956, + "loss": 1.4297, + "step": 2749 + }, + { + "epoch": 0.06111111111111111, + "grad_norm": 1.1481022834777832, + "learning_rate": 0.00018781951544787732, + "loss": 1.3985, + "step": 2750 + }, + { + "epoch": 0.06113333333333333, + "grad_norm": 1.6368448734283447, + "learning_rate": 0.00018781507001555903, + "loss": 0.1033, + "step": 2751 + }, + { + "epoch": 0.06115555555555555, + "grad_norm": 1.005434274673462, + "learning_rate": 0.00018781062458324074, + "loss": 2.004, + "step": 2752 + }, + { + "epoch": 0.061177777777777775, + "grad_norm": 1.2184756994247437, + "learning_rate": 0.00018780617915092245, + "loss": 2.3302, + "step": 2753 + }, + { + "epoch": 0.0612, + "grad_norm": 1.206376314163208, + "learning_rate": 0.00018780173371860416, + "loss": 2.659, + "step": 2754 + }, + { + "epoch": 0.06122222222222222, + "grad_norm": 1.170143961906433, + "learning_rate": 0.00018779728828628584, + "loss": 2.304, + "step": 2755 + }, + { + "epoch": 0.06124444444444444, + "grad_norm": 1.1334527730941772, + "learning_rate": 0.00018779284285396758, + "loss": 2.2875, + "step": 2756 + }, + { + "epoch": 0.061266666666666664, + "grad_norm": 1.1614525318145752, + "learning_rate": 0.00018778839742164926, + "loss": 2.3509, + "step": 2757 + }, + { + "epoch": 0.061288888888888886, + "grad_norm": 1.0268628597259521, + "learning_rate": 0.00018778395198933097, + "loss": 1.679, + "step": 2758 + }, + { + "epoch": 0.06131111111111111, + "grad_norm": 1.2325562238693237, + "learning_rate": 0.00018777950655701268, + "loss": 2.335, + "step": 2759 + }, + { + "epoch": 0.06133333333333333, + "grad_norm": 1.2036250829696655, + "learning_rate": 0.0001877750611246944, + "loss": 2.6135, + "step": 2760 + }, + { + "epoch": 0.06135555555555556, + "grad_norm": 1.0553152561187744, + "learning_rate": 0.0001877706156923761, + "loss": 2.2641, + "step": 2761 + }, + { + "epoch": 0.06137777777777778, + "grad_norm": 1.1645313501358032, + "learning_rate": 0.0001877661702600578, + "loss": 2.5595, + "step": 2762 + }, + { + "epoch": 0.0614, + "grad_norm": 1.290037989616394, + "learning_rate": 0.00018776172482773952, + "loss": 2.081, + "step": 2763 + }, + { + "epoch": 0.061422222222222225, + "grad_norm": 1.2892948389053345, + "learning_rate": 0.0001877572793954212, + "loss": 2.6998, + "step": 2764 + }, + { + "epoch": 0.06144444444444445, + "grad_norm": 0.9605525135993958, + "learning_rate": 0.00018775283396310294, + "loss": 1.1398, + "step": 2765 + }, + { + "epoch": 0.06146666666666667, + "grad_norm": 0.8386362195014954, + "learning_rate": 0.00018774838853078462, + "loss": 0.9248, + "step": 2766 + }, + { + "epoch": 0.06148888888888889, + "grad_norm": 1.2595109939575195, + "learning_rate": 0.00018774394309846633, + "loss": 2.1991, + "step": 2767 + }, + { + "epoch": 0.061511111111111114, + "grad_norm": 1.2148172855377197, + "learning_rate": 0.00018773949766614804, + "loss": 1.8452, + "step": 2768 + }, + { + "epoch": 0.061533333333333336, + "grad_norm": 1.225450873374939, + "learning_rate": 0.00018773505223382975, + "loss": 2.3072, + "step": 2769 + }, + { + "epoch": 0.06155555555555556, + "grad_norm": 0.9813886880874634, + "learning_rate": 0.00018773060680151146, + "loss": 1.7563, + "step": 2770 + }, + { + "epoch": 0.06157777777777778, + "grad_norm": 1.2824733257293701, + "learning_rate": 0.00018772616136919317, + "loss": 2.5918, + "step": 2771 + }, + { + "epoch": 0.0616, + "grad_norm": 1.4012054204940796, + "learning_rate": 0.00018772171593687488, + "loss": 1.8665, + "step": 2772 + }, + { + "epoch": 0.061622222222222224, + "grad_norm": 1.5517586469650269, + "learning_rate": 0.00018771727050455659, + "loss": 2.2188, + "step": 2773 + }, + { + "epoch": 0.061644444444444446, + "grad_norm": 1.2170881032943726, + "learning_rate": 0.0001877128250722383, + "loss": 2.013, + "step": 2774 + }, + { + "epoch": 0.06166666666666667, + "grad_norm": 1.2392975091934204, + "learning_rate": 0.00018770837963991998, + "loss": 1.8115, + "step": 2775 + }, + { + "epoch": 0.06168888888888889, + "grad_norm": 1.1665241718292236, + "learning_rate": 0.00018770393420760171, + "loss": 1.975, + "step": 2776 + }, + { + "epoch": 0.06171111111111111, + "grad_norm": 1.4797453880310059, + "learning_rate": 0.0001876994887752834, + "loss": 1.9079, + "step": 2777 + }, + { + "epoch": 0.061733333333333335, + "grad_norm": 1.7685197591781616, + "learning_rate": 0.0001876950433429651, + "loss": 2.7826, + "step": 2778 + }, + { + "epoch": 0.06175555555555556, + "grad_norm": 1.423384189605713, + "learning_rate": 0.00018769059791064682, + "loss": 2.3721, + "step": 2779 + }, + { + "epoch": 0.06177777777777778, + "grad_norm": 1.2108656167984009, + "learning_rate": 0.00018768615247832853, + "loss": 2.2184, + "step": 2780 + }, + { + "epoch": 0.0618, + "grad_norm": 1.3421804904937744, + "learning_rate": 0.00018768170704601024, + "loss": 2.1258, + "step": 2781 + }, + { + "epoch": 0.06182222222222222, + "grad_norm": 1.1913560628890991, + "learning_rate": 0.00018767726161369194, + "loss": 1.6139, + "step": 2782 + }, + { + "epoch": 0.061844444444444445, + "grad_norm": 1.3481956720352173, + "learning_rate": 0.00018767281618137365, + "loss": 2.3179, + "step": 2783 + }, + { + "epoch": 0.06186666666666667, + "grad_norm": 1.3821300268173218, + "learning_rate": 0.00018766837074905534, + "loss": 2.3901, + "step": 2784 + }, + { + "epoch": 0.06188888888888889, + "grad_norm": 1.388374924659729, + "learning_rate": 0.00018766392531673707, + "loss": 1.9882, + "step": 2785 + }, + { + "epoch": 0.06191111111111111, + "grad_norm": 1.2671271562576294, + "learning_rate": 0.00018765947988441876, + "loss": 1.65, + "step": 2786 + }, + { + "epoch": 0.06193333333333333, + "grad_norm": 1.394394874572754, + "learning_rate": 0.0001876550344521005, + "loss": 1.7084, + "step": 2787 + }, + { + "epoch": 0.061955555555555555, + "grad_norm": 1.286948323249817, + "learning_rate": 0.00018765058901978218, + "loss": 2.0987, + "step": 2788 + }, + { + "epoch": 0.06197777777777778, + "grad_norm": 1.3643842935562134, + "learning_rate": 0.00018764614358746388, + "loss": 2.1491, + "step": 2789 + }, + { + "epoch": 0.062, + "grad_norm": 1.3351410627365112, + "learning_rate": 0.0001876416981551456, + "loss": 2.0937, + "step": 2790 + }, + { + "epoch": 0.06202222222222222, + "grad_norm": 1.4634209871292114, + "learning_rate": 0.0001876372527228273, + "loss": 1.7482, + "step": 2791 + }, + { + "epoch": 0.062044444444444444, + "grad_norm": 1.1727733612060547, + "learning_rate": 0.00018763280729050901, + "loss": 1.5837, + "step": 2792 + }, + { + "epoch": 0.062066666666666666, + "grad_norm": 1.1772867441177368, + "learning_rate": 0.00018762836185819072, + "loss": 1.4568, + "step": 2793 + }, + { + "epoch": 0.06208888888888889, + "grad_norm": 1.4134163856506348, + "learning_rate": 0.00018762391642587243, + "loss": 2.112, + "step": 2794 + }, + { + "epoch": 0.06211111111111111, + "grad_norm": 1.1861469745635986, + "learning_rate": 0.00018761947099355412, + "loss": 1.8895, + "step": 2795 + }, + { + "epoch": 0.06213333333333333, + "grad_norm": 1.4194509983062744, + "learning_rate": 0.00018761502556123585, + "loss": 2.0256, + "step": 2796 + }, + { + "epoch": 0.062155555555555554, + "grad_norm": 1.5349948406219482, + "learning_rate": 0.00018761058012891753, + "loss": 2.2892, + "step": 2797 + }, + { + "epoch": 0.062177777777777776, + "grad_norm": 1.7592523097991943, + "learning_rate": 0.00018760613469659924, + "loss": 2.0511, + "step": 2798 + }, + { + "epoch": 0.0622, + "grad_norm": 1.3552824258804321, + "learning_rate": 0.00018760168926428095, + "loss": 1.7338, + "step": 2799 + }, + { + "epoch": 0.06222222222222222, + "grad_norm": 1.3405883312225342, + "learning_rate": 0.00018759724383196266, + "loss": 1.4886, + "step": 2800 + }, + { + "epoch": 0.06224444444444444, + "grad_norm": 1.2436882257461548, + "learning_rate": 0.00018759279839964437, + "loss": 2.8243, + "step": 2801 + }, + { + "epoch": 0.062266666666666665, + "grad_norm": 1.0085952281951904, + "learning_rate": 0.00018758835296732608, + "loss": 2.513, + "step": 2802 + }, + { + "epoch": 0.06228888888888889, + "grad_norm": 1.0170789957046509, + "learning_rate": 0.0001875839075350078, + "loss": 2.3906, + "step": 2803 + }, + { + "epoch": 0.06231111111111111, + "grad_norm": 1.0445818901062012, + "learning_rate": 0.00018757946210268947, + "loss": 2.6399, + "step": 2804 + }, + { + "epoch": 0.06233333333333333, + "grad_norm": 1.386362910270691, + "learning_rate": 0.0001875750166703712, + "loss": 2.7634, + "step": 2805 + }, + { + "epoch": 0.06235555555555555, + "grad_norm": 1.106680989265442, + "learning_rate": 0.0001875705712380529, + "loss": 1.8372, + "step": 2806 + }, + { + "epoch": 0.062377777777777775, + "grad_norm": 1.2204889059066772, + "learning_rate": 0.00018756612580573463, + "loss": 2.5184, + "step": 2807 + }, + { + "epoch": 0.0624, + "grad_norm": 1.1121426820755005, + "learning_rate": 0.0001875616803734163, + "loss": 2.5418, + "step": 2808 + }, + { + "epoch": 0.06242222222222222, + "grad_norm": 1.4679434299468994, + "learning_rate": 0.00018755723494109802, + "loss": 1.3454, + "step": 2809 + }, + { + "epoch": 0.06244444444444444, + "grad_norm": 0.9511885046958923, + "learning_rate": 0.00018755278950877976, + "loss": 1.1478, + "step": 2810 + }, + { + "epoch": 0.06246666666666666, + "grad_norm": 1.0716321468353271, + "learning_rate": 0.00018754834407646144, + "loss": 1.9095, + "step": 2811 + }, + { + "epoch": 0.062488888888888885, + "grad_norm": 1.140427827835083, + "learning_rate": 0.00018754389864414315, + "loss": 2.4517, + "step": 2812 + }, + { + "epoch": 0.06251111111111111, + "grad_norm": 1.4585435390472412, + "learning_rate": 0.00018753945321182486, + "loss": 2.5529, + "step": 2813 + }, + { + "epoch": 0.06253333333333333, + "grad_norm": 1.23036527633667, + "learning_rate": 0.00018753500777950657, + "loss": 2.0753, + "step": 2814 + }, + { + "epoch": 0.06255555555555556, + "grad_norm": 1.2273170948028564, + "learning_rate": 0.00018753056234718825, + "loss": 2.147, + "step": 2815 + }, + { + "epoch": 0.06257777777777777, + "grad_norm": 1.2008864879608154, + "learning_rate": 0.00018752611691487, + "loss": 2.1604, + "step": 2816 + }, + { + "epoch": 0.0626, + "grad_norm": 1.2139441967010498, + "learning_rate": 0.00018752167148255167, + "loss": 2.3451, + "step": 2817 + }, + { + "epoch": 0.06262222222222222, + "grad_norm": 1.1427327394485474, + "learning_rate": 0.00018751722605023338, + "loss": 2.1952, + "step": 2818 + }, + { + "epoch": 0.06264444444444445, + "grad_norm": 1.1389628648757935, + "learning_rate": 0.00018751278061791512, + "loss": 2.0855, + "step": 2819 + }, + { + "epoch": 0.06266666666666666, + "grad_norm": 1.625450849533081, + "learning_rate": 0.0001875083351855968, + "loss": 2.9112, + "step": 2820 + }, + { + "epoch": 0.06268888888888889, + "grad_norm": 1.1499130725860596, + "learning_rate": 0.0001875038897532785, + "loss": 1.9011, + "step": 2821 + }, + { + "epoch": 0.0627111111111111, + "grad_norm": 1.1928070783615112, + "learning_rate": 0.00018749944432096022, + "loss": 1.962, + "step": 2822 + }, + { + "epoch": 0.06273333333333334, + "grad_norm": 1.2368239164352417, + "learning_rate": 0.00018749499888864193, + "loss": 2.0371, + "step": 2823 + }, + { + "epoch": 0.06275555555555555, + "grad_norm": 1.1952697038650513, + "learning_rate": 0.0001874905534563236, + "loss": 2.1889, + "step": 2824 + }, + { + "epoch": 0.06277777777777778, + "grad_norm": 1.3594785928726196, + "learning_rate": 0.00018748610802400535, + "loss": 2.292, + "step": 2825 + }, + { + "epoch": 0.0628, + "grad_norm": 1.1406694650650024, + "learning_rate": 0.00018748166259168706, + "loss": 1.6252, + "step": 2826 + }, + { + "epoch": 0.06282222222222222, + "grad_norm": 1.325881004333496, + "learning_rate": 0.00018747721715936877, + "loss": 2.0782, + "step": 2827 + }, + { + "epoch": 0.06284444444444444, + "grad_norm": 1.143120527267456, + "learning_rate": 0.00018747277172705048, + "loss": 2.2459, + "step": 2828 + }, + { + "epoch": 0.06286666666666667, + "grad_norm": 1.4137969017028809, + "learning_rate": 0.00018746832629473216, + "loss": 2.407, + "step": 2829 + }, + { + "epoch": 0.06288888888888888, + "grad_norm": 1.3756927251815796, + "learning_rate": 0.0001874638808624139, + "loss": 2.4468, + "step": 2830 + }, + { + "epoch": 0.06291111111111111, + "grad_norm": 1.468861699104309, + "learning_rate": 0.00018745943543009558, + "loss": 1.8074, + "step": 2831 + }, + { + "epoch": 0.06293333333333333, + "grad_norm": 1.2983373403549194, + "learning_rate": 0.0001874549899977773, + "loss": 0.8226, + "step": 2832 + }, + { + "epoch": 0.06295555555555556, + "grad_norm": 1.1781848669052124, + "learning_rate": 0.000187450544565459, + "loss": 2.1623, + "step": 2833 + }, + { + "epoch": 0.06297777777777777, + "grad_norm": 1.2764322757720947, + "learning_rate": 0.0001874460991331407, + "loss": 2.144, + "step": 2834 + }, + { + "epoch": 0.063, + "grad_norm": 1.711207628250122, + "learning_rate": 0.00018744165370082242, + "loss": 1.8346, + "step": 2835 + }, + { + "epoch": 0.06302222222222222, + "grad_norm": 1.279605507850647, + "learning_rate": 0.00018743720826850413, + "loss": 2.3286, + "step": 2836 + }, + { + "epoch": 0.06304444444444444, + "grad_norm": 1.5101478099822998, + "learning_rate": 0.00018743276283618584, + "loss": 1.8199, + "step": 2837 + }, + { + "epoch": 0.06306666666666666, + "grad_norm": 1.287416696548462, + "learning_rate": 0.00018742831740386752, + "loss": 2.0824, + "step": 2838 + }, + { + "epoch": 0.06308888888888889, + "grad_norm": 1.3675342798233032, + "learning_rate": 0.00018742387197154926, + "loss": 2.1448, + "step": 2839 + }, + { + "epoch": 0.06311111111111112, + "grad_norm": 1.4690383672714233, + "learning_rate": 0.00018741942653923094, + "loss": 2.0374, + "step": 2840 + }, + { + "epoch": 0.06313333333333333, + "grad_norm": 1.097183346748352, + "learning_rate": 0.00018741498110691265, + "loss": 1.521, + "step": 2841 + }, + { + "epoch": 0.06315555555555556, + "grad_norm": 1.5291551351547241, + "learning_rate": 0.00018741053567459436, + "loss": 2.2333, + "step": 2842 + }, + { + "epoch": 0.06317777777777778, + "grad_norm": 1.4804224967956543, + "learning_rate": 0.00018740609024227607, + "loss": 2.4405, + "step": 2843 + }, + { + "epoch": 0.0632, + "grad_norm": 1.5842746496200562, + "learning_rate": 0.00018740164480995778, + "loss": 1.8985, + "step": 2844 + }, + { + "epoch": 0.06322222222222222, + "grad_norm": 1.1302268505096436, + "learning_rate": 0.0001873971993776395, + "loss": 1.8275, + "step": 2845 + }, + { + "epoch": 0.06324444444444445, + "grad_norm": 1.2689913511276245, + "learning_rate": 0.0001873927539453212, + "loss": 1.718, + "step": 2846 + }, + { + "epoch": 0.06326666666666667, + "grad_norm": 1.7518043518066406, + "learning_rate": 0.0001873883085130029, + "loss": 1.5398, + "step": 2847 + }, + { + "epoch": 0.0632888888888889, + "grad_norm": 1.5163757801055908, + "learning_rate": 0.00018738386308068462, + "loss": 2.1679, + "step": 2848 + }, + { + "epoch": 0.06331111111111111, + "grad_norm": 1.617437481880188, + "learning_rate": 0.0001873794176483663, + "loss": 2.0754, + "step": 2849 + }, + { + "epoch": 0.06333333333333334, + "grad_norm": 1.4291324615478516, + "learning_rate": 0.00018737497221604804, + "loss": 1.8027, + "step": 2850 + }, + { + "epoch": 0.06335555555555555, + "grad_norm": 1.1678494215011597, + "learning_rate": 0.00018737052678372972, + "loss": 2.2499, + "step": 2851 + }, + { + "epoch": 0.06337777777777778, + "grad_norm": 1.0958876609802246, + "learning_rate": 0.00018736608135141143, + "loss": 1.8325, + "step": 2852 + }, + { + "epoch": 0.0634, + "grad_norm": 1.0336941480636597, + "learning_rate": 0.00018736163591909314, + "loss": 2.2601, + "step": 2853 + }, + { + "epoch": 0.06342222222222223, + "grad_norm": 1.4533902406692505, + "learning_rate": 0.00018735719048677485, + "loss": 2.7845, + "step": 2854 + }, + { + "epoch": 0.06344444444444444, + "grad_norm": 1.1829084157943726, + "learning_rate": 0.00018735274505445656, + "loss": 2.0914, + "step": 2855 + }, + { + "epoch": 0.06346666666666667, + "grad_norm": 1.1751196384429932, + "learning_rate": 0.00018734829962213827, + "loss": 2.3863, + "step": 2856 + }, + { + "epoch": 0.06348888888888889, + "grad_norm": 1.1886322498321533, + "learning_rate": 0.00018734385418981998, + "loss": 2.1591, + "step": 2857 + }, + { + "epoch": 0.06351111111111112, + "grad_norm": 1.1325668096542358, + "learning_rate": 0.00018733940875750166, + "loss": 2.0609, + "step": 2858 + }, + { + "epoch": 0.06353333333333333, + "grad_norm": 1.2165454626083374, + "learning_rate": 0.0001873349633251834, + "loss": 1.9328, + "step": 2859 + }, + { + "epoch": 0.06355555555555556, + "grad_norm": 1.6444909572601318, + "learning_rate": 0.00018733051789286508, + "loss": 2.1612, + "step": 2860 + }, + { + "epoch": 0.06357777777777777, + "grad_norm": 1.1900150775909424, + "learning_rate": 0.0001873260724605468, + "loss": 2.0717, + "step": 2861 + }, + { + "epoch": 0.0636, + "grad_norm": 1.4153571128845215, + "learning_rate": 0.0001873216270282285, + "loss": 2.2644, + "step": 2862 + }, + { + "epoch": 0.06362222222222222, + "grad_norm": 1.2564882040023804, + "learning_rate": 0.0001873171815959102, + "loss": 2.4158, + "step": 2863 + }, + { + "epoch": 0.06364444444444445, + "grad_norm": 1.398049235343933, + "learning_rate": 0.00018731273616359192, + "loss": 2.5145, + "step": 2864 + }, + { + "epoch": 0.06366666666666666, + "grad_norm": 1.2139917612075806, + "learning_rate": 0.00018730829073127363, + "loss": 1.9035, + "step": 2865 + }, + { + "epoch": 0.06368888888888889, + "grad_norm": 1.1815810203552246, + "learning_rate": 0.00018730384529895534, + "loss": 1.9507, + "step": 2866 + }, + { + "epoch": 0.06371111111111111, + "grad_norm": 1.2247095108032227, + "learning_rate": 0.00018729939986663705, + "loss": 1.6939, + "step": 2867 + }, + { + "epoch": 0.06373333333333334, + "grad_norm": 1.1871031522750854, + "learning_rate": 0.00018729495443431876, + "loss": 1.7179, + "step": 2868 + }, + { + "epoch": 0.06375555555555555, + "grad_norm": 1.065414309501648, + "learning_rate": 0.00018729050900200044, + "loss": 1.7596, + "step": 2869 + }, + { + "epoch": 0.06377777777777778, + "grad_norm": 1.3309180736541748, + "learning_rate": 0.00018728606356968217, + "loss": 2.2074, + "step": 2870 + }, + { + "epoch": 0.0638, + "grad_norm": 1.3962008953094482, + "learning_rate": 0.00018728161813736386, + "loss": 2.3044, + "step": 2871 + }, + { + "epoch": 0.06382222222222222, + "grad_norm": 1.196290373802185, + "learning_rate": 0.00018727717270504557, + "loss": 2.0767, + "step": 2872 + }, + { + "epoch": 0.06384444444444444, + "grad_norm": 1.361983060836792, + "learning_rate": 0.00018727272727272728, + "loss": 1.5672, + "step": 2873 + }, + { + "epoch": 0.06386666666666667, + "grad_norm": 1.329243779182434, + "learning_rate": 0.00018726828184040899, + "loss": 2.134, + "step": 2874 + }, + { + "epoch": 0.06388888888888888, + "grad_norm": 1.4311535358428955, + "learning_rate": 0.0001872638364080907, + "loss": 1.9253, + "step": 2875 + }, + { + "epoch": 0.06391111111111111, + "grad_norm": 1.2310140132904053, + "learning_rate": 0.0001872593909757724, + "loss": 2.399, + "step": 2876 + }, + { + "epoch": 0.06393333333333333, + "grad_norm": 1.211095929145813, + "learning_rate": 0.00018725494554345411, + "loss": 1.9466, + "step": 2877 + }, + { + "epoch": 0.06395555555555556, + "grad_norm": 1.2007399797439575, + "learning_rate": 0.0001872505001111358, + "loss": 0.9996, + "step": 2878 + }, + { + "epoch": 0.06397777777777777, + "grad_norm": 0.9361677169799805, + "learning_rate": 0.00018724605467881753, + "loss": 0.7916, + "step": 2879 + }, + { + "epoch": 0.064, + "grad_norm": 1.1869984865188599, + "learning_rate": 0.00018724160924649922, + "loss": 1.9986, + "step": 2880 + }, + { + "epoch": 0.06402222222222222, + "grad_norm": 1.2744450569152832, + "learning_rate": 0.00018723716381418093, + "loss": 2.0631, + "step": 2881 + }, + { + "epoch": 0.06404444444444445, + "grad_norm": 1.4359490871429443, + "learning_rate": 0.00018723271838186264, + "loss": 2.2638, + "step": 2882 + }, + { + "epoch": 0.06406666666666666, + "grad_norm": 1.4689186811447144, + "learning_rate": 0.00018722827294954435, + "loss": 2.24, + "step": 2883 + }, + { + "epoch": 0.06408888888888889, + "grad_norm": 1.5831794738769531, + "learning_rate": 0.00018722382751722608, + "loss": 1.9336, + "step": 2884 + }, + { + "epoch": 0.0641111111111111, + "grad_norm": 1.377138376235962, + "learning_rate": 0.00018721938208490776, + "loss": 1.7798, + "step": 2885 + }, + { + "epoch": 0.06413333333333333, + "grad_norm": 1.2785342931747437, + "learning_rate": 0.00018721493665258947, + "loss": 1.6762, + "step": 2886 + }, + { + "epoch": 0.06415555555555555, + "grad_norm": 1.338173270225525, + "learning_rate": 0.00018721049122027118, + "loss": 2.1951, + "step": 2887 + }, + { + "epoch": 0.06417777777777778, + "grad_norm": 1.2330443859100342, + "learning_rate": 0.0001872060457879529, + "loss": 1.7759, + "step": 2888 + }, + { + "epoch": 0.0642, + "grad_norm": 1.123676061630249, + "learning_rate": 0.00018720160035563458, + "loss": 1.7727, + "step": 2889 + }, + { + "epoch": 0.06422222222222222, + "grad_norm": 1.535964846611023, + "learning_rate": 0.0001871971549233163, + "loss": 2.4233, + "step": 2890 + }, + { + "epoch": 0.06424444444444445, + "grad_norm": 1.6187751293182373, + "learning_rate": 0.000187192709490998, + "loss": 2.2979, + "step": 2891 + }, + { + "epoch": 0.06426666666666667, + "grad_norm": 1.4702938795089722, + "learning_rate": 0.0001871882640586797, + "loss": 1.7224, + "step": 2892 + }, + { + "epoch": 0.0642888888888889, + "grad_norm": 1.23790442943573, + "learning_rate": 0.00018718381862636144, + "loss": 1.9536, + "step": 2893 + }, + { + "epoch": 0.06431111111111111, + "grad_norm": 3.832672357559204, + "learning_rate": 0.00018717937319404312, + "loss": 1.5924, + "step": 2894 + }, + { + "epoch": 0.06433333333333334, + "grad_norm": 1.7005996704101562, + "learning_rate": 0.00018717492776172483, + "loss": 2.1979, + "step": 2895 + }, + { + "epoch": 0.06435555555555555, + "grad_norm": 1.3920700550079346, + "learning_rate": 0.00018717048232940654, + "loss": 2.0793, + "step": 2896 + }, + { + "epoch": 0.06437777777777778, + "grad_norm": 1.4044344425201416, + "learning_rate": 0.00018716603689708825, + "loss": 2.0541, + "step": 2897 + }, + { + "epoch": 0.0644, + "grad_norm": 0.8926104307174683, + "learning_rate": 0.00018716159146476994, + "loss": 0.068, + "step": 2898 + }, + { + "epoch": 0.06442222222222223, + "grad_norm": 1.3923569917678833, + "learning_rate": 0.00018715714603245167, + "loss": 2.0106, + "step": 2899 + }, + { + "epoch": 0.06444444444444444, + "grad_norm": 1.5569005012512207, + "learning_rate": 0.00018715270060013338, + "loss": 2.3801, + "step": 2900 + }, + { + "epoch": 0.06446666666666667, + "grad_norm": 1.1904070377349854, + "learning_rate": 0.0001871482551678151, + "loss": 2.3971, + "step": 2901 + }, + { + "epoch": 0.06448888888888889, + "grad_norm": 1.1103323698043823, + "learning_rate": 0.0001871438097354968, + "loss": 2.9624, + "step": 2902 + }, + { + "epoch": 0.06451111111111112, + "grad_norm": 1.1648145914077759, + "learning_rate": 0.00018713936430317848, + "loss": 2.8519, + "step": 2903 + }, + { + "epoch": 0.06453333333333333, + "grad_norm": 1.321471095085144, + "learning_rate": 0.00018713491887086022, + "loss": 2.2298, + "step": 2904 + }, + { + "epoch": 0.06455555555555556, + "grad_norm": 1.0446627140045166, + "learning_rate": 0.0001871304734385419, + "loss": 1.8494, + "step": 2905 + }, + { + "epoch": 0.06457777777777778, + "grad_norm": 1.0981947183609009, + "learning_rate": 0.0001871260280062236, + "loss": 2.3779, + "step": 2906 + }, + { + "epoch": 0.0646, + "grad_norm": 1.2915189266204834, + "learning_rate": 0.00018712158257390532, + "loss": 2.555, + "step": 2907 + }, + { + "epoch": 0.06462222222222222, + "grad_norm": 1.1062654256820679, + "learning_rate": 0.00018711713714158703, + "loss": 1.9837, + "step": 2908 + }, + { + "epoch": 0.06464444444444445, + "grad_norm": 1.5189040899276733, + "learning_rate": 0.00018711269170926874, + "loss": 2.3476, + "step": 2909 + }, + { + "epoch": 0.06466666666666666, + "grad_norm": 0.9821382761001587, + "learning_rate": 0.00018710824627695045, + "loss": 1.9061, + "step": 2910 + }, + { + "epoch": 0.06468888888888889, + "grad_norm": 1.4676059484481812, + "learning_rate": 0.00018710380084463216, + "loss": 0.9321, + "step": 2911 + }, + { + "epoch": 0.06471111111111111, + "grad_norm": 1.2174110412597656, + "learning_rate": 0.00018709935541231384, + "loss": 2.587, + "step": 2912 + }, + { + "epoch": 0.06473333333333334, + "grad_norm": 1.4045873880386353, + "learning_rate": 0.00018709490997999558, + "loss": 2.0754, + "step": 2913 + }, + { + "epoch": 0.06475555555555555, + "grad_norm": 1.3377821445465088, + "learning_rate": 0.00018709046454767726, + "loss": 2.4397, + "step": 2914 + }, + { + "epoch": 0.06477777777777778, + "grad_norm": 1.3285831212997437, + "learning_rate": 0.00018708601911535897, + "loss": 2.3949, + "step": 2915 + }, + { + "epoch": 0.0648, + "grad_norm": 1.1161266565322876, + "learning_rate": 0.00018708157368304068, + "loss": 2.1046, + "step": 2916 + }, + { + "epoch": 0.06482222222222223, + "grad_norm": 1.2522786855697632, + "learning_rate": 0.0001870771282507224, + "loss": 2.0933, + "step": 2917 + }, + { + "epoch": 0.06484444444444444, + "grad_norm": 1.0407394170761108, + "learning_rate": 0.0001870726828184041, + "loss": 1.5523, + "step": 2918 + }, + { + "epoch": 0.06486666666666667, + "grad_norm": 1.158358097076416, + "learning_rate": 0.0001870682373860858, + "loss": 1.916, + "step": 2919 + }, + { + "epoch": 0.06488888888888888, + "grad_norm": 1.2848894596099854, + "learning_rate": 0.00018706379195376752, + "loss": 2.2947, + "step": 2920 + }, + { + "epoch": 0.06491111111111111, + "grad_norm": 1.0948340892791748, + "learning_rate": 0.00018705934652144923, + "loss": 2.0626, + "step": 2921 + }, + { + "epoch": 0.06493333333333333, + "grad_norm": 1.1861344575881958, + "learning_rate": 0.00018705490108913094, + "loss": 1.5792, + "step": 2922 + }, + { + "epoch": 0.06495555555555556, + "grad_norm": 1.1330589056015015, + "learning_rate": 0.00018705045565681262, + "loss": 1.4587, + "step": 2923 + }, + { + "epoch": 0.06497777777777777, + "grad_norm": 1.2363415956497192, + "learning_rate": 0.00018704601022449436, + "loss": 1.4322, + "step": 2924 + }, + { + "epoch": 0.065, + "grad_norm": 1.2434296607971191, + "learning_rate": 0.00018704156479217604, + "loss": 1.6379, + "step": 2925 + }, + { + "epoch": 0.06502222222222222, + "grad_norm": 0.8686671853065491, + "learning_rate": 0.00018703711935985775, + "loss": 0.8112, + "step": 2926 + }, + { + "epoch": 0.06504444444444445, + "grad_norm": 1.4256782531738281, + "learning_rate": 0.00018703267392753946, + "loss": 2.3366, + "step": 2927 + }, + { + "epoch": 0.06506666666666666, + "grad_norm": 1.5060585737228394, + "learning_rate": 0.00018702822849522117, + "loss": 2.168, + "step": 2928 + }, + { + "epoch": 0.06508888888888889, + "grad_norm": 1.5477279424667358, + "learning_rate": 0.00018702378306290288, + "loss": 2.1754, + "step": 2929 + }, + { + "epoch": 0.0651111111111111, + "grad_norm": 1.215466022491455, + "learning_rate": 0.0001870193376305846, + "loss": 2.0217, + "step": 2930 + }, + { + "epoch": 0.06513333333333333, + "grad_norm": 1.123188853263855, + "learning_rate": 0.0001870148921982663, + "loss": 1.8177, + "step": 2931 + }, + { + "epoch": 0.06515555555555555, + "grad_norm": 1.2271870374679565, + "learning_rate": 0.00018701044676594798, + "loss": 1.9829, + "step": 2932 + }, + { + "epoch": 0.06517777777777778, + "grad_norm": 1.3322367668151855, + "learning_rate": 0.00018700600133362972, + "loss": 2.1528, + "step": 2933 + }, + { + "epoch": 0.0652, + "grad_norm": 1.3902933597564697, + "learning_rate": 0.0001870015559013114, + "loss": 1.7664, + "step": 2934 + }, + { + "epoch": 0.06522222222222222, + "grad_norm": 1.5843971967697144, + "learning_rate": 0.0001869971104689931, + "loss": 2.1908, + "step": 2935 + }, + { + "epoch": 0.06524444444444444, + "grad_norm": 1.4482966661453247, + "learning_rate": 0.00018699266503667482, + "loss": 1.7021, + "step": 2936 + }, + { + "epoch": 0.06526666666666667, + "grad_norm": 1.2024801969528198, + "learning_rate": 0.00018698821960435653, + "loss": 1.6508, + "step": 2937 + }, + { + "epoch": 0.06528888888888888, + "grad_norm": 2.0721898078918457, + "learning_rate": 0.00018698377417203824, + "loss": 2.3115, + "step": 2938 + }, + { + "epoch": 0.06531111111111111, + "grad_norm": 1.3167922496795654, + "learning_rate": 0.00018697932873971995, + "loss": 1.9785, + "step": 2939 + }, + { + "epoch": 0.06533333333333333, + "grad_norm": 1.2480032444000244, + "learning_rate": 0.00018697488330740166, + "loss": 1.8314, + "step": 2940 + }, + { + "epoch": 0.06535555555555556, + "grad_norm": 1.7373868227005005, + "learning_rate": 0.00018697043787508337, + "loss": 1.6736, + "step": 2941 + }, + { + "epoch": 0.06537777777777778, + "grad_norm": 1.5857715606689453, + "learning_rate": 0.00018696599244276508, + "loss": 2.1099, + "step": 2942 + }, + { + "epoch": 0.0654, + "grad_norm": 1.4830741882324219, + "learning_rate": 0.00018696154701044676, + "loss": 2.4202, + "step": 2943 + }, + { + "epoch": 0.06542222222222223, + "grad_norm": 1.744685173034668, + "learning_rate": 0.0001869571015781285, + "loss": 2.4221, + "step": 2944 + }, + { + "epoch": 0.06544444444444444, + "grad_norm": 1.5185177326202393, + "learning_rate": 0.00018695265614581018, + "loss": 2.1403, + "step": 2945 + }, + { + "epoch": 0.06546666666666667, + "grad_norm": 1.6151337623596191, + "learning_rate": 0.0001869482107134919, + "loss": 1.9364, + "step": 2946 + }, + { + "epoch": 0.06548888888888889, + "grad_norm": 1.2621005773544312, + "learning_rate": 0.0001869437652811736, + "loss": 1.6986, + "step": 2947 + }, + { + "epoch": 0.06551111111111112, + "grad_norm": 1.4591064453125, + "learning_rate": 0.0001869393198488553, + "loss": 1.7923, + "step": 2948 + }, + { + "epoch": 0.06553333333333333, + "grad_norm": 1.4285699129104614, + "learning_rate": 0.00018693487441653702, + "loss": 1.8047, + "step": 2949 + }, + { + "epoch": 0.06555555555555556, + "grad_norm": 1.3380799293518066, + "learning_rate": 0.00018693042898421873, + "loss": 0.9882, + "step": 2950 + }, + { + "epoch": 0.06557777777777778, + "grad_norm": 1.093501091003418, + "learning_rate": 0.00018692598355190044, + "loss": 2.283, + "step": 2951 + }, + { + "epoch": 0.0656, + "grad_norm": 1.0866544246673584, + "learning_rate": 0.00018692153811958212, + "loss": 2.5448, + "step": 2952 + }, + { + "epoch": 0.06562222222222222, + "grad_norm": 1.1365560293197632, + "learning_rate": 0.00018691709268726386, + "loss": 1.4154, + "step": 2953 + }, + { + "epoch": 0.06564444444444445, + "grad_norm": 1.0331106185913086, + "learning_rate": 0.00018691264725494554, + "loss": 2.2571, + "step": 2954 + }, + { + "epoch": 0.06566666666666666, + "grad_norm": 1.2269850969314575, + "learning_rate": 0.00018690820182262725, + "loss": 2.5064, + "step": 2955 + }, + { + "epoch": 0.0656888888888889, + "grad_norm": 1.134602665901184, + "learning_rate": 0.00018690375639030896, + "loss": 2.6194, + "step": 2956 + }, + { + "epoch": 0.06571111111111111, + "grad_norm": 1.301027774810791, + "learning_rate": 0.00018689931095799067, + "loss": 2.091, + "step": 2957 + }, + { + "epoch": 0.06573333333333334, + "grad_norm": 0.9488211274147034, + "learning_rate": 0.0001868948655256724, + "loss": 1.8559, + "step": 2958 + }, + { + "epoch": 0.06575555555555555, + "grad_norm": 1.2814669609069824, + "learning_rate": 0.00018689042009335409, + "loss": 1.7113, + "step": 2959 + }, + { + "epoch": 0.06577777777777778, + "grad_norm": 1.0940461158752441, + "learning_rate": 0.0001868859746610358, + "loss": 2.2205, + "step": 2960 + }, + { + "epoch": 0.0658, + "grad_norm": 1.4841840267181396, + "learning_rate": 0.0001868815292287175, + "loss": 2.0461, + "step": 2961 + }, + { + "epoch": 0.06582222222222223, + "grad_norm": 1.206834077835083, + "learning_rate": 0.00018687708379639922, + "loss": 2.2952, + "step": 2962 + }, + { + "epoch": 0.06584444444444444, + "grad_norm": 1.6178420782089233, + "learning_rate": 0.0001868726383640809, + "loss": 2.5222, + "step": 2963 + }, + { + "epoch": 0.06586666666666667, + "grad_norm": 1.3316757678985596, + "learning_rate": 0.00018686819293176263, + "loss": 2.0074, + "step": 2964 + }, + { + "epoch": 0.06588888888888889, + "grad_norm": 1.2255252599716187, + "learning_rate": 0.00018686374749944432, + "loss": 2.1827, + "step": 2965 + }, + { + "epoch": 0.06591111111111111, + "grad_norm": 1.3230050802230835, + "learning_rate": 0.00018685930206712603, + "loss": 2.215, + "step": 2966 + }, + { + "epoch": 0.06593333333333333, + "grad_norm": 1.6141905784606934, + "learning_rate": 0.00018685485663480776, + "loss": 2.1713, + "step": 2967 + }, + { + "epoch": 0.06595555555555556, + "grad_norm": 1.312644362449646, + "learning_rate": 0.00018685041120248945, + "loss": 2.3945, + "step": 2968 + }, + { + "epoch": 0.06597777777777777, + "grad_norm": 1.4654008150100708, + "learning_rate": 0.00018684596577017116, + "loss": 1.9946, + "step": 2969 + }, + { + "epoch": 0.066, + "grad_norm": 1.1366113424301147, + "learning_rate": 0.00018684152033785287, + "loss": 1.2741, + "step": 2970 + }, + { + "epoch": 0.06602222222222222, + "grad_norm": 1.2720532417297363, + "learning_rate": 0.00018683707490553457, + "loss": 2.1521, + "step": 2971 + }, + { + "epoch": 0.06604444444444445, + "grad_norm": 1.1944630146026611, + "learning_rate": 0.00018683262947321626, + "loss": 1.8751, + "step": 2972 + }, + { + "epoch": 0.06606666666666666, + "grad_norm": 1.3374707698822021, + "learning_rate": 0.000186828184040898, + "loss": 1.915, + "step": 2973 + }, + { + "epoch": 0.06608888888888889, + "grad_norm": 1.4358044862747192, + "learning_rate": 0.0001868237386085797, + "loss": 2.1463, + "step": 2974 + }, + { + "epoch": 0.0661111111111111, + "grad_norm": 1.3154842853546143, + "learning_rate": 0.00018681929317626139, + "loss": 2.1661, + "step": 2975 + }, + { + "epoch": 0.06613333333333334, + "grad_norm": 1.30441153049469, + "learning_rate": 0.00018681484774394312, + "loss": 2.2619, + "step": 2976 + }, + { + "epoch": 0.06615555555555555, + "grad_norm": 1.3629746437072754, + "learning_rate": 0.0001868104023116248, + "loss": 2.2015, + "step": 2977 + }, + { + "epoch": 0.06617777777777778, + "grad_norm": 1.2790447473526, + "learning_rate": 0.00018680595687930654, + "loss": 2.0242, + "step": 2978 + }, + { + "epoch": 0.0662, + "grad_norm": 1.2373870611190796, + "learning_rate": 0.00018680151144698822, + "loss": 1.9283, + "step": 2979 + }, + { + "epoch": 0.06622222222222222, + "grad_norm": 1.386643409729004, + "learning_rate": 0.00018679706601466993, + "loss": 2.143, + "step": 2980 + }, + { + "epoch": 0.06624444444444444, + "grad_norm": 1.39663827419281, + "learning_rate": 0.00018679262058235164, + "loss": 1.775, + "step": 2981 + }, + { + "epoch": 0.06626666666666667, + "grad_norm": 1.175649881362915, + "learning_rate": 0.00018678817515003335, + "loss": 1.6227, + "step": 2982 + }, + { + "epoch": 0.06628888888888888, + "grad_norm": 1.2920302152633667, + "learning_rate": 0.00018678372971771506, + "loss": 1.9243, + "step": 2983 + }, + { + "epoch": 0.06631111111111111, + "grad_norm": 1.3073742389678955, + "learning_rate": 0.00018677928428539677, + "loss": 1.7718, + "step": 2984 + }, + { + "epoch": 0.06633333333333333, + "grad_norm": 1.3262230157852173, + "learning_rate": 0.00018677483885307848, + "loss": 2.0117, + "step": 2985 + }, + { + "epoch": 0.06635555555555556, + "grad_norm": 1.3040411472320557, + "learning_rate": 0.00018677039342076016, + "loss": 2.2123, + "step": 2986 + }, + { + "epoch": 0.06637777777777777, + "grad_norm": 1.455625295639038, + "learning_rate": 0.0001867659479884419, + "loss": 1.8989, + "step": 2987 + }, + { + "epoch": 0.0664, + "grad_norm": 1.3047820329666138, + "learning_rate": 0.00018676150255612358, + "loss": 1.6882, + "step": 2988 + }, + { + "epoch": 0.06642222222222222, + "grad_norm": 1.1425246000289917, + "learning_rate": 0.0001867570571238053, + "loss": 1.6086, + "step": 2989 + }, + { + "epoch": 0.06644444444444444, + "grad_norm": 1.5826201438903809, + "learning_rate": 0.000186752611691487, + "loss": 2.2842, + "step": 2990 + }, + { + "epoch": 0.06646666666666666, + "grad_norm": 1.4101442098617554, + "learning_rate": 0.0001867481662591687, + "loss": 1.8246, + "step": 2991 + }, + { + "epoch": 0.06648888888888889, + "grad_norm": 1.6880214214324951, + "learning_rate": 0.00018674372082685042, + "loss": 2.3414, + "step": 2992 + }, + { + "epoch": 0.0665111111111111, + "grad_norm": 1.3211586475372314, + "learning_rate": 0.00018673927539453213, + "loss": 1.5972, + "step": 2993 + }, + { + "epoch": 0.06653333333333333, + "grad_norm": 1.5031882524490356, + "learning_rate": 0.00018673482996221384, + "loss": 1.8175, + "step": 2994 + }, + { + "epoch": 0.06655555555555556, + "grad_norm": 1.3425596952438354, + "learning_rate": 0.00018673038452989555, + "loss": 2.01, + "step": 2995 + }, + { + "epoch": 0.06657777777777778, + "grad_norm": 1.378546953201294, + "learning_rate": 0.00018672593909757726, + "loss": 1.8262, + "step": 2996 + }, + { + "epoch": 0.0666, + "grad_norm": 1.2477855682373047, + "learning_rate": 0.00018672149366525894, + "loss": 1.0512, + "step": 2997 + }, + { + "epoch": 0.06662222222222222, + "grad_norm": 1.329624891281128, + "learning_rate": 0.00018671704823294068, + "loss": 1.7874, + "step": 2998 + }, + { + "epoch": 0.06664444444444445, + "grad_norm": 1.3171143531799316, + "learning_rate": 0.00018671260280062236, + "loss": 1.4029, + "step": 2999 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 1.3119182586669922, + "learning_rate": 0.00018670815736830407, + "loss": 1.1867, + "step": 3000 + }, + { + "epoch": 0.0666888888888889, + "grad_norm": 1.1418683528900146, + "learning_rate": 0.00018670371193598578, + "loss": 1.4056, + "step": 3001 + }, + { + "epoch": 0.06671111111111111, + "grad_norm": 0.7446819543838501, + "learning_rate": 0.0001866992665036675, + "loss": 1.2558, + "step": 3002 + }, + { + "epoch": 0.06673333333333334, + "grad_norm": 1.2388083934783936, + "learning_rate": 0.0001866948210713492, + "loss": 2.4907, + "step": 3003 + }, + { + "epoch": 0.06675555555555555, + "grad_norm": 1.4944300651550293, + "learning_rate": 0.0001866903756390309, + "loss": 0.5905, + "step": 3004 + }, + { + "epoch": 0.06677777777777778, + "grad_norm": 1.0793980360031128, + "learning_rate": 0.00018668593020671262, + "loss": 2.2229, + "step": 3005 + }, + { + "epoch": 0.0668, + "grad_norm": 1.066013216972351, + "learning_rate": 0.0001866814847743943, + "loss": 2.1372, + "step": 3006 + }, + { + "epoch": 0.06682222222222223, + "grad_norm": 1.2131024599075317, + "learning_rate": 0.00018667703934207604, + "loss": 2.618, + "step": 3007 + }, + { + "epoch": 0.06684444444444444, + "grad_norm": 1.1012964248657227, + "learning_rate": 0.00018667259390975772, + "loss": 1.9943, + "step": 3008 + }, + { + "epoch": 0.06686666666666667, + "grad_norm": 1.2611958980560303, + "learning_rate": 0.00018666814847743943, + "loss": 2.9643, + "step": 3009 + }, + { + "epoch": 0.06688888888888889, + "grad_norm": 1.0779814720153809, + "learning_rate": 0.00018666370304512114, + "loss": 2.4533, + "step": 3010 + }, + { + "epoch": 0.06691111111111112, + "grad_norm": 1.0852347612380981, + "learning_rate": 0.00018665925761280285, + "loss": 2.168, + "step": 3011 + }, + { + "epoch": 0.06693333333333333, + "grad_norm": 1.242493748664856, + "learning_rate": 0.00018665481218048456, + "loss": 2.2027, + "step": 3012 + }, + { + "epoch": 0.06695555555555556, + "grad_norm": 1.1750240325927734, + "learning_rate": 0.00018665036674816627, + "loss": 2.008, + "step": 3013 + }, + { + "epoch": 0.06697777777777777, + "grad_norm": 1.033508539199829, + "learning_rate": 0.00018664592131584798, + "loss": 1.9661, + "step": 3014 + }, + { + "epoch": 0.067, + "grad_norm": 1.4327009916305542, + "learning_rate": 0.0001866414758835297, + "loss": 2.6899, + "step": 3015 + }, + { + "epoch": 0.06702222222222222, + "grad_norm": 1.4444184303283691, + "learning_rate": 0.0001866370304512114, + "loss": 2.1263, + "step": 3016 + }, + { + "epoch": 0.06704444444444445, + "grad_norm": 1.3516345024108887, + "learning_rate": 0.00018663258501889308, + "loss": 2.1334, + "step": 3017 + }, + { + "epoch": 0.06706666666666666, + "grad_norm": 1.1286693811416626, + "learning_rate": 0.00018662813958657482, + "loss": 1.9396, + "step": 3018 + }, + { + "epoch": 0.06708888888888889, + "grad_norm": 1.0525747537612915, + "learning_rate": 0.0001866236941542565, + "loss": 2.0104, + "step": 3019 + }, + { + "epoch": 0.06711111111111111, + "grad_norm": 1.2158340215682983, + "learning_rate": 0.0001866192487219382, + "loss": 2.2476, + "step": 3020 + }, + { + "epoch": 0.06713333333333334, + "grad_norm": 2.0288302898406982, + "learning_rate": 0.00018661480328961992, + "loss": 0.9421, + "step": 3021 + }, + { + "epoch": 0.06715555555555555, + "grad_norm": 1.3440532684326172, + "learning_rate": 0.00018661035785730163, + "loss": 2.0325, + "step": 3022 + }, + { + "epoch": 0.06717777777777778, + "grad_norm": 1.0971245765686035, + "learning_rate": 0.00018660591242498334, + "loss": 1.845, + "step": 3023 + }, + { + "epoch": 0.0672, + "grad_norm": 1.400359034538269, + "learning_rate": 0.00018660146699266505, + "loss": 2.2704, + "step": 3024 + }, + { + "epoch": 0.06722222222222222, + "grad_norm": 1.3983571529388428, + "learning_rate": 0.00018659702156034676, + "loss": 1.9317, + "step": 3025 + }, + { + "epoch": 0.06724444444444444, + "grad_norm": 1.3775551319122314, + "learning_rate": 0.00018659257612802844, + "loss": 2.1884, + "step": 3026 + }, + { + "epoch": 0.06726666666666667, + "grad_norm": 1.1605805158615112, + "learning_rate": 0.00018658813069571018, + "loss": 1.9882, + "step": 3027 + }, + { + "epoch": 0.06728888888888888, + "grad_norm": 1.212649941444397, + "learning_rate": 0.00018658368526339186, + "loss": 2.1658, + "step": 3028 + }, + { + "epoch": 0.06731111111111111, + "grad_norm": 1.1757985353469849, + "learning_rate": 0.00018657923983107357, + "loss": 2.0947, + "step": 3029 + }, + { + "epoch": 0.06733333333333333, + "grad_norm": 1.36328125, + "learning_rate": 0.00018657479439875528, + "loss": 2.043, + "step": 3030 + }, + { + "epoch": 0.06735555555555556, + "grad_norm": 1.6213213205337524, + "learning_rate": 0.000186570348966437, + "loss": 2.0704, + "step": 3031 + }, + { + "epoch": 0.06737777777777777, + "grad_norm": 1.1763414144515991, + "learning_rate": 0.0001865659035341187, + "loss": 1.8164, + "step": 3032 + }, + { + "epoch": 0.0674, + "grad_norm": 1.5299826860427856, + "learning_rate": 0.0001865614581018004, + "loss": 1.1157, + "step": 3033 + }, + { + "epoch": 0.06742222222222222, + "grad_norm": 1.3983116149902344, + "learning_rate": 0.00018655701266948212, + "loss": 2.1105, + "step": 3034 + }, + { + "epoch": 0.06744444444444445, + "grad_norm": 1.37330162525177, + "learning_rate": 0.00018655256723716383, + "loss": 2.2656, + "step": 3035 + }, + { + "epoch": 0.06746666666666666, + "grad_norm": 1.310173749923706, + "learning_rate": 0.00018654812180484554, + "loss": 1.8935, + "step": 3036 + }, + { + "epoch": 0.06748888888888889, + "grad_norm": 1.4299370050430298, + "learning_rate": 0.00018654367637252722, + "loss": 1.7469, + "step": 3037 + }, + { + "epoch": 0.0675111111111111, + "grad_norm": 1.5664149522781372, + "learning_rate": 0.00018653923094020896, + "loss": 1.2068, + "step": 3038 + }, + { + "epoch": 0.06753333333333333, + "grad_norm": 1.337867259979248, + "learning_rate": 0.00018653478550789064, + "loss": 2.2552, + "step": 3039 + }, + { + "epoch": 0.06755555555555555, + "grad_norm": 1.4328793287277222, + "learning_rate": 0.00018653034007557235, + "loss": 2.0573, + "step": 3040 + }, + { + "epoch": 0.06757777777777778, + "grad_norm": 1.305863380432129, + "learning_rate": 0.00018652589464325409, + "loss": 2.099, + "step": 3041 + }, + { + "epoch": 0.0676, + "grad_norm": 1.2517766952514648, + "learning_rate": 0.00018652144921093577, + "loss": 1.9474, + "step": 3042 + }, + { + "epoch": 0.06762222222222222, + "grad_norm": 1.4265320301055908, + "learning_rate": 0.00018651700377861748, + "loss": 2.1624, + "step": 3043 + }, + { + "epoch": 0.06764444444444444, + "grad_norm": 1.4899251461029053, + "learning_rate": 0.0001865125583462992, + "loss": 1.9703, + "step": 3044 + }, + { + "epoch": 0.06766666666666667, + "grad_norm": 1.5499143600463867, + "learning_rate": 0.0001865081129139809, + "loss": 1.6343, + "step": 3045 + }, + { + "epoch": 0.0676888888888889, + "grad_norm": 1.2661762237548828, + "learning_rate": 0.00018650366748166258, + "loss": 1.8185, + "step": 3046 + }, + { + "epoch": 0.06771111111111111, + "grad_norm": 1.5745210647583008, + "learning_rate": 0.00018649922204934432, + "loss": 2.1845, + "step": 3047 + }, + { + "epoch": 0.06773333333333334, + "grad_norm": 1.808465838432312, + "learning_rate": 0.00018649477661702603, + "loss": 2.3673, + "step": 3048 + }, + { + "epoch": 0.06775555555555555, + "grad_norm": 1.4940499067306519, + "learning_rate": 0.0001864903311847077, + "loss": 1.6193, + "step": 3049 + }, + { + "epoch": 0.06777777777777778, + "grad_norm": 1.7693639993667603, + "learning_rate": 0.00018648588575238944, + "loss": 1.5863, + "step": 3050 + }, + { + "epoch": 0.0678, + "grad_norm": 1.020078182220459, + "learning_rate": 0.00018648144032007113, + "loss": 2.3726, + "step": 3051 + }, + { + "epoch": 0.06782222222222223, + "grad_norm": 0.9951558113098145, + "learning_rate": 0.00018647699488775286, + "loss": 2.391, + "step": 3052 + }, + { + "epoch": 0.06784444444444444, + "grad_norm": 1.3614338636398315, + "learning_rate": 0.00018647254945543455, + "loss": 2.2853, + "step": 3053 + }, + { + "epoch": 0.06786666666666667, + "grad_norm": 1.1202802658081055, + "learning_rate": 0.00018646810402311626, + "loss": 2.4977, + "step": 3054 + }, + { + "epoch": 0.06788888888888889, + "grad_norm": 1.1676385402679443, + "learning_rate": 0.00018646365859079797, + "loss": 2.2791, + "step": 3055 + }, + { + "epoch": 0.06791111111111112, + "grad_norm": 1.3840031623840332, + "learning_rate": 0.00018645921315847968, + "loss": 2.3632, + "step": 3056 + }, + { + "epoch": 0.06793333333333333, + "grad_norm": 1.6053420305252075, + "learning_rate": 0.00018645476772616139, + "loss": 2.0755, + "step": 3057 + }, + { + "epoch": 0.06795555555555556, + "grad_norm": 1.1942670345306396, + "learning_rate": 0.0001864503222938431, + "loss": 2.4001, + "step": 3058 + }, + { + "epoch": 0.06797777777777778, + "grad_norm": 1.1291829347610474, + "learning_rate": 0.0001864458768615248, + "loss": 2.6332, + "step": 3059 + }, + { + "epoch": 0.068, + "grad_norm": 1.2013721466064453, + "learning_rate": 0.0001864414314292065, + "loss": 1.0045, + "step": 3060 + }, + { + "epoch": 0.06802222222222222, + "grad_norm": 1.0784189701080322, + "learning_rate": 0.00018643698599688822, + "loss": 1.6403, + "step": 3061 + }, + { + "epoch": 0.06804444444444445, + "grad_norm": 1.1853705644607544, + "learning_rate": 0.0001864325405645699, + "loss": 2.3722, + "step": 3062 + }, + { + "epoch": 0.06806666666666666, + "grad_norm": 1.1500760316848755, + "learning_rate": 0.00018642809513225162, + "loss": 2.3134, + "step": 3063 + }, + { + "epoch": 0.0680888888888889, + "grad_norm": 1.1305676698684692, + "learning_rate": 0.00018642364969993333, + "loss": 2.2578, + "step": 3064 + }, + { + "epoch": 0.06811111111111111, + "grad_norm": 1.1511883735656738, + "learning_rate": 0.00018641920426761503, + "loss": 1.9826, + "step": 3065 + }, + { + "epoch": 0.06813333333333334, + "grad_norm": 1.2255641222000122, + "learning_rate": 0.00018641475883529674, + "loss": 1.7309, + "step": 3066 + }, + { + "epoch": 0.06815555555555555, + "grad_norm": 1.1795870065689087, + "learning_rate": 0.00018641031340297845, + "loss": 2.0513, + "step": 3067 + }, + { + "epoch": 0.06817777777777778, + "grad_norm": 1.4166266918182373, + "learning_rate": 0.00018640586797066016, + "loss": 2.2812, + "step": 3068 + }, + { + "epoch": 0.0682, + "grad_norm": 1.3183900117874146, + "learning_rate": 0.00018640142253834185, + "loss": 1.9412, + "step": 3069 + }, + { + "epoch": 0.06822222222222223, + "grad_norm": 1.2181826829910278, + "learning_rate": 0.00018639697710602358, + "loss": 2.3809, + "step": 3070 + }, + { + "epoch": 0.06824444444444444, + "grad_norm": 1.381649374961853, + "learning_rate": 0.00018639253167370527, + "loss": 2.4266, + "step": 3071 + }, + { + "epoch": 0.06826666666666667, + "grad_norm": 1.336442232131958, + "learning_rate": 0.000186388086241387, + "loss": 2.2447, + "step": 3072 + }, + { + "epoch": 0.06828888888888889, + "grad_norm": 1.0556756258010864, + "learning_rate": 0.00018638364080906868, + "loss": 1.7687, + "step": 3073 + }, + { + "epoch": 0.06831111111111111, + "grad_norm": 1.1357994079589844, + "learning_rate": 0.0001863791953767504, + "loss": 1.8913, + "step": 3074 + }, + { + "epoch": 0.06833333333333333, + "grad_norm": 1.1601805686950684, + "learning_rate": 0.0001863747499444321, + "loss": 2.186, + "step": 3075 + }, + { + "epoch": 0.06835555555555556, + "grad_norm": 1.316452980041504, + "learning_rate": 0.00018637030451211381, + "loss": 2.2864, + "step": 3076 + }, + { + "epoch": 0.06837777777777777, + "grad_norm": 1.1213129758834839, + "learning_rate": 0.00018636585907979552, + "loss": 1.54, + "step": 3077 + }, + { + "epoch": 0.0684, + "grad_norm": 1.4808624982833862, + "learning_rate": 0.00018636141364747723, + "loss": 2.5633, + "step": 3078 + }, + { + "epoch": 0.06842222222222222, + "grad_norm": 1.555956244468689, + "learning_rate": 0.00018635696821515894, + "loss": 2.0051, + "step": 3079 + }, + { + "epoch": 0.06844444444444445, + "grad_norm": 1.4880449771881104, + "learning_rate": 0.00018635252278284063, + "loss": 2.5767, + "step": 3080 + }, + { + "epoch": 0.06846666666666666, + "grad_norm": 1.6123839616775513, + "learning_rate": 0.00018634807735052236, + "loss": 2.1698, + "step": 3081 + }, + { + "epoch": 0.06848888888888889, + "grad_norm": 1.490860104560852, + "learning_rate": 0.00018634363191820404, + "loss": 2.6339, + "step": 3082 + }, + { + "epoch": 0.0685111111111111, + "grad_norm": 1.5396085977554321, + "learning_rate": 0.00018633918648588575, + "loss": 2.54, + "step": 3083 + }, + { + "epoch": 0.06853333333333333, + "grad_norm": 1.157238483428955, + "learning_rate": 0.00018633474105356746, + "loss": 1.9568, + "step": 3084 + }, + { + "epoch": 0.06855555555555555, + "grad_norm": 1.3200165033340454, + "learning_rate": 0.00018633029562124917, + "loss": 2.0114, + "step": 3085 + }, + { + "epoch": 0.06857777777777778, + "grad_norm": 1.2527263164520264, + "learning_rate": 0.00018632585018893088, + "loss": 1.9291, + "step": 3086 + }, + { + "epoch": 0.0686, + "grad_norm": 1.1514992713928223, + "learning_rate": 0.0001863214047566126, + "loss": 1.8126, + "step": 3087 + }, + { + "epoch": 0.06862222222222222, + "grad_norm": 1.322563648223877, + "learning_rate": 0.0001863169593242943, + "loss": 1.9282, + "step": 3088 + }, + { + "epoch": 0.06864444444444444, + "grad_norm": 1.3832098245620728, + "learning_rate": 0.00018631251389197598, + "loss": 1.6543, + "step": 3089 + }, + { + "epoch": 0.06866666666666667, + "grad_norm": 1.2836965322494507, + "learning_rate": 0.00018630806845965772, + "loss": 1.9576, + "step": 3090 + }, + { + "epoch": 0.06868888888888888, + "grad_norm": 1.480849027633667, + "learning_rate": 0.0001863036230273394, + "loss": 2.1873, + "step": 3091 + }, + { + "epoch": 0.06871111111111111, + "grad_norm": 1.444036841392517, + "learning_rate": 0.00018629917759502114, + "loss": 2.4291, + "step": 3092 + }, + { + "epoch": 0.06873333333333333, + "grad_norm": 1.2380448579788208, + "learning_rate": 0.00018629473216270282, + "loss": 1.7406, + "step": 3093 + }, + { + "epoch": 0.06875555555555556, + "grad_norm": 1.5346790552139282, + "learning_rate": 0.00018629028673038453, + "loss": 2.0464, + "step": 3094 + }, + { + "epoch": 0.06877777777777777, + "grad_norm": 1.323529839515686, + "learning_rate": 0.00018628584129806624, + "loss": 1.6314, + "step": 3095 + }, + { + "epoch": 0.0688, + "grad_norm": 1.481766700744629, + "learning_rate": 0.00018628139586574795, + "loss": 2.0781, + "step": 3096 + }, + { + "epoch": 0.06882222222222223, + "grad_norm": 1.0874724388122559, + "learning_rate": 0.00018627695043342966, + "loss": 1.2723, + "step": 3097 + }, + { + "epoch": 0.06884444444444444, + "grad_norm": 1.6798361539840698, + "learning_rate": 0.00018627250500111137, + "loss": 1.7107, + "step": 3098 + }, + { + "epoch": 0.06886666666666667, + "grad_norm": 1.4015706777572632, + "learning_rate": 0.00018626805956879308, + "loss": 1.4299, + "step": 3099 + }, + { + "epoch": 0.06888888888888889, + "grad_norm": 1.3325926065444946, + "learning_rate": 0.00018626361413647476, + "loss": 1.3214, + "step": 3100 + }, + { + "epoch": 0.06891111111111112, + "grad_norm": 1.0045979022979736, + "learning_rate": 0.0001862591687041565, + "loss": 2.0906, + "step": 3101 + }, + { + "epoch": 0.06893333333333333, + "grad_norm": 1.0200821161270142, + "learning_rate": 0.00018625472327183818, + "loss": 1.8968, + "step": 3102 + }, + { + "epoch": 0.06895555555555556, + "grad_norm": 1.2551326751708984, + "learning_rate": 0.0001862502778395199, + "loss": 1.9392, + "step": 3103 + }, + { + "epoch": 0.06897777777777778, + "grad_norm": 1.1553781032562256, + "learning_rate": 0.0001862458324072016, + "loss": 1.9881, + "step": 3104 + }, + { + "epoch": 0.069, + "grad_norm": 1.3161534070968628, + "learning_rate": 0.0001862413869748833, + "loss": 2.1154, + "step": 3105 + }, + { + "epoch": 0.06902222222222222, + "grad_norm": 1.1664115190505981, + "learning_rate": 0.00018623694154256502, + "loss": 2.5115, + "step": 3106 + }, + { + "epoch": 0.06904444444444445, + "grad_norm": 1.265507698059082, + "learning_rate": 0.00018623249611024673, + "loss": 1.6962, + "step": 3107 + }, + { + "epoch": 0.06906666666666667, + "grad_norm": 1.2219555377960205, + "learning_rate": 0.00018622805067792844, + "loss": 2.0094, + "step": 3108 + }, + { + "epoch": 0.0690888888888889, + "grad_norm": 1.172410249710083, + "learning_rate": 0.00018622360524561015, + "loss": 2.032, + "step": 3109 + }, + { + "epoch": 0.06911111111111111, + "grad_norm": 1.0577607154846191, + "learning_rate": 0.00018621915981329186, + "loss": 2.0619, + "step": 3110 + }, + { + "epoch": 0.06913333333333334, + "grad_norm": 1.371067762374878, + "learning_rate": 0.00018621471438097354, + "loss": 1.9002, + "step": 3111 + }, + { + "epoch": 0.06915555555555555, + "grad_norm": 1.2463182210922241, + "learning_rate": 0.00018621026894865528, + "loss": 2.2429, + "step": 3112 + }, + { + "epoch": 0.06917777777777778, + "grad_norm": 1.2977174520492554, + "learning_rate": 0.00018620582351633696, + "loss": 1.2412, + "step": 3113 + }, + { + "epoch": 0.0692, + "grad_norm": 1.1670761108398438, + "learning_rate": 0.00018620137808401867, + "loss": 1.84, + "step": 3114 + }, + { + "epoch": 0.06922222222222223, + "grad_norm": 1.3535349369049072, + "learning_rate": 0.0001861969326517004, + "loss": 2.0711, + "step": 3115 + }, + { + "epoch": 0.06924444444444444, + "grad_norm": 1.202639102935791, + "learning_rate": 0.0001861924872193821, + "loss": 1.8456, + "step": 3116 + }, + { + "epoch": 0.06926666666666667, + "grad_norm": 1.3139315843582153, + "learning_rate": 0.0001861880417870638, + "loss": 2.2342, + "step": 3117 + }, + { + "epoch": 0.06928888888888889, + "grad_norm": 1.4702835083007812, + "learning_rate": 0.0001861835963547455, + "loss": 2.0615, + "step": 3118 + }, + { + "epoch": 0.06931111111111112, + "grad_norm": 1.2553362846374512, + "learning_rate": 0.00018617915092242722, + "loss": 1.5745, + "step": 3119 + }, + { + "epoch": 0.06933333333333333, + "grad_norm": 1.3718432188034058, + "learning_rate": 0.0001861747054901089, + "loss": 1.7778, + "step": 3120 + }, + { + "epoch": 0.06935555555555556, + "grad_norm": 1.2589430809020996, + "learning_rate": 0.00018617026005779064, + "loss": 1.917, + "step": 3121 + }, + { + "epoch": 0.06937777777777777, + "grad_norm": 1.4061884880065918, + "learning_rate": 0.00018616581462547235, + "loss": 1.8717, + "step": 3122 + }, + { + "epoch": 0.0694, + "grad_norm": 1.637049674987793, + "learning_rate": 0.00018616136919315403, + "loss": 1.8411, + "step": 3123 + }, + { + "epoch": 0.06942222222222222, + "grad_norm": 1.2560381889343262, + "learning_rate": 0.00018615692376083577, + "loss": 1.9734, + "step": 3124 + }, + { + "epoch": 0.06944444444444445, + "grad_norm": 1.384864091873169, + "learning_rate": 0.00018615247832851745, + "loss": 1.9053, + "step": 3125 + }, + { + "epoch": 0.06946666666666666, + "grad_norm": 1.17531156539917, + "learning_rate": 0.00018614803289619916, + "loss": 1.7236, + "step": 3126 + }, + { + "epoch": 0.06948888888888889, + "grad_norm": 1.4617774486541748, + "learning_rate": 0.00018614358746388087, + "loss": 2.0953, + "step": 3127 + }, + { + "epoch": 0.0695111111111111, + "grad_norm": 1.4734753370285034, + "learning_rate": 0.00018613914203156258, + "loss": 2.2885, + "step": 3128 + }, + { + "epoch": 0.06953333333333334, + "grad_norm": 1.1499420404434204, + "learning_rate": 0.0001861346965992443, + "loss": 1.9675, + "step": 3129 + }, + { + "epoch": 0.06955555555555555, + "grad_norm": 1.016000509262085, + "learning_rate": 0.000186130251166926, + "loss": 0.0677, + "step": 3130 + }, + { + "epoch": 0.06957777777777778, + "grad_norm": 1.397423505783081, + "learning_rate": 0.0001861258057346077, + "loss": 2.1454, + "step": 3131 + }, + { + "epoch": 0.0696, + "grad_norm": 1.375404953956604, + "learning_rate": 0.00018612136030228942, + "loss": 2.1344, + "step": 3132 + }, + { + "epoch": 0.06962222222222222, + "grad_norm": 1.4570456743240356, + "learning_rate": 0.00018611691486997113, + "loss": 1.9302, + "step": 3133 + }, + { + "epoch": 0.06964444444444444, + "grad_norm": 1.3582453727722168, + "learning_rate": 0.0001861124694376528, + "loss": 1.9745, + "step": 3134 + }, + { + "epoch": 0.06966666666666667, + "grad_norm": 1.440842628479004, + "learning_rate": 0.00018610802400533455, + "loss": 2.4853, + "step": 3135 + }, + { + "epoch": 0.06968888888888888, + "grad_norm": 1.5460126399993896, + "learning_rate": 0.00018610357857301623, + "loss": 1.958, + "step": 3136 + }, + { + "epoch": 0.06971111111111111, + "grad_norm": 1.3783636093139648, + "learning_rate": 0.00018609913314069794, + "loss": 1.8361, + "step": 3137 + }, + { + "epoch": 0.06973333333333333, + "grad_norm": 1.6017347574234009, + "learning_rate": 0.00018609468770837965, + "loss": 2.0159, + "step": 3138 + }, + { + "epoch": 0.06975555555555556, + "grad_norm": 1.5302122831344604, + "learning_rate": 0.00018609024227606136, + "loss": 2.2509, + "step": 3139 + }, + { + "epoch": 0.06977777777777777, + "grad_norm": 1.4924696683883667, + "learning_rate": 0.00018608579684374307, + "loss": 1.936, + "step": 3140 + }, + { + "epoch": 0.0698, + "grad_norm": 1.1864842176437378, + "learning_rate": 0.00018608135141142478, + "loss": 1.7742, + "step": 3141 + }, + { + "epoch": 0.06982222222222222, + "grad_norm": 1.2760343551635742, + "learning_rate": 0.00018607690597910649, + "loss": 1.574, + "step": 3142 + }, + { + "epoch": 0.06984444444444445, + "grad_norm": 1.4915947914123535, + "learning_rate": 0.00018607246054678817, + "loss": 2.1868, + "step": 3143 + }, + { + "epoch": 0.06986666666666666, + "grad_norm": 1.639445424079895, + "learning_rate": 0.0001860680151144699, + "loss": 1.9876, + "step": 3144 + }, + { + "epoch": 0.06988888888888889, + "grad_norm": 1.33467435836792, + "learning_rate": 0.0001860635696821516, + "loss": 1.5571, + "step": 3145 + }, + { + "epoch": 0.0699111111111111, + "grad_norm": 1.4326633214950562, + "learning_rate": 0.0001860591242498333, + "loss": 1.8554, + "step": 3146 + }, + { + "epoch": 0.06993333333333333, + "grad_norm": 1.8822603225708008, + "learning_rate": 0.000186054678817515, + "loss": 2.0675, + "step": 3147 + }, + { + "epoch": 0.06995555555555556, + "grad_norm": 1.400314450263977, + "learning_rate": 0.00018605023338519672, + "loss": 1.7519, + "step": 3148 + }, + { + "epoch": 0.06997777777777778, + "grad_norm": 1.376460075378418, + "learning_rate": 0.00018604578795287843, + "loss": 1.9243, + "step": 3149 + }, + { + "epoch": 0.07, + "grad_norm": 1.4170759916305542, + "learning_rate": 0.00018604134252056014, + "loss": 1.4566, + "step": 3150 + }, + { + "epoch": 0.07002222222222222, + "grad_norm": 1.176084280014038, + "learning_rate": 0.00018603689708824185, + "loss": 2.5171, + "step": 3151 + }, + { + "epoch": 0.07004444444444445, + "grad_norm": 0.796825647354126, + "learning_rate": 0.00018603245165592355, + "loss": 1.0659, + "step": 3152 + }, + { + "epoch": 0.07006666666666667, + "grad_norm": 1.1480032205581665, + "learning_rate": 0.00018602800622360526, + "loss": 2.6119, + "step": 3153 + }, + { + "epoch": 0.0700888888888889, + "grad_norm": 1.0482373237609863, + "learning_rate": 0.00018602356079128695, + "loss": 2.0065, + "step": 3154 + }, + { + "epoch": 0.07011111111111111, + "grad_norm": 1.150799036026001, + "learning_rate": 0.00018601911535896868, + "loss": 2.5115, + "step": 3155 + }, + { + "epoch": 0.07013333333333334, + "grad_norm": 1.0664395093917847, + "learning_rate": 0.00018601466992665037, + "loss": 1.4442, + "step": 3156 + }, + { + "epoch": 0.07015555555555555, + "grad_norm": 1.257991909980774, + "learning_rate": 0.00018601022449433208, + "loss": 2.3767, + "step": 3157 + }, + { + "epoch": 0.07017777777777778, + "grad_norm": 1.173624038696289, + "learning_rate": 0.00018600577906201379, + "loss": 2.4001, + "step": 3158 + }, + { + "epoch": 0.0702, + "grad_norm": 1.3107126951217651, + "learning_rate": 0.0001860013336296955, + "loss": 2.0785, + "step": 3159 + }, + { + "epoch": 0.07022222222222223, + "grad_norm": 1.125231385231018, + "learning_rate": 0.0001859968881973772, + "loss": 2.2874, + "step": 3160 + }, + { + "epoch": 0.07024444444444444, + "grad_norm": 0.962848424911499, + "learning_rate": 0.00018599244276505891, + "loss": 1.7164, + "step": 3161 + }, + { + "epoch": 0.07026666666666667, + "grad_norm": 1.4906202554702759, + "learning_rate": 0.00018598799733274062, + "loss": 1.9267, + "step": 3162 + }, + { + "epoch": 0.07028888888888889, + "grad_norm": 1.3258379697799683, + "learning_rate": 0.0001859835519004223, + "loss": 2.2396, + "step": 3163 + }, + { + "epoch": 0.07031111111111112, + "grad_norm": 1.1507848501205444, + "learning_rate": 0.00018597910646810404, + "loss": 1.5691, + "step": 3164 + }, + { + "epoch": 0.07033333333333333, + "grad_norm": 1.2545636892318726, + "learning_rate": 0.00018597466103578573, + "loss": 2.3422, + "step": 3165 + }, + { + "epoch": 0.07035555555555556, + "grad_norm": 1.3093425035476685, + "learning_rate": 0.00018597021560346746, + "loss": 2.2198, + "step": 3166 + }, + { + "epoch": 0.07037777777777778, + "grad_norm": 1.6808485984802246, + "learning_rate": 0.00018596577017114915, + "loss": 1.3773, + "step": 3167 + }, + { + "epoch": 0.0704, + "grad_norm": 1.3006585836410522, + "learning_rate": 0.00018596132473883085, + "loss": 1.9069, + "step": 3168 + }, + { + "epoch": 0.07042222222222222, + "grad_norm": 1.3212761878967285, + "learning_rate": 0.00018595687930651256, + "loss": 2.132, + "step": 3169 + }, + { + "epoch": 0.07044444444444445, + "grad_norm": 1.015975832939148, + "learning_rate": 0.00018595243387419427, + "loss": 1.5151, + "step": 3170 + }, + { + "epoch": 0.07046666666666666, + "grad_norm": 1.2584716081619263, + "learning_rate": 0.00018594798844187598, + "loss": 1.969, + "step": 3171 + }, + { + "epoch": 0.07048888888888889, + "grad_norm": 1.0883800983428955, + "learning_rate": 0.0001859435430095577, + "loss": 1.6872, + "step": 3172 + }, + { + "epoch": 0.07051111111111111, + "grad_norm": 1.2211334705352783, + "learning_rate": 0.0001859390975772394, + "loss": 2.3762, + "step": 3173 + }, + { + "epoch": 0.07053333333333334, + "grad_norm": 1.3487976789474487, + "learning_rate": 0.00018593465214492109, + "loss": 2.2317, + "step": 3174 + }, + { + "epoch": 0.07055555555555555, + "grad_norm": 1.2125729322433472, + "learning_rate": 0.00018593020671260282, + "loss": 2.0716, + "step": 3175 + }, + { + "epoch": 0.07057777777777778, + "grad_norm": 1.124316692352295, + "learning_rate": 0.0001859257612802845, + "loss": 1.8635, + "step": 3176 + }, + { + "epoch": 0.0706, + "grad_norm": 1.2815332412719727, + "learning_rate": 0.00018592131584796621, + "loss": 1.8667, + "step": 3177 + }, + { + "epoch": 0.07062222222222223, + "grad_norm": 1.1639313697814941, + "learning_rate": 0.00018591687041564792, + "loss": 1.9161, + "step": 3178 + }, + { + "epoch": 0.07064444444444444, + "grad_norm": 1.319077491760254, + "learning_rate": 0.00018591242498332963, + "loss": 1.9424, + "step": 3179 + }, + { + "epoch": 0.07066666666666667, + "grad_norm": 1.3556466102600098, + "learning_rate": 0.00018590797955101134, + "loss": 2.0775, + "step": 3180 + }, + { + "epoch": 0.07068888888888888, + "grad_norm": 1.3292410373687744, + "learning_rate": 0.00018590353411869305, + "loss": 1.8626, + "step": 3181 + }, + { + "epoch": 0.07071111111111111, + "grad_norm": 1.4909486770629883, + "learning_rate": 0.00018589908868637476, + "loss": 2.0275, + "step": 3182 + }, + { + "epoch": 0.07073333333333333, + "grad_norm": 1.35085129737854, + "learning_rate": 0.00018589464325405644, + "loss": 1.8455, + "step": 3183 + }, + { + "epoch": 0.07075555555555556, + "grad_norm": 1.5771790742874146, + "learning_rate": 0.00018589019782173818, + "loss": 2.5952, + "step": 3184 + }, + { + "epoch": 0.07077777777777777, + "grad_norm": 1.8196218013763428, + "learning_rate": 0.00018588575238941986, + "loss": 2.253, + "step": 3185 + }, + { + "epoch": 0.0708, + "grad_norm": 1.6080139875411987, + "learning_rate": 0.0001858813069571016, + "loss": 1.9148, + "step": 3186 + }, + { + "epoch": 0.07082222222222222, + "grad_norm": 1.427482008934021, + "learning_rate": 0.00018587686152478328, + "loss": 2.3963, + "step": 3187 + }, + { + "epoch": 0.07084444444444445, + "grad_norm": 1.2649651765823364, + "learning_rate": 0.000185872416092465, + "loss": 1.923, + "step": 3188 + }, + { + "epoch": 0.07086666666666666, + "grad_norm": 1.2580745220184326, + "learning_rate": 0.00018586797066014673, + "loss": 2.0556, + "step": 3189 + }, + { + "epoch": 0.07088888888888889, + "grad_norm": 1.4637434482574463, + "learning_rate": 0.0001858635252278284, + "loss": 2.0906, + "step": 3190 + }, + { + "epoch": 0.0709111111111111, + "grad_norm": 1.472300410270691, + "learning_rate": 0.00018585907979551012, + "loss": 1.7587, + "step": 3191 + }, + { + "epoch": 0.07093333333333333, + "grad_norm": 1.302419662475586, + "learning_rate": 0.00018585463436319183, + "loss": 1.9788, + "step": 3192 + }, + { + "epoch": 0.07095555555555555, + "grad_norm": 1.4993181228637695, + "learning_rate": 0.00018585018893087354, + "loss": 1.7982, + "step": 3193 + }, + { + "epoch": 0.07097777777777778, + "grad_norm": 1.391061782836914, + "learning_rate": 0.00018584574349855522, + "loss": 1.6953, + "step": 3194 + }, + { + "epoch": 0.071, + "grad_norm": 1.4594935178756714, + "learning_rate": 0.00018584129806623696, + "loss": 1.8619, + "step": 3195 + }, + { + "epoch": 0.07102222222222222, + "grad_norm": 1.8263238668441772, + "learning_rate": 0.00018583685263391867, + "loss": 1.9633, + "step": 3196 + }, + { + "epoch": 0.07104444444444444, + "grad_norm": 1.0885010957717896, + "learning_rate": 0.00018583240720160035, + "loss": 1.0194, + "step": 3197 + }, + { + "epoch": 0.07106666666666667, + "grad_norm": 1.3592110872268677, + "learning_rate": 0.0001858279617692821, + "loss": 1.8874, + "step": 3198 + }, + { + "epoch": 0.07108888888888888, + "grad_norm": 1.5188533067703247, + "learning_rate": 0.00018582351633696377, + "loss": 2.103, + "step": 3199 + }, + { + "epoch": 0.07111111111111111, + "grad_norm": 0.9653910398483276, + "learning_rate": 0.00018581907090464548, + "loss": 1.0329, + "step": 3200 + }, + { + "epoch": 0.07113333333333334, + "grad_norm": 1.450005054473877, + "learning_rate": 0.0001858146254723272, + "loss": 1.4119, + "step": 3201 + }, + { + "epoch": 0.07115555555555556, + "grad_norm": 1.0671168565750122, + "learning_rate": 0.0001858101800400089, + "loss": 2.0543, + "step": 3202 + }, + { + "epoch": 0.07117777777777778, + "grad_norm": 1.2091753482818604, + "learning_rate": 0.00018580573460769058, + "loss": 2.3077, + "step": 3203 + }, + { + "epoch": 0.0712, + "grad_norm": 1.1918028593063354, + "learning_rate": 0.00018580128917537232, + "loss": 2.586, + "step": 3204 + }, + { + "epoch": 0.07122222222222223, + "grad_norm": 1.254113793373108, + "learning_rate": 0.00018579684374305403, + "loss": 2.2683, + "step": 3205 + }, + { + "epoch": 0.07124444444444444, + "grad_norm": 1.0458388328552246, + "learning_rate": 0.00018579239831073574, + "loss": 1.7775, + "step": 3206 + }, + { + "epoch": 0.07126666666666667, + "grad_norm": 1.2077213525772095, + "learning_rate": 0.00018578795287841745, + "loss": 1.9684, + "step": 3207 + }, + { + "epoch": 0.07128888888888889, + "grad_norm": 1.3320894241333008, + "learning_rate": 0.00018578350744609913, + "loss": 2.2517, + "step": 3208 + }, + { + "epoch": 0.07131111111111112, + "grad_norm": 1.3747494220733643, + "learning_rate": 0.00018577906201378087, + "loss": 2.5526, + "step": 3209 + }, + { + "epoch": 0.07133333333333333, + "grad_norm": 1.362795114517212, + "learning_rate": 0.00018577461658146255, + "loss": 2.24, + "step": 3210 + }, + { + "epoch": 0.07135555555555556, + "grad_norm": 1.2927980422973633, + "learning_rate": 0.00018577017114914426, + "loss": 2.7523, + "step": 3211 + }, + { + "epoch": 0.07137777777777778, + "grad_norm": 1.3677923679351807, + "learning_rate": 0.00018576572571682597, + "loss": 2.0425, + "step": 3212 + }, + { + "epoch": 0.0714, + "grad_norm": 1.250320553779602, + "learning_rate": 0.00018576128028450768, + "loss": 2.0995, + "step": 3213 + }, + { + "epoch": 0.07142222222222222, + "grad_norm": 1.1317499876022339, + "learning_rate": 0.0001857568348521894, + "loss": 1.8188, + "step": 3214 + }, + { + "epoch": 0.07144444444444445, + "grad_norm": 1.0998951196670532, + "learning_rate": 0.0001857523894198711, + "loss": 1.7639, + "step": 3215 + }, + { + "epoch": 0.07146666666666666, + "grad_norm": 1.065973162651062, + "learning_rate": 0.0001857479439875528, + "loss": 1.5334, + "step": 3216 + }, + { + "epoch": 0.0714888888888889, + "grad_norm": 1.1874308586120605, + "learning_rate": 0.0001857434985552345, + "loss": 2.2267, + "step": 3217 + }, + { + "epoch": 0.07151111111111111, + "grad_norm": 1.1485834121704102, + "learning_rate": 0.00018573905312291623, + "loss": 1.911, + "step": 3218 + }, + { + "epoch": 0.07153333333333334, + "grad_norm": 1.3985886573791504, + "learning_rate": 0.0001857346076905979, + "loss": 2.3273, + "step": 3219 + }, + { + "epoch": 0.07155555555555555, + "grad_norm": 1.212371587753296, + "learning_rate": 0.00018573016225827962, + "loss": 2.0963, + "step": 3220 + }, + { + "epoch": 0.07157777777777778, + "grad_norm": 1.2432383298873901, + "learning_rate": 0.00018572571682596133, + "loss": 2.1041, + "step": 3221 + }, + { + "epoch": 0.0716, + "grad_norm": 1.245377779006958, + "learning_rate": 0.00018572127139364304, + "loss": 1.9445, + "step": 3222 + }, + { + "epoch": 0.07162222222222223, + "grad_norm": 1.2812609672546387, + "learning_rate": 0.00018571682596132475, + "loss": 2.092, + "step": 3223 + }, + { + "epoch": 0.07164444444444444, + "grad_norm": 1.3125207424163818, + "learning_rate": 0.00018571238052900646, + "loss": 1.9547, + "step": 3224 + }, + { + "epoch": 0.07166666666666667, + "grad_norm": 1.4647374153137207, + "learning_rate": 0.00018570793509668817, + "loss": 1.7872, + "step": 3225 + }, + { + "epoch": 0.07168888888888889, + "grad_norm": 1.5493143796920776, + "learning_rate": 0.00018570348966436988, + "loss": 1.9315, + "step": 3226 + }, + { + "epoch": 0.07171111111111111, + "grad_norm": 1.7617371082305908, + "learning_rate": 0.0001856990442320516, + "loss": 2.237, + "step": 3227 + }, + { + "epoch": 0.07173333333333333, + "grad_norm": 1.39019775390625, + "learning_rate": 0.00018569459879973327, + "loss": 2.4093, + "step": 3228 + }, + { + "epoch": 0.07175555555555556, + "grad_norm": 1.3510781526565552, + "learning_rate": 0.000185690153367415, + "loss": 2.1221, + "step": 3229 + }, + { + "epoch": 0.07177777777777777, + "grad_norm": 1.2744882106781006, + "learning_rate": 0.0001856857079350967, + "loss": 1.9313, + "step": 3230 + }, + { + "epoch": 0.0718, + "grad_norm": 1.177996039390564, + "learning_rate": 0.0001856812625027784, + "loss": 1.5578, + "step": 3231 + }, + { + "epoch": 0.07182222222222222, + "grad_norm": 1.3063701391220093, + "learning_rate": 0.0001856768170704601, + "loss": 2.0013, + "step": 3232 + }, + { + "epoch": 0.07184444444444445, + "grad_norm": 1.3159078359603882, + "learning_rate": 0.00018567237163814182, + "loss": 2.0254, + "step": 3233 + }, + { + "epoch": 0.07186666666666666, + "grad_norm": 1.2836161851882935, + "learning_rate": 0.00018566792620582353, + "loss": 1.7575, + "step": 3234 + }, + { + "epoch": 0.07188888888888889, + "grad_norm": 1.320886492729187, + "learning_rate": 0.00018566348077350524, + "loss": 2.0836, + "step": 3235 + }, + { + "epoch": 0.0719111111111111, + "grad_norm": 1.2700814008712769, + "learning_rate": 0.00018565903534118695, + "loss": 1.8757, + "step": 3236 + }, + { + "epoch": 0.07193333333333334, + "grad_norm": 1.3701927661895752, + "learning_rate": 0.00018565458990886863, + "loss": 2.1828, + "step": 3237 + }, + { + "epoch": 0.07195555555555555, + "grad_norm": 1.2790844440460205, + "learning_rate": 0.00018565014447655037, + "loss": 1.7537, + "step": 3238 + }, + { + "epoch": 0.07197777777777778, + "grad_norm": 1.5068280696868896, + "learning_rate": 0.00018564569904423205, + "loss": 1.9848, + "step": 3239 + }, + { + "epoch": 0.072, + "grad_norm": 1.5322648286819458, + "learning_rate": 0.00018564125361191376, + "loss": 2.3908, + "step": 3240 + }, + { + "epoch": 0.07202222222222222, + "grad_norm": 1.5137754678726196, + "learning_rate": 0.00018563680817959547, + "loss": 2.4623, + "step": 3241 + }, + { + "epoch": 0.07204444444444444, + "grad_norm": 1.3661772012710571, + "learning_rate": 0.00018563236274727718, + "loss": 2.1133, + "step": 3242 + }, + { + "epoch": 0.07206666666666667, + "grad_norm": 1.356837272644043, + "learning_rate": 0.00018562791731495889, + "loss": 1.834, + "step": 3243 + }, + { + "epoch": 0.07208888888888888, + "grad_norm": 1.22430419921875, + "learning_rate": 0.0001856234718826406, + "loss": 1.786, + "step": 3244 + }, + { + "epoch": 0.07211111111111111, + "grad_norm": 1.1776831150054932, + "learning_rate": 0.0001856190264503223, + "loss": 1.5689, + "step": 3245 + }, + { + "epoch": 0.07213333333333333, + "grad_norm": 1.3597360849380493, + "learning_rate": 0.00018561458101800402, + "loss": 2.388, + "step": 3246 + }, + { + "epoch": 0.07215555555555556, + "grad_norm": 1.5380576848983765, + "learning_rate": 0.00018561013558568572, + "loss": 1.854, + "step": 3247 + }, + { + "epoch": 0.07217777777777777, + "grad_norm": 1.571637749671936, + "learning_rate": 0.0001856056901533674, + "loss": 1.9646, + "step": 3248 + }, + { + "epoch": 0.0722, + "grad_norm": 1.383018136024475, + "learning_rate": 0.00018560124472104914, + "loss": 1.6999, + "step": 3249 + }, + { + "epoch": 0.07222222222222222, + "grad_norm": 1.2798205614089966, + "learning_rate": 0.00018559679928873083, + "loss": 1.0246, + "step": 3250 + }, + { + "epoch": 0.07224444444444444, + "grad_norm": 0.6936966776847839, + "learning_rate": 0.00018559235385641254, + "loss": 1.1929, + "step": 3251 + }, + { + "epoch": 0.07226666666666667, + "grad_norm": 1.1614549160003662, + "learning_rate": 0.00018558790842409425, + "loss": 2.5859, + "step": 3252 + }, + { + "epoch": 0.07228888888888889, + "grad_norm": 1.2852308750152588, + "learning_rate": 0.00018558346299177596, + "loss": 2.9286, + "step": 3253 + }, + { + "epoch": 0.07231111111111112, + "grad_norm": 0.97017902135849, + "learning_rate": 0.00018557901755945767, + "loss": 1.8899, + "step": 3254 + }, + { + "epoch": 0.07233333333333333, + "grad_norm": 1.0069116353988647, + "learning_rate": 0.00018557457212713937, + "loss": 1.5767, + "step": 3255 + }, + { + "epoch": 0.07235555555555556, + "grad_norm": 1.1649580001831055, + "learning_rate": 0.00018557012669482108, + "loss": 2.1984, + "step": 3256 + }, + { + "epoch": 0.07237777777777778, + "grad_norm": 0.9498484134674072, + "learning_rate": 0.00018556568126250277, + "loss": 0.6958, + "step": 3257 + }, + { + "epoch": 0.0724, + "grad_norm": 0.7575570344924927, + "learning_rate": 0.0001855612358301845, + "loss": 0.9266, + "step": 3258 + }, + { + "epoch": 0.07242222222222222, + "grad_norm": 1.2204036712646484, + "learning_rate": 0.00018555679039786619, + "loss": 2.0346, + "step": 3259 + }, + { + "epoch": 0.07244444444444445, + "grad_norm": 1.2786270380020142, + "learning_rate": 0.0001855523449655479, + "loss": 2.3933, + "step": 3260 + }, + { + "epoch": 0.07246666666666667, + "grad_norm": 1.3189749717712402, + "learning_rate": 0.0001855478995332296, + "loss": 2.1746, + "step": 3261 + }, + { + "epoch": 0.0724888888888889, + "grad_norm": 1.2783126831054688, + "learning_rate": 0.00018554345410091131, + "loss": 2.2306, + "step": 3262 + }, + { + "epoch": 0.07251111111111111, + "grad_norm": 1.2526603937149048, + "learning_rate": 0.00018553900866859305, + "loss": 2.1827, + "step": 3263 + }, + { + "epoch": 0.07253333333333334, + "grad_norm": 3.138085126876831, + "learning_rate": 0.00018553456323627473, + "loss": 0.1832, + "step": 3264 + }, + { + "epoch": 0.07255555555555555, + "grad_norm": 1.1451914310455322, + "learning_rate": 0.00018553011780395644, + "loss": 1.8625, + "step": 3265 + }, + { + "epoch": 0.07257777777777778, + "grad_norm": 1.1237571239471436, + "learning_rate": 0.00018552567237163815, + "loss": 1.5942, + "step": 3266 + }, + { + "epoch": 0.0726, + "grad_norm": 1.176329493522644, + "learning_rate": 0.00018552122693931986, + "loss": 1.8458, + "step": 3267 + }, + { + "epoch": 0.07262222222222223, + "grad_norm": 1.2657891511917114, + "learning_rate": 0.00018551678150700155, + "loss": 1.6219, + "step": 3268 + }, + { + "epoch": 0.07264444444444444, + "grad_norm": 1.6398987770080566, + "learning_rate": 0.00018551233607468328, + "loss": 2.2206, + "step": 3269 + }, + { + "epoch": 0.07266666666666667, + "grad_norm": 1.170137643814087, + "learning_rate": 0.000185507890642365, + "loss": 2.1818, + "step": 3270 + }, + { + "epoch": 0.07268888888888889, + "grad_norm": 1.1334134340286255, + "learning_rate": 0.00018550344521004667, + "loss": 1.6677, + "step": 3271 + }, + { + "epoch": 0.07271111111111112, + "grad_norm": 1.469070315361023, + "learning_rate": 0.0001854989997777284, + "loss": 2.4642, + "step": 3272 + }, + { + "epoch": 0.07273333333333333, + "grad_norm": 1.529949426651001, + "learning_rate": 0.0001854945543454101, + "loss": 2.3606, + "step": 3273 + }, + { + "epoch": 0.07275555555555556, + "grad_norm": 1.2295321226119995, + "learning_rate": 0.0001854901089130918, + "loss": 2.2251, + "step": 3274 + }, + { + "epoch": 0.07277777777777777, + "grad_norm": 1.7624956369400024, + "learning_rate": 0.0001854856634807735, + "loss": 2.3783, + "step": 3275 + }, + { + "epoch": 0.0728, + "grad_norm": 1.4810762405395508, + "learning_rate": 0.00018548121804845522, + "loss": 2.4524, + "step": 3276 + }, + { + "epoch": 0.07282222222222222, + "grad_norm": 1.3258888721466064, + "learning_rate": 0.0001854767726161369, + "loss": 2.1944, + "step": 3277 + }, + { + "epoch": 0.07284444444444445, + "grad_norm": 1.1668721437454224, + "learning_rate": 0.00018547232718381864, + "loss": 1.5096, + "step": 3278 + }, + { + "epoch": 0.07286666666666666, + "grad_norm": 1.189149260520935, + "learning_rate": 0.00018546788175150035, + "loss": 1.0028, + "step": 3279 + }, + { + "epoch": 0.07288888888888889, + "grad_norm": 1.1918368339538574, + "learning_rate": 0.00018546343631918206, + "loss": 1.7321, + "step": 3280 + }, + { + "epoch": 0.07291111111111111, + "grad_norm": 1.2547839879989624, + "learning_rate": 0.00018545899088686377, + "loss": 2.1974, + "step": 3281 + }, + { + "epoch": 0.07293333333333334, + "grad_norm": 1.5724372863769531, + "learning_rate": 0.00018545454545454545, + "loss": 1.8069, + "step": 3282 + }, + { + "epoch": 0.07295555555555555, + "grad_norm": 1.415132761001587, + "learning_rate": 0.0001854501000222272, + "loss": 2.2011, + "step": 3283 + }, + { + "epoch": 0.07297777777777778, + "grad_norm": 1.2512127161026, + "learning_rate": 0.00018544565458990887, + "loss": 1.9629, + "step": 3284 + }, + { + "epoch": 0.073, + "grad_norm": 1.2589808702468872, + "learning_rate": 0.00018544120915759058, + "loss": 2.0601, + "step": 3285 + }, + { + "epoch": 0.07302222222222222, + "grad_norm": 1.6282298564910889, + "learning_rate": 0.0001854367637252723, + "loss": 2.0631, + "step": 3286 + }, + { + "epoch": 0.07304444444444444, + "grad_norm": 1.7478584051132202, + "learning_rate": 0.000185432318292954, + "loss": 2.0575, + "step": 3287 + }, + { + "epoch": 0.07306666666666667, + "grad_norm": 1.8844873905181885, + "learning_rate": 0.0001854278728606357, + "loss": 2.0351, + "step": 3288 + }, + { + "epoch": 0.07308888888888888, + "grad_norm": 1.3124668598175049, + "learning_rate": 0.00018542342742831742, + "loss": 1.705, + "step": 3289 + }, + { + "epoch": 0.07311111111111111, + "grad_norm": 1.5351976156234741, + "learning_rate": 0.00018541898199599913, + "loss": 1.6251, + "step": 3290 + }, + { + "epoch": 0.07313333333333333, + "grad_norm": 1.3581308126449585, + "learning_rate": 0.0001854145365636808, + "loss": 2.1643, + "step": 3291 + }, + { + "epoch": 0.07315555555555556, + "grad_norm": 1.1872023344039917, + "learning_rate": 0.00018541009113136255, + "loss": 1.8228, + "step": 3292 + }, + { + "epoch": 0.07317777777777777, + "grad_norm": 1.2997936010360718, + "learning_rate": 0.00018540564569904423, + "loss": 1.9536, + "step": 3293 + }, + { + "epoch": 0.0732, + "grad_norm": 1.4094762802124023, + "learning_rate": 0.00018540120026672594, + "loss": 1.9771, + "step": 3294 + }, + { + "epoch": 0.07322222222222222, + "grad_norm": 3.250911235809326, + "learning_rate": 0.00018539675483440765, + "loss": 2.0529, + "step": 3295 + }, + { + "epoch": 0.07324444444444445, + "grad_norm": 1.567543625831604, + "learning_rate": 0.00018539230940208936, + "loss": 1.8497, + "step": 3296 + }, + { + "epoch": 0.07326666666666666, + "grad_norm": 1.3556450605392456, + "learning_rate": 0.00018538786396977107, + "loss": 1.6056, + "step": 3297 + }, + { + "epoch": 0.07328888888888889, + "grad_norm": 1.4467936754226685, + "learning_rate": 0.00018538341853745278, + "loss": 1.6848, + "step": 3298 + }, + { + "epoch": 0.0733111111111111, + "grad_norm": 1.2786372900009155, + "learning_rate": 0.0001853789731051345, + "loss": 1.6993, + "step": 3299 + }, + { + "epoch": 0.07333333333333333, + "grad_norm": 1.560208797454834, + "learning_rate": 0.0001853745276728162, + "loss": 2.208, + "step": 3300 + }, + { + "epoch": 0.07335555555555555, + "grad_norm": 1.2748750448226929, + "learning_rate": 0.0001853700822404979, + "loss": 2.8881, + "step": 3301 + }, + { + "epoch": 0.07337777777777778, + "grad_norm": 1.3012605905532837, + "learning_rate": 0.0001853656368081796, + "loss": 2.4086, + "step": 3302 + }, + { + "epoch": 0.0734, + "grad_norm": 1.0598418712615967, + "learning_rate": 0.00018536119137586133, + "loss": 2.0764, + "step": 3303 + }, + { + "epoch": 0.07342222222222222, + "grad_norm": 1.1563421487808228, + "learning_rate": 0.000185356745943543, + "loss": 2.0794, + "step": 3304 + }, + { + "epoch": 0.07344444444444445, + "grad_norm": 1.1678755283355713, + "learning_rate": 0.00018535230051122472, + "loss": 2.3423, + "step": 3305 + }, + { + "epoch": 0.07346666666666667, + "grad_norm": 1.1595982313156128, + "learning_rate": 0.00018534785507890643, + "loss": 2.1377, + "step": 3306 + }, + { + "epoch": 0.0734888888888889, + "grad_norm": 1.0765740871429443, + "learning_rate": 0.00018534340964658814, + "loss": 2.189, + "step": 3307 + }, + { + "epoch": 0.07351111111111111, + "grad_norm": 1.1508079767227173, + "learning_rate": 0.00018533896421426985, + "loss": 2.5721, + "step": 3308 + }, + { + "epoch": 0.07353333333333334, + "grad_norm": 1.378800630569458, + "learning_rate": 0.00018533451878195156, + "loss": 2.4782, + "step": 3309 + }, + { + "epoch": 0.07355555555555555, + "grad_norm": 1.2660834789276123, + "learning_rate": 0.00018533007334963327, + "loss": 2.118, + "step": 3310 + }, + { + "epoch": 0.07357777777777778, + "grad_norm": 0.9212296605110168, + "learning_rate": 0.00018532562791731495, + "loss": 1.0606, + "step": 3311 + }, + { + "epoch": 0.0736, + "grad_norm": 1.092615008354187, + "learning_rate": 0.0001853211824849967, + "loss": 2.2381, + "step": 3312 + }, + { + "epoch": 0.07362222222222223, + "grad_norm": 1.2031207084655762, + "learning_rate": 0.00018531673705267837, + "loss": 2.0134, + "step": 3313 + }, + { + "epoch": 0.07364444444444444, + "grad_norm": 1.151123285293579, + "learning_rate": 0.00018531229162036008, + "loss": 2.1517, + "step": 3314 + }, + { + "epoch": 0.07366666666666667, + "grad_norm": 1.074080228805542, + "learning_rate": 0.0001853078461880418, + "loss": 1.9847, + "step": 3315 + }, + { + "epoch": 0.07368888888888889, + "grad_norm": 1.1378743648529053, + "learning_rate": 0.0001853034007557235, + "loss": 1.8591, + "step": 3316 + }, + { + "epoch": 0.07371111111111112, + "grad_norm": 1.2244162559509277, + "learning_rate": 0.0001852989553234052, + "loss": 2.3329, + "step": 3317 + }, + { + "epoch": 0.07373333333333333, + "grad_norm": 1.2962528467178345, + "learning_rate": 0.00018529450989108692, + "loss": 1.1951, + "step": 3318 + }, + { + "epoch": 0.07375555555555556, + "grad_norm": 1.0658739805221558, + "learning_rate": 0.00018529006445876863, + "loss": 1.3047, + "step": 3319 + }, + { + "epoch": 0.07377777777777778, + "grad_norm": 1.2752010822296143, + "learning_rate": 0.00018528561902645034, + "loss": 1.9574, + "step": 3320 + }, + { + "epoch": 0.0738, + "grad_norm": 1.0128380060195923, + "learning_rate": 0.00018528117359413205, + "loss": 1.4943, + "step": 3321 + }, + { + "epoch": 0.07382222222222222, + "grad_norm": 1.343968152999878, + "learning_rate": 0.00018527672816181373, + "loss": 2.0003, + "step": 3322 + }, + { + "epoch": 0.07384444444444445, + "grad_norm": 1.382271409034729, + "learning_rate": 0.00018527228272949547, + "loss": 2.028, + "step": 3323 + }, + { + "epoch": 0.07386666666666666, + "grad_norm": 1.1659868955612183, + "learning_rate": 0.00018526783729717715, + "loss": 1.9527, + "step": 3324 + }, + { + "epoch": 0.07388888888888889, + "grad_norm": 1.2338945865631104, + "learning_rate": 0.00018526339186485886, + "loss": 2.1587, + "step": 3325 + }, + { + "epoch": 0.07391111111111111, + "grad_norm": 1.2250200510025024, + "learning_rate": 0.00018525894643254057, + "loss": 2.1808, + "step": 3326 + }, + { + "epoch": 0.07393333333333334, + "grad_norm": 1.3517470359802246, + "learning_rate": 0.00018525450100022228, + "loss": 1.9654, + "step": 3327 + }, + { + "epoch": 0.07395555555555555, + "grad_norm": 1.2386265993118286, + "learning_rate": 0.000185250055567904, + "loss": 2.3532, + "step": 3328 + }, + { + "epoch": 0.07397777777777778, + "grad_norm": 1.1578645706176758, + "learning_rate": 0.0001852456101355857, + "loss": 1.8651, + "step": 3329 + }, + { + "epoch": 0.074, + "grad_norm": 1.1870566606521606, + "learning_rate": 0.0001852411647032674, + "loss": 2.0604, + "step": 3330 + }, + { + "epoch": 0.07402222222222223, + "grad_norm": 1.1565959453582764, + "learning_rate": 0.0001852367192709491, + "loss": 1.8398, + "step": 3331 + }, + { + "epoch": 0.07404444444444444, + "grad_norm": 1.6551729440689087, + "learning_rate": 0.00018523227383863083, + "loss": 2.0341, + "step": 3332 + }, + { + "epoch": 0.07406666666666667, + "grad_norm": 1.3001614809036255, + "learning_rate": 0.0001852278284063125, + "loss": 1.8044, + "step": 3333 + }, + { + "epoch": 0.07408888888888888, + "grad_norm": 1.2458326816558838, + "learning_rate": 0.00018522338297399422, + "loss": 2.2024, + "step": 3334 + }, + { + "epoch": 0.07411111111111111, + "grad_norm": 2.5055184364318848, + "learning_rate": 0.00018521893754167595, + "loss": 2.2722, + "step": 3335 + }, + { + "epoch": 0.07413333333333333, + "grad_norm": 1.5144240856170654, + "learning_rate": 0.00018521449210935764, + "loss": 2.1092, + "step": 3336 + }, + { + "epoch": 0.07415555555555556, + "grad_norm": 1.4910916090011597, + "learning_rate": 0.00018521004667703937, + "loss": 1.9947, + "step": 3337 + }, + { + "epoch": 0.07417777777777777, + "grad_norm": 1.3464441299438477, + "learning_rate": 0.00018520560124472106, + "loss": 2.264, + "step": 3338 + }, + { + "epoch": 0.0742, + "grad_norm": 1.2051719427108765, + "learning_rate": 0.00018520115581240277, + "loss": 1.8006, + "step": 3339 + }, + { + "epoch": 0.07422222222222222, + "grad_norm": 1.360304355621338, + "learning_rate": 0.00018519671038008448, + "loss": 2.0445, + "step": 3340 + }, + { + "epoch": 0.07424444444444445, + "grad_norm": 1.3306429386138916, + "learning_rate": 0.00018519226494776619, + "loss": 1.8543, + "step": 3341 + }, + { + "epoch": 0.07426666666666666, + "grad_norm": 1.3631885051727295, + "learning_rate": 0.00018518781951544787, + "loss": 1.7095, + "step": 3342 + }, + { + "epoch": 0.07428888888888889, + "grad_norm": 1.8065212965011597, + "learning_rate": 0.0001851833740831296, + "loss": 2.1346, + "step": 3343 + }, + { + "epoch": 0.0743111111111111, + "grad_norm": 1.2330005168914795, + "learning_rate": 0.00018517892865081131, + "loss": 1.9291, + "step": 3344 + }, + { + "epoch": 0.07433333333333333, + "grad_norm": 1.3778694868087769, + "learning_rate": 0.000185174483218493, + "loss": 1.8444, + "step": 3345 + }, + { + "epoch": 0.07435555555555555, + "grad_norm": 1.6837142705917358, + "learning_rate": 0.00018517003778617473, + "loss": 1.8211, + "step": 3346 + }, + { + "epoch": 0.07437777777777778, + "grad_norm": 1.7540706396102905, + "learning_rate": 0.00018516559235385642, + "loss": 2.0199, + "step": 3347 + }, + { + "epoch": 0.0744, + "grad_norm": 1.132103681564331, + "learning_rate": 0.00018516114692153813, + "loss": 1.0775, + "step": 3348 + }, + { + "epoch": 0.07442222222222222, + "grad_norm": 1.384882926940918, + "learning_rate": 0.00018515670148921983, + "loss": 1.348, + "step": 3349 + }, + { + "epoch": 0.07444444444444444, + "grad_norm": 1.945608377456665, + "learning_rate": 0.00018515225605690154, + "loss": 1.6171, + "step": 3350 + }, + { + "epoch": 0.07446666666666667, + "grad_norm": 0.9314131736755371, + "learning_rate": 0.00018514781062458323, + "loss": 2.2847, + "step": 3351 + }, + { + "epoch": 0.07448888888888888, + "grad_norm": 1.1078766584396362, + "learning_rate": 0.00018514336519226496, + "loss": 2.573, + "step": 3352 + }, + { + "epoch": 0.07451111111111111, + "grad_norm": 1.62334144115448, + "learning_rate": 0.00018513891975994667, + "loss": 2.8408, + "step": 3353 + }, + { + "epoch": 0.07453333333333333, + "grad_norm": 1.525193214416504, + "learning_rate": 0.00018513447432762836, + "loss": 2.0845, + "step": 3354 + }, + { + "epoch": 0.07455555555555556, + "grad_norm": 1.1216214895248413, + "learning_rate": 0.0001851300288953101, + "loss": 1.7651, + "step": 3355 + }, + { + "epoch": 0.07457777777777778, + "grad_norm": 1.3580617904663086, + "learning_rate": 0.00018512558346299178, + "loss": 2.6094, + "step": 3356 + }, + { + "epoch": 0.0746, + "grad_norm": 1.0684504508972168, + "learning_rate": 0.0001851211380306735, + "loss": 2.1471, + "step": 3357 + }, + { + "epoch": 0.07462222222222223, + "grad_norm": 1.2796941995620728, + "learning_rate": 0.0001851166925983552, + "loss": 2.731, + "step": 3358 + }, + { + "epoch": 0.07464444444444444, + "grad_norm": 1.17794930934906, + "learning_rate": 0.0001851122471660369, + "loss": 2.105, + "step": 3359 + }, + { + "epoch": 0.07466666666666667, + "grad_norm": 1.3348009586334229, + "learning_rate": 0.00018510780173371861, + "loss": 1.9781, + "step": 3360 + }, + { + "epoch": 0.07468888888888889, + "grad_norm": 1.0967626571655273, + "learning_rate": 0.00018510335630140032, + "loss": 1.7868, + "step": 3361 + }, + { + "epoch": 0.07471111111111112, + "grad_norm": 1.7560702562332153, + "learning_rate": 0.00018509891086908203, + "loss": 1.9523, + "step": 3362 + }, + { + "epoch": 0.07473333333333333, + "grad_norm": 1.2477971315383911, + "learning_rate": 0.00018509446543676374, + "loss": 2.2214, + "step": 3363 + }, + { + "epoch": 0.07475555555555556, + "grad_norm": 1.19613778591156, + "learning_rate": 0.00018509002000444545, + "loss": 2.3058, + "step": 3364 + }, + { + "epoch": 0.07477777777777778, + "grad_norm": 1.2666854858398438, + "learning_rate": 0.00018508557457212713, + "loss": 1.9466, + "step": 3365 + }, + { + "epoch": 0.0748, + "grad_norm": 1.2790480852127075, + "learning_rate": 0.00018508112913980887, + "loss": 1.9257, + "step": 3366 + }, + { + "epoch": 0.07482222222222222, + "grad_norm": 1.1811188459396362, + "learning_rate": 0.00018507668370749055, + "loss": 1.8595, + "step": 3367 + }, + { + "epoch": 0.07484444444444445, + "grad_norm": 1.2089661359786987, + "learning_rate": 0.00018507223827517226, + "loss": 2.119, + "step": 3368 + }, + { + "epoch": 0.07486666666666666, + "grad_norm": 1.2355477809906006, + "learning_rate": 0.00018506779284285397, + "loss": 1.7977, + "step": 3369 + }, + { + "epoch": 0.0748888888888889, + "grad_norm": 1.1849489212036133, + "learning_rate": 0.00018506334741053568, + "loss": 1.5681, + "step": 3370 + }, + { + "epoch": 0.07491111111111111, + "grad_norm": 1.5108733177185059, + "learning_rate": 0.0001850589019782174, + "loss": 2.3001, + "step": 3371 + }, + { + "epoch": 0.07493333333333334, + "grad_norm": 1.1956923007965088, + "learning_rate": 0.0001850544565458991, + "loss": 1.7848, + "step": 3372 + }, + { + "epoch": 0.07495555555555555, + "grad_norm": 1.1768664121627808, + "learning_rate": 0.0001850500111135808, + "loss": 1.8988, + "step": 3373 + }, + { + "epoch": 0.07497777777777778, + "grad_norm": 1.3499433994293213, + "learning_rate": 0.00018504556568126252, + "loss": 1.8989, + "step": 3374 + }, + { + "epoch": 0.075, + "grad_norm": 1.366759181022644, + "learning_rate": 0.00018504112024894423, + "loss": 2.4657, + "step": 3375 + }, + { + "epoch": 0.07502222222222223, + "grad_norm": 1.2666727304458618, + "learning_rate": 0.0001850366748166259, + "loss": 2.065, + "step": 3376 + }, + { + "epoch": 0.07504444444444444, + "grad_norm": 1.519229769706726, + "learning_rate": 0.00018503222938430765, + "loss": 2.1791, + "step": 3377 + }, + { + "epoch": 0.07506666666666667, + "grad_norm": 1.416766881942749, + "learning_rate": 0.00018502778395198933, + "loss": 2.108, + "step": 3378 + }, + { + "epoch": 0.07508888888888889, + "grad_norm": 1.2307345867156982, + "learning_rate": 0.00018502333851967104, + "loss": 1.968, + "step": 3379 + }, + { + "epoch": 0.07511111111111111, + "grad_norm": 1.315184473991394, + "learning_rate": 0.00018501889308735275, + "loss": 2.1619, + "step": 3380 + }, + { + "epoch": 0.07513333333333333, + "grad_norm": 0.40658947825431824, + "learning_rate": 0.00018501444765503446, + "loss": 0.0454, + "step": 3381 + }, + { + "epoch": 0.07515555555555556, + "grad_norm": 1.5952562093734741, + "learning_rate": 0.00018501000222271617, + "loss": 2.1367, + "step": 3382 + }, + { + "epoch": 0.07517777777777777, + "grad_norm": 1.5650168657302856, + "learning_rate": 0.00018500555679039788, + "loss": 2.464, + "step": 3383 + }, + { + "epoch": 0.0752, + "grad_norm": 1.2832249402999878, + "learning_rate": 0.0001850011113580796, + "loss": 1.8291, + "step": 3384 + }, + { + "epoch": 0.07522222222222222, + "grad_norm": 1.6439323425292969, + "learning_rate": 0.00018499666592576127, + "loss": 2.7184, + "step": 3385 + }, + { + "epoch": 0.07524444444444445, + "grad_norm": 1.3815306425094604, + "learning_rate": 0.000184992220493443, + "loss": 2.1463, + "step": 3386 + }, + { + "epoch": 0.07526666666666666, + "grad_norm": 1.3136014938354492, + "learning_rate": 0.0001849877750611247, + "loss": 1.7231, + "step": 3387 + }, + { + "epoch": 0.07528888888888889, + "grad_norm": 1.4345208406448364, + "learning_rate": 0.0001849833296288064, + "loss": 1.9532, + "step": 3388 + }, + { + "epoch": 0.0753111111111111, + "grad_norm": 1.4720078706741333, + "learning_rate": 0.0001849788841964881, + "loss": 2.0113, + "step": 3389 + }, + { + "epoch": 0.07533333333333334, + "grad_norm": 1.3436717987060547, + "learning_rate": 0.00018497443876416982, + "loss": 1.9456, + "step": 3390 + }, + { + "epoch": 0.07535555555555555, + "grad_norm": 1.5637962818145752, + "learning_rate": 0.00018496999333185153, + "loss": 1.8608, + "step": 3391 + }, + { + "epoch": 0.07537777777777778, + "grad_norm": 1.2686561346054077, + "learning_rate": 0.00018496554789953324, + "loss": 1.625, + "step": 3392 + }, + { + "epoch": 0.0754, + "grad_norm": 1.2913857698440552, + "learning_rate": 0.00018496110246721495, + "loss": 1.8973, + "step": 3393 + }, + { + "epoch": 0.07542222222222222, + "grad_norm": 1.561462640762329, + "learning_rate": 0.00018495665703489666, + "loss": 1.7178, + "step": 3394 + }, + { + "epoch": 0.07544444444444444, + "grad_norm": 1.4434877634048462, + "learning_rate": 0.00018495221160257837, + "loss": 2.1639, + "step": 3395 + }, + { + "epoch": 0.07546666666666667, + "grad_norm": 1.6147836446762085, + "learning_rate": 0.00018494776617026005, + "loss": 1.8649, + "step": 3396 + }, + { + "epoch": 0.07548888888888888, + "grad_norm": 1.618361234664917, + "learning_rate": 0.0001849433207379418, + "loss": 1.9943, + "step": 3397 + }, + { + "epoch": 0.07551111111111111, + "grad_norm": 1.5885554552078247, + "learning_rate": 0.00018493887530562347, + "loss": 1.5315, + "step": 3398 + }, + { + "epoch": 0.07553333333333333, + "grad_norm": 1.674157738685608, + "learning_rate": 0.00018493442987330518, + "loss": 1.8451, + "step": 3399 + }, + { + "epoch": 0.07555555555555556, + "grad_norm": 1.1902797222137451, + "learning_rate": 0.0001849299844409869, + "loss": 0.9804, + "step": 3400 + }, + { + "epoch": 0.07557777777777777, + "grad_norm": 0.760408878326416, + "learning_rate": 0.0001849255390086686, + "loss": 1.4658, + "step": 3401 + }, + { + "epoch": 0.0756, + "grad_norm": 0.8293417096138, + "learning_rate": 0.0001849210935763503, + "loss": 1.2773, + "step": 3402 + }, + { + "epoch": 0.07562222222222222, + "grad_norm": 1.3957338333129883, + "learning_rate": 0.00018491664814403202, + "loss": 0.947, + "step": 3403 + }, + { + "epoch": 0.07564444444444444, + "grad_norm": 1.1274092197418213, + "learning_rate": 0.00018491220271171373, + "loss": 2.4067, + "step": 3404 + }, + { + "epoch": 0.07566666666666666, + "grad_norm": 1.2295225858688354, + "learning_rate": 0.0001849077572793954, + "loss": 2.7018, + "step": 3405 + }, + { + "epoch": 0.07568888888888889, + "grad_norm": 1.263177514076233, + "learning_rate": 0.00018490331184707715, + "loss": 2.4436, + "step": 3406 + }, + { + "epoch": 0.07571111111111112, + "grad_norm": 1.1552603244781494, + "learning_rate": 0.00018489886641475883, + "loss": 2.2545, + "step": 3407 + }, + { + "epoch": 0.07573333333333333, + "grad_norm": 1.1881152391433716, + "learning_rate": 0.00018489442098244054, + "loss": 2.4022, + "step": 3408 + }, + { + "epoch": 0.07575555555555556, + "grad_norm": 1.275702953338623, + "learning_rate": 0.00018488997555012228, + "loss": 1.9104, + "step": 3409 + }, + { + "epoch": 0.07577777777777778, + "grad_norm": 1.3673769235610962, + "learning_rate": 0.00018488553011780396, + "loss": 2.2236, + "step": 3410 + }, + { + "epoch": 0.0758, + "grad_norm": 1.2929093837738037, + "learning_rate": 0.00018488108468548567, + "loss": 2.1843, + "step": 3411 + }, + { + "epoch": 0.07582222222222222, + "grad_norm": 1.359314203262329, + "learning_rate": 0.00018487663925316738, + "loss": 2.1149, + "step": 3412 + }, + { + "epoch": 0.07584444444444445, + "grad_norm": 1.3210586309432983, + "learning_rate": 0.0001848721938208491, + "loss": 2.1579, + "step": 3413 + }, + { + "epoch": 0.07586666666666667, + "grad_norm": 1.0641368627548218, + "learning_rate": 0.0001848677483885308, + "loss": 1.8042, + "step": 3414 + }, + { + "epoch": 0.0758888888888889, + "grad_norm": 1.3975999355316162, + "learning_rate": 0.0001848633029562125, + "loss": 2.6793, + "step": 3415 + }, + { + "epoch": 0.07591111111111111, + "grad_norm": 1.2937467098236084, + "learning_rate": 0.0001848588575238942, + "loss": 2.0272, + "step": 3416 + }, + { + "epoch": 0.07593333333333334, + "grad_norm": 1.3563932180404663, + "learning_rate": 0.00018485441209157593, + "loss": 2.2837, + "step": 3417 + }, + { + "epoch": 0.07595555555555555, + "grad_norm": 1.334378719329834, + "learning_rate": 0.00018484996665925764, + "loss": 2.031, + "step": 3418 + }, + { + "epoch": 0.07597777777777778, + "grad_norm": 1.229436993598938, + "learning_rate": 0.00018484552122693932, + "loss": 1.7034, + "step": 3419 + }, + { + "epoch": 0.076, + "grad_norm": 1.3505103588104248, + "learning_rate": 0.00018484107579462106, + "loss": 1.733, + "step": 3420 + }, + { + "epoch": 0.07602222222222223, + "grad_norm": 1.242598533630371, + "learning_rate": 0.00018483663036230274, + "loss": 2.1144, + "step": 3421 + }, + { + "epoch": 0.07604444444444444, + "grad_norm": 1.3723598718643188, + "learning_rate": 0.00018483218492998445, + "loss": 2.4923, + "step": 3422 + }, + { + "epoch": 0.07606666666666667, + "grad_norm": 1.3054099082946777, + "learning_rate": 0.00018482773949766616, + "loss": 1.854, + "step": 3423 + }, + { + "epoch": 0.07608888888888889, + "grad_norm": 1.492283582687378, + "learning_rate": 0.00018482329406534787, + "loss": 2.3229, + "step": 3424 + }, + { + "epoch": 0.07611111111111112, + "grad_norm": 1.1340991258621216, + "learning_rate": 0.00018481884863302955, + "loss": 1.7517, + "step": 3425 + }, + { + "epoch": 0.07613333333333333, + "grad_norm": 1.4965713024139404, + "learning_rate": 0.00018481440320071129, + "loss": 2.8053, + "step": 3426 + }, + { + "epoch": 0.07615555555555556, + "grad_norm": 1.3556275367736816, + "learning_rate": 0.000184809957768393, + "loss": 1.9228, + "step": 3427 + }, + { + "epoch": 0.07617777777777777, + "grad_norm": 0.9949300289154053, + "learning_rate": 0.00018480551233607468, + "loss": 1.6918, + "step": 3428 + }, + { + "epoch": 0.0762, + "grad_norm": 1.1289187669754028, + "learning_rate": 0.00018480106690375641, + "loss": 2.0651, + "step": 3429 + }, + { + "epoch": 0.07622222222222222, + "grad_norm": 1.2417426109313965, + "learning_rate": 0.0001847966214714381, + "loss": 2.0404, + "step": 3430 + }, + { + "epoch": 0.07624444444444445, + "grad_norm": 1.6051791906356812, + "learning_rate": 0.00018479217603911983, + "loss": 2.5234, + "step": 3431 + }, + { + "epoch": 0.07626666666666666, + "grad_norm": 1.1387208700180054, + "learning_rate": 0.00018478773060680152, + "loss": 0.7454, + "step": 3432 + }, + { + "epoch": 0.07628888888888889, + "grad_norm": 1.3739467859268188, + "learning_rate": 0.00018478328517448323, + "loss": 1.7888, + "step": 3433 + }, + { + "epoch": 0.07631111111111111, + "grad_norm": 1.2826472520828247, + "learning_rate": 0.00018477883974216494, + "loss": 1.9529, + "step": 3434 + }, + { + "epoch": 0.07633333333333334, + "grad_norm": 1.4125449657440186, + "learning_rate": 0.00018477439430984665, + "loss": 2.1709, + "step": 3435 + }, + { + "epoch": 0.07635555555555555, + "grad_norm": 1.268842339515686, + "learning_rate": 0.00018476994887752835, + "loss": 2.0351, + "step": 3436 + }, + { + "epoch": 0.07637777777777778, + "grad_norm": 1.33278489112854, + "learning_rate": 0.00018476550344521006, + "loss": 1.6552, + "step": 3437 + }, + { + "epoch": 0.0764, + "grad_norm": 1.6010874509811401, + "learning_rate": 0.00018476105801289177, + "loss": 1.9434, + "step": 3438 + }, + { + "epoch": 0.07642222222222222, + "grad_norm": 1.6925970315933228, + "learning_rate": 0.00018475661258057346, + "loss": 2.202, + "step": 3439 + }, + { + "epoch": 0.07644444444444444, + "grad_norm": 1.2409571409225464, + "learning_rate": 0.0001847521671482552, + "loss": 2.006, + "step": 3440 + }, + { + "epoch": 0.07646666666666667, + "grad_norm": 1.504262089729309, + "learning_rate": 0.00018474772171593688, + "loss": 2.2944, + "step": 3441 + }, + { + "epoch": 0.07648888888888888, + "grad_norm": 1.1491262912750244, + "learning_rate": 0.00018474327628361859, + "loss": 1.6683, + "step": 3442 + }, + { + "epoch": 0.07651111111111111, + "grad_norm": 1.3025236129760742, + "learning_rate": 0.0001847388308513003, + "loss": 2.0945, + "step": 3443 + }, + { + "epoch": 0.07653333333333333, + "grad_norm": 1.6361143589019775, + "learning_rate": 0.000184734385418982, + "loss": 2.3858, + "step": 3444 + }, + { + "epoch": 0.07655555555555556, + "grad_norm": 1.5140334367752075, + "learning_rate": 0.00018472993998666371, + "loss": 2.0115, + "step": 3445 + }, + { + "epoch": 0.07657777777777777, + "grad_norm": 1.5223745107650757, + "learning_rate": 0.00018472549455434542, + "loss": 2.2974, + "step": 3446 + }, + { + "epoch": 0.0766, + "grad_norm": 1.3797028064727783, + "learning_rate": 0.00018472104912202713, + "loss": 2.0622, + "step": 3447 + }, + { + "epoch": 0.07662222222222222, + "grad_norm": 1.4724992513656616, + "learning_rate": 0.00018471660368970882, + "loss": 1.7984, + "step": 3448 + }, + { + "epoch": 0.07664444444444445, + "grad_norm": 1.4768145084381104, + "learning_rate": 0.00018471215825739055, + "loss": 1.8535, + "step": 3449 + }, + { + "epoch": 0.07666666666666666, + "grad_norm": 1.2939058542251587, + "learning_rate": 0.00018470771282507224, + "loss": 1.9566, + "step": 3450 + }, + { + "epoch": 0.07668888888888889, + "grad_norm": 1.1560622453689575, + "learning_rate": 0.00018470326739275397, + "loss": 2.586, + "step": 3451 + }, + { + "epoch": 0.0767111111111111, + "grad_norm": 0.8209676146507263, + "learning_rate": 0.00018469882196043565, + "loss": 1.1835, + "step": 3452 + }, + { + "epoch": 0.07673333333333333, + "grad_norm": 1.0181770324707031, + "learning_rate": 0.00018469437652811736, + "loss": 1.9395, + "step": 3453 + }, + { + "epoch": 0.07675555555555555, + "grad_norm": 1.1864060163497925, + "learning_rate": 0.00018468993109579907, + "loss": 2.4299, + "step": 3454 + }, + { + "epoch": 0.07677777777777778, + "grad_norm": 1.2893823385238647, + "learning_rate": 0.00018468548566348078, + "loss": 2.2946, + "step": 3455 + }, + { + "epoch": 0.0768, + "grad_norm": 1.1601964235305786, + "learning_rate": 0.0001846810402311625, + "loss": 2.1538, + "step": 3456 + }, + { + "epoch": 0.07682222222222222, + "grad_norm": 1.2344838380813599, + "learning_rate": 0.0001846765947988442, + "loss": 2.1581, + "step": 3457 + }, + { + "epoch": 0.07684444444444445, + "grad_norm": 1.3981658220291138, + "learning_rate": 0.0001846721493665259, + "loss": 2.4107, + "step": 3458 + }, + { + "epoch": 0.07686666666666667, + "grad_norm": 1.286293387413025, + "learning_rate": 0.0001846677039342076, + "loss": 2.1764, + "step": 3459 + }, + { + "epoch": 0.0768888888888889, + "grad_norm": 1.241084337234497, + "learning_rate": 0.00018466325850188933, + "loss": 1.9225, + "step": 3460 + }, + { + "epoch": 0.07691111111111111, + "grad_norm": 1.2202966213226318, + "learning_rate": 0.00018465881306957101, + "loss": 1.8707, + "step": 3461 + }, + { + "epoch": 0.07693333333333334, + "grad_norm": 1.1628791093826294, + "learning_rate": 0.00018465436763725272, + "loss": 2.0193, + "step": 3462 + }, + { + "epoch": 0.07695555555555555, + "grad_norm": 1.1507421731948853, + "learning_rate": 0.00018464992220493443, + "loss": 2.0882, + "step": 3463 + }, + { + "epoch": 0.07697777777777778, + "grad_norm": 1.1908776760101318, + "learning_rate": 0.00018464547677261614, + "loss": 2.102, + "step": 3464 + }, + { + "epoch": 0.077, + "grad_norm": 1.1009654998779297, + "learning_rate": 0.00018464103134029785, + "loss": 2.0613, + "step": 3465 + }, + { + "epoch": 0.07702222222222223, + "grad_norm": 1.2995816469192505, + "learning_rate": 0.00018463658590797956, + "loss": 1.8517, + "step": 3466 + }, + { + "epoch": 0.07704444444444444, + "grad_norm": 1.174272894859314, + "learning_rate": 0.00018463214047566127, + "loss": 1.5513, + "step": 3467 + }, + { + "epoch": 0.07706666666666667, + "grad_norm": 1.3458250761032104, + "learning_rate": 0.00018462769504334295, + "loss": 1.3634, + "step": 3468 + }, + { + "epoch": 0.07708888888888889, + "grad_norm": 1.2003450393676758, + "learning_rate": 0.0001846232496110247, + "loss": 1.9655, + "step": 3469 + }, + { + "epoch": 0.07711111111111112, + "grad_norm": 1.3843733072280884, + "learning_rate": 0.00018461880417870637, + "loss": 2.0414, + "step": 3470 + }, + { + "epoch": 0.07713333333333333, + "grad_norm": 1.1063510179519653, + "learning_rate": 0.0001846143587463881, + "loss": 1.9021, + "step": 3471 + }, + { + "epoch": 0.07715555555555556, + "grad_norm": 1.4000247716903687, + "learning_rate": 0.0001846099133140698, + "loss": 2.0526, + "step": 3472 + }, + { + "epoch": 0.07717777777777778, + "grad_norm": 1.1991673707962036, + "learning_rate": 0.0001846054678817515, + "loss": 1.8678, + "step": 3473 + }, + { + "epoch": 0.0772, + "grad_norm": 1.225142240524292, + "learning_rate": 0.0001846010224494332, + "loss": 1.9452, + "step": 3474 + }, + { + "epoch": 0.07722222222222222, + "grad_norm": 1.9785882234573364, + "learning_rate": 0.00018459657701711492, + "loss": 2.0528, + "step": 3475 + }, + { + "epoch": 0.07724444444444445, + "grad_norm": 1.7890123128890991, + "learning_rate": 0.00018459213158479663, + "loss": 1.0974, + "step": 3476 + }, + { + "epoch": 0.07726666666666666, + "grad_norm": 1.4988901615142822, + "learning_rate": 0.00018458768615247834, + "loss": 2.0531, + "step": 3477 + }, + { + "epoch": 0.0772888888888889, + "grad_norm": 1.367693543434143, + "learning_rate": 0.00018458324072016005, + "loss": 2.3504, + "step": 3478 + }, + { + "epoch": 0.07731111111111111, + "grad_norm": 1.5607545375823975, + "learning_rate": 0.00018457879528784173, + "loss": 1.6545, + "step": 3479 + }, + { + "epoch": 0.07733333333333334, + "grad_norm": 1.2028279304504395, + "learning_rate": 0.00018457434985552347, + "loss": 1.9468, + "step": 3480 + }, + { + "epoch": 0.07735555555555555, + "grad_norm": 1.423886775970459, + "learning_rate": 0.00018456990442320515, + "loss": 1.889, + "step": 3481 + }, + { + "epoch": 0.07737777777777778, + "grad_norm": 0.7290233373641968, + "learning_rate": 0.00018456545899088686, + "loss": 0.3994, + "step": 3482 + }, + { + "epoch": 0.0774, + "grad_norm": 1.3803188800811768, + "learning_rate": 0.0001845610135585686, + "loss": 2.0634, + "step": 3483 + }, + { + "epoch": 0.07742222222222223, + "grad_norm": 1.4180113077163696, + "learning_rate": 0.00018455656812625028, + "loss": 2.3882, + "step": 3484 + }, + { + "epoch": 0.07744444444444444, + "grad_norm": 1.3056670427322388, + "learning_rate": 0.000184552122693932, + "loss": 1.9961, + "step": 3485 + }, + { + "epoch": 0.07746666666666667, + "grad_norm": 1.4707244634628296, + "learning_rate": 0.0001845476772616137, + "loss": 1.9851, + "step": 3486 + }, + { + "epoch": 0.07748888888888888, + "grad_norm": 1.6690611839294434, + "learning_rate": 0.0001845432318292954, + "loss": 2.3228, + "step": 3487 + }, + { + "epoch": 0.07751111111111111, + "grad_norm": 1.2367544174194336, + "learning_rate": 0.00018453878639697712, + "loss": 1.8545, + "step": 3488 + }, + { + "epoch": 0.07753333333333333, + "grad_norm": 1.2950916290283203, + "learning_rate": 0.00018453434096465883, + "loss": 2.1296, + "step": 3489 + }, + { + "epoch": 0.07755555555555556, + "grad_norm": 1.189381718635559, + "learning_rate": 0.0001845298955323405, + "loss": 0.7387, + "step": 3490 + }, + { + "epoch": 0.07757777777777777, + "grad_norm": 1.1289829015731812, + "learning_rate": 0.00018452545010002225, + "loss": 1.6084, + "step": 3491 + }, + { + "epoch": 0.0776, + "grad_norm": 1.1105577945709229, + "learning_rate": 0.00018452100466770396, + "loss": 1.6848, + "step": 3492 + }, + { + "epoch": 0.07762222222222222, + "grad_norm": 1.3867590427398682, + "learning_rate": 0.00018451655923538564, + "loss": 2.1979, + "step": 3493 + }, + { + "epoch": 0.07764444444444445, + "grad_norm": 1.3577754497528076, + "learning_rate": 0.00018451211380306738, + "loss": 2.1895, + "step": 3494 + }, + { + "epoch": 0.07766666666666666, + "grad_norm": 1.1534167528152466, + "learning_rate": 0.00018450766837074906, + "loss": 1.3549, + "step": 3495 + }, + { + "epoch": 0.07768888888888889, + "grad_norm": 1.7601591348648071, + "learning_rate": 0.00018450322293843077, + "loss": 2.0725, + "step": 3496 + }, + { + "epoch": 0.0777111111111111, + "grad_norm": 1.51445734500885, + "learning_rate": 0.00018449877750611248, + "loss": 2.457, + "step": 3497 + }, + { + "epoch": 0.07773333333333333, + "grad_norm": 1.122924566268921, + "learning_rate": 0.0001844943320737942, + "loss": 1.0034, + "step": 3498 + }, + { + "epoch": 0.07775555555555555, + "grad_norm": 1.2729206085205078, + "learning_rate": 0.00018448988664147587, + "loss": 1.4905, + "step": 3499 + }, + { + "epoch": 0.07777777777777778, + "grad_norm": 1.3704026937484741, + "learning_rate": 0.0001844854412091576, + "loss": 1.7086, + "step": 3500 + }, + { + "epoch": 0.0778, + "grad_norm": 1.169458031654358, + "learning_rate": 0.00018448099577683932, + "loss": 2.3989, + "step": 3501 + }, + { + "epoch": 0.07782222222222222, + "grad_norm": 1.2413055896759033, + "learning_rate": 0.000184476550344521, + "loss": 2.8056, + "step": 3502 + }, + { + "epoch": 0.07784444444444444, + "grad_norm": 0.9283324480056763, + "learning_rate": 0.00018447210491220274, + "loss": 2.1868, + "step": 3503 + }, + { + "epoch": 0.07786666666666667, + "grad_norm": 1.0944463014602661, + "learning_rate": 0.00018446765947988442, + "loss": 2.4525, + "step": 3504 + }, + { + "epoch": 0.07788888888888888, + "grad_norm": 1.040734052658081, + "learning_rate": 0.00018446321404756613, + "loss": 2.456, + "step": 3505 + }, + { + "epoch": 0.07791111111111111, + "grad_norm": 1.2531497478485107, + "learning_rate": 0.00018445876861524784, + "loss": 2.1874, + "step": 3506 + }, + { + "epoch": 0.07793333333333333, + "grad_norm": 1.0920476913452148, + "learning_rate": 0.00018445432318292955, + "loss": 2.5354, + "step": 3507 + }, + { + "epoch": 0.07795555555555556, + "grad_norm": 0.9596732258796692, + "learning_rate": 0.00018444987775061126, + "loss": 2.184, + "step": 3508 + }, + { + "epoch": 0.07797777777777777, + "grad_norm": 1.0432252883911133, + "learning_rate": 0.00018444543231829297, + "loss": 2.3774, + "step": 3509 + }, + { + "epoch": 0.078, + "grad_norm": 1.034541368484497, + "learning_rate": 0.00018444098688597468, + "loss": 2.2227, + "step": 3510 + }, + { + "epoch": 0.07802222222222223, + "grad_norm": 1.1673376560211182, + "learning_rate": 0.0001844365414536564, + "loss": 2.1715, + "step": 3511 + }, + { + "epoch": 0.07804444444444444, + "grad_norm": 1.13186514377594, + "learning_rate": 0.0001844320960213381, + "loss": 2.2296, + "step": 3512 + }, + { + "epoch": 0.07806666666666667, + "grad_norm": 1.1876461505889893, + "learning_rate": 0.00018442765058901978, + "loss": 1.1278, + "step": 3513 + }, + { + "epoch": 0.07808888888888889, + "grad_norm": 1.0793194770812988, + "learning_rate": 0.00018442320515670152, + "loss": 2.1435, + "step": 3514 + }, + { + "epoch": 0.07811111111111112, + "grad_norm": 1.3283754587173462, + "learning_rate": 0.0001844187597243832, + "loss": 2.4194, + "step": 3515 + }, + { + "epoch": 0.07813333333333333, + "grad_norm": 1.0138556957244873, + "learning_rate": 0.0001844143142920649, + "loss": 1.8808, + "step": 3516 + }, + { + "epoch": 0.07815555555555556, + "grad_norm": 1.2677544355392456, + "learning_rate": 0.00018440986885974662, + "loss": 2.2068, + "step": 3517 + }, + { + "epoch": 0.07817777777777778, + "grad_norm": 1.4461482763290405, + "learning_rate": 0.00018440542342742833, + "loss": 2.0152, + "step": 3518 + }, + { + "epoch": 0.0782, + "grad_norm": 1.2722433805465698, + "learning_rate": 0.00018440097799511004, + "loss": 2.3119, + "step": 3519 + }, + { + "epoch": 0.07822222222222222, + "grad_norm": 1.3366338014602661, + "learning_rate": 0.00018439653256279175, + "loss": 1.3402, + "step": 3520 + }, + { + "epoch": 0.07824444444444445, + "grad_norm": 1.1577637195587158, + "learning_rate": 0.00018439208713047346, + "loss": 2.1692, + "step": 3521 + }, + { + "epoch": 0.07826666666666666, + "grad_norm": 1.166265845298767, + "learning_rate": 0.00018438764169815514, + "loss": 2.1591, + "step": 3522 + }, + { + "epoch": 0.0782888888888889, + "grad_norm": 1.3110215663909912, + "learning_rate": 0.00018438319626583687, + "loss": 2.0267, + "step": 3523 + }, + { + "epoch": 0.07831111111111111, + "grad_norm": 1.2503719329833984, + "learning_rate": 0.00018437875083351856, + "loss": 2.0863, + "step": 3524 + }, + { + "epoch": 0.07833333333333334, + "grad_norm": 1.5013507604599, + "learning_rate": 0.00018437430540120027, + "loss": 1.7642, + "step": 3525 + }, + { + "epoch": 0.07835555555555555, + "grad_norm": 1.0705934762954712, + "learning_rate": 0.00018436985996888198, + "loss": 1.8557, + "step": 3526 + }, + { + "epoch": 0.07837777777777778, + "grad_norm": 1.474947214126587, + "learning_rate": 0.00018436541453656369, + "loss": 2.2498, + "step": 3527 + }, + { + "epoch": 0.0784, + "grad_norm": 1.130644679069519, + "learning_rate": 0.0001843609691042454, + "loss": 2.1409, + "step": 3528 + }, + { + "epoch": 0.07842222222222223, + "grad_norm": 1.279459834098816, + "learning_rate": 0.0001843565236719271, + "loss": 1.2218, + "step": 3529 + }, + { + "epoch": 0.07844444444444444, + "grad_norm": 1.57211434841156, + "learning_rate": 0.00018435207823960882, + "loss": 2.0618, + "step": 3530 + }, + { + "epoch": 0.07846666666666667, + "grad_norm": 1.3878650665283203, + "learning_rate": 0.00018434763280729052, + "loss": 2.3256, + "step": 3531 + }, + { + "epoch": 0.07848888888888889, + "grad_norm": 1.353080153465271, + "learning_rate": 0.00018434318737497223, + "loss": 2.0595, + "step": 3532 + }, + { + "epoch": 0.07851111111111111, + "grad_norm": 1.2658865451812744, + "learning_rate": 0.00018433874194265392, + "loss": 1.9995, + "step": 3533 + }, + { + "epoch": 0.07853333333333333, + "grad_norm": 1.3999888896942139, + "learning_rate": 0.00018433429651033565, + "loss": 2.3547, + "step": 3534 + }, + { + "epoch": 0.07855555555555556, + "grad_norm": 1.3804991245269775, + "learning_rate": 0.00018432985107801734, + "loss": 2.2289, + "step": 3535 + }, + { + "epoch": 0.07857777777777777, + "grad_norm": 1.2219804525375366, + "learning_rate": 0.00018432540564569905, + "loss": 1.7369, + "step": 3536 + }, + { + "epoch": 0.0786, + "grad_norm": 1.2095115184783936, + "learning_rate": 0.00018432096021338076, + "loss": 1.8324, + "step": 3537 + }, + { + "epoch": 0.07862222222222222, + "grad_norm": 1.2143144607543945, + "learning_rate": 0.00018431651478106247, + "loss": 1.5044, + "step": 3538 + }, + { + "epoch": 0.07864444444444445, + "grad_norm": 1.325598955154419, + "learning_rate": 0.00018431206934874417, + "loss": 1.8022, + "step": 3539 + }, + { + "epoch": 0.07866666666666666, + "grad_norm": 1.554053544998169, + "learning_rate": 0.00018430762391642588, + "loss": 2.484, + "step": 3540 + }, + { + "epoch": 0.07868888888888889, + "grad_norm": 1.298063039779663, + "learning_rate": 0.0001843031784841076, + "loss": 1.7501, + "step": 3541 + }, + { + "epoch": 0.0787111111111111, + "grad_norm": 1.4226232767105103, + "learning_rate": 0.00018429873305178928, + "loss": 1.8218, + "step": 3542 + }, + { + "epoch": 0.07873333333333334, + "grad_norm": 1.4770629405975342, + "learning_rate": 0.000184294287619471, + "loss": 2.0258, + "step": 3543 + }, + { + "epoch": 0.07875555555555555, + "grad_norm": 1.7609769105911255, + "learning_rate": 0.0001842898421871527, + "loss": 2.3438, + "step": 3544 + }, + { + "epoch": 0.07877777777777778, + "grad_norm": 1.478041648864746, + "learning_rate": 0.00018428539675483443, + "loss": 1.9367, + "step": 3545 + }, + { + "epoch": 0.0788, + "grad_norm": 1.4286446571350098, + "learning_rate": 0.00018428095132251611, + "loss": 1.7178, + "step": 3546 + }, + { + "epoch": 0.07882222222222222, + "grad_norm": 1.3285038471221924, + "learning_rate": 0.00018427650589019782, + "loss": 1.9675, + "step": 3547 + }, + { + "epoch": 0.07884444444444444, + "grad_norm": 1.2517716884613037, + "learning_rate": 0.00018427206045787953, + "loss": 1.6969, + "step": 3548 + }, + { + "epoch": 0.07886666666666667, + "grad_norm": 1.3864372968673706, + "learning_rate": 0.00018426761502556124, + "loss": 1.8481, + "step": 3549 + }, + { + "epoch": 0.07888888888888888, + "grad_norm": 1.818996787071228, + "learning_rate": 0.00018426316959324295, + "loss": 1.8749, + "step": 3550 + }, + { + "epoch": 0.07891111111111111, + "grad_norm": 1.0214799642562866, + "learning_rate": 0.00018425872416092466, + "loss": 2.3813, + "step": 3551 + }, + { + "epoch": 0.07893333333333333, + "grad_norm": 1.1543335914611816, + "learning_rate": 0.00018425427872860637, + "loss": 2.9633, + "step": 3552 + }, + { + "epoch": 0.07895555555555556, + "grad_norm": 1.0040719509124756, + "learning_rate": 0.00018424983329628806, + "loss": 2.354, + "step": 3553 + }, + { + "epoch": 0.07897777777777777, + "grad_norm": 1.2549113035202026, + "learning_rate": 0.0001842453878639698, + "loss": 2.1434, + "step": 3554 + }, + { + "epoch": 0.079, + "grad_norm": 1.2673051357269287, + "learning_rate": 0.00018424094243165147, + "loss": 2.0013, + "step": 3555 + }, + { + "epoch": 0.07902222222222222, + "grad_norm": 1.1167728900909424, + "learning_rate": 0.00018423649699933318, + "loss": 1.9597, + "step": 3556 + }, + { + "epoch": 0.07904444444444444, + "grad_norm": 1.2686415910720825, + "learning_rate": 0.00018423205156701492, + "loss": 2.2501, + "step": 3557 + }, + { + "epoch": 0.07906666666666666, + "grad_norm": 1.0964961051940918, + "learning_rate": 0.0001842276061346966, + "loss": 2.2192, + "step": 3558 + }, + { + "epoch": 0.07908888888888889, + "grad_norm": 1.236358880996704, + "learning_rate": 0.0001842231607023783, + "loss": 2.4522, + "step": 3559 + }, + { + "epoch": 0.0791111111111111, + "grad_norm": 1.4324880838394165, + "learning_rate": 0.00018421871527006002, + "loss": 2.5656, + "step": 3560 + }, + { + "epoch": 0.07913333333333333, + "grad_norm": 1.134580135345459, + "learning_rate": 0.00018421426983774173, + "loss": 2.2437, + "step": 3561 + }, + { + "epoch": 0.07915555555555556, + "grad_norm": 1.2555785179138184, + "learning_rate": 0.00018420982440542341, + "loss": 2.4751, + "step": 3562 + }, + { + "epoch": 0.07917777777777778, + "grad_norm": 1.039559245109558, + "learning_rate": 0.00018420537897310515, + "loss": 1.6947, + "step": 3563 + }, + { + "epoch": 0.0792, + "grad_norm": 1.424818992614746, + "learning_rate": 0.00018420093354078683, + "loss": 1.8682, + "step": 3564 + }, + { + "epoch": 0.07922222222222222, + "grad_norm": 1.4339795112609863, + "learning_rate": 0.00018419648810846857, + "loss": 2.4491, + "step": 3565 + }, + { + "epoch": 0.07924444444444445, + "grad_norm": 1.4758858680725098, + "learning_rate": 0.00018419204267615028, + "loss": 2.4947, + "step": 3566 + }, + { + "epoch": 0.07926666666666667, + "grad_norm": 1.2654050588607788, + "learning_rate": 0.00018418759724383196, + "loss": 2.3357, + "step": 3567 + }, + { + "epoch": 0.0792888888888889, + "grad_norm": 1.2733409404754639, + "learning_rate": 0.0001841831518115137, + "loss": 1.6436, + "step": 3568 + }, + { + "epoch": 0.07931111111111111, + "grad_norm": 1.3263685703277588, + "learning_rate": 0.00018417870637919538, + "loss": 1.9048, + "step": 3569 + }, + { + "epoch": 0.07933333333333334, + "grad_norm": 1.2005525827407837, + "learning_rate": 0.0001841742609468771, + "loss": 2.1377, + "step": 3570 + }, + { + "epoch": 0.07935555555555555, + "grad_norm": 1.3363029956817627, + "learning_rate": 0.0001841698155145588, + "loss": 1.865, + "step": 3571 + }, + { + "epoch": 0.07937777777777778, + "grad_norm": 1.3493443727493286, + "learning_rate": 0.0001841653700822405, + "loss": 1.879, + "step": 3572 + }, + { + "epoch": 0.0794, + "grad_norm": 1.4277113676071167, + "learning_rate": 0.0001841609246499222, + "loss": 2.0551, + "step": 3573 + }, + { + "epoch": 0.07942222222222223, + "grad_norm": 1.341077446937561, + "learning_rate": 0.00018415647921760393, + "loss": 1.5885, + "step": 3574 + }, + { + "epoch": 0.07944444444444444, + "grad_norm": 1.4764906167984009, + "learning_rate": 0.00018415203378528564, + "loss": 2.3138, + "step": 3575 + }, + { + "epoch": 0.07946666666666667, + "grad_norm": 1.2619186639785767, + "learning_rate": 0.00018414758835296732, + "loss": 2.0172, + "step": 3576 + }, + { + "epoch": 0.07948888888888889, + "grad_norm": 1.494451642036438, + "learning_rate": 0.00018414314292064906, + "loss": 2.2375, + "step": 3577 + }, + { + "epoch": 0.07951111111111112, + "grad_norm": 1.520302176475525, + "learning_rate": 0.00018413869748833074, + "loss": 2.4607, + "step": 3578 + }, + { + "epoch": 0.07953333333333333, + "grad_norm": 1.2348612546920776, + "learning_rate": 0.00018413425205601245, + "loss": 1.9818, + "step": 3579 + }, + { + "epoch": 0.07955555555555556, + "grad_norm": 1.3702938556671143, + "learning_rate": 0.00018412980662369416, + "loss": 2.2337, + "step": 3580 + }, + { + "epoch": 0.07957777777777778, + "grad_norm": 1.4724692106246948, + "learning_rate": 0.00018412536119137587, + "loss": 1.7561, + "step": 3581 + }, + { + "epoch": 0.0796, + "grad_norm": 1.8898265361785889, + "learning_rate": 0.00018412091575905755, + "loss": 2.2726, + "step": 3582 + }, + { + "epoch": 0.07962222222222222, + "grad_norm": 1.3017092943191528, + "learning_rate": 0.0001841164703267393, + "loss": 1.938, + "step": 3583 + }, + { + "epoch": 0.07964444444444445, + "grad_norm": 1.4305883646011353, + "learning_rate": 0.000184112024894421, + "loss": 2.0982, + "step": 3584 + }, + { + "epoch": 0.07966666666666666, + "grad_norm": 1.348796010017395, + "learning_rate": 0.0001841075794621027, + "loss": 2.3916, + "step": 3585 + }, + { + "epoch": 0.07968888888888889, + "grad_norm": 1.1848704814910889, + "learning_rate": 0.00018410313402978442, + "loss": 1.8635, + "step": 3586 + }, + { + "epoch": 0.07971111111111111, + "grad_norm": 1.4129849672317505, + "learning_rate": 0.0001840986885974661, + "loss": 1.8977, + "step": 3587 + }, + { + "epoch": 0.07973333333333334, + "grad_norm": 1.5966459512710571, + "learning_rate": 0.00018409424316514784, + "loss": 2.2823, + "step": 3588 + }, + { + "epoch": 0.07975555555555555, + "grad_norm": 1.3832221031188965, + "learning_rate": 0.00018408979773282952, + "loss": 1.7791, + "step": 3589 + }, + { + "epoch": 0.07977777777777778, + "grad_norm": 1.5868730545043945, + "learning_rate": 0.00018408535230051123, + "loss": 1.6686, + "step": 3590 + }, + { + "epoch": 0.0798, + "grad_norm": 1.3498882055282593, + "learning_rate": 0.00018408090686819294, + "loss": 2.0068, + "step": 3591 + }, + { + "epoch": 0.07982222222222222, + "grad_norm": 1.481881022453308, + "learning_rate": 0.00018407646143587465, + "loss": 2.3949, + "step": 3592 + }, + { + "epoch": 0.07984444444444444, + "grad_norm": 1.6734768152236938, + "learning_rate": 0.00018407201600355636, + "loss": 2.2972, + "step": 3593 + }, + { + "epoch": 0.07986666666666667, + "grad_norm": 1.2737871408462524, + "learning_rate": 0.00018406757057123807, + "loss": 1.6486, + "step": 3594 + }, + { + "epoch": 0.07988888888888888, + "grad_norm": 1.4712985754013062, + "learning_rate": 0.00018406312513891978, + "loss": 1.9414, + "step": 3595 + }, + { + "epoch": 0.07991111111111111, + "grad_norm": 1.5442465543746948, + "learning_rate": 0.00018405867970660146, + "loss": 2.4666, + "step": 3596 + }, + { + "epoch": 0.07993333333333333, + "grad_norm": 1.4952188730239868, + "learning_rate": 0.0001840542342742832, + "loss": 1.9409, + "step": 3597 + }, + { + "epoch": 0.07995555555555556, + "grad_norm": 1.2679736614227295, + "learning_rate": 0.00018404978884196488, + "loss": 1.6859, + "step": 3598 + }, + { + "epoch": 0.07997777777777777, + "grad_norm": 1.4676672220230103, + "learning_rate": 0.0001840453434096466, + "loss": 1.5231, + "step": 3599 + }, + { + "epoch": 0.08, + "grad_norm": 1.2791333198547363, + "learning_rate": 0.0001840408979773283, + "loss": 1.1194, + "step": 3600 + }, + { + "epoch": 0.08002222222222222, + "grad_norm": 0.7651627659797668, + "learning_rate": 0.00018403645254501, + "loss": 1.0419, + "step": 3601 + }, + { + "epoch": 0.08004444444444445, + "grad_norm": 1.0922318696975708, + "learning_rate": 0.00018403200711269172, + "loss": 2.7505, + "step": 3602 + }, + { + "epoch": 0.08006666666666666, + "grad_norm": 1.0344644784927368, + "learning_rate": 0.00018402756168037343, + "loss": 2.0838, + "step": 3603 + }, + { + "epoch": 0.08008888888888889, + "grad_norm": 1.3135956525802612, + "learning_rate": 0.00018402311624805514, + "loss": 2.3239, + "step": 3604 + }, + { + "epoch": 0.0801111111111111, + "grad_norm": 1.2219730615615845, + "learning_rate": 0.00018401867081573685, + "loss": 2.454, + "step": 3605 + }, + { + "epoch": 0.08013333333333333, + "grad_norm": 1.4561711549758911, + "learning_rate": 0.00018401422538341856, + "loss": 2.2534, + "step": 3606 + }, + { + "epoch": 0.08015555555555555, + "grad_norm": 1.7876352071762085, + "learning_rate": 0.00018400977995110024, + "loss": 2.3091, + "step": 3607 + }, + { + "epoch": 0.08017777777777778, + "grad_norm": 1.3025296926498413, + "learning_rate": 0.00018400533451878198, + "loss": 1.9115, + "step": 3608 + }, + { + "epoch": 0.0802, + "grad_norm": 1.2429578304290771, + "learning_rate": 0.00018400088908646366, + "loss": 2.3551, + "step": 3609 + }, + { + "epoch": 0.08022222222222222, + "grad_norm": 1.2455662488937378, + "learning_rate": 0.00018399644365414537, + "loss": 1.9897, + "step": 3610 + }, + { + "epoch": 0.08024444444444444, + "grad_norm": 1.1080116033554077, + "learning_rate": 0.00018399199822182708, + "loss": 2.0657, + "step": 3611 + }, + { + "epoch": 0.08026666666666667, + "grad_norm": 1.262728214263916, + "learning_rate": 0.0001839875527895088, + "loss": 1.9923, + "step": 3612 + }, + { + "epoch": 0.0802888888888889, + "grad_norm": 1.3619056940078735, + "learning_rate": 0.0001839831073571905, + "loss": 2.532, + "step": 3613 + }, + { + "epoch": 0.08031111111111111, + "grad_norm": 1.1964768171310425, + "learning_rate": 0.0001839786619248722, + "loss": 1.7188, + "step": 3614 + }, + { + "epoch": 0.08033333333333334, + "grad_norm": 1.2625559568405151, + "learning_rate": 0.00018397421649255392, + "loss": 2.0738, + "step": 3615 + }, + { + "epoch": 0.08035555555555556, + "grad_norm": 1.1889249086380005, + "learning_rate": 0.0001839697710602356, + "loss": 1.623, + "step": 3616 + }, + { + "epoch": 0.08037777777777778, + "grad_norm": 1.612296462059021, + "learning_rate": 0.00018396532562791734, + "loss": 1.7417, + "step": 3617 + }, + { + "epoch": 0.0804, + "grad_norm": 1.2993457317352295, + "learning_rate": 0.00018396088019559902, + "loss": 1.9965, + "step": 3618 + }, + { + "epoch": 0.08042222222222223, + "grad_norm": 1.466341495513916, + "learning_rate": 0.00018395643476328073, + "loss": 2.2562, + "step": 3619 + }, + { + "epoch": 0.08044444444444444, + "grad_norm": 1.3218737840652466, + "learning_rate": 0.00018395198933096244, + "loss": 2.2346, + "step": 3620 + }, + { + "epoch": 0.08046666666666667, + "grad_norm": 1.260883092880249, + "learning_rate": 0.00018394754389864415, + "loss": 1.9729, + "step": 3621 + }, + { + "epoch": 0.08048888888888889, + "grad_norm": 1.4265375137329102, + "learning_rate": 0.00018394309846632586, + "loss": 2.0401, + "step": 3622 + }, + { + "epoch": 0.08051111111111112, + "grad_norm": 1.3545376062393188, + "learning_rate": 0.00018393865303400757, + "loss": 2.4058, + "step": 3623 + }, + { + "epoch": 0.08053333333333333, + "grad_norm": 1.4232828617095947, + "learning_rate": 0.00018393420760168928, + "loss": 2.2824, + "step": 3624 + }, + { + "epoch": 0.08055555555555556, + "grad_norm": 0.9449294209480286, + "learning_rate": 0.00018392976216937099, + "loss": 0.0438, + "step": 3625 + }, + { + "epoch": 0.08057777777777778, + "grad_norm": 1.272674560546875, + "learning_rate": 0.0001839253167370527, + "loss": 2.1593, + "step": 3626 + }, + { + "epoch": 0.0806, + "grad_norm": 1.3517484664916992, + "learning_rate": 0.00018392087130473438, + "loss": 2.211, + "step": 3627 + }, + { + "epoch": 0.08062222222222222, + "grad_norm": 1.4165470600128174, + "learning_rate": 0.00018391642587241611, + "loss": 2.1065, + "step": 3628 + }, + { + "epoch": 0.08064444444444445, + "grad_norm": 1.3025490045547485, + "learning_rate": 0.0001839119804400978, + "loss": 1.9093, + "step": 3629 + }, + { + "epoch": 0.08066666666666666, + "grad_norm": 1.5448799133300781, + "learning_rate": 0.0001839075350077795, + "loss": 1.6284, + "step": 3630 + }, + { + "epoch": 0.0806888888888889, + "grad_norm": 1.2619613409042358, + "learning_rate": 0.00018390308957546124, + "loss": 1.8745, + "step": 3631 + }, + { + "epoch": 0.08071111111111111, + "grad_norm": 1.32402503490448, + "learning_rate": 0.00018389864414314293, + "loss": 2.0141, + "step": 3632 + }, + { + "epoch": 0.08073333333333334, + "grad_norm": 1.556218147277832, + "learning_rate": 0.00018389419871082463, + "loss": 1.2302, + "step": 3633 + }, + { + "epoch": 0.08075555555555555, + "grad_norm": 1.385074257850647, + "learning_rate": 0.00018388975327850634, + "loss": 2.2311, + "step": 3634 + }, + { + "epoch": 0.08077777777777778, + "grad_norm": 1.218326449394226, + "learning_rate": 0.00018388530784618805, + "loss": 2.0609, + "step": 3635 + }, + { + "epoch": 0.0808, + "grad_norm": 1.3882129192352295, + "learning_rate": 0.00018388086241386974, + "loss": 1.8298, + "step": 3636 + }, + { + "epoch": 0.08082222222222223, + "grad_norm": 1.1702189445495605, + "learning_rate": 0.00018387641698155147, + "loss": 1.7865, + "step": 3637 + }, + { + "epoch": 0.08084444444444444, + "grad_norm": 1.167648196220398, + "learning_rate": 0.00018387197154923316, + "loss": 1.1477, + "step": 3638 + }, + { + "epoch": 0.08086666666666667, + "grad_norm": 1.306415319442749, + "learning_rate": 0.00018386752611691487, + "loss": 1.7242, + "step": 3639 + }, + { + "epoch": 0.08088888888888889, + "grad_norm": 1.4472483396530151, + "learning_rate": 0.0001838630806845966, + "loss": 1.9575, + "step": 3640 + }, + { + "epoch": 0.08091111111111111, + "grad_norm": 1.3238056898117065, + "learning_rate": 0.00018385863525227828, + "loss": 1.7657, + "step": 3641 + }, + { + "epoch": 0.08093333333333333, + "grad_norm": 1.3369293212890625, + "learning_rate": 0.00018385418981996002, + "loss": 2.0152, + "step": 3642 + }, + { + "epoch": 0.08095555555555556, + "grad_norm": 1.4356917142868042, + "learning_rate": 0.0001838497443876417, + "loss": 2.0038, + "step": 3643 + }, + { + "epoch": 0.08097777777777777, + "grad_norm": 1.1998122930526733, + "learning_rate": 0.00018384529895532341, + "loss": 1.6939, + "step": 3644 + }, + { + "epoch": 0.081, + "grad_norm": 1.652801275253296, + "learning_rate": 0.00018384085352300512, + "loss": 1.8866, + "step": 3645 + }, + { + "epoch": 0.08102222222222222, + "grad_norm": 1.295859456062317, + "learning_rate": 0.00018383640809068683, + "loss": 1.6522, + "step": 3646 + }, + { + "epoch": 0.08104444444444445, + "grad_norm": 1.3272781372070312, + "learning_rate": 0.00018383196265836852, + "loss": 1.7942, + "step": 3647 + }, + { + "epoch": 0.08106666666666666, + "grad_norm": 1.575764775276184, + "learning_rate": 0.00018382751722605025, + "loss": 1.0909, + "step": 3648 + }, + { + "epoch": 0.08108888888888889, + "grad_norm": 1.3105343580245972, + "learning_rate": 0.00018382307179373196, + "loss": 1.5595, + "step": 3649 + }, + { + "epoch": 0.0811111111111111, + "grad_norm": 1.3594954013824463, + "learning_rate": 0.00018381862636141364, + "loss": 0.3612, + "step": 3650 + }, + { + "epoch": 0.08113333333333334, + "grad_norm": 1.2009679079055786, + "learning_rate": 0.00018381418092909538, + "loss": 1.3815, + "step": 3651 + }, + { + "epoch": 0.08115555555555555, + "grad_norm": 1.504106879234314, + "learning_rate": 0.00018380973549677706, + "loss": 2.34, + "step": 3652 + }, + { + "epoch": 0.08117777777777778, + "grad_norm": 1.378600001335144, + "learning_rate": 0.00018380529006445877, + "loss": 2.2169, + "step": 3653 + }, + { + "epoch": 0.0812, + "grad_norm": 1.3567134141921997, + "learning_rate": 0.00018380084463214048, + "loss": 2.0908, + "step": 3654 + }, + { + "epoch": 0.08122222222222222, + "grad_norm": 1.2840567827224731, + "learning_rate": 0.0001837963991998222, + "loss": 2.4718, + "step": 3655 + }, + { + "epoch": 0.08124444444444444, + "grad_norm": 1.2164989709854126, + "learning_rate": 0.00018379195376750387, + "loss": 2.1918, + "step": 3656 + }, + { + "epoch": 0.08126666666666667, + "grad_norm": 1.2970621585845947, + "learning_rate": 0.0001837875083351856, + "loss": 2.5404, + "step": 3657 + }, + { + "epoch": 0.08128888888888888, + "grad_norm": 1.6917527914047241, + "learning_rate": 0.00018378306290286732, + "loss": 2.6029, + "step": 3658 + }, + { + "epoch": 0.08131111111111111, + "grad_norm": 1.423792839050293, + "learning_rate": 0.00018377861747054903, + "loss": 2.3866, + "step": 3659 + }, + { + "epoch": 0.08133333333333333, + "grad_norm": 1.0677741765975952, + "learning_rate": 0.00018377417203823074, + "loss": 1.837, + "step": 3660 + }, + { + "epoch": 0.08135555555555556, + "grad_norm": 1.362773060798645, + "learning_rate": 0.00018376972660591242, + "loss": 2.1794, + "step": 3661 + }, + { + "epoch": 0.08137777777777777, + "grad_norm": 1.1057037115097046, + "learning_rate": 0.00018376528117359416, + "loss": 1.7721, + "step": 3662 + }, + { + "epoch": 0.0814, + "grad_norm": 1.3051068782806396, + "learning_rate": 0.00018376083574127584, + "loss": 2.2466, + "step": 3663 + }, + { + "epoch": 0.08142222222222223, + "grad_norm": 1.3648536205291748, + "learning_rate": 0.00018375639030895755, + "loss": 2.5114, + "step": 3664 + }, + { + "epoch": 0.08144444444444444, + "grad_norm": 1.2011499404907227, + "learning_rate": 0.00018375194487663926, + "loss": 1.7476, + "step": 3665 + }, + { + "epoch": 0.08146666666666667, + "grad_norm": 1.173875093460083, + "learning_rate": 0.00018374749944432097, + "loss": 2.1159, + "step": 3666 + }, + { + "epoch": 0.08148888888888889, + "grad_norm": 1.375784158706665, + "learning_rate": 0.00018374305401200268, + "loss": 2.0589, + "step": 3667 + }, + { + "epoch": 0.08151111111111112, + "grad_norm": 1.263965368270874, + "learning_rate": 0.0001837386085796844, + "loss": 1.8981, + "step": 3668 + }, + { + "epoch": 0.08153333333333333, + "grad_norm": 1.5320152044296265, + "learning_rate": 0.0001837341631473661, + "loss": 2.6019, + "step": 3669 + }, + { + "epoch": 0.08155555555555556, + "grad_norm": 1.3832933902740479, + "learning_rate": 0.00018372971771504778, + "loss": 1.7914, + "step": 3670 + }, + { + "epoch": 0.08157777777777778, + "grad_norm": 1.9614989757537842, + "learning_rate": 0.00018372527228272952, + "loss": 1.8868, + "step": 3671 + }, + { + "epoch": 0.0816, + "grad_norm": 1.3117355108261108, + "learning_rate": 0.0001837208268504112, + "loss": 2.5962, + "step": 3672 + }, + { + "epoch": 0.08162222222222222, + "grad_norm": 1.5149602890014648, + "learning_rate": 0.0001837163814180929, + "loss": 1.731, + "step": 3673 + }, + { + "epoch": 0.08164444444444445, + "grad_norm": 1.4484587907791138, + "learning_rate": 0.00018371193598577462, + "loss": 1.6353, + "step": 3674 + }, + { + "epoch": 0.08166666666666667, + "grad_norm": 1.5084599256515503, + "learning_rate": 0.00018370749055345633, + "loss": 2.4353, + "step": 3675 + }, + { + "epoch": 0.0816888888888889, + "grad_norm": 1.3500257730484009, + "learning_rate": 0.00018370304512113804, + "loss": 2.3369, + "step": 3676 + }, + { + "epoch": 0.08171111111111111, + "grad_norm": 1.5253559350967407, + "learning_rate": 0.00018369859968881975, + "loss": 1.9887, + "step": 3677 + }, + { + "epoch": 0.08173333333333334, + "grad_norm": 1.4120569229125977, + "learning_rate": 0.00018369415425650146, + "loss": 2.2231, + "step": 3678 + }, + { + "epoch": 0.08175555555555555, + "grad_norm": 1.1387830972671509, + "learning_rate": 0.00018368970882418317, + "loss": 1.9658, + "step": 3679 + }, + { + "epoch": 0.08177777777777778, + "grad_norm": 1.6434063911437988, + "learning_rate": 0.00018368526339186488, + "loss": 2.3205, + "step": 3680 + }, + { + "epoch": 0.0818, + "grad_norm": 1.296899437904358, + "learning_rate": 0.00018368081795954656, + "loss": 1.744, + "step": 3681 + }, + { + "epoch": 0.08182222222222223, + "grad_norm": 1.2624237537384033, + "learning_rate": 0.0001836763725272283, + "loss": 2.0235, + "step": 3682 + }, + { + "epoch": 0.08184444444444444, + "grad_norm": 1.5623878240585327, + "learning_rate": 0.00018367192709490998, + "loss": 2.1944, + "step": 3683 + }, + { + "epoch": 0.08186666666666667, + "grad_norm": 1.5247491598129272, + "learning_rate": 0.0001836674816625917, + "loss": 2.3596, + "step": 3684 + }, + { + "epoch": 0.08188888888888889, + "grad_norm": 1.2370851039886475, + "learning_rate": 0.0001836630362302734, + "loss": 2.0781, + "step": 3685 + }, + { + "epoch": 0.08191111111111112, + "grad_norm": 1.3484132289886475, + "learning_rate": 0.0001836585907979551, + "loss": 2.3458, + "step": 3686 + }, + { + "epoch": 0.08193333333333333, + "grad_norm": 1.4338109493255615, + "learning_rate": 0.00018365414536563682, + "loss": 2.4587, + "step": 3687 + }, + { + "epoch": 0.08195555555555556, + "grad_norm": 1.4265894889831543, + "learning_rate": 0.00018364969993331853, + "loss": 2.2896, + "step": 3688 + }, + { + "epoch": 0.08197777777777777, + "grad_norm": 1.4162578582763672, + "learning_rate": 0.00018364525450100024, + "loss": 2.1227, + "step": 3689 + }, + { + "epoch": 0.082, + "grad_norm": 1.510770559310913, + "learning_rate": 0.00018364080906868192, + "loss": 2.1402, + "step": 3690 + }, + { + "epoch": 0.08202222222222222, + "grad_norm": 1.2629023790359497, + "learning_rate": 0.00018363636363636366, + "loss": 2.0158, + "step": 3691 + }, + { + "epoch": 0.08204444444444445, + "grad_norm": 1.305181622505188, + "learning_rate": 0.00018363191820404534, + "loss": 1.8069, + "step": 3692 + }, + { + "epoch": 0.08206666666666666, + "grad_norm": 1.3685085773468018, + "learning_rate": 0.00018362747277172705, + "loss": 2.0623, + "step": 3693 + }, + { + "epoch": 0.08208888888888889, + "grad_norm": 1.4363067150115967, + "learning_rate": 0.00018362302733940876, + "loss": 2.2537, + "step": 3694 + }, + { + "epoch": 0.08211111111111111, + "grad_norm": 1.0464816093444824, + "learning_rate": 0.00018361858190709047, + "loss": 1.5119, + "step": 3695 + }, + { + "epoch": 0.08213333333333334, + "grad_norm": 1.2719902992248535, + "learning_rate": 0.00018361413647477218, + "loss": 1.6483, + "step": 3696 + }, + { + "epoch": 0.08215555555555555, + "grad_norm": 1.4137662649154663, + "learning_rate": 0.0001836096910424539, + "loss": 1.8361, + "step": 3697 + }, + { + "epoch": 0.08217777777777778, + "grad_norm": 1.267458200454712, + "learning_rate": 0.0001836052456101356, + "loss": 1.7088, + "step": 3698 + }, + { + "epoch": 0.0822, + "grad_norm": 1.7159905433654785, + "learning_rate": 0.0001836008001778173, + "loss": 2.0834, + "step": 3699 + }, + { + "epoch": 0.08222222222222222, + "grad_norm": 1.3477818965911865, + "learning_rate": 0.00018359635474549902, + "loss": 0.6832, + "step": 3700 + }, + { + "epoch": 0.08224444444444444, + "grad_norm": 1.3076441287994385, + "learning_rate": 0.0001835919093131807, + "loss": 2.6709, + "step": 3701 + }, + { + "epoch": 0.08226666666666667, + "grad_norm": 1.1363846063613892, + "learning_rate": 0.00018358746388086244, + "loss": 2.3923, + "step": 3702 + }, + { + "epoch": 0.08228888888888888, + "grad_norm": 1.495496153831482, + "learning_rate": 0.00018358301844854412, + "loss": 2.3562, + "step": 3703 + }, + { + "epoch": 0.08231111111111111, + "grad_norm": 1.2286193370819092, + "learning_rate": 0.00018357857301622583, + "loss": 2.5056, + "step": 3704 + }, + { + "epoch": 0.08233333333333333, + "grad_norm": 1.1402894258499146, + "learning_rate": 0.00018357412758390756, + "loss": 1.9959, + "step": 3705 + }, + { + "epoch": 0.08235555555555556, + "grad_norm": 1.7085946798324585, + "learning_rate": 0.00018356968215158925, + "loss": 1.7225, + "step": 3706 + }, + { + "epoch": 0.08237777777777777, + "grad_norm": 1.388522982597351, + "learning_rate": 0.00018356523671927096, + "loss": 2.2679, + "step": 3707 + }, + { + "epoch": 0.0824, + "grad_norm": 1.1444454193115234, + "learning_rate": 0.00018356079128695267, + "loss": 2.4866, + "step": 3708 + }, + { + "epoch": 0.08242222222222222, + "grad_norm": 1.2037158012390137, + "learning_rate": 0.00018355634585463438, + "loss": 1.9698, + "step": 3709 + }, + { + "epoch": 0.08244444444444445, + "grad_norm": 1.2525960206985474, + "learning_rate": 0.00018355190042231606, + "loss": 2.1183, + "step": 3710 + }, + { + "epoch": 0.08246666666666666, + "grad_norm": 1.2685823440551758, + "learning_rate": 0.0001835474549899978, + "loss": 2.3999, + "step": 3711 + }, + { + "epoch": 0.08248888888888889, + "grad_norm": 1.1982176303863525, + "learning_rate": 0.00018354300955767948, + "loss": 2.1479, + "step": 3712 + }, + { + "epoch": 0.0825111111111111, + "grad_norm": 1.1716853380203247, + "learning_rate": 0.0001835385641253612, + "loss": 2.0812, + "step": 3713 + }, + { + "epoch": 0.08253333333333333, + "grad_norm": 1.269726037979126, + "learning_rate": 0.00018353411869304292, + "loss": 1.6473, + "step": 3714 + }, + { + "epoch": 0.08255555555555555, + "grad_norm": 1.376862645149231, + "learning_rate": 0.0001835296732607246, + "loss": 2.0835, + "step": 3715 + }, + { + "epoch": 0.08257777777777778, + "grad_norm": 1.4289859533309937, + "learning_rate": 0.00018352522782840634, + "loss": 2.2132, + "step": 3716 + }, + { + "epoch": 0.0826, + "grad_norm": 1.2596189975738525, + "learning_rate": 0.00018352078239608803, + "loss": 2.0538, + "step": 3717 + }, + { + "epoch": 0.08262222222222222, + "grad_norm": 1.392706274986267, + "learning_rate": 0.00018351633696376974, + "loss": 1.8508, + "step": 3718 + }, + { + "epoch": 0.08264444444444445, + "grad_norm": 1.222619652748108, + "learning_rate": 0.00018351189153145145, + "loss": 2.019, + "step": 3719 + }, + { + "epoch": 0.08266666666666667, + "grad_norm": 1.2307435274124146, + "learning_rate": 0.00018350744609913315, + "loss": 2.0585, + "step": 3720 + }, + { + "epoch": 0.0826888888888889, + "grad_norm": 1.7775535583496094, + "learning_rate": 0.00018350300066681484, + "loss": 2.5409, + "step": 3721 + }, + { + "epoch": 0.08271111111111111, + "grad_norm": 1.337125301361084, + "learning_rate": 0.00018349855523449657, + "loss": 2.396, + "step": 3722 + }, + { + "epoch": 0.08273333333333334, + "grad_norm": 1.3704264163970947, + "learning_rate": 0.00018349410980217828, + "loss": 2.3751, + "step": 3723 + }, + { + "epoch": 0.08275555555555555, + "grad_norm": 1.3984158039093018, + "learning_rate": 0.00018348966436985997, + "loss": 2.1248, + "step": 3724 + }, + { + "epoch": 0.08277777777777778, + "grad_norm": 1.2886028289794922, + "learning_rate": 0.0001834852189375417, + "loss": 2.1778, + "step": 3725 + }, + { + "epoch": 0.0828, + "grad_norm": 1.1951922178268433, + "learning_rate": 0.00018348077350522339, + "loss": 1.9336, + "step": 3726 + }, + { + "epoch": 0.08282222222222223, + "grad_norm": 1.3340922594070435, + "learning_rate": 0.0001834763280729051, + "loss": 2.0582, + "step": 3727 + }, + { + "epoch": 0.08284444444444444, + "grad_norm": 1.9350781440734863, + "learning_rate": 0.0001834718826405868, + "loss": 2.2931, + "step": 3728 + }, + { + "epoch": 0.08286666666666667, + "grad_norm": 1.3482329845428467, + "learning_rate": 0.00018346743720826851, + "loss": 2.0152, + "step": 3729 + }, + { + "epoch": 0.08288888888888889, + "grad_norm": 1.343555212020874, + "learning_rate": 0.0001834629917759502, + "loss": 2.3119, + "step": 3730 + }, + { + "epoch": 0.08291111111111112, + "grad_norm": 1.2393773794174194, + "learning_rate": 0.00018345854634363193, + "loss": 2.0094, + "step": 3731 + }, + { + "epoch": 0.08293333333333333, + "grad_norm": 1.1807552576065063, + "learning_rate": 0.00018345410091131364, + "loss": 2.0507, + "step": 3732 + }, + { + "epoch": 0.08295555555555556, + "grad_norm": 1.3803151845932007, + "learning_rate": 0.00018344965547899533, + "loss": 2.1102, + "step": 3733 + }, + { + "epoch": 0.08297777777777778, + "grad_norm": 1.5443792343139648, + "learning_rate": 0.00018344521004667706, + "loss": 2.1081, + "step": 3734 + }, + { + "epoch": 0.083, + "grad_norm": 1.2594364881515503, + "learning_rate": 0.00018344076461435874, + "loss": 1.8055, + "step": 3735 + }, + { + "epoch": 0.08302222222222222, + "grad_norm": 1.3027013540267944, + "learning_rate": 0.00018343631918204048, + "loss": 1.9598, + "step": 3736 + }, + { + "epoch": 0.08304444444444445, + "grad_norm": 1.3988456726074219, + "learning_rate": 0.00018343187374972216, + "loss": 1.9072, + "step": 3737 + }, + { + "epoch": 0.08306666666666666, + "grad_norm": 1.1366162300109863, + "learning_rate": 0.00018342742831740387, + "loss": 0.8282, + "step": 3738 + }, + { + "epoch": 0.08308888888888889, + "grad_norm": 1.3433319330215454, + "learning_rate": 0.00018342298288508558, + "loss": 2.145, + "step": 3739 + }, + { + "epoch": 0.08311111111111111, + "grad_norm": 1.6333012580871582, + "learning_rate": 0.0001834185374527673, + "loss": 1.9882, + "step": 3740 + }, + { + "epoch": 0.08313333333333334, + "grad_norm": 1.5079331398010254, + "learning_rate": 0.000183414092020449, + "loss": 2.2294, + "step": 3741 + }, + { + "epoch": 0.08315555555555555, + "grad_norm": 1.4349793195724487, + "learning_rate": 0.0001834096465881307, + "loss": 1.9885, + "step": 3742 + }, + { + "epoch": 0.08317777777777778, + "grad_norm": 1.5758147239685059, + "learning_rate": 0.00018340520115581242, + "loss": 1.6917, + "step": 3743 + }, + { + "epoch": 0.0832, + "grad_norm": 1.4096463918685913, + "learning_rate": 0.0001834007557234941, + "loss": 2.1504, + "step": 3744 + }, + { + "epoch": 0.08322222222222223, + "grad_norm": 1.3794286251068115, + "learning_rate": 0.00018339631029117584, + "loss": 1.7257, + "step": 3745 + }, + { + "epoch": 0.08324444444444444, + "grad_norm": 1.4833141565322876, + "learning_rate": 0.00018339186485885752, + "loss": 1.9217, + "step": 3746 + }, + { + "epoch": 0.08326666666666667, + "grad_norm": 1.7716563940048218, + "learning_rate": 0.00018338741942653923, + "loss": 2.1866, + "step": 3747 + }, + { + "epoch": 0.08328888888888888, + "grad_norm": 1.4403369426727295, + "learning_rate": 0.00018338297399422094, + "loss": 1.659, + "step": 3748 + }, + { + "epoch": 0.08331111111111111, + "grad_norm": 1.3384677171707153, + "learning_rate": 0.00018337852856190265, + "loss": 1.7207, + "step": 3749 + }, + { + "epoch": 0.08333333333333333, + "grad_norm": 1.173349142074585, + "learning_rate": 0.00018337408312958436, + "loss": 1.2062, + "step": 3750 + }, + { + "epoch": 0.08335555555555556, + "grad_norm": 1.14934241771698, + "learning_rate": 0.00018336963769726607, + "loss": 2.5767, + "step": 3751 + }, + { + "epoch": 0.08337777777777777, + "grad_norm": 1.1485891342163086, + "learning_rate": 0.00018336519226494778, + "loss": 2.1732, + "step": 3752 + }, + { + "epoch": 0.0834, + "grad_norm": 1.2195016145706177, + "learning_rate": 0.0001833607468326295, + "loss": 2.3286, + "step": 3753 + }, + { + "epoch": 0.08342222222222222, + "grad_norm": 1.106770634651184, + "learning_rate": 0.0001833563014003112, + "loss": 2.0485, + "step": 3754 + }, + { + "epoch": 0.08344444444444445, + "grad_norm": 1.0948654413223267, + "learning_rate": 0.00018335185596799288, + "loss": 2.1415, + "step": 3755 + }, + { + "epoch": 0.08346666666666666, + "grad_norm": 1.0810214281082153, + "learning_rate": 0.00018334741053567462, + "loss": 1.9772, + "step": 3756 + }, + { + "epoch": 0.08348888888888889, + "grad_norm": 1.108093023300171, + "learning_rate": 0.0001833429651033563, + "loss": 2.0626, + "step": 3757 + }, + { + "epoch": 0.0835111111111111, + "grad_norm": 1.31307053565979, + "learning_rate": 0.000183338519671038, + "loss": 2.1667, + "step": 3758 + }, + { + "epoch": 0.08353333333333333, + "grad_norm": 1.193341612815857, + "learning_rate": 0.00018333407423871972, + "loss": 2.0653, + "step": 3759 + }, + { + "epoch": 0.08355555555555555, + "grad_norm": 1.399157166481018, + "learning_rate": 0.00018332962880640143, + "loss": 1.5565, + "step": 3760 + }, + { + "epoch": 0.08357777777777778, + "grad_norm": 1.119966745376587, + "learning_rate": 0.00018332518337408314, + "loss": 2.2336, + "step": 3761 + }, + { + "epoch": 0.0836, + "grad_norm": 1.3634086847305298, + "learning_rate": 0.00018332073794176485, + "loss": 2.5965, + "step": 3762 + }, + { + "epoch": 0.08362222222222222, + "grad_norm": 1.0697473287582397, + "learning_rate": 0.00018331629250944656, + "loss": 2.0305, + "step": 3763 + }, + { + "epoch": 0.08364444444444444, + "grad_norm": 1.3779423236846924, + "learning_rate": 0.00018331184707712824, + "loss": 2.4304, + "step": 3764 + }, + { + "epoch": 0.08366666666666667, + "grad_norm": 1.227135181427002, + "learning_rate": 0.00018330740164480998, + "loss": 2.0807, + "step": 3765 + }, + { + "epoch": 0.08368888888888888, + "grad_norm": 1.2680401802062988, + "learning_rate": 0.00018330295621249166, + "loss": 2.1856, + "step": 3766 + }, + { + "epoch": 0.08371111111111111, + "grad_norm": 1.5422371625900269, + "learning_rate": 0.00018329851078017337, + "loss": 2.174, + "step": 3767 + }, + { + "epoch": 0.08373333333333334, + "grad_norm": 1.2656880617141724, + "learning_rate": 0.00018329406534785508, + "loss": 2.1735, + "step": 3768 + }, + { + "epoch": 0.08375555555555556, + "grad_norm": 1.351730465888977, + "learning_rate": 0.0001832896199155368, + "loss": 2.2512, + "step": 3769 + }, + { + "epoch": 0.08377777777777778, + "grad_norm": 1.2336546182632446, + "learning_rate": 0.0001832851744832185, + "loss": 2.0626, + "step": 3770 + }, + { + "epoch": 0.0838, + "grad_norm": 1.3643064498901367, + "learning_rate": 0.0001832807290509002, + "loss": 2.532, + "step": 3771 + }, + { + "epoch": 0.08382222222222223, + "grad_norm": 1.3892377614974976, + "learning_rate": 0.00018327628361858192, + "loss": 1.8554, + "step": 3772 + }, + { + "epoch": 0.08384444444444444, + "grad_norm": 1.1425843238830566, + "learning_rate": 0.00018327183818626363, + "loss": 2.1771, + "step": 3773 + }, + { + "epoch": 0.08386666666666667, + "grad_norm": 1.2658792734146118, + "learning_rate": 0.00018326739275394534, + "loss": 2.0332, + "step": 3774 + }, + { + "epoch": 0.08388888888888889, + "grad_norm": 0.942596971988678, + "learning_rate": 0.00018326294732162702, + "loss": 0.7195, + "step": 3775 + }, + { + "epoch": 0.08391111111111112, + "grad_norm": 1.3439239263534546, + "learning_rate": 0.00018325850188930876, + "loss": 1.8195, + "step": 3776 + }, + { + "epoch": 0.08393333333333333, + "grad_norm": 1.0942491292953491, + "learning_rate": 0.00018325405645699044, + "loss": 1.902, + "step": 3777 + }, + { + "epoch": 0.08395555555555556, + "grad_norm": 1.3457939624786377, + "learning_rate": 0.00018324961102467215, + "loss": 2.0151, + "step": 3778 + }, + { + "epoch": 0.08397777777777778, + "grad_norm": 1.4305779933929443, + "learning_rate": 0.0001832451655923539, + "loss": 2.0161, + "step": 3779 + }, + { + "epoch": 0.084, + "grad_norm": 1.5203875303268433, + "learning_rate": 0.00018324072016003557, + "loss": 2.1299, + "step": 3780 + }, + { + "epoch": 0.08402222222222222, + "grad_norm": 1.2600908279418945, + "learning_rate": 0.00018323627472771728, + "loss": 1.8775, + "step": 3781 + }, + { + "epoch": 0.08404444444444445, + "grad_norm": 1.4517302513122559, + "learning_rate": 0.000183231829295399, + "loss": 2.1346, + "step": 3782 + }, + { + "epoch": 0.08406666666666666, + "grad_norm": 1.3709062337875366, + "learning_rate": 0.0001832273838630807, + "loss": 2.0511, + "step": 3783 + }, + { + "epoch": 0.0840888888888889, + "grad_norm": 1.2844997644424438, + "learning_rate": 0.00018322293843076238, + "loss": 2.1488, + "step": 3784 + }, + { + "epoch": 0.08411111111111111, + "grad_norm": 1.3488349914550781, + "learning_rate": 0.00018321849299844412, + "loss": 1.9388, + "step": 3785 + }, + { + "epoch": 0.08413333333333334, + "grad_norm": 1.384660005569458, + "learning_rate": 0.0001832140475661258, + "loss": 1.8102, + "step": 3786 + }, + { + "epoch": 0.08415555555555555, + "grad_norm": 1.673464298248291, + "learning_rate": 0.0001832096021338075, + "loss": 2.3498, + "step": 3787 + }, + { + "epoch": 0.08417777777777778, + "grad_norm": 1.142154335975647, + "learning_rate": 0.00018320515670148925, + "loss": 1.5239, + "step": 3788 + }, + { + "epoch": 0.0842, + "grad_norm": 1.0959197282791138, + "learning_rate": 0.00018320071126917093, + "loss": 1.4466, + "step": 3789 + }, + { + "epoch": 0.08422222222222223, + "grad_norm": 1.5571155548095703, + "learning_rate": 0.00018319626583685264, + "loss": 1.9711, + "step": 3790 + }, + { + "epoch": 0.08424444444444444, + "grad_norm": 1.321845293045044, + "learning_rate": 0.00018319182040453435, + "loss": 1.8046, + "step": 3791 + }, + { + "epoch": 0.08426666666666667, + "grad_norm": 1.5317105054855347, + "learning_rate": 0.00018318737497221606, + "loss": 1.7864, + "step": 3792 + }, + { + "epoch": 0.08428888888888889, + "grad_norm": 1.3122411966323853, + "learning_rate": 0.00018318292953989777, + "loss": 1.8149, + "step": 3793 + }, + { + "epoch": 0.08431111111111111, + "grad_norm": 1.271420955657959, + "learning_rate": 0.00018317848410757948, + "loss": 1.8306, + "step": 3794 + }, + { + "epoch": 0.08433333333333333, + "grad_norm": 1.3152903318405151, + "learning_rate": 0.00018317403867526116, + "loss": 1.6876, + "step": 3795 + }, + { + "epoch": 0.08435555555555556, + "grad_norm": 1.5708154439926147, + "learning_rate": 0.0001831695932429429, + "loss": 2.0446, + "step": 3796 + }, + { + "epoch": 0.08437777777777777, + "grad_norm": 1.3261884450912476, + "learning_rate": 0.0001831651478106246, + "loss": 2.0654, + "step": 3797 + }, + { + "epoch": 0.0844, + "grad_norm": 1.4633420705795288, + "learning_rate": 0.0001831607023783063, + "loss": 1.9781, + "step": 3798 + }, + { + "epoch": 0.08442222222222222, + "grad_norm": 1.7155293226242065, + "learning_rate": 0.00018315625694598803, + "loss": 2.1932, + "step": 3799 + }, + { + "epoch": 0.08444444444444445, + "grad_norm": 0.9392032027244568, + "learning_rate": 0.0001831518115136697, + "loss": 0.5209, + "step": 3800 + }, + { + "epoch": 0.08446666666666666, + "grad_norm": 1.2845485210418701, + "learning_rate": 0.00018314736608135142, + "loss": 2.2759, + "step": 3801 + }, + { + "epoch": 0.08448888888888889, + "grad_norm": 1.1438502073287964, + "learning_rate": 0.00018314292064903313, + "loss": 2.7633, + "step": 3802 + }, + { + "epoch": 0.0845111111111111, + "grad_norm": 1.2022689580917358, + "learning_rate": 0.00018313847521671484, + "loss": 2.6877, + "step": 3803 + }, + { + "epoch": 0.08453333333333334, + "grad_norm": 1.2780210971832275, + "learning_rate": 0.00018313402978439652, + "loss": 2.4602, + "step": 3804 + }, + { + "epoch": 0.08455555555555555, + "grad_norm": 1.147143006324768, + "learning_rate": 0.00018312958435207826, + "loss": 2.0325, + "step": 3805 + }, + { + "epoch": 0.08457777777777778, + "grad_norm": 1.0741664171218872, + "learning_rate": 0.00018312513891975997, + "loss": 2.589, + "step": 3806 + }, + { + "epoch": 0.0846, + "grad_norm": 1.1212646961212158, + "learning_rate": 0.00018312069348744165, + "loss": 2.149, + "step": 3807 + }, + { + "epoch": 0.08462222222222222, + "grad_norm": 1.1260703802108765, + "learning_rate": 0.00018311624805512338, + "loss": 2.103, + "step": 3808 + }, + { + "epoch": 0.08464444444444444, + "grad_norm": 1.293121337890625, + "learning_rate": 0.00018311180262280507, + "loss": 2.0342, + "step": 3809 + }, + { + "epoch": 0.08466666666666667, + "grad_norm": 1.3064484596252441, + "learning_rate": 0.0001831073571904868, + "loss": 2.1646, + "step": 3810 + }, + { + "epoch": 0.08468888888888888, + "grad_norm": 1.1782290935516357, + "learning_rate": 0.00018310291175816849, + "loss": 2.2629, + "step": 3811 + }, + { + "epoch": 0.08471111111111111, + "grad_norm": 1.1606324911117554, + "learning_rate": 0.0001830984663258502, + "loss": 2.1509, + "step": 3812 + }, + { + "epoch": 0.08473333333333333, + "grad_norm": 1.1473417282104492, + "learning_rate": 0.0001830940208935319, + "loss": 2.192, + "step": 3813 + }, + { + "epoch": 0.08475555555555556, + "grad_norm": 1.12730073928833, + "learning_rate": 0.00018308957546121362, + "loss": 2.0235, + "step": 3814 + }, + { + "epoch": 0.08477777777777777, + "grad_norm": 1.1038776636123657, + "learning_rate": 0.00018308513002889532, + "loss": 2.0591, + "step": 3815 + }, + { + "epoch": 0.0848, + "grad_norm": 1.5187519788742065, + "learning_rate": 0.00018308068459657703, + "loss": 2.2847, + "step": 3816 + }, + { + "epoch": 0.08482222222222222, + "grad_norm": 1.1474043130874634, + "learning_rate": 0.00018307623916425874, + "loss": 1.2486, + "step": 3817 + }, + { + "epoch": 0.08484444444444444, + "grad_norm": 1.1251564025878906, + "learning_rate": 0.00018307179373194043, + "loss": 0.9984, + "step": 3818 + }, + { + "epoch": 0.08486666666666667, + "grad_norm": 1.3187544345855713, + "learning_rate": 0.00018306734829962216, + "loss": 2.0501, + "step": 3819 + }, + { + "epoch": 0.08488888888888889, + "grad_norm": 1.1238620281219482, + "learning_rate": 0.00018306290286730385, + "loss": 1.8969, + "step": 3820 + }, + { + "epoch": 0.08491111111111112, + "grad_norm": 1.1466844081878662, + "learning_rate": 0.00018305845743498556, + "loss": 1.8634, + "step": 3821 + }, + { + "epoch": 0.08493333333333333, + "grad_norm": 1.1636260747909546, + "learning_rate": 0.00018305401200266726, + "loss": 2.0346, + "step": 3822 + }, + { + "epoch": 0.08495555555555556, + "grad_norm": 1.2605708837509155, + "learning_rate": 0.00018304956657034897, + "loss": 2.1221, + "step": 3823 + }, + { + "epoch": 0.08497777777777778, + "grad_norm": 1.1905038356781006, + "learning_rate": 0.00018304512113803068, + "loss": 2.3228, + "step": 3824 + }, + { + "epoch": 0.085, + "grad_norm": 1.3121824264526367, + "learning_rate": 0.0001830406757057124, + "loss": 1.9939, + "step": 3825 + }, + { + "epoch": 0.08502222222222222, + "grad_norm": 1.428402304649353, + "learning_rate": 0.0001830362302733941, + "loss": 1.9317, + "step": 3826 + }, + { + "epoch": 0.08504444444444445, + "grad_norm": 1.2127010822296143, + "learning_rate": 0.00018303178484107579, + "loss": 2.2116, + "step": 3827 + }, + { + "epoch": 0.08506666666666667, + "grad_norm": 1.0765200853347778, + "learning_rate": 0.00018302733940875752, + "loss": 1.4125, + "step": 3828 + }, + { + "epoch": 0.0850888888888889, + "grad_norm": 1.4758669137954712, + "learning_rate": 0.0001830228939764392, + "loss": 2.3978, + "step": 3829 + }, + { + "epoch": 0.08511111111111111, + "grad_norm": 1.2892208099365234, + "learning_rate": 0.00018301844854412094, + "loss": 1.7413, + "step": 3830 + }, + { + "epoch": 0.08513333333333334, + "grad_norm": 1.28184974193573, + "learning_rate": 0.00018301400311180262, + "loss": 1.8904, + "step": 3831 + }, + { + "epoch": 0.08515555555555555, + "grad_norm": 1.3503646850585938, + "learning_rate": 0.00018300955767948433, + "loss": 2.0101, + "step": 3832 + }, + { + "epoch": 0.08517777777777778, + "grad_norm": 1.3963651657104492, + "learning_rate": 0.00018300511224716604, + "loss": 2.0048, + "step": 3833 + }, + { + "epoch": 0.0852, + "grad_norm": 1.353186845779419, + "learning_rate": 0.00018300066681484775, + "loss": 2.0891, + "step": 3834 + }, + { + "epoch": 0.08522222222222223, + "grad_norm": 1.2621327638626099, + "learning_rate": 0.00018299622138252946, + "loss": 1.8593, + "step": 3835 + }, + { + "epoch": 0.08524444444444444, + "grad_norm": 1.5457473993301392, + "learning_rate": 0.00018299177595021117, + "loss": 2.1439, + "step": 3836 + }, + { + "epoch": 0.08526666666666667, + "grad_norm": 1.2190488576889038, + "learning_rate": 0.00018298733051789288, + "loss": 2.1942, + "step": 3837 + }, + { + "epoch": 0.08528888888888889, + "grad_norm": 1.450424313545227, + "learning_rate": 0.00018298288508557456, + "loss": 1.8608, + "step": 3838 + }, + { + "epoch": 0.08531111111111112, + "grad_norm": 1.333061695098877, + "learning_rate": 0.0001829784396532563, + "loss": 1.7707, + "step": 3839 + }, + { + "epoch": 0.08533333333333333, + "grad_norm": 1.3491209745407104, + "learning_rate": 0.00018297399422093798, + "loss": 1.9879, + "step": 3840 + }, + { + "epoch": 0.08535555555555556, + "grad_norm": 1.6014151573181152, + "learning_rate": 0.0001829695487886197, + "loss": 2.3131, + "step": 3841 + }, + { + "epoch": 0.08537777777777777, + "grad_norm": 1.4640525579452515, + "learning_rate": 0.0001829651033563014, + "loss": 2.2822, + "step": 3842 + }, + { + "epoch": 0.0854, + "grad_norm": 1.201319932937622, + "learning_rate": 0.0001829606579239831, + "loss": 1.6643, + "step": 3843 + }, + { + "epoch": 0.08542222222222222, + "grad_norm": 1.3478792905807495, + "learning_rate": 0.00018295621249166482, + "loss": 1.8764, + "step": 3844 + }, + { + "epoch": 0.08544444444444445, + "grad_norm": 1.3052295446395874, + "learning_rate": 0.00018295176705934653, + "loss": 1.7053, + "step": 3845 + }, + { + "epoch": 0.08546666666666666, + "grad_norm": 1.3359328508377075, + "learning_rate": 0.00018294732162702824, + "loss": 1.8894, + "step": 3846 + }, + { + "epoch": 0.08548888888888889, + "grad_norm": 1.4691016674041748, + "learning_rate": 0.00018294287619470992, + "loss": 1.8617, + "step": 3847 + }, + { + "epoch": 0.08551111111111111, + "grad_norm": 1.3177027702331543, + "learning_rate": 0.00018293843076239166, + "loss": 1.8823, + "step": 3848 + }, + { + "epoch": 0.08553333333333334, + "grad_norm": 1.5961673259735107, + "learning_rate": 0.00018293398533007334, + "loss": 1.905, + "step": 3849 + }, + { + "epoch": 0.08555555555555555, + "grad_norm": 1.4407944679260254, + "learning_rate": 0.00018292953989775508, + "loss": 1.7201, + "step": 3850 + }, + { + "epoch": 0.08557777777777778, + "grad_norm": 0.6729428172111511, + "learning_rate": 0.00018292509446543676, + "loss": 0.0287, + "step": 3851 + }, + { + "epoch": 0.0856, + "grad_norm": 0.7333818078041077, + "learning_rate": 0.00018292064903311847, + "loss": 1.0013, + "step": 3852 + }, + { + "epoch": 0.08562222222222222, + "grad_norm": 0.9840003252029419, + "learning_rate": 0.0001829162036008002, + "loss": 1.0692, + "step": 3853 + }, + { + "epoch": 0.08564444444444444, + "grad_norm": 1.1732404232025146, + "learning_rate": 0.0001829117581684819, + "loss": 2.0807, + "step": 3854 + }, + { + "epoch": 0.08566666666666667, + "grad_norm": 1.106427550315857, + "learning_rate": 0.0001829073127361636, + "loss": 2.1901, + "step": 3855 + }, + { + "epoch": 0.08568888888888888, + "grad_norm": 1.2000621557235718, + "learning_rate": 0.0001829028673038453, + "loss": 2.0366, + "step": 3856 + }, + { + "epoch": 0.08571111111111111, + "grad_norm": 1.1870254278182983, + "learning_rate": 0.00018289842187152702, + "loss": 2.1497, + "step": 3857 + }, + { + "epoch": 0.08573333333333333, + "grad_norm": 1.2883726358413696, + "learning_rate": 0.0001828939764392087, + "loss": 2.5934, + "step": 3858 + }, + { + "epoch": 0.08575555555555556, + "grad_norm": 1.24656081199646, + "learning_rate": 0.00018288953100689044, + "loss": 2.6096, + "step": 3859 + }, + { + "epoch": 0.08577777777777777, + "grad_norm": 1.0583786964416504, + "learning_rate": 0.00018288508557457212, + "loss": 1.0283, + "step": 3860 + }, + { + "epoch": 0.0858, + "grad_norm": 1.234200119972229, + "learning_rate": 0.00018288064014225383, + "loss": 2.3328, + "step": 3861 + }, + { + "epoch": 0.08582222222222222, + "grad_norm": 1.124598503112793, + "learning_rate": 0.00018287619470993557, + "loss": 1.7652, + "step": 3862 + }, + { + "epoch": 0.08584444444444445, + "grad_norm": 1.3905720710754395, + "learning_rate": 0.00018287174927761725, + "loss": 2.1556, + "step": 3863 + }, + { + "epoch": 0.08586666666666666, + "grad_norm": 1.1601526737213135, + "learning_rate": 0.00018286730384529896, + "loss": 1.8192, + "step": 3864 + }, + { + "epoch": 0.08588888888888889, + "grad_norm": 1.1960759162902832, + "learning_rate": 0.00018286285841298067, + "loss": 2.0937, + "step": 3865 + }, + { + "epoch": 0.0859111111111111, + "grad_norm": 1.1918174028396606, + "learning_rate": 0.00018285841298066238, + "loss": 2.226, + "step": 3866 + }, + { + "epoch": 0.08593333333333333, + "grad_norm": 1.2833738327026367, + "learning_rate": 0.0001828539675483441, + "loss": 2.0411, + "step": 3867 + }, + { + "epoch": 0.08595555555555555, + "grad_norm": 1.3212376832962036, + "learning_rate": 0.0001828495221160258, + "loss": 2.1898, + "step": 3868 + }, + { + "epoch": 0.08597777777777778, + "grad_norm": 1.1451706886291504, + "learning_rate": 0.00018284507668370748, + "loss": 1.849, + "step": 3869 + }, + { + "epoch": 0.086, + "grad_norm": 1.1616791486740112, + "learning_rate": 0.00018284063125138922, + "loss": 1.7259, + "step": 3870 + }, + { + "epoch": 0.08602222222222222, + "grad_norm": 1.6663930416107178, + "learning_rate": 0.00018283618581907093, + "loss": 1.2284, + "step": 3871 + }, + { + "epoch": 0.08604444444444445, + "grad_norm": 1.2836792469024658, + "learning_rate": 0.0001828317403867526, + "loss": 2.2392, + "step": 3872 + }, + { + "epoch": 0.08606666666666667, + "grad_norm": 1.2171481847763062, + "learning_rate": 0.00018282729495443435, + "loss": 2.0785, + "step": 3873 + }, + { + "epoch": 0.0860888888888889, + "grad_norm": 1.2060463428497314, + "learning_rate": 0.00018282284952211603, + "loss": 1.8582, + "step": 3874 + }, + { + "epoch": 0.08611111111111111, + "grad_norm": 1.1895673274993896, + "learning_rate": 0.00018281840408979774, + "loss": 1.9122, + "step": 3875 + }, + { + "epoch": 0.08613333333333334, + "grad_norm": 1.509826898574829, + "learning_rate": 0.00018281395865747945, + "loss": 2.2616, + "step": 3876 + }, + { + "epoch": 0.08615555555555555, + "grad_norm": 1.3473097085952759, + "learning_rate": 0.00018280951322516116, + "loss": 2.0758, + "step": 3877 + }, + { + "epoch": 0.08617777777777778, + "grad_norm": 1.6493169069290161, + "learning_rate": 0.00018280506779284287, + "loss": 2.2373, + "step": 3878 + }, + { + "epoch": 0.0862, + "grad_norm": 1.089248776435852, + "learning_rate": 0.00018280062236052458, + "loss": 1.1297, + "step": 3879 + }, + { + "epoch": 0.08622222222222223, + "grad_norm": 1.1902804374694824, + "learning_rate": 0.0001827961769282063, + "loss": 1.1705, + "step": 3880 + }, + { + "epoch": 0.08624444444444444, + "grad_norm": 1.4258880615234375, + "learning_rate": 0.00018279173149588797, + "loss": 2.0755, + "step": 3881 + }, + { + "epoch": 0.08626666666666667, + "grad_norm": 1.316024661064148, + "learning_rate": 0.0001827872860635697, + "loss": 2.0348, + "step": 3882 + }, + { + "epoch": 0.08628888888888889, + "grad_norm": 1.4670634269714355, + "learning_rate": 0.0001827828406312514, + "loss": 2.0473, + "step": 3883 + }, + { + "epoch": 0.08631111111111112, + "grad_norm": 1.5652819871902466, + "learning_rate": 0.0001827783951989331, + "loss": 2.5831, + "step": 3884 + }, + { + "epoch": 0.08633333333333333, + "grad_norm": 1.4132565259933472, + "learning_rate": 0.0001827739497666148, + "loss": 2.3326, + "step": 3885 + }, + { + "epoch": 0.08635555555555556, + "grad_norm": 1.2993839979171753, + "learning_rate": 0.00018276950433429652, + "loss": 1.8057, + "step": 3886 + }, + { + "epoch": 0.08637777777777778, + "grad_norm": 1.2038097381591797, + "learning_rate": 0.00018276505890197823, + "loss": 1.9702, + "step": 3887 + }, + { + "epoch": 0.0864, + "grad_norm": 1.3122345209121704, + "learning_rate": 0.00018276061346965994, + "loss": 1.9484, + "step": 3888 + }, + { + "epoch": 0.08642222222222222, + "grad_norm": 1.383968710899353, + "learning_rate": 0.00018275616803734165, + "loss": 2.0874, + "step": 3889 + }, + { + "epoch": 0.08644444444444445, + "grad_norm": 1.4431442022323608, + "learning_rate": 0.00018275172260502336, + "loss": 1.9278, + "step": 3890 + }, + { + "epoch": 0.08646666666666666, + "grad_norm": 1.4338607788085938, + "learning_rate": 0.00018274727717270507, + "loss": 2.0402, + "step": 3891 + }, + { + "epoch": 0.08648888888888889, + "grad_norm": 1.6500836610794067, + "learning_rate": 0.00018274283174038675, + "loss": 1.9843, + "step": 3892 + }, + { + "epoch": 0.08651111111111111, + "grad_norm": 1.2799413204193115, + "learning_rate": 0.00018273838630806849, + "loss": 1.7724, + "step": 3893 + }, + { + "epoch": 0.08653333333333334, + "grad_norm": 1.622963547706604, + "learning_rate": 0.00018273394087575017, + "loss": 2.2003, + "step": 3894 + }, + { + "epoch": 0.08655555555555555, + "grad_norm": 1.247835636138916, + "learning_rate": 0.00018272949544343188, + "loss": 1.4512, + "step": 3895 + }, + { + "epoch": 0.08657777777777778, + "grad_norm": 1.3503494262695312, + "learning_rate": 0.0001827250500111136, + "loss": 1.6344, + "step": 3896 + }, + { + "epoch": 0.0866, + "grad_norm": 1.5317302942276, + "learning_rate": 0.0001827206045787953, + "loss": 1.278, + "step": 3897 + }, + { + "epoch": 0.08662222222222223, + "grad_norm": 1.6802184581756592, + "learning_rate": 0.000182716159146477, + "loss": 1.8352, + "step": 3898 + }, + { + "epoch": 0.08664444444444444, + "grad_norm": 1.332260012626648, + "learning_rate": 0.00018271171371415872, + "loss": 1.7385, + "step": 3899 + }, + { + "epoch": 0.08666666666666667, + "grad_norm": 1.4168360233306885, + "learning_rate": 0.00018270726828184043, + "loss": 1.654, + "step": 3900 + }, + { + "epoch": 0.08668888888888888, + "grad_norm": 1.11492919921875, + "learning_rate": 0.0001827028228495221, + "loss": 2.8721, + "step": 3901 + }, + { + "epoch": 0.08671111111111111, + "grad_norm": 0.9290326237678528, + "learning_rate": 0.00018269837741720384, + "loss": 1.3628, + "step": 3902 + }, + { + "epoch": 0.08673333333333333, + "grad_norm": 1.1157268285751343, + "learning_rate": 0.00018269393198488553, + "loss": 2.8096, + "step": 3903 + }, + { + "epoch": 0.08675555555555556, + "grad_norm": 1.1336044073104858, + "learning_rate": 0.00018268948655256724, + "loss": 2.0028, + "step": 3904 + }, + { + "epoch": 0.08677777777777777, + "grad_norm": 1.1529829502105713, + "learning_rate": 0.00018268504112024895, + "loss": 2.0633, + "step": 3905 + }, + { + "epoch": 0.0868, + "grad_norm": 1.2534562349319458, + "learning_rate": 0.00018268059568793066, + "loss": 2.7211, + "step": 3906 + }, + { + "epoch": 0.08682222222222222, + "grad_norm": 1.2881025075912476, + "learning_rate": 0.00018267615025561237, + "loss": 2.3184, + "step": 3907 + }, + { + "epoch": 0.08684444444444445, + "grad_norm": 1.069238543510437, + "learning_rate": 0.00018267170482329408, + "loss": 2.1236, + "step": 3908 + }, + { + "epoch": 0.08686666666666666, + "grad_norm": 1.2697378396987915, + "learning_rate": 0.00018266725939097578, + "loss": 2.125, + "step": 3909 + }, + { + "epoch": 0.08688888888888889, + "grad_norm": 1.2994015216827393, + "learning_rate": 0.0001826628139586575, + "loss": 1.9171, + "step": 3910 + }, + { + "epoch": 0.0869111111111111, + "grad_norm": 1.0967013835906982, + "learning_rate": 0.0001826583685263392, + "loss": 1.6726, + "step": 3911 + }, + { + "epoch": 0.08693333333333333, + "grad_norm": 1.1177443265914917, + "learning_rate": 0.0001826539230940209, + "loss": 1.7946, + "step": 3912 + }, + { + "epoch": 0.08695555555555555, + "grad_norm": 1.2079192399978638, + "learning_rate": 0.00018264947766170262, + "loss": 2.2675, + "step": 3913 + }, + { + "epoch": 0.08697777777777778, + "grad_norm": 1.2005130052566528, + "learning_rate": 0.0001826450322293843, + "loss": 2.2046, + "step": 3914 + }, + { + "epoch": 0.087, + "grad_norm": 0.9720653891563416, + "learning_rate": 0.00018264058679706602, + "loss": 0.7893, + "step": 3915 + }, + { + "epoch": 0.08702222222222222, + "grad_norm": 1.1333423852920532, + "learning_rate": 0.00018263614136474773, + "loss": 2.3172, + "step": 3916 + }, + { + "epoch": 0.08704444444444444, + "grad_norm": 1.1365100145339966, + "learning_rate": 0.00018263169593242943, + "loss": 1.9795, + "step": 3917 + }, + { + "epoch": 0.08706666666666667, + "grad_norm": 1.843353509902954, + "learning_rate": 0.00018262725050011114, + "loss": 2.3793, + "step": 3918 + }, + { + "epoch": 0.08708888888888888, + "grad_norm": 1.4716764688491821, + "learning_rate": 0.00018262280506779285, + "loss": 2.1506, + "step": 3919 + }, + { + "epoch": 0.08711111111111111, + "grad_norm": 1.2647080421447754, + "learning_rate": 0.00018261835963547456, + "loss": 1.6478, + "step": 3920 + }, + { + "epoch": 0.08713333333333333, + "grad_norm": 1.2279027700424194, + "learning_rate": 0.00018261391420315625, + "loss": 1.5735, + "step": 3921 + }, + { + "epoch": 0.08715555555555556, + "grad_norm": 1.8002568483352661, + "learning_rate": 0.00018260946877083798, + "loss": 2.7739, + "step": 3922 + }, + { + "epoch": 0.08717777777777778, + "grad_norm": 1.3656952381134033, + "learning_rate": 0.00018260502333851967, + "loss": 2.1193, + "step": 3923 + }, + { + "epoch": 0.0872, + "grad_norm": 1.1363921165466309, + "learning_rate": 0.0001826005779062014, + "loss": 2.0275, + "step": 3924 + }, + { + "epoch": 0.08722222222222223, + "grad_norm": 1.2623662948608398, + "learning_rate": 0.00018259613247388308, + "loss": 1.9614, + "step": 3925 + }, + { + "epoch": 0.08724444444444444, + "grad_norm": 1.2325552701950073, + "learning_rate": 0.0001825916870415648, + "loss": 1.8201, + "step": 3926 + }, + { + "epoch": 0.08726666666666667, + "grad_norm": 1.227401852607727, + "learning_rate": 0.00018258724160924653, + "loss": 1.861, + "step": 3927 + }, + { + "epoch": 0.08728888888888889, + "grad_norm": 1.7943168878555298, + "learning_rate": 0.0001825827961769282, + "loss": 2.0819, + "step": 3928 + }, + { + "epoch": 0.08731111111111112, + "grad_norm": 1.3471245765686035, + "learning_rate": 0.00018257835074460992, + "loss": 2.1757, + "step": 3929 + }, + { + "epoch": 0.08733333333333333, + "grad_norm": 1.2830681800842285, + "learning_rate": 0.00018257390531229163, + "loss": 1.7819, + "step": 3930 + }, + { + "epoch": 0.08735555555555556, + "grad_norm": 1.503760576248169, + "learning_rate": 0.00018256945987997334, + "loss": 2.147, + "step": 3931 + }, + { + "epoch": 0.08737777777777778, + "grad_norm": 1.274315357208252, + "learning_rate": 0.00018256501444765502, + "loss": 1.9309, + "step": 3932 + }, + { + "epoch": 0.0874, + "grad_norm": 1.124243974685669, + "learning_rate": 0.00018256056901533676, + "loss": 1.4179, + "step": 3933 + }, + { + "epoch": 0.08742222222222222, + "grad_norm": 1.495699405670166, + "learning_rate": 0.00018255612358301844, + "loss": 2.2812, + "step": 3934 + }, + { + "epoch": 0.08744444444444445, + "grad_norm": 1.2558859586715698, + "learning_rate": 0.00018255167815070015, + "loss": 1.9374, + "step": 3935 + }, + { + "epoch": 0.08746666666666666, + "grad_norm": 1.431708574295044, + "learning_rate": 0.0001825472327183819, + "loss": 2.1444, + "step": 3936 + }, + { + "epoch": 0.0874888888888889, + "grad_norm": 1.640269160270691, + "learning_rate": 0.00018254278728606357, + "loss": 2.3488, + "step": 3937 + }, + { + "epoch": 0.08751111111111111, + "grad_norm": 1.3659045696258545, + "learning_rate": 0.00018253834185374528, + "loss": 1.6372, + "step": 3938 + }, + { + "epoch": 0.08753333333333334, + "grad_norm": 1.3964117765426636, + "learning_rate": 0.000182533896421427, + "loss": 1.7944, + "step": 3939 + }, + { + "epoch": 0.08755555555555555, + "grad_norm": 1.3688442707061768, + "learning_rate": 0.0001825294509891087, + "loss": 1.8169, + "step": 3940 + }, + { + "epoch": 0.08757777777777778, + "grad_norm": 1.4212323427200317, + "learning_rate": 0.00018252500555679038, + "loss": 1.5998, + "step": 3941 + }, + { + "epoch": 0.0876, + "grad_norm": 1.274173617362976, + "learning_rate": 0.00018252056012447212, + "loss": 1.8158, + "step": 3942 + }, + { + "epoch": 0.08762222222222223, + "grad_norm": 1.159591555595398, + "learning_rate": 0.0001825161146921538, + "loss": 1.6519, + "step": 3943 + }, + { + "epoch": 0.08764444444444444, + "grad_norm": 1.3204801082611084, + "learning_rate": 0.00018251166925983554, + "loss": 1.7134, + "step": 3944 + }, + { + "epoch": 0.08766666666666667, + "grad_norm": 1.462691068649292, + "learning_rate": 0.00018250722382751725, + "loss": 1.6365, + "step": 3945 + }, + { + "epoch": 0.08768888888888889, + "grad_norm": 1.473249912261963, + "learning_rate": 0.00018250277839519893, + "loss": 1.8595, + "step": 3946 + }, + { + "epoch": 0.08771111111111111, + "grad_norm": 1.5079234838485718, + "learning_rate": 0.00018249833296288067, + "loss": 1.6698, + "step": 3947 + }, + { + "epoch": 0.08773333333333333, + "grad_norm": 1.3877707719802856, + "learning_rate": 0.00018249388753056235, + "loss": 1.978, + "step": 3948 + }, + { + "epoch": 0.08775555555555556, + "grad_norm": 1.373972773551941, + "learning_rate": 0.00018248944209824406, + "loss": 1.6741, + "step": 3949 + }, + { + "epoch": 0.08777777777777777, + "grad_norm": 1.5319815874099731, + "learning_rate": 0.00018248499666592577, + "loss": 1.7444, + "step": 3950 + }, + { + "epoch": 0.0878, + "grad_norm": 1.1451045274734497, + "learning_rate": 0.00018248055123360748, + "loss": 2.6294, + "step": 3951 + }, + { + "epoch": 0.08782222222222222, + "grad_norm": 1.3626810312271118, + "learning_rate": 0.0001824761058012892, + "loss": 2.7648, + "step": 3952 + }, + { + "epoch": 0.08784444444444445, + "grad_norm": 1.3611873388290405, + "learning_rate": 0.0001824716603689709, + "loss": 2.6151, + "step": 3953 + }, + { + "epoch": 0.08786666666666666, + "grad_norm": 1.384328842163086, + "learning_rate": 0.0001824672149366526, + "loss": 3.144, + "step": 3954 + }, + { + "epoch": 0.08788888888888889, + "grad_norm": 1.287131905555725, + "learning_rate": 0.0001824627695043343, + "loss": 1.9983, + "step": 3955 + }, + { + "epoch": 0.0879111111111111, + "grad_norm": 1.3529751300811768, + "learning_rate": 0.00018245832407201603, + "loss": 2.9865, + "step": 3956 + }, + { + "epoch": 0.08793333333333334, + "grad_norm": 1.1994839906692505, + "learning_rate": 0.0001824538786396977, + "loss": 2.3215, + "step": 3957 + }, + { + "epoch": 0.08795555555555555, + "grad_norm": 1.0824435949325562, + "learning_rate": 0.00018244943320737942, + "loss": 2.2071, + "step": 3958 + }, + { + "epoch": 0.08797777777777778, + "grad_norm": 1.3807737827301025, + "learning_rate": 0.00018244498777506113, + "loss": 2.8193, + "step": 3959 + }, + { + "epoch": 0.088, + "grad_norm": 1.1116480827331543, + "learning_rate": 0.00018244054234274284, + "loss": 2.0974, + "step": 3960 + }, + { + "epoch": 0.08802222222222222, + "grad_norm": 1.0865592956542969, + "learning_rate": 0.00018243609691042455, + "loss": 2.0467, + "step": 3961 + }, + { + "epoch": 0.08804444444444444, + "grad_norm": 1.4668089151382446, + "learning_rate": 0.00018243165147810626, + "loss": 2.4284, + "step": 3962 + }, + { + "epoch": 0.08806666666666667, + "grad_norm": 1.2750132083892822, + "learning_rate": 0.00018242720604578797, + "loss": 2.435, + "step": 3963 + }, + { + "epoch": 0.08808888888888888, + "grad_norm": 1.1693750619888306, + "learning_rate": 0.00018242276061346968, + "loss": 2.3241, + "step": 3964 + }, + { + "epoch": 0.08811111111111111, + "grad_norm": 1.3129546642303467, + "learning_rate": 0.0001824183151811514, + "loss": 2.4794, + "step": 3965 + }, + { + "epoch": 0.08813333333333333, + "grad_norm": 1.2565345764160156, + "learning_rate": 0.00018241386974883307, + "loss": 2.3347, + "step": 3966 + }, + { + "epoch": 0.08815555555555556, + "grad_norm": 1.4078856706619263, + "learning_rate": 0.0001824094243165148, + "loss": 1.7856, + "step": 3967 + }, + { + "epoch": 0.08817777777777777, + "grad_norm": 0.9889540076255798, + "learning_rate": 0.0001824049788841965, + "loss": 1.0568, + "step": 3968 + }, + { + "epoch": 0.0882, + "grad_norm": 1.3720183372497559, + "learning_rate": 0.0001824005334518782, + "loss": 2.142, + "step": 3969 + }, + { + "epoch": 0.08822222222222222, + "grad_norm": 2.0734097957611084, + "learning_rate": 0.0001823960880195599, + "loss": 2.1306, + "step": 3970 + }, + { + "epoch": 0.08824444444444444, + "grad_norm": 1.5309531688690186, + "learning_rate": 0.00018239164258724162, + "loss": 2.239, + "step": 3971 + }, + { + "epoch": 0.08826666666666666, + "grad_norm": 1.593670129776001, + "learning_rate": 0.00018238719715492333, + "loss": 1.6127, + "step": 3972 + }, + { + "epoch": 0.08828888888888889, + "grad_norm": 1.2348586320877075, + "learning_rate": 0.00018238275172260504, + "loss": 1.7285, + "step": 3973 + }, + { + "epoch": 0.08831111111111112, + "grad_norm": 1.130700707435608, + "learning_rate": 0.00018237830629028675, + "loss": 1.8215, + "step": 3974 + }, + { + "epoch": 0.08833333333333333, + "grad_norm": 1.3735883235931396, + "learning_rate": 0.00018237386085796843, + "loss": 2.1751, + "step": 3975 + }, + { + "epoch": 0.08835555555555556, + "grad_norm": 1.6415408849716187, + "learning_rate": 0.00018236941542565017, + "loss": 2.3657, + "step": 3976 + }, + { + "epoch": 0.08837777777777778, + "grad_norm": 1.179374098777771, + "learning_rate": 0.00018236496999333185, + "loss": 1.816, + "step": 3977 + }, + { + "epoch": 0.0884, + "grad_norm": 1.0282421112060547, + "learning_rate": 0.00018236052456101356, + "loss": 1.5093, + "step": 3978 + }, + { + "epoch": 0.08842222222222222, + "grad_norm": 1.3459587097167969, + "learning_rate": 0.00018235607912869527, + "loss": 1.9031, + "step": 3979 + }, + { + "epoch": 0.08844444444444445, + "grad_norm": 1.5987575054168701, + "learning_rate": 0.00018235163369637698, + "loss": 2.2409, + "step": 3980 + }, + { + "epoch": 0.08846666666666667, + "grad_norm": 1.356877088546753, + "learning_rate": 0.0001823471882640587, + "loss": 1.8444, + "step": 3981 + }, + { + "epoch": 0.0884888888888889, + "grad_norm": 1.6989684104919434, + "learning_rate": 0.0001823427428317404, + "loss": 1.6699, + "step": 3982 + }, + { + "epoch": 0.08851111111111111, + "grad_norm": 1.3182530403137207, + "learning_rate": 0.0001823382973994221, + "loss": 1.7226, + "step": 3983 + }, + { + "epoch": 0.08853333333333334, + "grad_norm": 1.0926573276519775, + "learning_rate": 0.00018233385196710382, + "loss": 0.7869, + "step": 3984 + }, + { + "epoch": 0.08855555555555555, + "grad_norm": 1.505751371383667, + "learning_rate": 0.00018232940653478553, + "loss": 2.0821, + "step": 3985 + }, + { + "epoch": 0.08857777777777778, + "grad_norm": 1.4366180896759033, + "learning_rate": 0.0001823249611024672, + "loss": 2.0181, + "step": 3986 + }, + { + "epoch": 0.0886, + "grad_norm": 1.3815208673477173, + "learning_rate": 0.00018232051567014895, + "loss": 1.9652, + "step": 3987 + }, + { + "epoch": 0.08862222222222223, + "grad_norm": 1.1777048110961914, + "learning_rate": 0.00018231607023783063, + "loss": 1.584, + "step": 3988 + }, + { + "epoch": 0.08864444444444444, + "grad_norm": 1.5454330444335938, + "learning_rate": 0.00018231162480551234, + "loss": 2.3896, + "step": 3989 + }, + { + "epoch": 0.08866666666666667, + "grad_norm": 1.3766738176345825, + "learning_rate": 0.00018230717937319405, + "loss": 1.6587, + "step": 3990 + }, + { + "epoch": 0.08868888888888889, + "grad_norm": 1.064445972442627, + "learning_rate": 0.00018230273394087576, + "loss": 1.3703, + "step": 3991 + }, + { + "epoch": 0.08871111111111112, + "grad_norm": 1.2387447357177734, + "learning_rate": 0.00018229828850855747, + "loss": 1.8601, + "step": 3992 + }, + { + "epoch": 0.08873333333333333, + "grad_norm": 1.6053434610366821, + "learning_rate": 0.00018229384307623918, + "loss": 2.3741, + "step": 3993 + }, + { + "epoch": 0.08875555555555556, + "grad_norm": 1.5138375759124756, + "learning_rate": 0.00018228939764392089, + "loss": 1.9498, + "step": 3994 + }, + { + "epoch": 0.08877777777777777, + "grad_norm": 1.4985507726669312, + "learning_rate": 0.00018228495221160257, + "loss": 1.931, + "step": 3995 + }, + { + "epoch": 0.0888, + "grad_norm": 1.4858930110931396, + "learning_rate": 0.0001822805067792843, + "loss": 1.783, + "step": 3996 + }, + { + "epoch": 0.08882222222222222, + "grad_norm": 1.0707796812057495, + "learning_rate": 0.000182276061346966, + "loss": 1.0062, + "step": 3997 + }, + { + "epoch": 0.08884444444444445, + "grad_norm": 1.5340445041656494, + "learning_rate": 0.0001822716159146477, + "loss": 2.0391, + "step": 3998 + }, + { + "epoch": 0.08886666666666666, + "grad_norm": 1.7474359273910522, + "learning_rate": 0.0001822671704823294, + "loss": 1.6239, + "step": 3999 + }, + { + "epoch": 0.08888888888888889, + "grad_norm": 1.7199676036834717, + "learning_rate": 0.00018226272505001112, + "loss": 1.8825, + "step": 4000 + }, + { + "epoch": 0.08891111111111111, + "grad_norm": 1.1654189825057983, + "learning_rate": 0.00018225827961769285, + "loss": 2.3205, + "step": 4001 + }, + { + "epoch": 0.08893333333333334, + "grad_norm": 1.0770715475082397, + "learning_rate": 0.00018225383418537454, + "loss": 2.1443, + "step": 4002 + }, + { + "epoch": 0.08895555555555555, + "grad_norm": 1.1399768590927124, + "learning_rate": 0.00018224938875305625, + "loss": 2.228, + "step": 4003 + }, + { + "epoch": 0.08897777777777778, + "grad_norm": 1.2105519771575928, + "learning_rate": 0.00018224494332073795, + "loss": 2.2901, + "step": 4004 + }, + { + "epoch": 0.089, + "grad_norm": 1.3387752771377563, + "learning_rate": 0.00018224049788841966, + "loss": 2.3667, + "step": 4005 + }, + { + "epoch": 0.08902222222222222, + "grad_norm": 1.366286039352417, + "learning_rate": 0.00018223605245610135, + "loss": 2.0674, + "step": 4006 + }, + { + "epoch": 0.08904444444444444, + "grad_norm": 1.034104824066162, + "learning_rate": 0.00018223160702378308, + "loss": 1.6388, + "step": 4007 + }, + { + "epoch": 0.08906666666666667, + "grad_norm": 1.419653296470642, + "learning_rate": 0.00018222716159146477, + "loss": 2.597, + "step": 4008 + }, + { + "epoch": 0.08908888888888888, + "grad_norm": 1.376345157623291, + "learning_rate": 0.00018222271615914648, + "loss": 2.2231, + "step": 4009 + }, + { + "epoch": 0.08911111111111111, + "grad_norm": 1.5309399366378784, + "learning_rate": 0.0001822182707268282, + "loss": 2.2812, + "step": 4010 + }, + { + "epoch": 0.08913333333333333, + "grad_norm": 1.1608930826187134, + "learning_rate": 0.0001822138252945099, + "loss": 2.0559, + "step": 4011 + }, + { + "epoch": 0.08915555555555556, + "grad_norm": 1.237950325012207, + "learning_rate": 0.0001822093798621916, + "loss": 2.04, + "step": 4012 + }, + { + "epoch": 0.08917777777777777, + "grad_norm": 1.3438576459884644, + "learning_rate": 0.00018220493442987331, + "loss": 2.6675, + "step": 4013 + }, + { + "epoch": 0.0892, + "grad_norm": 1.3429163694381714, + "learning_rate": 0.00018220048899755502, + "loss": 2.2567, + "step": 4014 + }, + { + "epoch": 0.08922222222222222, + "grad_norm": 1.0870521068572998, + "learning_rate": 0.0001821960435652367, + "loss": 1.552, + "step": 4015 + }, + { + "epoch": 0.08924444444444445, + "grad_norm": 1.3223501443862915, + "learning_rate": 0.00018219159813291844, + "loss": 2.2699, + "step": 4016 + }, + { + "epoch": 0.08926666666666666, + "grad_norm": 1.3303872346878052, + "learning_rate": 0.00018218715270060013, + "loss": 2.4244, + "step": 4017 + }, + { + "epoch": 0.08928888888888889, + "grad_norm": 1.0466386079788208, + "learning_rate": 0.00018218270726828184, + "loss": 1.5336, + "step": 4018 + }, + { + "epoch": 0.0893111111111111, + "grad_norm": 1.267941951751709, + "learning_rate": 0.00018217826183596357, + "loss": 1.8151, + "step": 4019 + }, + { + "epoch": 0.08933333333333333, + "grad_norm": 1.208484172821045, + "learning_rate": 0.00018217381640364525, + "loss": 1.9847, + "step": 4020 + }, + { + "epoch": 0.08935555555555555, + "grad_norm": 1.3358150720596313, + "learning_rate": 0.000182169370971327, + "loss": 2.4709, + "step": 4021 + }, + { + "epoch": 0.08937777777777778, + "grad_norm": 0.9815666675567627, + "learning_rate": 0.00018216492553900867, + "loss": 1.4165, + "step": 4022 + }, + { + "epoch": 0.0894, + "grad_norm": 1.3121657371520996, + "learning_rate": 0.00018216048010669038, + "loss": 2.4059, + "step": 4023 + }, + { + "epoch": 0.08942222222222222, + "grad_norm": 1.3153599500656128, + "learning_rate": 0.0001821560346743721, + "loss": 1.7834, + "step": 4024 + }, + { + "epoch": 0.08944444444444444, + "grad_norm": 1.4722740650177002, + "learning_rate": 0.0001821515892420538, + "loss": 1.9365, + "step": 4025 + }, + { + "epoch": 0.08946666666666667, + "grad_norm": 1.6213995218276978, + "learning_rate": 0.0001821471438097355, + "loss": 2.3869, + "step": 4026 + }, + { + "epoch": 0.0894888888888889, + "grad_norm": 1.2937724590301514, + "learning_rate": 0.00018214269837741722, + "loss": 1.7115, + "step": 4027 + }, + { + "epoch": 0.08951111111111111, + "grad_norm": 1.3780187368392944, + "learning_rate": 0.00018213825294509893, + "loss": 1.8938, + "step": 4028 + }, + { + "epoch": 0.08953333333333334, + "grad_norm": 1.5479607582092285, + "learning_rate": 0.00018213380751278061, + "loss": 2.4191, + "step": 4029 + }, + { + "epoch": 0.08955555555555555, + "grad_norm": 1.3018114566802979, + "learning_rate": 0.00018212936208046235, + "loss": 1.9965, + "step": 4030 + }, + { + "epoch": 0.08957777777777778, + "grad_norm": 1.505035638809204, + "learning_rate": 0.00018212491664814403, + "loss": 2.3121, + "step": 4031 + }, + { + "epoch": 0.0896, + "grad_norm": 1.39242684841156, + "learning_rate": 0.00018212047121582574, + "loss": 1.6258, + "step": 4032 + }, + { + "epoch": 0.08962222222222223, + "grad_norm": 1.5285018682479858, + "learning_rate": 0.00018211602578350745, + "loss": 2.3059, + "step": 4033 + }, + { + "epoch": 0.08964444444444444, + "grad_norm": 1.3786457777023315, + "learning_rate": 0.00018211158035118916, + "loss": 1.9854, + "step": 4034 + }, + { + "epoch": 0.08966666666666667, + "grad_norm": 1.4496877193450928, + "learning_rate": 0.00018210713491887087, + "loss": 2.0708, + "step": 4035 + }, + { + "epoch": 0.08968888888888889, + "grad_norm": 1.1986298561096191, + "learning_rate": 0.00018210268948655258, + "loss": 1.7447, + "step": 4036 + }, + { + "epoch": 0.08971111111111112, + "grad_norm": 1.2278554439544678, + "learning_rate": 0.0001820982440542343, + "loss": 2.1479, + "step": 4037 + }, + { + "epoch": 0.08973333333333333, + "grad_norm": 1.1859891414642334, + "learning_rate": 0.000182093798621916, + "loss": 1.5363, + "step": 4038 + }, + { + "epoch": 0.08975555555555556, + "grad_norm": 1.2920050621032715, + "learning_rate": 0.0001820893531895977, + "loss": 1.7126, + "step": 4039 + }, + { + "epoch": 0.08977777777777778, + "grad_norm": 1.2669432163238525, + "learning_rate": 0.0001820849077572794, + "loss": 1.8844, + "step": 4040 + }, + { + "epoch": 0.0898, + "grad_norm": 1.3032450675964355, + "learning_rate": 0.00018208046232496113, + "loss": 1.5503, + "step": 4041 + }, + { + "epoch": 0.08982222222222222, + "grad_norm": 1.9114999771118164, + "learning_rate": 0.0001820760168926428, + "loss": 2.1349, + "step": 4042 + }, + { + "epoch": 0.08984444444444445, + "grad_norm": 1.7164593935012817, + "learning_rate": 0.00018207157146032452, + "loss": 2.4535, + "step": 4043 + }, + { + "epoch": 0.08986666666666666, + "grad_norm": 1.281882405281067, + "learning_rate": 0.00018206712602800623, + "loss": 1.6772, + "step": 4044 + }, + { + "epoch": 0.0898888888888889, + "grad_norm": 1.291181206703186, + "learning_rate": 0.00018206268059568794, + "loss": 1.77, + "step": 4045 + }, + { + "epoch": 0.08991111111111111, + "grad_norm": 1.5831859111785889, + "learning_rate": 0.00018205823516336965, + "loss": 2.1031, + "step": 4046 + }, + { + "epoch": 0.08993333333333334, + "grad_norm": 1.6419646739959717, + "learning_rate": 0.00018205378973105136, + "loss": 2.1175, + "step": 4047 + }, + { + "epoch": 0.08995555555555555, + "grad_norm": 1.4621165990829468, + "learning_rate": 0.00018204934429873307, + "loss": 1.9295, + "step": 4048 + }, + { + "epoch": 0.08997777777777778, + "grad_norm": 1.4456675052642822, + "learning_rate": 0.00018204489886641475, + "loss": 1.4717, + "step": 4049 + }, + { + "epoch": 0.09, + "grad_norm": 1.8878512382507324, + "learning_rate": 0.0001820404534340965, + "loss": 1.4931, + "step": 4050 + }, + { + "epoch": 0.09002222222222223, + "grad_norm": 0.33234038949012756, + "learning_rate": 0.00018203600800177817, + "loss": 0.0248, + "step": 4051 + }, + { + "epoch": 0.09004444444444444, + "grad_norm": 1.067193627357483, + "learning_rate": 0.00018203156256945988, + "loss": 2.1954, + "step": 4052 + }, + { + "epoch": 0.09006666666666667, + "grad_norm": 1.11116361618042, + "learning_rate": 0.0001820271171371416, + "loss": 2.4635, + "step": 4053 + }, + { + "epoch": 0.09008888888888889, + "grad_norm": 6.025672435760498, + "learning_rate": 0.0001820226717048233, + "loss": 0.5715, + "step": 4054 + }, + { + "epoch": 0.09011111111111111, + "grad_norm": 1.2340022325515747, + "learning_rate": 0.000182018226272505, + "loss": 2.4092, + "step": 4055 + }, + { + "epoch": 0.09013333333333333, + "grad_norm": 1.2766684293746948, + "learning_rate": 0.00018201378084018672, + "loss": 2.0936, + "step": 4056 + }, + { + "epoch": 0.09015555555555556, + "grad_norm": 1.2358952760696411, + "learning_rate": 0.00018200933540786843, + "loss": 2.5282, + "step": 4057 + }, + { + "epoch": 0.09017777777777777, + "grad_norm": 1.080397129058838, + "learning_rate": 0.00018200488997555014, + "loss": 2.1662, + "step": 4058 + }, + { + "epoch": 0.0902, + "grad_norm": 1.2267324924468994, + "learning_rate": 0.00018200044454323185, + "loss": 2.2952, + "step": 4059 + }, + { + "epoch": 0.09022222222222222, + "grad_norm": 1.363930344581604, + "learning_rate": 0.00018199599911091353, + "loss": 2.3119, + "step": 4060 + }, + { + "epoch": 0.09024444444444445, + "grad_norm": 1.7942321300506592, + "learning_rate": 0.00018199155367859527, + "loss": 2.6284, + "step": 4061 + }, + { + "epoch": 0.09026666666666666, + "grad_norm": 1.4145745038986206, + "learning_rate": 0.00018198710824627695, + "loss": 2.7728, + "step": 4062 + }, + { + "epoch": 0.09028888888888889, + "grad_norm": 1.1446871757507324, + "learning_rate": 0.00018198266281395866, + "loss": 1.8908, + "step": 4063 + }, + { + "epoch": 0.0903111111111111, + "grad_norm": 1.2324484586715698, + "learning_rate": 0.00018197821738164037, + "loss": 2.1921, + "step": 4064 + }, + { + "epoch": 0.09033333333333333, + "grad_norm": 1.2518575191497803, + "learning_rate": 0.00018197377194932208, + "loss": 2.0331, + "step": 4065 + }, + { + "epoch": 0.09035555555555555, + "grad_norm": 1.296597957611084, + "learning_rate": 0.0001819693265170038, + "loss": 2.3096, + "step": 4066 + }, + { + "epoch": 0.09037777777777778, + "grad_norm": 1.4862322807312012, + "learning_rate": 0.0001819648810846855, + "loss": 2.2494, + "step": 4067 + }, + { + "epoch": 0.0904, + "grad_norm": 1.2500277757644653, + "learning_rate": 0.0001819604356523672, + "loss": 1.8087, + "step": 4068 + }, + { + "epoch": 0.09042222222222222, + "grad_norm": 1.2148723602294922, + "learning_rate": 0.0001819559902200489, + "loss": 2.1848, + "step": 4069 + }, + { + "epoch": 0.09044444444444444, + "grad_norm": 1.2145519256591797, + "learning_rate": 0.00018195154478773063, + "loss": 0.9238, + "step": 4070 + }, + { + "epoch": 0.09046666666666667, + "grad_norm": 1.3164136409759521, + "learning_rate": 0.0001819470993554123, + "loss": 2.0691, + "step": 4071 + }, + { + "epoch": 0.09048888888888888, + "grad_norm": 1.2843410968780518, + "learning_rate": 0.00018194265392309402, + "loss": 1.8868, + "step": 4072 + }, + { + "epoch": 0.09051111111111111, + "grad_norm": 1.3158208131790161, + "learning_rate": 0.00018193820849077573, + "loss": 1.4847, + "step": 4073 + }, + { + "epoch": 0.09053333333333333, + "grad_norm": 1.7421456575393677, + "learning_rate": 0.00018193376305845744, + "loss": 1.9892, + "step": 4074 + }, + { + "epoch": 0.09055555555555556, + "grad_norm": 1.2904186248779297, + "learning_rate": 0.00018192931762613915, + "loss": 1.6743, + "step": 4075 + }, + { + "epoch": 0.09057777777777777, + "grad_norm": 1.356465220451355, + "learning_rate": 0.00018192487219382086, + "loss": 2.2248, + "step": 4076 + }, + { + "epoch": 0.0906, + "grad_norm": 1.4544111490249634, + "learning_rate": 0.00018192042676150257, + "loss": 1.499, + "step": 4077 + }, + { + "epoch": 0.09062222222222223, + "grad_norm": 1.1715073585510254, + "learning_rate": 0.00018191598132918428, + "loss": 2.044, + "step": 4078 + }, + { + "epoch": 0.09064444444444444, + "grad_norm": 1.368010401725769, + "learning_rate": 0.000181911535896866, + "loss": 2.4096, + "step": 4079 + }, + { + "epoch": 0.09066666666666667, + "grad_norm": 1.209328532218933, + "learning_rate": 0.00018190709046454767, + "loss": 2.0634, + "step": 4080 + }, + { + "epoch": 0.09068888888888889, + "grad_norm": 1.1925572156906128, + "learning_rate": 0.0001819026450322294, + "loss": 1.7468, + "step": 4081 + }, + { + "epoch": 0.09071111111111112, + "grad_norm": 1.38496994972229, + "learning_rate": 0.0001818981995999111, + "loss": 2.1352, + "step": 4082 + }, + { + "epoch": 0.09073333333333333, + "grad_norm": 1.2292604446411133, + "learning_rate": 0.0001818937541675928, + "loss": 1.8989, + "step": 4083 + }, + { + "epoch": 0.09075555555555556, + "grad_norm": 1.361112117767334, + "learning_rate": 0.00018188930873527453, + "loss": 2.4108, + "step": 4084 + }, + { + "epoch": 0.09077777777777778, + "grad_norm": 1.3043910264968872, + "learning_rate": 0.00018188486330295622, + "loss": 2.2388, + "step": 4085 + }, + { + "epoch": 0.0908, + "grad_norm": 1.2776652574539185, + "learning_rate": 0.00018188041787063793, + "loss": 2.1992, + "step": 4086 + }, + { + "epoch": 0.09082222222222222, + "grad_norm": 1.2072038650512695, + "learning_rate": 0.00018187597243831964, + "loss": 1.9774, + "step": 4087 + }, + { + "epoch": 0.09084444444444445, + "grad_norm": 1.2190172672271729, + "learning_rate": 0.00018187152700600135, + "loss": 2.0718, + "step": 4088 + }, + { + "epoch": 0.09086666666666667, + "grad_norm": 1.5369328260421753, + "learning_rate": 0.00018186708157368303, + "loss": 2.3374, + "step": 4089 + }, + { + "epoch": 0.0908888888888889, + "grad_norm": 1.2563663721084595, + "learning_rate": 0.00018186263614136477, + "loss": 1.7178, + "step": 4090 + }, + { + "epoch": 0.09091111111111111, + "grad_norm": 1.189376950263977, + "learning_rate": 0.00018185819070904645, + "loss": 1.8669, + "step": 4091 + }, + { + "epoch": 0.09093333333333334, + "grad_norm": 1.274102807044983, + "learning_rate": 0.00018185374527672816, + "loss": 2.2547, + "step": 4092 + }, + { + "epoch": 0.09095555555555555, + "grad_norm": 1.4080109596252441, + "learning_rate": 0.0001818492998444099, + "loss": 2.0774, + "step": 4093 + }, + { + "epoch": 0.09097777777777778, + "grad_norm": 1.2916828393936157, + "learning_rate": 0.00018184485441209158, + "loss": 1.6038, + "step": 4094 + }, + { + "epoch": 0.091, + "grad_norm": 1.2181613445281982, + "learning_rate": 0.0001818404089797733, + "loss": 1.8275, + "step": 4095 + }, + { + "epoch": 0.09102222222222223, + "grad_norm": 1.469650149345398, + "learning_rate": 0.000181835963547455, + "loss": 2.0016, + "step": 4096 + }, + { + "epoch": 0.09104444444444444, + "grad_norm": 1.3400145769119263, + "learning_rate": 0.0001818315181151367, + "loss": 1.8783, + "step": 4097 + }, + { + "epoch": 0.09106666666666667, + "grad_norm": 1.454121708869934, + "learning_rate": 0.00018182707268281842, + "loss": 1.7824, + "step": 4098 + }, + { + "epoch": 0.09108888888888889, + "grad_norm": 1.7567150592803955, + "learning_rate": 0.00018182262725050012, + "loss": 2.1554, + "step": 4099 + }, + { + "epoch": 0.09111111111111111, + "grad_norm": 1.4065117835998535, + "learning_rate": 0.00018181818181818183, + "loss": 1.4674, + "step": 4100 + }, + { + "epoch": 0.09113333333333333, + "grad_norm": 1.067503809928894, + "learning_rate": 0.00018181373638586354, + "loss": 2.7277, + "step": 4101 + }, + { + "epoch": 0.09115555555555556, + "grad_norm": 1.1799376010894775, + "learning_rate": 0.00018180929095354525, + "loss": 2.6751, + "step": 4102 + }, + { + "epoch": 0.09117777777777777, + "grad_norm": 1.2468464374542236, + "learning_rate": 0.00018180484552122694, + "loss": 2.3971, + "step": 4103 + }, + { + "epoch": 0.0912, + "grad_norm": 1.1874558925628662, + "learning_rate": 0.00018180040008890867, + "loss": 2.6052, + "step": 4104 + }, + { + "epoch": 0.09122222222222222, + "grad_norm": 1.1237014532089233, + "learning_rate": 0.00018179595465659036, + "loss": 2.2262, + "step": 4105 + }, + { + "epoch": 0.09124444444444445, + "grad_norm": 0.9946170449256897, + "learning_rate": 0.00018179150922427206, + "loss": 1.5529, + "step": 4106 + }, + { + "epoch": 0.09126666666666666, + "grad_norm": 1.1014432907104492, + "learning_rate": 0.00018178706379195377, + "loss": 2.4072, + "step": 4107 + }, + { + "epoch": 0.09128888888888889, + "grad_norm": 1.0999475717544556, + "learning_rate": 0.00018178261835963548, + "loss": 1.9625, + "step": 4108 + }, + { + "epoch": 0.0913111111111111, + "grad_norm": 1.183287501335144, + "learning_rate": 0.0001817781729273172, + "loss": 1.9984, + "step": 4109 + }, + { + "epoch": 0.09133333333333334, + "grad_norm": 1.2450661659240723, + "learning_rate": 0.0001817737274949989, + "loss": 2.1961, + "step": 4110 + }, + { + "epoch": 0.09135555555555555, + "grad_norm": 1.2629178762435913, + "learning_rate": 0.0001817692820626806, + "loss": 2.0241, + "step": 4111 + }, + { + "epoch": 0.09137777777777778, + "grad_norm": 1.1407676935195923, + "learning_rate": 0.0001817648366303623, + "loss": 2.3813, + "step": 4112 + }, + { + "epoch": 0.0914, + "grad_norm": 1.1981663703918457, + "learning_rate": 0.00018176039119804403, + "loss": 2.127, + "step": 4113 + }, + { + "epoch": 0.09142222222222222, + "grad_norm": 1.6344211101531982, + "learning_rate": 0.00018175594576572571, + "loss": 2.3908, + "step": 4114 + }, + { + "epoch": 0.09144444444444444, + "grad_norm": 1.4242089986801147, + "learning_rate": 0.00018175150033340745, + "loss": 2.4322, + "step": 4115 + }, + { + "epoch": 0.09146666666666667, + "grad_norm": 1.284766674041748, + "learning_rate": 0.00018174705490108913, + "loss": 2.2547, + "step": 4116 + }, + { + "epoch": 0.09148888888888888, + "grad_norm": 1.1385011672973633, + "learning_rate": 0.00018174260946877084, + "loss": 1.7965, + "step": 4117 + }, + { + "epoch": 0.09151111111111111, + "grad_norm": 1.1987061500549316, + "learning_rate": 0.00018173816403645255, + "loss": 1.9546, + "step": 4118 + }, + { + "epoch": 0.09153333333333333, + "grad_norm": 1.543986201286316, + "learning_rate": 0.00018173371860413426, + "loss": 2.2107, + "step": 4119 + }, + { + "epoch": 0.09155555555555556, + "grad_norm": 1.3513902425765991, + "learning_rate": 0.00018172927317181597, + "loss": 2.2166, + "step": 4120 + }, + { + "epoch": 0.09157777777777777, + "grad_norm": 1.5229825973510742, + "learning_rate": 0.00018172482773949768, + "loss": 2.1961, + "step": 4121 + }, + { + "epoch": 0.0916, + "grad_norm": 1.3071125745773315, + "learning_rate": 0.0001817203823071794, + "loss": 2.2583, + "step": 4122 + }, + { + "epoch": 0.09162222222222222, + "grad_norm": 1.1928024291992188, + "learning_rate": 0.00018171593687486107, + "loss": 2.064, + "step": 4123 + }, + { + "epoch": 0.09164444444444445, + "grad_norm": 1.4223048686981201, + "learning_rate": 0.0001817114914425428, + "loss": 2.051, + "step": 4124 + }, + { + "epoch": 0.09166666666666666, + "grad_norm": 1.1061046123504639, + "learning_rate": 0.0001817070460102245, + "loss": 1.6612, + "step": 4125 + }, + { + "epoch": 0.09168888888888889, + "grad_norm": 1.3171643018722534, + "learning_rate": 0.0001817026005779062, + "loss": 2.4557, + "step": 4126 + }, + { + "epoch": 0.0917111111111111, + "grad_norm": 1.4509333372116089, + "learning_rate": 0.0001816981551455879, + "loss": 2.2647, + "step": 4127 + }, + { + "epoch": 0.09173333333333333, + "grad_norm": 1.041982650756836, + "learning_rate": 0.00018169370971326962, + "loss": 1.0209, + "step": 4128 + }, + { + "epoch": 0.09175555555555556, + "grad_norm": 1.3982865810394287, + "learning_rate": 0.00018168926428095133, + "loss": 1.6007, + "step": 4129 + }, + { + "epoch": 0.09177777777777778, + "grad_norm": 1.341732144355774, + "learning_rate": 0.00018168481884863304, + "loss": 2.0328, + "step": 4130 + }, + { + "epoch": 0.0918, + "grad_norm": 1.386540412902832, + "learning_rate": 0.00018168037341631475, + "loss": 2.1151, + "step": 4131 + }, + { + "epoch": 0.09182222222222222, + "grad_norm": 1.4547587633132935, + "learning_rate": 0.00018167592798399646, + "loss": 2.2619, + "step": 4132 + }, + { + "epoch": 0.09184444444444445, + "grad_norm": 1.330428123474121, + "learning_rate": 0.00018167148255167817, + "loss": 2.0824, + "step": 4133 + }, + { + "epoch": 0.09186666666666667, + "grad_norm": 1.92506742477417, + "learning_rate": 0.00018166703711935985, + "loss": 1.9639, + "step": 4134 + }, + { + "epoch": 0.0918888888888889, + "grad_norm": 1.524463176727295, + "learning_rate": 0.0001816625916870416, + "loss": 1.9331, + "step": 4135 + }, + { + "epoch": 0.09191111111111111, + "grad_norm": 1.3584568500518799, + "learning_rate": 0.00018165814625472327, + "loss": 2.1083, + "step": 4136 + }, + { + "epoch": 0.09193333333333334, + "grad_norm": 1.2452504634857178, + "learning_rate": 0.00018165370082240498, + "loss": 1.6683, + "step": 4137 + }, + { + "epoch": 0.09195555555555555, + "grad_norm": 1.5261337757110596, + "learning_rate": 0.0001816492553900867, + "loss": 2.023, + "step": 4138 + }, + { + "epoch": 0.09197777777777778, + "grad_norm": 1.327707052230835, + "learning_rate": 0.0001816448099577684, + "loss": 1.863, + "step": 4139 + }, + { + "epoch": 0.092, + "grad_norm": 1.279916524887085, + "learning_rate": 0.0001816403645254501, + "loss": 1.821, + "step": 4140 + }, + { + "epoch": 0.09202222222222223, + "grad_norm": 1.303451418876648, + "learning_rate": 0.00018163591909313182, + "loss": 1.9548, + "step": 4141 + }, + { + "epoch": 0.09204444444444444, + "grad_norm": 1.4252902269363403, + "learning_rate": 0.00018163147366081353, + "loss": 2.0182, + "step": 4142 + }, + { + "epoch": 0.09206666666666667, + "grad_norm": 1.4667932987213135, + "learning_rate": 0.0001816270282284952, + "loss": 1.988, + "step": 4143 + }, + { + "epoch": 0.09208888888888889, + "grad_norm": 1.4066476821899414, + "learning_rate": 0.00018162258279617695, + "loss": 2.0203, + "step": 4144 + }, + { + "epoch": 0.09211111111111112, + "grad_norm": 1.4897884130477905, + "learning_rate": 0.00018161813736385863, + "loss": 2.0111, + "step": 4145 + }, + { + "epoch": 0.09213333333333333, + "grad_norm": 1.6931284666061401, + "learning_rate": 0.00018161369193154034, + "loss": 1.9726, + "step": 4146 + }, + { + "epoch": 0.09215555555555556, + "grad_norm": 1.417374610900879, + "learning_rate": 0.00018160924649922205, + "loss": 1.934, + "step": 4147 + }, + { + "epoch": 0.09217777777777778, + "grad_norm": 1.4875603914260864, + "learning_rate": 0.00018160480106690376, + "loss": 2.0975, + "step": 4148 + }, + { + "epoch": 0.0922, + "grad_norm": 1.4240719079971313, + "learning_rate": 0.00018160035563458547, + "loss": 1.8821, + "step": 4149 + }, + { + "epoch": 0.09222222222222222, + "grad_norm": 1.3454698324203491, + "learning_rate": 0.00018159591020226718, + "loss": 1.1832, + "step": 4150 + }, + { + "epoch": 0.09224444444444445, + "grad_norm": 1.187279224395752, + "learning_rate": 0.0001815914647699489, + "loss": 2.6025, + "step": 4151 + }, + { + "epoch": 0.09226666666666666, + "grad_norm": 0.9831141233444214, + "learning_rate": 0.0001815870193376306, + "loss": 2.0989, + "step": 4152 + }, + { + "epoch": 0.09228888888888889, + "grad_norm": 1.077631950378418, + "learning_rate": 0.0001815825739053123, + "loss": 1.1146, + "step": 4153 + }, + { + "epoch": 0.09231111111111111, + "grad_norm": 1.36410391330719, + "learning_rate": 0.000181578128472994, + "loss": 1.6986, + "step": 4154 + }, + { + "epoch": 0.09233333333333334, + "grad_norm": 1.1403145790100098, + "learning_rate": 0.00018157368304067573, + "loss": 1.9825, + "step": 4155 + }, + { + "epoch": 0.09235555555555555, + "grad_norm": 1.1738941669464111, + "learning_rate": 0.0001815692376083574, + "loss": 2.196, + "step": 4156 + }, + { + "epoch": 0.09237777777777778, + "grad_norm": 1.170693278312683, + "learning_rate": 0.00018156479217603912, + "loss": 2.5959, + "step": 4157 + }, + { + "epoch": 0.0924, + "grad_norm": 1.2521940469741821, + "learning_rate": 0.00018156034674372086, + "loss": 2.0433, + "step": 4158 + }, + { + "epoch": 0.09242222222222223, + "grad_norm": 1.8422415256500244, + "learning_rate": 0.00018155590131140254, + "loss": 2.2061, + "step": 4159 + }, + { + "epoch": 0.09244444444444444, + "grad_norm": 1.1428771018981934, + "learning_rate": 0.00018155145587908425, + "loss": 1.8359, + "step": 4160 + }, + { + "epoch": 0.09246666666666667, + "grad_norm": 1.272699236869812, + "learning_rate": 0.00018154701044676596, + "loss": 2.0727, + "step": 4161 + }, + { + "epoch": 0.09248888888888888, + "grad_norm": 1.3834130764007568, + "learning_rate": 0.00018154256501444767, + "loss": 2.523, + "step": 4162 + }, + { + "epoch": 0.09251111111111111, + "grad_norm": 1.2837368249893188, + "learning_rate": 0.00018153811958212935, + "loss": 2.0416, + "step": 4163 + }, + { + "epoch": 0.09253333333333333, + "grad_norm": 1.3925597667694092, + "learning_rate": 0.0001815336741498111, + "loss": 2.1914, + "step": 4164 + }, + { + "epoch": 0.09255555555555556, + "grad_norm": 1.2541146278381348, + "learning_rate": 0.00018152922871749277, + "loss": 2.2622, + "step": 4165 + }, + { + "epoch": 0.09257777777777777, + "grad_norm": 1.1055595874786377, + "learning_rate": 0.00018152478328517448, + "loss": 2.2316, + "step": 4166 + }, + { + "epoch": 0.0926, + "grad_norm": 1.1584255695343018, + "learning_rate": 0.00018152033785285622, + "loss": 2.05, + "step": 4167 + }, + { + "epoch": 0.09262222222222222, + "grad_norm": 1.4687235355377197, + "learning_rate": 0.0001815158924205379, + "loss": 2.7488, + "step": 4168 + }, + { + "epoch": 0.09264444444444445, + "grad_norm": 1.6420753002166748, + "learning_rate": 0.0001815114469882196, + "loss": 1.6486, + "step": 4169 + }, + { + "epoch": 0.09266666666666666, + "grad_norm": 1.29860258102417, + "learning_rate": 0.00018150700155590132, + "loss": 2.0112, + "step": 4170 + }, + { + "epoch": 0.09268888888888889, + "grad_norm": 1.113627552986145, + "learning_rate": 0.00018150255612358303, + "loss": 1.7817, + "step": 4171 + }, + { + "epoch": 0.0927111111111111, + "grad_norm": 1.347639799118042, + "learning_rate": 0.00018149811069126474, + "loss": 2.1989, + "step": 4172 + }, + { + "epoch": 0.09273333333333333, + "grad_norm": 1.31053626537323, + "learning_rate": 0.00018149366525894645, + "loss": 2.2405, + "step": 4173 + }, + { + "epoch": 0.09275555555555555, + "grad_norm": 1.0628243684768677, + "learning_rate": 0.00018148921982662816, + "loss": 1.2763, + "step": 4174 + }, + { + "epoch": 0.09277777777777778, + "grad_norm": 1.509133219718933, + "learning_rate": 0.00018148477439430987, + "loss": 1.9642, + "step": 4175 + }, + { + "epoch": 0.0928, + "grad_norm": 1.3447598218917847, + "learning_rate": 0.00018148032896199158, + "loss": 2.1625, + "step": 4176 + }, + { + "epoch": 0.09282222222222222, + "grad_norm": 1.3930628299713135, + "learning_rate": 0.00018147588352967326, + "loss": 1.4658, + "step": 4177 + }, + { + "epoch": 0.09284444444444444, + "grad_norm": 1.2476844787597656, + "learning_rate": 0.000181471438097355, + "loss": 1.7581, + "step": 4178 + }, + { + "epoch": 0.09286666666666667, + "grad_norm": 1.6546212434768677, + "learning_rate": 0.00018146699266503668, + "loss": 1.8664, + "step": 4179 + }, + { + "epoch": 0.09288888888888888, + "grad_norm": 1.2041245698928833, + "learning_rate": 0.0001814625472327184, + "loss": 2.0695, + "step": 4180 + }, + { + "epoch": 0.09291111111111111, + "grad_norm": 1.5564019680023193, + "learning_rate": 0.0001814581018004001, + "loss": 2.3585, + "step": 4181 + }, + { + "epoch": 0.09293333333333334, + "grad_norm": 1.8060500621795654, + "learning_rate": 0.0001814536563680818, + "loss": 2.6819, + "step": 4182 + }, + { + "epoch": 0.09295555555555556, + "grad_norm": 1.2701903581619263, + "learning_rate": 0.00018144921093576352, + "loss": 2.2501, + "step": 4183 + }, + { + "epoch": 0.09297777777777778, + "grad_norm": 1.4386299848556519, + "learning_rate": 0.00018144476550344523, + "loss": 2.0179, + "step": 4184 + }, + { + "epoch": 0.093, + "grad_norm": 1.2705012559890747, + "learning_rate": 0.00018144032007112694, + "loss": 0.7869, + "step": 4185 + }, + { + "epoch": 0.09302222222222223, + "grad_norm": 1.10904860496521, + "learning_rate": 0.00018143587463880862, + "loss": 1.1131, + "step": 4186 + }, + { + "epoch": 0.09304444444444444, + "grad_norm": 1.481854796409607, + "learning_rate": 0.00018143142920649035, + "loss": 2.1458, + "step": 4187 + }, + { + "epoch": 0.09306666666666667, + "grad_norm": 1.3963654041290283, + "learning_rate": 0.00018142698377417204, + "loss": 2.3388, + "step": 4188 + }, + { + "epoch": 0.09308888888888889, + "grad_norm": 1.2234638929367065, + "learning_rate": 0.00018142253834185377, + "loss": 1.9841, + "step": 4189 + }, + { + "epoch": 0.09311111111111112, + "grad_norm": 1.4090217351913452, + "learning_rate": 0.00018141809290953546, + "loss": 1.9881, + "step": 4190 + }, + { + "epoch": 0.09313333333333333, + "grad_norm": 1.6126677989959717, + "learning_rate": 0.00018141364747721717, + "loss": 2.3224, + "step": 4191 + }, + { + "epoch": 0.09315555555555556, + "grad_norm": 1.5788543224334717, + "learning_rate": 0.00018140920204489888, + "loss": 2.3603, + "step": 4192 + }, + { + "epoch": 0.09317777777777778, + "grad_norm": 1.5272618532180786, + "learning_rate": 0.00018140475661258058, + "loss": 1.8782, + "step": 4193 + }, + { + "epoch": 0.0932, + "grad_norm": 1.5217806100845337, + "learning_rate": 0.0001814003111802623, + "loss": 2.0306, + "step": 4194 + }, + { + "epoch": 0.09322222222222222, + "grad_norm": 1.3852847814559937, + "learning_rate": 0.000181395865747944, + "loss": 2.1866, + "step": 4195 + }, + { + "epoch": 0.09324444444444445, + "grad_norm": 1.3555530309677124, + "learning_rate": 0.00018139142031562571, + "loss": 1.7641, + "step": 4196 + }, + { + "epoch": 0.09326666666666666, + "grad_norm": 1.4179768562316895, + "learning_rate": 0.0001813869748833074, + "loss": 1.7759, + "step": 4197 + }, + { + "epoch": 0.0932888888888889, + "grad_norm": 1.8198423385620117, + "learning_rate": 0.00018138252945098913, + "loss": 2.0111, + "step": 4198 + }, + { + "epoch": 0.09331111111111111, + "grad_norm": 1.2606964111328125, + "learning_rate": 0.00018137808401867082, + "loss": 1.7961, + "step": 4199 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 1.642815113067627, + "learning_rate": 0.00018137363858635253, + "loss": 2.0713, + "step": 4200 + }, + { + "epoch": 0.09335555555555555, + "grad_norm": 1.0824311971664429, + "learning_rate": 0.00018136919315403423, + "loss": 2.3005, + "step": 4201 + }, + { + "epoch": 0.09337777777777778, + "grad_norm": 1.268574833869934, + "learning_rate": 0.00018136474772171594, + "loss": 2.679, + "step": 4202 + }, + { + "epoch": 0.0934, + "grad_norm": 1.0037251710891724, + "learning_rate": 0.00018136030228939765, + "loss": 2.3274, + "step": 4203 + }, + { + "epoch": 0.09342222222222223, + "grad_norm": 1.1797771453857422, + "learning_rate": 0.00018135585685707936, + "loss": 2.5565, + "step": 4204 + }, + { + "epoch": 0.09344444444444444, + "grad_norm": 0.8439913392066956, + "learning_rate": 0.00018135141142476107, + "loss": 1.1975, + "step": 4205 + }, + { + "epoch": 0.09346666666666667, + "grad_norm": 2.013122320175171, + "learning_rate": 0.00018134696599244276, + "loss": 1.3977, + "step": 4206 + }, + { + "epoch": 0.09348888888888889, + "grad_norm": 1.0435880422592163, + "learning_rate": 0.0001813425205601245, + "loss": 2.1787, + "step": 4207 + }, + { + "epoch": 0.09351111111111111, + "grad_norm": 1.1416970491409302, + "learning_rate": 0.00018133807512780617, + "loss": 2.3445, + "step": 4208 + }, + { + "epoch": 0.09353333333333333, + "grad_norm": 2.4251341819763184, + "learning_rate": 0.0001813336296954879, + "loss": 2.1292, + "step": 4209 + }, + { + "epoch": 0.09355555555555556, + "grad_norm": 1.3286365270614624, + "learning_rate": 0.0001813291842631696, + "loss": 2.6483, + "step": 4210 + }, + { + "epoch": 0.09357777777777777, + "grad_norm": 3.780172824859619, + "learning_rate": 0.0001813247388308513, + "loss": 2.3436, + "step": 4211 + }, + { + "epoch": 0.0936, + "grad_norm": 1.190225601196289, + "learning_rate": 0.000181320293398533, + "loss": 1.0689, + "step": 4212 + }, + { + "epoch": 0.09362222222222222, + "grad_norm": 1.3211151361465454, + "learning_rate": 0.00018131584796621472, + "loss": 2.0866, + "step": 4213 + }, + { + "epoch": 0.09364444444444445, + "grad_norm": 1.102105736732483, + "learning_rate": 0.00018131140253389643, + "loss": 2.0576, + "step": 4214 + }, + { + "epoch": 0.09366666666666666, + "grad_norm": 1.079500675201416, + "learning_rate": 0.00018130695710157814, + "loss": 1.3332, + "step": 4215 + }, + { + "epoch": 0.09368888888888889, + "grad_norm": 1.3115174770355225, + "learning_rate": 0.00018130251166925985, + "loss": 2.5506, + "step": 4216 + }, + { + "epoch": 0.0937111111111111, + "grad_norm": 1.547541618347168, + "learning_rate": 0.00018129806623694153, + "loss": 2.616, + "step": 4217 + }, + { + "epoch": 0.09373333333333334, + "grad_norm": 1.1907072067260742, + "learning_rate": 0.00018129362080462327, + "loss": 2.0952, + "step": 4218 + }, + { + "epoch": 0.09375555555555555, + "grad_norm": 1.5523000955581665, + "learning_rate": 0.00018128917537230495, + "loss": 2.4598, + "step": 4219 + }, + { + "epoch": 0.09377777777777778, + "grad_norm": 1.2876936197280884, + "learning_rate": 0.00018128472993998666, + "loss": 1.7338, + "step": 4220 + }, + { + "epoch": 0.0938, + "grad_norm": 1.2711793184280396, + "learning_rate": 0.00018128028450766837, + "loss": 2.3053, + "step": 4221 + }, + { + "epoch": 0.09382222222222222, + "grad_norm": 1.5317453145980835, + "learning_rate": 0.00018127583907535008, + "loss": 1.99, + "step": 4222 + }, + { + "epoch": 0.09384444444444444, + "grad_norm": 1.5987350940704346, + "learning_rate": 0.0001812713936430318, + "loss": 2.2579, + "step": 4223 + }, + { + "epoch": 0.09386666666666667, + "grad_norm": 1.209079384803772, + "learning_rate": 0.0001812669482107135, + "loss": 2.1626, + "step": 4224 + }, + { + "epoch": 0.09388888888888888, + "grad_norm": 1.1336803436279297, + "learning_rate": 0.0001812625027783952, + "loss": 1.1717, + "step": 4225 + }, + { + "epoch": 0.09391111111111111, + "grad_norm": 1.61040461063385, + "learning_rate": 0.0001812580573460769, + "loss": 2.2274, + "step": 4226 + }, + { + "epoch": 0.09393333333333333, + "grad_norm": 1.129787564277649, + "learning_rate": 0.00018125361191375863, + "loss": 1.3491, + "step": 4227 + }, + { + "epoch": 0.09395555555555556, + "grad_norm": 1.1524302959442139, + "learning_rate": 0.0001812491664814403, + "loss": 1.5449, + "step": 4228 + }, + { + "epoch": 0.09397777777777777, + "grad_norm": 1.4663796424865723, + "learning_rate": 0.00018124472104912205, + "loss": 2.4459, + "step": 4229 + }, + { + "epoch": 0.094, + "grad_norm": 1.4033117294311523, + "learning_rate": 0.00018124027561680373, + "loss": 2.4515, + "step": 4230 + }, + { + "epoch": 0.09402222222222222, + "grad_norm": 1.3667465448379517, + "learning_rate": 0.00018123583018448544, + "loss": 2.4104, + "step": 4231 + }, + { + "epoch": 0.09404444444444444, + "grad_norm": 1.3276413679122925, + "learning_rate": 0.00018123138475216718, + "loss": 2.3673, + "step": 4232 + }, + { + "epoch": 0.09406666666666667, + "grad_norm": 1.6873568296432495, + "learning_rate": 0.00018122693931984886, + "loss": 1.8131, + "step": 4233 + }, + { + "epoch": 0.09408888888888889, + "grad_norm": 1.1830881834030151, + "learning_rate": 0.00018122249388753057, + "loss": 1.3195, + "step": 4234 + }, + { + "epoch": 0.09411111111111112, + "grad_norm": 1.2423733472824097, + "learning_rate": 0.00018121804845521228, + "loss": 1.7322, + "step": 4235 + }, + { + "epoch": 0.09413333333333333, + "grad_norm": 1.4849443435668945, + "learning_rate": 0.000181213603022894, + "loss": 2.2424, + "step": 4236 + }, + { + "epoch": 0.09415555555555556, + "grad_norm": 1.2287132740020752, + "learning_rate": 0.00018120915759057567, + "loss": 1.5136, + "step": 4237 + }, + { + "epoch": 0.09417777777777778, + "grad_norm": 1.350013017654419, + "learning_rate": 0.0001812047121582574, + "loss": 2.0541, + "step": 4238 + }, + { + "epoch": 0.0942, + "grad_norm": 2.004333972930908, + "learning_rate": 0.0001812002667259391, + "loss": 2.1348, + "step": 4239 + }, + { + "epoch": 0.09422222222222222, + "grad_norm": 1.4392337799072266, + "learning_rate": 0.0001811958212936208, + "loss": 1.9321, + "step": 4240 + }, + { + "epoch": 0.09424444444444445, + "grad_norm": 1.5513615608215332, + "learning_rate": 0.00018119137586130254, + "loss": 2.2537, + "step": 4241 + }, + { + "epoch": 0.09426666666666667, + "grad_norm": 1.2317965030670166, + "learning_rate": 0.00018118693042898422, + "loss": 1.636, + "step": 4242 + }, + { + "epoch": 0.0942888888888889, + "grad_norm": 1.2938313484191895, + "learning_rate": 0.00018118248499666593, + "loss": 1.8187, + "step": 4243 + }, + { + "epoch": 0.09431111111111111, + "grad_norm": 1.340935468673706, + "learning_rate": 0.00018117803956434764, + "loss": 1.5115, + "step": 4244 + }, + { + "epoch": 0.09433333333333334, + "grad_norm": 1.7534791231155396, + "learning_rate": 0.00018117359413202935, + "loss": 1.7701, + "step": 4245 + }, + { + "epoch": 0.09435555555555555, + "grad_norm": 1.4208885431289673, + "learning_rate": 0.00018116914869971106, + "loss": 1.7399, + "step": 4246 + }, + { + "epoch": 0.09437777777777778, + "grad_norm": 1.6531567573547363, + "learning_rate": 0.00018116470326739277, + "loss": 1.9721, + "step": 4247 + }, + { + "epoch": 0.0944, + "grad_norm": 1.0221691131591797, + "learning_rate": 0.00018116025783507448, + "loss": 0.9554, + "step": 4248 + }, + { + "epoch": 0.09442222222222223, + "grad_norm": 0.8962246775627136, + "learning_rate": 0.0001811558124027562, + "loss": 0.6982, + "step": 4249 + }, + { + "epoch": 0.09444444444444444, + "grad_norm": 1.6421195268630981, + "learning_rate": 0.0001811513669704379, + "loss": 1.818, + "step": 4250 + }, + { + "epoch": 0.09446666666666667, + "grad_norm": 1.294623851776123, + "learning_rate": 0.00018114692153811958, + "loss": 2.2651, + "step": 4251 + }, + { + "epoch": 0.09448888888888889, + "grad_norm": 1.2783280611038208, + "learning_rate": 0.00018114247610580132, + "loss": 2.6086, + "step": 4252 + }, + { + "epoch": 0.09451111111111112, + "grad_norm": 1.3720486164093018, + "learning_rate": 0.000181138030673483, + "loss": 3.0212, + "step": 4253 + }, + { + "epoch": 0.09453333333333333, + "grad_norm": 1.2371083498001099, + "learning_rate": 0.0001811335852411647, + "loss": 2.5947, + "step": 4254 + }, + { + "epoch": 0.09455555555555556, + "grad_norm": 1.1510810852050781, + "learning_rate": 0.00018112913980884642, + "loss": 1.7774, + "step": 4255 + }, + { + "epoch": 0.09457777777777777, + "grad_norm": 1.3002768754959106, + "learning_rate": 0.00018112469437652813, + "loss": 2.2432, + "step": 4256 + }, + { + "epoch": 0.0946, + "grad_norm": 1.4122568368911743, + "learning_rate": 0.00018112024894420984, + "loss": 2.1229, + "step": 4257 + }, + { + "epoch": 0.09462222222222222, + "grad_norm": 1.2634310722351074, + "learning_rate": 0.00018111580351189155, + "loss": 2.2565, + "step": 4258 + }, + { + "epoch": 0.09464444444444445, + "grad_norm": 1.222751259803772, + "learning_rate": 0.00018111135807957326, + "loss": 2.288, + "step": 4259 + }, + { + "epoch": 0.09466666666666666, + "grad_norm": 1.275425672531128, + "learning_rate": 0.00018110691264725494, + "loss": 1.8685, + "step": 4260 + }, + { + "epoch": 0.09468888888888889, + "grad_norm": 1.3416695594787598, + "learning_rate": 0.00018110246721493668, + "loss": 2.0879, + "step": 4261 + }, + { + "epoch": 0.09471111111111111, + "grad_norm": 1.304337978363037, + "learning_rate": 0.00018109802178261836, + "loss": 2.1505, + "step": 4262 + }, + { + "epoch": 0.09473333333333334, + "grad_norm": 1.3516786098480225, + "learning_rate": 0.00018109357635030007, + "loss": 2.7259, + "step": 4263 + }, + { + "epoch": 0.09475555555555555, + "grad_norm": 1.4799913167953491, + "learning_rate": 0.00018108913091798178, + "loss": 2.3552, + "step": 4264 + }, + { + "epoch": 0.09477777777777778, + "grad_norm": 1.1678763628005981, + "learning_rate": 0.0001810846854856635, + "loss": 2.4232, + "step": 4265 + }, + { + "epoch": 0.0948, + "grad_norm": 1.1596277952194214, + "learning_rate": 0.0001810802400533452, + "loss": 1.9048, + "step": 4266 + }, + { + "epoch": 0.09482222222222222, + "grad_norm": 1.223615050315857, + "learning_rate": 0.0001810757946210269, + "loss": 1.8111, + "step": 4267 + }, + { + "epoch": 0.09484444444444444, + "grad_norm": 1.3789392709732056, + "learning_rate": 0.00018107134918870862, + "loss": 1.8811, + "step": 4268 + }, + { + "epoch": 0.09486666666666667, + "grad_norm": 1.5451769828796387, + "learning_rate": 0.00018106690375639033, + "loss": 2.4704, + "step": 4269 + }, + { + "epoch": 0.09488888888888888, + "grad_norm": 1.3389593362808228, + "learning_rate": 0.00018106245832407204, + "loss": 2.049, + "step": 4270 + }, + { + "epoch": 0.09491111111111111, + "grad_norm": 1.2102974653244019, + "learning_rate": 0.00018105801289175372, + "loss": 1.8909, + "step": 4271 + }, + { + "epoch": 0.09493333333333333, + "grad_norm": 1.4268876314163208, + "learning_rate": 0.00018105356745943546, + "loss": 2.2258, + "step": 4272 + }, + { + "epoch": 0.09495555555555556, + "grad_norm": 1.5768458843231201, + "learning_rate": 0.00018104912202711714, + "loss": 1.9996, + "step": 4273 + }, + { + "epoch": 0.09497777777777777, + "grad_norm": 1.2787331342697144, + "learning_rate": 0.00018104467659479885, + "loss": 1.9048, + "step": 4274 + }, + { + "epoch": 0.095, + "grad_norm": 1.0063116550445557, + "learning_rate": 0.00018104023116248056, + "loss": 1.1417, + "step": 4275 + }, + { + "epoch": 0.09502222222222222, + "grad_norm": 1.2776713371276855, + "learning_rate": 0.00018103578573016227, + "loss": 2.0983, + "step": 4276 + }, + { + "epoch": 0.09504444444444445, + "grad_norm": 1.7451448440551758, + "learning_rate": 0.00018103134029784398, + "loss": 1.7376, + "step": 4277 + }, + { + "epoch": 0.09506666666666666, + "grad_norm": 1.3430607318878174, + "learning_rate": 0.00018102689486552569, + "loss": 2.0422, + "step": 4278 + }, + { + "epoch": 0.09508888888888889, + "grad_norm": 1.5033154487609863, + "learning_rate": 0.0001810224494332074, + "loss": 2.2636, + "step": 4279 + }, + { + "epoch": 0.0951111111111111, + "grad_norm": 1.2348893880844116, + "learning_rate": 0.00018101800400088908, + "loss": 1.5191, + "step": 4280 + }, + { + "epoch": 0.09513333333333333, + "grad_norm": 1.6065969467163086, + "learning_rate": 0.00018101355856857081, + "loss": 1.7404, + "step": 4281 + }, + { + "epoch": 0.09515555555555555, + "grad_norm": 1.1985697746276855, + "learning_rate": 0.0001810091131362525, + "loss": 1.7366, + "step": 4282 + }, + { + "epoch": 0.09517777777777778, + "grad_norm": 1.2793217897415161, + "learning_rate": 0.0001810046677039342, + "loss": 1.8455, + "step": 4283 + }, + { + "epoch": 0.0952, + "grad_norm": 1.4190576076507568, + "learning_rate": 0.00018100022227161592, + "loss": 2.15, + "step": 4284 + }, + { + "epoch": 0.09522222222222222, + "grad_norm": 1.6962013244628906, + "learning_rate": 0.00018099577683929763, + "loss": 2.4338, + "step": 4285 + }, + { + "epoch": 0.09524444444444445, + "grad_norm": 1.3325179815292358, + "learning_rate": 0.00018099133140697934, + "loss": 1.7976, + "step": 4286 + }, + { + "epoch": 0.09526666666666667, + "grad_norm": 1.3189228773117065, + "learning_rate": 0.00018098688597466105, + "loss": 2.1157, + "step": 4287 + }, + { + "epoch": 0.0952888888888889, + "grad_norm": 1.4062597751617432, + "learning_rate": 0.00018098244054234275, + "loss": 1.9111, + "step": 4288 + }, + { + "epoch": 0.09531111111111111, + "grad_norm": 1.2860467433929443, + "learning_rate": 0.00018097799511002446, + "loss": 1.6923, + "step": 4289 + }, + { + "epoch": 0.09533333333333334, + "grad_norm": 1.2095752954483032, + "learning_rate": 0.00018097354967770617, + "loss": 1.579, + "step": 4290 + }, + { + "epoch": 0.09535555555555555, + "grad_norm": 1.528182864189148, + "learning_rate": 0.00018096910424538786, + "loss": 1.9927, + "step": 4291 + }, + { + "epoch": 0.09537777777777778, + "grad_norm": 1.2321522235870361, + "learning_rate": 0.0001809646588130696, + "loss": 1.8781, + "step": 4292 + }, + { + "epoch": 0.0954, + "grad_norm": 1.5300689935684204, + "learning_rate": 0.00018096021338075128, + "loss": 2.081, + "step": 4293 + }, + { + "epoch": 0.09542222222222223, + "grad_norm": 1.2138551473617554, + "learning_rate": 0.00018095576794843299, + "loss": 1.4392, + "step": 4294 + }, + { + "epoch": 0.09544444444444444, + "grad_norm": 1.5390785932540894, + "learning_rate": 0.0001809513225161147, + "loss": 1.9736, + "step": 4295 + }, + { + "epoch": 0.09546666666666667, + "grad_norm": 1.4192858934402466, + "learning_rate": 0.0001809468770837964, + "loss": 1.8074, + "step": 4296 + }, + { + "epoch": 0.09548888888888889, + "grad_norm": 1.7370961904525757, + "learning_rate": 0.00018094243165147811, + "loss": 2.2916, + "step": 4297 + }, + { + "epoch": 0.09551111111111112, + "grad_norm": 1.2780367136001587, + "learning_rate": 0.00018093798621915982, + "loss": 1.7095, + "step": 4298 + }, + { + "epoch": 0.09553333333333333, + "grad_norm": 1.3951181173324585, + "learning_rate": 0.00018093354078684153, + "loss": 2.0691, + "step": 4299 + }, + { + "epoch": 0.09555555555555556, + "grad_norm": 1.4083855152130127, + "learning_rate": 0.00018092909535452322, + "loss": 0.0724, + "step": 4300 + }, + { + "epoch": 0.09557777777777778, + "grad_norm": 0.9079444408416748, + "learning_rate": 0.00018092464992220495, + "loss": 0.0312, + "step": 4301 + }, + { + "epoch": 0.0956, + "grad_norm": 1.3994101285934448, + "learning_rate": 0.00018092020448988664, + "loss": 2.8179, + "step": 4302 + }, + { + "epoch": 0.09562222222222222, + "grad_norm": 1.0253506898880005, + "learning_rate": 0.00018091575905756837, + "loss": 2.4645, + "step": 4303 + }, + { + "epoch": 0.09564444444444445, + "grad_norm": 0.9988961815834045, + "learning_rate": 0.00018091131362525005, + "loss": 2.3299, + "step": 4304 + }, + { + "epoch": 0.09566666666666666, + "grad_norm": 1.1515384912490845, + "learning_rate": 0.00018090686819293176, + "loss": 2.4374, + "step": 4305 + }, + { + "epoch": 0.09568888888888889, + "grad_norm": 1.3075590133666992, + "learning_rate": 0.0001809024227606135, + "loss": 2.3008, + "step": 4306 + }, + { + "epoch": 0.09571111111111111, + "grad_norm": 1.123917818069458, + "learning_rate": 0.00018089797732829518, + "loss": 1.7689, + "step": 4307 + }, + { + "epoch": 0.09573333333333334, + "grad_norm": 1.1856988668441772, + "learning_rate": 0.0001808935318959769, + "loss": 1.9832, + "step": 4308 + }, + { + "epoch": 0.09575555555555555, + "grad_norm": 1.3103424310684204, + "learning_rate": 0.0001808890864636586, + "loss": 2.0647, + "step": 4309 + }, + { + "epoch": 0.09577777777777778, + "grad_norm": 1.462695837020874, + "learning_rate": 0.0001808846410313403, + "loss": 1.106, + "step": 4310 + }, + { + "epoch": 0.0958, + "grad_norm": 1.256929874420166, + "learning_rate": 0.000180880195599022, + "loss": 2.4581, + "step": 4311 + }, + { + "epoch": 0.09582222222222223, + "grad_norm": 1.2270046472549438, + "learning_rate": 0.00018087575016670373, + "loss": 2.1377, + "step": 4312 + }, + { + "epoch": 0.09584444444444444, + "grad_norm": 1.2823048830032349, + "learning_rate": 0.00018087130473438541, + "loss": 2.2922, + "step": 4313 + }, + { + "epoch": 0.09586666666666667, + "grad_norm": 1.218608021736145, + "learning_rate": 0.00018086685930206712, + "loss": 1.9525, + "step": 4314 + }, + { + "epoch": 0.09588888888888888, + "grad_norm": 1.298201560974121, + "learning_rate": 0.00018086241386974886, + "loss": 2.113, + "step": 4315 + }, + { + "epoch": 0.09591111111111111, + "grad_norm": 1.27276611328125, + "learning_rate": 0.00018085796843743054, + "loss": 1.1977, + "step": 4316 + }, + { + "epoch": 0.09593333333333333, + "grad_norm": 0.3113328814506531, + "learning_rate": 0.00018085352300511225, + "loss": 0.0398, + "step": 4317 + }, + { + "epoch": 0.09595555555555556, + "grad_norm": 1.482030987739563, + "learning_rate": 0.00018084907757279396, + "loss": 2.2754, + "step": 4318 + }, + { + "epoch": 0.09597777777777777, + "grad_norm": 1.1038774251937866, + "learning_rate": 0.00018084463214047567, + "loss": 1.7575, + "step": 4319 + }, + { + "epoch": 0.096, + "grad_norm": 1.5362251996994019, + "learning_rate": 0.00018084018670815735, + "loss": 2.2929, + "step": 4320 + }, + { + "epoch": 0.09602222222222222, + "grad_norm": 1.4543116092681885, + "learning_rate": 0.0001808357412758391, + "loss": 1.8894, + "step": 4321 + }, + { + "epoch": 0.09604444444444445, + "grad_norm": 1.8341054916381836, + "learning_rate": 0.0001808312958435208, + "loss": 2.503, + "step": 4322 + }, + { + "epoch": 0.09606666666666666, + "grad_norm": 1.3067163228988647, + "learning_rate": 0.0001808268504112025, + "loss": 1.9965, + "step": 4323 + }, + { + "epoch": 0.09608888888888889, + "grad_norm": 1.318099856376648, + "learning_rate": 0.00018082240497888422, + "loss": 2.1736, + "step": 4324 + }, + { + "epoch": 0.0961111111111111, + "grad_norm": 1.4188133478164673, + "learning_rate": 0.0001808179595465659, + "loss": 2.5916, + "step": 4325 + }, + { + "epoch": 0.09613333333333333, + "grad_norm": 1.6572717428207397, + "learning_rate": 0.00018081351411424764, + "loss": 2.0161, + "step": 4326 + }, + { + "epoch": 0.09615555555555555, + "grad_norm": 1.4251986742019653, + "learning_rate": 0.00018080906868192932, + "loss": 2.1169, + "step": 4327 + }, + { + "epoch": 0.09617777777777778, + "grad_norm": 1.1902278661727905, + "learning_rate": 0.00018080462324961103, + "loss": 2.1141, + "step": 4328 + }, + { + "epoch": 0.0962, + "grad_norm": 0.9251983761787415, + "learning_rate": 0.00018080017781729274, + "loss": 0.9708, + "step": 4329 + }, + { + "epoch": 0.09622222222222222, + "grad_norm": 1.4548628330230713, + "learning_rate": 0.00018079573238497445, + "loss": 1.8184, + "step": 4330 + }, + { + "epoch": 0.09624444444444444, + "grad_norm": 1.542205810546875, + "learning_rate": 0.00018079128695265616, + "loss": 2.2024, + "step": 4331 + }, + { + "epoch": 0.09626666666666667, + "grad_norm": 1.196998953819275, + "learning_rate": 0.00018078684152033787, + "loss": 1.6554, + "step": 4332 + }, + { + "epoch": 0.09628888888888888, + "grad_norm": 1.0667402744293213, + "learning_rate": 0.00018078239608801958, + "loss": 0.9449, + "step": 4333 + }, + { + "epoch": 0.09631111111111111, + "grad_norm": 1.5856736898422241, + "learning_rate": 0.00018077795065570126, + "loss": 2.2405, + "step": 4334 + }, + { + "epoch": 0.09633333333333334, + "grad_norm": 1.3911514282226562, + "learning_rate": 0.000180773505223383, + "loss": 1.9074, + "step": 4335 + }, + { + "epoch": 0.09635555555555556, + "grad_norm": 1.4888899326324463, + "learning_rate": 0.00018076905979106468, + "loss": 1.9256, + "step": 4336 + }, + { + "epoch": 0.09637777777777778, + "grad_norm": 1.3612645864486694, + "learning_rate": 0.0001807646143587464, + "loss": 1.928, + "step": 4337 + }, + { + "epoch": 0.0964, + "grad_norm": 1.2366394996643066, + "learning_rate": 0.0001807601689264281, + "loss": 1.5805, + "step": 4338 + }, + { + "epoch": 0.09642222222222223, + "grad_norm": 1.4254026412963867, + "learning_rate": 0.0001807557234941098, + "loss": 1.8367, + "step": 4339 + }, + { + "epoch": 0.09644444444444444, + "grad_norm": 1.8091131448745728, + "learning_rate": 0.00018075127806179152, + "loss": 2.351, + "step": 4340 + }, + { + "epoch": 0.09646666666666667, + "grad_norm": 1.4739104509353638, + "learning_rate": 0.00018074683262947323, + "loss": 1.834, + "step": 4341 + }, + { + "epoch": 0.09648888888888889, + "grad_norm": 1.322166085243225, + "learning_rate": 0.00018074238719715494, + "loss": 1.9759, + "step": 4342 + }, + { + "epoch": 0.09651111111111112, + "grad_norm": 1.3412140607833862, + "learning_rate": 0.00018073794176483665, + "loss": 2.081, + "step": 4343 + }, + { + "epoch": 0.09653333333333333, + "grad_norm": 1.4519928693771362, + "learning_rate": 0.00018073349633251836, + "loss": 1.9883, + "step": 4344 + }, + { + "epoch": 0.09655555555555556, + "grad_norm": 1.3364869356155396, + "learning_rate": 0.00018072905090020004, + "loss": 1.5963, + "step": 4345 + }, + { + "epoch": 0.09657777777777778, + "grad_norm": 1.4493587017059326, + "learning_rate": 0.00018072460546788178, + "loss": 1.9617, + "step": 4346 + }, + { + "epoch": 0.0966, + "grad_norm": 1.399957537651062, + "learning_rate": 0.00018072016003556346, + "loss": 1.7653, + "step": 4347 + }, + { + "epoch": 0.09662222222222222, + "grad_norm": 1.750044584274292, + "learning_rate": 0.00018071571460324517, + "loss": 2.1182, + "step": 4348 + }, + { + "epoch": 0.09664444444444445, + "grad_norm": 1.8996422290802002, + "learning_rate": 0.00018071126917092688, + "loss": 1.7376, + "step": 4349 + }, + { + "epoch": 0.09666666666666666, + "grad_norm": 1.560601830482483, + "learning_rate": 0.0001807068237386086, + "loss": 0.5731, + "step": 4350 + }, + { + "epoch": 0.0966888888888889, + "grad_norm": 1.0504833459854126, + "learning_rate": 0.0001807023783062903, + "loss": 2.3573, + "step": 4351 + }, + { + "epoch": 0.09671111111111111, + "grad_norm": 1.4904145002365112, + "learning_rate": 0.000180697932873972, + "loss": 1.1591, + "step": 4352 + }, + { + "epoch": 0.09673333333333334, + "grad_norm": 0.8558697700500488, + "learning_rate": 0.00018069348744165372, + "loss": 1.1718, + "step": 4353 + }, + { + "epoch": 0.09675555555555555, + "grad_norm": 1.1474530696868896, + "learning_rate": 0.0001806890420093354, + "loss": 2.3552, + "step": 4354 + }, + { + "epoch": 0.09677777777777778, + "grad_norm": 0.9881858825683594, + "learning_rate": 0.00018068459657701714, + "loss": 2.2725, + "step": 4355 + }, + { + "epoch": 0.0968, + "grad_norm": 0.949849009513855, + "learning_rate": 0.00018068015114469882, + "loss": 1.6118, + "step": 4356 + }, + { + "epoch": 0.09682222222222223, + "grad_norm": 1.2274798154830933, + "learning_rate": 0.00018067570571238053, + "loss": 2.2421, + "step": 4357 + }, + { + "epoch": 0.09684444444444444, + "grad_norm": 1.1576870679855347, + "learning_rate": 0.00018067126028006224, + "loss": 2.2184, + "step": 4358 + }, + { + "epoch": 0.09686666666666667, + "grad_norm": 1.0928457975387573, + "learning_rate": 0.00018066681484774395, + "loss": 1.9365, + "step": 4359 + }, + { + "epoch": 0.09688888888888889, + "grad_norm": 1.1598966121673584, + "learning_rate": 0.00018066236941542566, + "loss": 2.282, + "step": 4360 + }, + { + "epoch": 0.09691111111111111, + "grad_norm": 1.2059329748153687, + "learning_rate": 0.00018065792398310737, + "loss": 2.0386, + "step": 4361 + }, + { + "epoch": 0.09693333333333333, + "grad_norm": 1.069584846496582, + "learning_rate": 0.00018065347855078908, + "loss": 1.6026, + "step": 4362 + }, + { + "epoch": 0.09695555555555556, + "grad_norm": 1.3587257862091064, + "learning_rate": 0.00018064903311847079, + "loss": 1.929, + "step": 4363 + }, + { + "epoch": 0.09697777777777777, + "grad_norm": 1.2386860847473145, + "learning_rate": 0.0001806445876861525, + "loss": 2.4121, + "step": 4364 + }, + { + "epoch": 0.097, + "grad_norm": 1.2312818765640259, + "learning_rate": 0.00018064014225383418, + "loss": 2.1486, + "step": 4365 + }, + { + "epoch": 0.09702222222222222, + "grad_norm": 1.272645115852356, + "learning_rate": 0.00018063569682151592, + "loss": 1.6875, + "step": 4366 + }, + { + "epoch": 0.09704444444444445, + "grad_norm": 1.142034888267517, + "learning_rate": 0.0001806312513891976, + "loss": 2.1747, + "step": 4367 + }, + { + "epoch": 0.09706666666666666, + "grad_norm": 1.1463781595230103, + "learning_rate": 0.0001806268059568793, + "loss": 1.2144, + "step": 4368 + }, + { + "epoch": 0.09708888888888889, + "grad_norm": 1.3081779479980469, + "learning_rate": 0.00018062236052456102, + "loss": 2.2114, + "step": 4369 + }, + { + "epoch": 0.0971111111111111, + "grad_norm": 1.6387537717819214, + "learning_rate": 0.00018061791509224273, + "loss": 2.2408, + "step": 4370 + }, + { + "epoch": 0.09713333333333334, + "grad_norm": 1.271367073059082, + "learning_rate": 0.00018061346965992444, + "loss": 2.1865, + "step": 4371 + }, + { + "epoch": 0.09715555555555555, + "grad_norm": 1.4236445426940918, + "learning_rate": 0.00018060902422760615, + "loss": 2.2823, + "step": 4372 + }, + { + "epoch": 0.09717777777777778, + "grad_norm": 1.4783875942230225, + "learning_rate": 0.00018060457879528786, + "loss": 2.5749, + "step": 4373 + }, + { + "epoch": 0.0972, + "grad_norm": 1.446212887763977, + "learning_rate": 0.00018060013336296954, + "loss": 2.1849, + "step": 4374 + }, + { + "epoch": 0.09722222222222222, + "grad_norm": 1.3906170129776, + "learning_rate": 0.00018059568793065127, + "loss": 2.1291, + "step": 4375 + }, + { + "epoch": 0.09724444444444444, + "grad_norm": 1.4127378463745117, + "learning_rate": 0.00018059124249833296, + "loss": 2.2909, + "step": 4376 + }, + { + "epoch": 0.09726666666666667, + "grad_norm": 1.329476237297058, + "learning_rate": 0.00018058679706601467, + "loss": 1.9118, + "step": 4377 + }, + { + "epoch": 0.09728888888888888, + "grad_norm": 1.7600513696670532, + "learning_rate": 0.00018058235163369638, + "loss": 1.2208, + "step": 4378 + }, + { + "epoch": 0.09731111111111111, + "grad_norm": 1.5222866535186768, + "learning_rate": 0.00018057790620137809, + "loss": 2.4877, + "step": 4379 + }, + { + "epoch": 0.09733333333333333, + "grad_norm": 1.6175096035003662, + "learning_rate": 0.00018057346076905982, + "loss": 2.4975, + "step": 4380 + }, + { + "epoch": 0.09735555555555556, + "grad_norm": 1.3158024549484253, + "learning_rate": 0.0001805690153367415, + "loss": 2.1654, + "step": 4381 + }, + { + "epoch": 0.09737777777777777, + "grad_norm": 1.266546368598938, + "learning_rate": 0.00018056456990442321, + "loss": 2.2962, + "step": 4382 + }, + { + "epoch": 0.0974, + "grad_norm": 1.3766202926635742, + "learning_rate": 0.00018056012447210492, + "loss": 2.0777, + "step": 4383 + }, + { + "epoch": 0.09742222222222222, + "grad_norm": 1.6375465393066406, + "learning_rate": 0.00018055567903978663, + "loss": 2.5874, + "step": 4384 + }, + { + "epoch": 0.09744444444444444, + "grad_norm": 1.3366793394088745, + "learning_rate": 0.00018055123360746832, + "loss": 1.9877, + "step": 4385 + }, + { + "epoch": 0.09746666666666666, + "grad_norm": 1.199235439300537, + "learning_rate": 0.00018054678817515005, + "loss": 1.4807, + "step": 4386 + }, + { + "epoch": 0.09748888888888889, + "grad_norm": 0.9937195777893066, + "learning_rate": 0.00018054234274283174, + "loss": 1.0858, + "step": 4387 + }, + { + "epoch": 0.09751111111111112, + "grad_norm": 1.2782981395721436, + "learning_rate": 0.00018053789731051345, + "loss": 1.8537, + "step": 4388 + }, + { + "epoch": 0.09753333333333333, + "grad_norm": 1.832302451133728, + "learning_rate": 0.00018053345187819518, + "loss": 1.8441, + "step": 4389 + }, + { + "epoch": 0.09755555555555556, + "grad_norm": 1.429241418838501, + "learning_rate": 0.00018052900644587686, + "loss": 1.9086, + "step": 4390 + }, + { + "epoch": 0.09757777777777778, + "grad_norm": 1.300802230834961, + "learning_rate": 0.00018052456101355857, + "loss": 1.8006, + "step": 4391 + }, + { + "epoch": 0.0976, + "grad_norm": 1.724574327468872, + "learning_rate": 0.00018052011558124028, + "loss": 1.6432, + "step": 4392 + }, + { + "epoch": 0.09762222222222222, + "grad_norm": 1.190918207168579, + "learning_rate": 0.000180515670148922, + "loss": 1.7289, + "step": 4393 + }, + { + "epoch": 0.09764444444444445, + "grad_norm": 1.712777018547058, + "learning_rate": 0.00018051122471660368, + "loss": 2.1239, + "step": 4394 + }, + { + "epoch": 0.09766666666666667, + "grad_norm": 1.7275041341781616, + "learning_rate": 0.0001805067792842854, + "loss": 1.7419, + "step": 4395 + }, + { + "epoch": 0.0976888888888889, + "grad_norm": 1.387739658355713, + "learning_rate": 0.00018050233385196712, + "loss": 1.6528, + "step": 4396 + }, + { + "epoch": 0.09771111111111111, + "grad_norm": 1.427575707435608, + "learning_rate": 0.0001804978884196488, + "loss": 1.8057, + "step": 4397 + }, + { + "epoch": 0.09773333333333334, + "grad_norm": 1.9699738025665283, + "learning_rate": 0.00018049344298733054, + "loss": 2.2689, + "step": 4398 + }, + { + "epoch": 0.09775555555555555, + "grad_norm": 1.493066430091858, + "learning_rate": 0.00018048899755501222, + "loss": 1.8887, + "step": 4399 + }, + { + "epoch": 0.09777777777777778, + "grad_norm": 1.2431524991989136, + "learning_rate": 0.00018048455212269396, + "loss": 1.4983, + "step": 4400 + }, + { + "epoch": 0.0978, + "grad_norm": 1.3198671340942383, + "learning_rate": 0.00018048010669037564, + "loss": 2.4862, + "step": 4401 + }, + { + "epoch": 0.09782222222222223, + "grad_norm": 0.844988226890564, + "learning_rate": 0.00018047566125805735, + "loss": 1.1806, + "step": 4402 + }, + { + "epoch": 0.09784444444444444, + "grad_norm": 1.0930746793746948, + "learning_rate": 0.00018047121582573906, + "loss": 2.3488, + "step": 4403 + }, + { + "epoch": 0.09786666666666667, + "grad_norm": 1.369760274887085, + "learning_rate": 0.00018046677039342077, + "loss": 2.6371, + "step": 4404 + }, + { + "epoch": 0.09788888888888889, + "grad_norm": 1.3217105865478516, + "learning_rate": 0.00018046232496110248, + "loss": 2.7823, + "step": 4405 + }, + { + "epoch": 0.09791111111111112, + "grad_norm": 1.3410041332244873, + "learning_rate": 0.0001804578795287842, + "loss": 2.5896, + "step": 4406 + }, + { + "epoch": 0.09793333333333333, + "grad_norm": 1.0788627862930298, + "learning_rate": 0.0001804534340964659, + "loss": 2.0777, + "step": 4407 + }, + { + "epoch": 0.09795555555555556, + "grad_norm": 1.273199439048767, + "learning_rate": 0.00018044898866414758, + "loss": 2.1908, + "step": 4408 + }, + { + "epoch": 0.09797777777777777, + "grad_norm": 1.3570038080215454, + "learning_rate": 0.00018044454323182932, + "loss": 2.9192, + "step": 4409 + }, + { + "epoch": 0.098, + "grad_norm": 1.2110463380813599, + "learning_rate": 0.000180440097799511, + "loss": 2.5296, + "step": 4410 + }, + { + "epoch": 0.09802222222222222, + "grad_norm": 1.1199480295181274, + "learning_rate": 0.0001804356523671927, + "loss": 1.8769, + "step": 4411 + }, + { + "epoch": 0.09804444444444445, + "grad_norm": 1.202898621559143, + "learning_rate": 0.00018043120693487442, + "loss": 2.1629, + "step": 4412 + }, + { + "epoch": 0.09806666666666666, + "grad_norm": 1.2951065301895142, + "learning_rate": 0.00018042676150255613, + "loss": 1.9552, + "step": 4413 + }, + { + "epoch": 0.09808888888888889, + "grad_norm": 1.3778116703033447, + "learning_rate": 0.00018042231607023784, + "loss": 2.1159, + "step": 4414 + }, + { + "epoch": 0.09811111111111111, + "grad_norm": 1.2748832702636719, + "learning_rate": 0.00018041787063791955, + "loss": 2.6161, + "step": 4415 + }, + { + "epoch": 0.09813333333333334, + "grad_norm": 1.0710159540176392, + "learning_rate": 0.00018041342520560126, + "loss": 1.513, + "step": 4416 + }, + { + "epoch": 0.09815555555555555, + "grad_norm": 1.3692610263824463, + "learning_rate": 0.00018040897977328297, + "loss": 2.0782, + "step": 4417 + }, + { + "epoch": 0.09817777777777778, + "grad_norm": 1.190234661102295, + "learning_rate": 0.00018040453434096468, + "loss": 1.8536, + "step": 4418 + }, + { + "epoch": 0.0982, + "grad_norm": 1.738289475440979, + "learning_rate": 0.00018040008890864636, + "loss": 2.2558, + "step": 4419 + }, + { + "epoch": 0.09822222222222222, + "grad_norm": 1.4065693616867065, + "learning_rate": 0.0001803956434763281, + "loss": 1.4075, + "step": 4420 + }, + { + "epoch": 0.09824444444444444, + "grad_norm": 0.897720992565155, + "learning_rate": 0.00018039119804400978, + "loss": 0.8285, + "step": 4421 + }, + { + "epoch": 0.09826666666666667, + "grad_norm": 1.5050746202468872, + "learning_rate": 0.0001803867526116915, + "loss": 2.446, + "step": 4422 + }, + { + "epoch": 0.09828888888888888, + "grad_norm": 1.2419902086257935, + "learning_rate": 0.0001803823071793732, + "loss": 1.8285, + "step": 4423 + }, + { + "epoch": 0.09831111111111111, + "grad_norm": 1.4274375438690186, + "learning_rate": 0.0001803778617470549, + "loss": 2.3178, + "step": 4424 + }, + { + "epoch": 0.09833333333333333, + "grad_norm": 1.6556620597839355, + "learning_rate": 0.00018037341631473662, + "loss": 2.4652, + "step": 4425 + }, + { + "epoch": 0.09835555555555556, + "grad_norm": 1.3161110877990723, + "learning_rate": 0.00018036897088241833, + "loss": 2.5008, + "step": 4426 + }, + { + "epoch": 0.09837777777777777, + "grad_norm": 1.4334475994110107, + "learning_rate": 0.00018036452545010004, + "loss": 2.134, + "step": 4427 + }, + { + "epoch": 0.0984, + "grad_norm": 1.1863737106323242, + "learning_rate": 0.00018036008001778172, + "loss": 1.9887, + "step": 4428 + }, + { + "epoch": 0.09842222222222222, + "grad_norm": 1.260151982307434, + "learning_rate": 0.00018035563458546346, + "loss": 1.888, + "step": 4429 + }, + { + "epoch": 0.09844444444444445, + "grad_norm": 1.0401445627212524, + "learning_rate": 0.00018035118915314514, + "loss": 1.1331, + "step": 4430 + }, + { + "epoch": 0.09846666666666666, + "grad_norm": 1.4833295345306396, + "learning_rate": 0.00018034674372082685, + "loss": 1.8414, + "step": 4431 + }, + { + "epoch": 0.09848888888888889, + "grad_norm": 1.4104746580123901, + "learning_rate": 0.00018034229828850856, + "loss": 2.1685, + "step": 4432 + }, + { + "epoch": 0.0985111111111111, + "grad_norm": 1.1910183429718018, + "learning_rate": 0.00018033785285619027, + "loss": 1.6557, + "step": 4433 + }, + { + "epoch": 0.09853333333333333, + "grad_norm": 1.6644701957702637, + "learning_rate": 0.00018033340742387198, + "loss": 2.1799, + "step": 4434 + }, + { + "epoch": 0.09855555555555555, + "grad_norm": 1.4257797002792358, + "learning_rate": 0.0001803289619915537, + "loss": 2.0706, + "step": 4435 + }, + { + "epoch": 0.09857777777777778, + "grad_norm": 1.1833685636520386, + "learning_rate": 0.0001803245165592354, + "loss": 1.8003, + "step": 4436 + }, + { + "epoch": 0.0986, + "grad_norm": 1.4477691650390625, + "learning_rate": 0.0001803200711269171, + "loss": 2.1154, + "step": 4437 + }, + { + "epoch": 0.09862222222222222, + "grad_norm": 1.5556645393371582, + "learning_rate": 0.00018031562569459882, + "loss": 2.4443, + "step": 4438 + }, + { + "epoch": 0.09864444444444445, + "grad_norm": 1.3518905639648438, + "learning_rate": 0.0001803111802622805, + "loss": 2.0318, + "step": 4439 + }, + { + "epoch": 0.09866666666666667, + "grad_norm": 1.3766332864761353, + "learning_rate": 0.00018030673482996224, + "loss": 1.9228, + "step": 4440 + }, + { + "epoch": 0.0986888888888889, + "grad_norm": 1.3773131370544434, + "learning_rate": 0.00018030228939764392, + "loss": 1.9193, + "step": 4441 + }, + { + "epoch": 0.09871111111111111, + "grad_norm": 1.5432028770446777, + "learning_rate": 0.00018029784396532563, + "loss": 2.0612, + "step": 4442 + }, + { + "epoch": 0.09873333333333334, + "grad_norm": 1.040864109992981, + "learning_rate": 0.00018029339853300734, + "loss": 1.34, + "step": 4443 + }, + { + "epoch": 0.09875555555555555, + "grad_norm": 1.2923661470413208, + "learning_rate": 0.00018028895310068905, + "loss": 1.6208, + "step": 4444 + }, + { + "epoch": 0.09877777777777778, + "grad_norm": 1.3355612754821777, + "learning_rate": 0.00018028450766837076, + "loss": 1.885, + "step": 4445 + }, + { + "epoch": 0.0988, + "grad_norm": 1.5252952575683594, + "learning_rate": 0.00018028006223605247, + "loss": 1.9786, + "step": 4446 + }, + { + "epoch": 0.09882222222222223, + "grad_norm": 1.568361759185791, + "learning_rate": 0.00018027561680373418, + "loss": 2.0919, + "step": 4447 + }, + { + "epoch": 0.09884444444444444, + "grad_norm": 1.6935590505599976, + "learning_rate": 0.00018027117137141586, + "loss": 2.0133, + "step": 4448 + }, + { + "epoch": 0.09886666666666667, + "grad_norm": 1.3074549436569214, + "learning_rate": 0.0001802667259390976, + "loss": 1.9556, + "step": 4449 + }, + { + "epoch": 0.09888888888888889, + "grad_norm": 1.5643311738967896, + "learning_rate": 0.00018026228050677928, + "loss": 1.716, + "step": 4450 + }, + { + "epoch": 0.09891111111111112, + "grad_norm": 1.19057297706604, + "learning_rate": 0.000180257835074461, + "loss": 2.6874, + "step": 4451 + }, + { + "epoch": 0.09893333333333333, + "grad_norm": 1.175662875175476, + "learning_rate": 0.0001802533896421427, + "loss": 0.0533, + "step": 4452 + }, + { + "epoch": 0.09895555555555556, + "grad_norm": 1.4417732954025269, + "learning_rate": 0.0001802489442098244, + "loss": 2.4653, + "step": 4453 + }, + { + "epoch": 0.09897777777777778, + "grad_norm": 1.0468107461929321, + "learning_rate": 0.00018024449877750612, + "loss": 2.046, + "step": 4454 + }, + { + "epoch": 0.099, + "grad_norm": 0.7389274835586548, + "learning_rate": 0.00018024005334518783, + "loss": 1.4057, + "step": 4455 + }, + { + "epoch": 0.09902222222222222, + "grad_norm": 1.0182894468307495, + "learning_rate": 0.00018023560791286954, + "loss": 2.4539, + "step": 4456 + }, + { + "epoch": 0.09904444444444445, + "grad_norm": 1.128106951713562, + "learning_rate": 0.00018023116248055125, + "loss": 2.1567, + "step": 4457 + }, + { + "epoch": 0.09906666666666666, + "grad_norm": 1.0658607482910156, + "learning_rate": 0.00018022671704823296, + "loss": 1.5295, + "step": 4458 + }, + { + "epoch": 0.09908888888888889, + "grad_norm": 1.5395396947860718, + "learning_rate": 0.00018022227161591464, + "loss": 2.7383, + "step": 4459 + }, + { + "epoch": 0.09911111111111111, + "grad_norm": 1.2264471054077148, + "learning_rate": 0.00018021782618359638, + "loss": 2.149, + "step": 4460 + }, + { + "epoch": 0.09913333333333334, + "grad_norm": 1.0935885906219482, + "learning_rate": 0.00018021338075127806, + "loss": 2.1916, + "step": 4461 + }, + { + "epoch": 0.09915555555555555, + "grad_norm": 1.26873779296875, + "learning_rate": 0.00018020893531895977, + "loss": 2.1652, + "step": 4462 + }, + { + "epoch": 0.09917777777777778, + "grad_norm": 1.4730082750320435, + "learning_rate": 0.0001802044898866415, + "loss": 2.5607, + "step": 4463 + }, + { + "epoch": 0.0992, + "grad_norm": 1.0220870971679688, + "learning_rate": 0.0001802000444543232, + "loss": 1.1443, + "step": 4464 + }, + { + "epoch": 0.09922222222222223, + "grad_norm": 1.0993688106536865, + "learning_rate": 0.0001801955990220049, + "loss": 1.8948, + "step": 4465 + }, + { + "epoch": 0.09924444444444444, + "grad_norm": 1.2144601345062256, + "learning_rate": 0.0001801911535896866, + "loss": 1.9652, + "step": 4466 + }, + { + "epoch": 0.09926666666666667, + "grad_norm": 1.220253348350525, + "learning_rate": 0.00018018670815736832, + "loss": 1.9683, + "step": 4467 + }, + { + "epoch": 0.09928888888888888, + "grad_norm": 1.2824461460113525, + "learning_rate": 0.00018018226272505, + "loss": 2.415, + "step": 4468 + }, + { + "epoch": 0.09931111111111111, + "grad_norm": 1.3988687992095947, + "learning_rate": 0.00018017781729273173, + "loss": 1.124, + "step": 4469 + }, + { + "epoch": 0.09933333333333333, + "grad_norm": 0.8374323844909668, + "learning_rate": 0.00018017337186041344, + "loss": 1.2069, + "step": 4470 + }, + { + "epoch": 0.09935555555555556, + "grad_norm": 1.3232494592666626, + "learning_rate": 0.00018016892642809513, + "loss": 1.9529, + "step": 4471 + }, + { + "epoch": 0.09937777777777777, + "grad_norm": 1.1095073223114014, + "learning_rate": 0.00018016448099577686, + "loss": 1.7246, + "step": 4472 + }, + { + "epoch": 0.0994, + "grad_norm": 1.3508285284042358, + "learning_rate": 0.00018016003556345855, + "loss": 2.137, + "step": 4473 + }, + { + "epoch": 0.09942222222222222, + "grad_norm": 1.7036936283111572, + "learning_rate": 0.00018015559013114028, + "loss": 3.1291, + "step": 4474 + }, + { + "epoch": 0.09944444444444445, + "grad_norm": 1.5720809698104858, + "learning_rate": 0.00018015114469882197, + "loss": 2.4024, + "step": 4475 + }, + { + "epoch": 0.09946666666666666, + "grad_norm": 1.3260328769683838, + "learning_rate": 0.00018014669926650368, + "loss": 1.8592, + "step": 4476 + }, + { + "epoch": 0.09948888888888889, + "grad_norm": 1.5580748319625854, + "learning_rate": 0.00018014225383418538, + "loss": 2.1636, + "step": 4477 + }, + { + "epoch": 0.0995111111111111, + "grad_norm": 1.1836466789245605, + "learning_rate": 0.0001801378084018671, + "loss": 1.9728, + "step": 4478 + }, + { + "epoch": 0.09953333333333333, + "grad_norm": 1.3697766065597534, + "learning_rate": 0.0001801333629695488, + "loss": 1.7712, + "step": 4479 + }, + { + "epoch": 0.09955555555555555, + "grad_norm": 1.3192039728164673, + "learning_rate": 0.00018012891753723051, + "loss": 1.9998, + "step": 4480 + }, + { + "epoch": 0.09957777777777778, + "grad_norm": 1.352051854133606, + "learning_rate": 0.00018012447210491222, + "loss": 2.3214, + "step": 4481 + }, + { + "epoch": 0.0996, + "grad_norm": 1.3424073457717896, + "learning_rate": 0.0001801200266725939, + "loss": 2.1331, + "step": 4482 + }, + { + "epoch": 0.09962222222222222, + "grad_norm": 1.4906132221221924, + "learning_rate": 0.00018011558124027564, + "loss": 1.9629, + "step": 4483 + }, + { + "epoch": 0.09964444444444444, + "grad_norm": 1.441964864730835, + "learning_rate": 0.00018011113580795733, + "loss": 2.1286, + "step": 4484 + }, + { + "epoch": 0.09966666666666667, + "grad_norm": 1.443705677986145, + "learning_rate": 0.00018010669037563903, + "loss": 1.7009, + "step": 4485 + }, + { + "epoch": 0.09968888888888888, + "grad_norm": 1.3226597309112549, + "learning_rate": 0.00018010224494332074, + "loss": 1.8768, + "step": 4486 + }, + { + "epoch": 0.09971111111111111, + "grad_norm": 1.454082727432251, + "learning_rate": 0.00018009779951100245, + "loss": 1.8601, + "step": 4487 + }, + { + "epoch": 0.09973333333333333, + "grad_norm": 1.8369663953781128, + "learning_rate": 0.00018009335407868416, + "loss": 0.069, + "step": 4488 + }, + { + "epoch": 0.09975555555555556, + "grad_norm": 1.2956428527832031, + "learning_rate": 0.00018008890864636587, + "loss": 1.868, + "step": 4489 + }, + { + "epoch": 0.09977777777777778, + "grad_norm": 1.6002861261367798, + "learning_rate": 0.00018008446321404758, + "loss": 2.0486, + "step": 4490 + }, + { + "epoch": 0.0998, + "grad_norm": 1.4827994108200073, + "learning_rate": 0.00018008001778172927, + "loss": 2.244, + "step": 4491 + }, + { + "epoch": 0.09982222222222223, + "grad_norm": 1.3553178310394287, + "learning_rate": 0.000180075572349411, + "loss": 1.3299, + "step": 4492 + }, + { + "epoch": 0.09984444444444444, + "grad_norm": 1.3971030712127686, + "learning_rate": 0.00018007112691709268, + "loss": 1.8899, + "step": 4493 + }, + { + "epoch": 0.09986666666666667, + "grad_norm": 1.5578504800796509, + "learning_rate": 0.00018006668148477442, + "loss": 1.8414, + "step": 4494 + }, + { + "epoch": 0.09988888888888889, + "grad_norm": 1.4631415605545044, + "learning_rate": 0.0001800622360524561, + "loss": 2.085, + "step": 4495 + }, + { + "epoch": 0.09991111111111112, + "grad_norm": 1.4966238737106323, + "learning_rate": 0.0001800577906201378, + "loss": 1.8362, + "step": 4496 + }, + { + "epoch": 0.09993333333333333, + "grad_norm": 1.7602430582046509, + "learning_rate": 0.00018005334518781952, + "loss": 1.965, + "step": 4497 + }, + { + "epoch": 0.09995555555555556, + "grad_norm": 1.838391900062561, + "learning_rate": 0.00018004889975550123, + "loss": 2.0265, + "step": 4498 + }, + { + "epoch": 0.09997777777777778, + "grad_norm": 1.3434847593307495, + "learning_rate": 0.00018004445432318294, + "loss": 0.638, + "step": 4499 + }, + { + "epoch": 0.1, + "grad_norm": 1.3077208995819092, + "learning_rate": 0.00018004000889086465, + "loss": 1.1671, + "step": 4500 + }, + { + "epoch": 0.10002222222222222, + "grad_norm": 1.0700474977493286, + "learning_rate": 0.00018003556345854636, + "loss": 2.6163, + "step": 4501 + }, + { + "epoch": 0.10004444444444445, + "grad_norm": 1.1620192527770996, + "learning_rate": 0.00018003111802622804, + "loss": 2.5226, + "step": 4502 + }, + { + "epoch": 0.10006666666666666, + "grad_norm": 1.1475083827972412, + "learning_rate": 0.00018002667259390978, + "loss": 2.5302, + "step": 4503 + }, + { + "epoch": 0.1000888888888889, + "grad_norm": 1.1489850282669067, + "learning_rate": 0.00018002222716159146, + "loss": 2.1681, + "step": 4504 + }, + { + "epoch": 0.10011111111111111, + "grad_norm": 1.1222330331802368, + "learning_rate": 0.00018001778172927317, + "loss": 1.8605, + "step": 4505 + }, + { + "epoch": 0.10013333333333334, + "grad_norm": 1.1848361492156982, + "learning_rate": 0.00018001333629695488, + "loss": 2.4713, + "step": 4506 + }, + { + "epoch": 0.10015555555555555, + "grad_norm": 1.3263381719589233, + "learning_rate": 0.0001800088908646366, + "loss": 1.9377, + "step": 4507 + }, + { + "epoch": 0.10017777777777778, + "grad_norm": 1.302356243133545, + "learning_rate": 0.0001800044454323183, + "loss": 2.4729, + "step": 4508 + }, + { + "epoch": 0.1002, + "grad_norm": 1.492964506149292, + "learning_rate": 0.00018, + "loss": 2.2221, + "step": 4509 + }, + { + "epoch": 0.10022222222222223, + "grad_norm": 1.2655242681503296, + "learning_rate": 0.00017999555456768172, + "loss": 2.6287, + "step": 4510 + }, + { + "epoch": 0.10024444444444444, + "grad_norm": 1.2084869146347046, + "learning_rate": 0.00017999110913536343, + "loss": 2.3839, + "step": 4511 + }, + { + "epoch": 0.10026666666666667, + "grad_norm": 1.1417101621627808, + "learning_rate": 0.00017998666370304514, + "loss": 2.4502, + "step": 4512 + }, + { + "epoch": 0.10028888888888889, + "grad_norm": 1.2735824584960938, + "learning_rate": 0.00017998221827072682, + "loss": 2.1662, + "step": 4513 + }, + { + "epoch": 0.10031111111111111, + "grad_norm": 1.0747036933898926, + "learning_rate": 0.00017997777283840856, + "loss": 2.1198, + "step": 4514 + }, + { + "epoch": 0.10033333333333333, + "grad_norm": 1.32513427734375, + "learning_rate": 0.00017997332740609024, + "loss": 2.1641, + "step": 4515 + }, + { + "epoch": 0.10035555555555556, + "grad_norm": 1.254108190536499, + "learning_rate": 0.00017996888197377195, + "loss": 1.9495, + "step": 4516 + }, + { + "epoch": 0.10037777777777777, + "grad_norm": 1.3607242107391357, + "learning_rate": 0.00017996443654145366, + "loss": 2.3084, + "step": 4517 + }, + { + "epoch": 0.1004, + "grad_norm": 1.2414820194244385, + "learning_rate": 0.00017995999110913537, + "loss": 2.4332, + "step": 4518 + }, + { + "epoch": 0.10042222222222222, + "grad_norm": 1.4720838069915771, + "learning_rate": 0.00017995554567681708, + "loss": 2.367, + "step": 4519 + }, + { + "epoch": 0.10044444444444445, + "grad_norm": 1.3227603435516357, + "learning_rate": 0.0001799511002444988, + "loss": 1.8766, + "step": 4520 + }, + { + "epoch": 0.10046666666666666, + "grad_norm": 1.5360599756240845, + "learning_rate": 0.0001799466548121805, + "loss": 2.4649, + "step": 4521 + }, + { + "epoch": 0.10048888888888889, + "grad_norm": 1.2606695890426636, + "learning_rate": 0.00017994220937986218, + "loss": 1.9326, + "step": 4522 + }, + { + "epoch": 0.1005111111111111, + "grad_norm": 1.1181033849716187, + "learning_rate": 0.00017993776394754392, + "loss": 1.8243, + "step": 4523 + }, + { + "epoch": 0.10053333333333334, + "grad_norm": 1.4821643829345703, + "learning_rate": 0.0001799333185152256, + "loss": 2.1311, + "step": 4524 + }, + { + "epoch": 0.10055555555555555, + "grad_norm": 1.2980374097824097, + "learning_rate": 0.0001799288730829073, + "loss": 1.6123, + "step": 4525 + }, + { + "epoch": 0.10057777777777778, + "grad_norm": 1.3282278776168823, + "learning_rate": 0.00017992442765058902, + "loss": 2.2648, + "step": 4526 + }, + { + "epoch": 0.1006, + "grad_norm": 1.2121895551681519, + "learning_rate": 0.00017991998221827073, + "loss": 2.1269, + "step": 4527 + }, + { + "epoch": 0.10062222222222222, + "grad_norm": 1.2339322566986084, + "learning_rate": 0.00017991553678595244, + "loss": 1.7795, + "step": 4528 + }, + { + "epoch": 0.10064444444444444, + "grad_norm": 0.8297223448753357, + "learning_rate": 0.00017991109135363415, + "loss": 0.7758, + "step": 4529 + }, + { + "epoch": 0.10066666666666667, + "grad_norm": 1.205521583557129, + "learning_rate": 0.00017990664592131586, + "loss": 1.2347, + "step": 4530 + }, + { + "epoch": 0.10068888888888888, + "grad_norm": 1.3334580659866333, + "learning_rate": 0.00017990220048899757, + "loss": 2.3322, + "step": 4531 + }, + { + "epoch": 0.10071111111111111, + "grad_norm": 1.4802695512771606, + "learning_rate": 0.00017989775505667928, + "loss": 2.0938, + "step": 4532 + }, + { + "epoch": 0.10073333333333333, + "grad_norm": 0.9862070679664612, + "learning_rate": 0.00017989330962436096, + "loss": 1.1852, + "step": 4533 + }, + { + "epoch": 0.10075555555555556, + "grad_norm": 1.0659462213516235, + "learning_rate": 0.0001798888641920427, + "loss": 1.1631, + "step": 4534 + }, + { + "epoch": 0.10077777777777777, + "grad_norm": 1.5292655229568481, + "learning_rate": 0.00017988441875972438, + "loss": 1.8282, + "step": 4535 + }, + { + "epoch": 0.1008, + "grad_norm": 1.8752927780151367, + "learning_rate": 0.0001798799733274061, + "loss": 2.0466, + "step": 4536 + }, + { + "epoch": 0.10082222222222222, + "grad_norm": 1.4686386585235596, + "learning_rate": 0.00017987552789508783, + "loss": 1.9048, + "step": 4537 + }, + { + "epoch": 0.10084444444444444, + "grad_norm": 1.6862549781799316, + "learning_rate": 0.0001798710824627695, + "loss": 2.3511, + "step": 4538 + }, + { + "epoch": 0.10086666666666666, + "grad_norm": 1.357166051864624, + "learning_rate": 0.00017986663703045122, + "loss": 1.9995, + "step": 4539 + }, + { + "epoch": 0.10088888888888889, + "grad_norm": 1.4182924032211304, + "learning_rate": 0.00017986219159813293, + "loss": 2.1343, + "step": 4540 + }, + { + "epoch": 0.1009111111111111, + "grad_norm": 1.322924017906189, + "learning_rate": 0.00017985774616581464, + "loss": 1.8664, + "step": 4541 + }, + { + "epoch": 0.10093333333333333, + "grad_norm": 1.4450047016143799, + "learning_rate": 0.00017985330073349632, + "loss": 2.015, + "step": 4542 + }, + { + "epoch": 0.10095555555555556, + "grad_norm": 1.5767916440963745, + "learning_rate": 0.00017984885530117806, + "loss": 1.063, + "step": 4543 + }, + { + "epoch": 0.10097777777777778, + "grad_norm": 1.3766216039657593, + "learning_rate": 0.00017984440986885977, + "loss": 2.1104, + "step": 4544 + }, + { + "epoch": 0.101, + "grad_norm": 1.4096211194992065, + "learning_rate": 0.00017983996443654145, + "loss": 1.8738, + "step": 4545 + }, + { + "epoch": 0.10102222222222222, + "grad_norm": 1.9654799699783325, + "learning_rate": 0.00017983551900422319, + "loss": 2.059, + "step": 4546 + }, + { + "epoch": 0.10104444444444445, + "grad_norm": 1.5229862928390503, + "learning_rate": 0.00017983107357190487, + "loss": 1.8899, + "step": 4547 + }, + { + "epoch": 0.10106666666666667, + "grad_norm": 1.4340468645095825, + "learning_rate": 0.00017982662813958658, + "loss": 1.8753, + "step": 4548 + }, + { + "epoch": 0.1010888888888889, + "grad_norm": 1.261633038520813, + "learning_rate": 0.0001798221827072683, + "loss": 1.6701, + "step": 4549 + }, + { + "epoch": 0.10111111111111111, + "grad_norm": 1.3499265909194946, + "learning_rate": 0.00017981773727495, + "loss": 0.9082, + "step": 4550 + }, + { + "epoch": 0.10113333333333334, + "grad_norm": 1.1998485326766968, + "learning_rate": 0.0001798132918426317, + "loss": 2.3424, + "step": 4551 + }, + { + "epoch": 0.10115555555555555, + "grad_norm": 0.9679036736488342, + "learning_rate": 0.00017980884641031342, + "loss": 1.2857, + "step": 4552 + }, + { + "epoch": 0.10117777777777778, + "grad_norm": 1.101314902305603, + "learning_rate": 0.00017980440097799513, + "loss": 2.3451, + "step": 4553 + }, + { + "epoch": 0.1012, + "grad_norm": 1.2301385402679443, + "learning_rate": 0.00017979995554567684, + "loss": 2.5677, + "step": 4554 + }, + { + "epoch": 0.10122222222222223, + "grad_norm": 1.1807093620300293, + "learning_rate": 0.00017979551011335855, + "loss": 2.5417, + "step": 4555 + }, + { + "epoch": 0.10124444444444444, + "grad_norm": 1.1361746788024902, + "learning_rate": 0.00017979106468104023, + "loss": 2.1949, + "step": 4556 + }, + { + "epoch": 0.10126666666666667, + "grad_norm": 1.1690309047698975, + "learning_rate": 0.00017978661924872196, + "loss": 1.9276, + "step": 4557 + }, + { + "epoch": 0.10128888888888889, + "grad_norm": 1.13777756690979, + "learning_rate": 0.00017978217381640365, + "loss": 1.6578, + "step": 4558 + }, + { + "epoch": 0.10131111111111112, + "grad_norm": 1.1411702632904053, + "learning_rate": 0.00017977772838408536, + "loss": 2.051, + "step": 4559 + }, + { + "epoch": 0.10133333333333333, + "grad_norm": 1.2523962259292603, + "learning_rate": 0.00017977328295176707, + "loss": 1.6661, + "step": 4560 + }, + { + "epoch": 0.10135555555555556, + "grad_norm": 1.1678746938705444, + "learning_rate": 0.00017976883751944878, + "loss": 2.2319, + "step": 4561 + }, + { + "epoch": 0.10137777777777777, + "grad_norm": 1.5486644506454468, + "learning_rate": 0.00017976439208713049, + "loss": 2.0421, + "step": 4562 + }, + { + "epoch": 0.1014, + "grad_norm": 1.5725224018096924, + "learning_rate": 0.0001797599466548122, + "loss": 2.5077, + "step": 4563 + }, + { + "epoch": 0.10142222222222222, + "grad_norm": 1.2779611349105835, + "learning_rate": 0.0001797555012224939, + "loss": 2.0999, + "step": 4564 + }, + { + "epoch": 0.10144444444444445, + "grad_norm": 1.263800024986267, + "learning_rate": 0.0001797510557901756, + "loss": 2.1752, + "step": 4565 + }, + { + "epoch": 0.10146666666666666, + "grad_norm": 1.360589623451233, + "learning_rate": 0.00017974661035785732, + "loss": 2.27, + "step": 4566 + }, + { + "epoch": 0.10148888888888889, + "grad_norm": 1.156154990196228, + "learning_rate": 0.000179742164925539, + "loss": 1.9843, + "step": 4567 + }, + { + "epoch": 0.10151111111111111, + "grad_norm": 1.3196426630020142, + "learning_rate": 0.00017973771949322074, + "loss": 2.0636, + "step": 4568 + }, + { + "epoch": 0.10153333333333334, + "grad_norm": 1.2223477363586426, + "learning_rate": 0.00017973327406090243, + "loss": 1.8422, + "step": 4569 + }, + { + "epoch": 0.10155555555555555, + "grad_norm": 1.2372304201126099, + "learning_rate": 0.00017972882862858414, + "loss": 1.7804, + "step": 4570 + }, + { + "epoch": 0.10157777777777778, + "grad_norm": 1.6939142942428589, + "learning_rate": 0.00017972438319626585, + "loss": 2.3238, + "step": 4571 + }, + { + "epoch": 0.1016, + "grad_norm": 1.4249662160873413, + "learning_rate": 0.00017971993776394755, + "loss": 2.1564, + "step": 4572 + }, + { + "epoch": 0.10162222222222222, + "grad_norm": 1.195669174194336, + "learning_rate": 0.00017971549233162926, + "loss": 1.8923, + "step": 4573 + }, + { + "epoch": 0.10164444444444444, + "grad_norm": 1.3309195041656494, + "learning_rate": 0.00017971104689931097, + "loss": 1.7738, + "step": 4574 + }, + { + "epoch": 0.10166666666666667, + "grad_norm": 1.5576967000961304, + "learning_rate": 0.00017970660146699268, + "loss": 2.1503, + "step": 4575 + }, + { + "epoch": 0.10168888888888888, + "grad_norm": 1.6863161325454712, + "learning_rate": 0.00017970215603467437, + "loss": 2.2591, + "step": 4576 + }, + { + "epoch": 0.10171111111111111, + "grad_norm": 1.847129464149475, + "learning_rate": 0.0001796977106023561, + "loss": 2.4507, + "step": 4577 + }, + { + "epoch": 0.10173333333333333, + "grad_norm": 1.155192494392395, + "learning_rate": 0.00017969326517003779, + "loss": 1.6717, + "step": 4578 + }, + { + "epoch": 0.10175555555555556, + "grad_norm": 1.3489474058151245, + "learning_rate": 0.0001796888197377195, + "loss": 2.1401, + "step": 4579 + }, + { + "epoch": 0.10177777777777777, + "grad_norm": 1.4400485754013062, + "learning_rate": 0.0001796843743054012, + "loss": 2.3982, + "step": 4580 + }, + { + "epoch": 0.1018, + "grad_norm": 1.5399576425552368, + "learning_rate": 0.00017967992887308291, + "loss": 1.8028, + "step": 4581 + }, + { + "epoch": 0.10182222222222222, + "grad_norm": 1.1433242559432983, + "learning_rate": 0.00017967548344076462, + "loss": 1.2652, + "step": 4582 + }, + { + "epoch": 0.10184444444444445, + "grad_norm": 2.25974702835083, + "learning_rate": 0.00017967103800844633, + "loss": 2.0798, + "step": 4583 + }, + { + "epoch": 0.10186666666666666, + "grad_norm": 1.5146572589874268, + "learning_rate": 0.00017966659257612804, + "loss": 2.4189, + "step": 4584 + }, + { + "epoch": 0.10188888888888889, + "grad_norm": 1.6665347814559937, + "learning_rate": 0.00017966214714380973, + "loss": 2.0715, + "step": 4585 + }, + { + "epoch": 0.1019111111111111, + "grad_norm": 1.384492039680481, + "learning_rate": 0.00017965770171149146, + "loss": 2.2461, + "step": 4586 + }, + { + "epoch": 0.10193333333333333, + "grad_norm": 1.2817753553390503, + "learning_rate": 0.00017965325627917314, + "loss": 1.5799, + "step": 4587 + }, + { + "epoch": 0.10195555555555555, + "grad_norm": 1.52030611038208, + "learning_rate": 0.00017964881084685488, + "loss": 1.8372, + "step": 4588 + }, + { + "epoch": 0.10197777777777778, + "grad_norm": 1.7442991733551025, + "learning_rate": 0.00017964436541453656, + "loss": 2.2178, + "step": 4589 + }, + { + "epoch": 0.102, + "grad_norm": 1.4898406267166138, + "learning_rate": 0.00017963991998221827, + "loss": 1.6938, + "step": 4590 + }, + { + "epoch": 0.10202222222222222, + "grad_norm": 1.504529356956482, + "learning_rate": 0.00017963547454989998, + "loss": 2.1715, + "step": 4591 + }, + { + "epoch": 0.10204444444444444, + "grad_norm": 1.3955018520355225, + "learning_rate": 0.0001796310291175817, + "loss": 2.1935, + "step": 4592 + }, + { + "epoch": 0.10206666666666667, + "grad_norm": 1.2676892280578613, + "learning_rate": 0.0001796265836852634, + "loss": 1.7474, + "step": 4593 + }, + { + "epoch": 0.1020888888888889, + "grad_norm": 1.3315775394439697, + "learning_rate": 0.0001796221382529451, + "loss": 1.4655, + "step": 4594 + }, + { + "epoch": 0.10211111111111111, + "grad_norm": 1.4957044124603271, + "learning_rate": 0.00017961769282062682, + "loss": 2.2472, + "step": 4595 + }, + { + "epoch": 0.10213333333333334, + "grad_norm": 1.4856873750686646, + "learning_rate": 0.0001796132473883085, + "loss": 1.8713, + "step": 4596 + }, + { + "epoch": 0.10215555555555556, + "grad_norm": 1.355457067489624, + "learning_rate": 0.00017960880195599024, + "loss": 1.4948, + "step": 4597 + }, + { + "epoch": 0.10217777777777778, + "grad_norm": 1.5222852230072021, + "learning_rate": 0.00017960435652367192, + "loss": 1.8607, + "step": 4598 + }, + { + "epoch": 0.1022, + "grad_norm": 1.9654401540756226, + "learning_rate": 0.00017959991109135363, + "loss": 1.5605, + "step": 4599 + }, + { + "epoch": 0.10222222222222223, + "grad_norm": 1.3997873067855835, + "learning_rate": 0.00017959546565903534, + "loss": 1.0984, + "step": 4600 + }, + { + "epoch": 0.10224444444444444, + "grad_norm": 1.0412570238113403, + "learning_rate": 0.00017959102022671705, + "loss": 2.5375, + "step": 4601 + }, + { + "epoch": 0.10226666666666667, + "grad_norm": 1.3185845613479614, + "learning_rate": 0.00017958657479439876, + "loss": 2.5337, + "step": 4602 + }, + { + "epoch": 0.10228888888888889, + "grad_norm": 1.1858352422714233, + "learning_rate": 0.00017958212936208047, + "loss": 2.4824, + "step": 4603 + }, + { + "epoch": 0.10231111111111112, + "grad_norm": 1.074351191520691, + "learning_rate": 0.00017957768392976218, + "loss": 2.2161, + "step": 4604 + }, + { + "epoch": 0.10233333333333333, + "grad_norm": 1.1715136766433716, + "learning_rate": 0.00017957323849744386, + "loss": 2.0258, + "step": 4605 + }, + { + "epoch": 0.10235555555555556, + "grad_norm": 1.1067131757736206, + "learning_rate": 0.0001795687930651256, + "loss": 1.9996, + "step": 4606 + }, + { + "epoch": 0.10237777777777778, + "grad_norm": 1.2037277221679688, + "learning_rate": 0.00017956434763280728, + "loss": 2.2758, + "step": 4607 + }, + { + "epoch": 0.1024, + "grad_norm": 1.1180009841918945, + "learning_rate": 0.00017955990220048902, + "loss": 2.0901, + "step": 4608 + }, + { + "epoch": 0.10242222222222222, + "grad_norm": 1.1651686429977417, + "learning_rate": 0.0001795554567681707, + "loss": 2.1304, + "step": 4609 + }, + { + "epoch": 0.10244444444444445, + "grad_norm": 1.2160648107528687, + "learning_rate": 0.0001795510113358524, + "loss": 2.4842, + "step": 4610 + }, + { + "epoch": 0.10246666666666666, + "grad_norm": 1.2420545816421509, + "learning_rate": 0.00017954656590353415, + "loss": 2.6068, + "step": 4611 + }, + { + "epoch": 0.1024888888888889, + "grad_norm": 1.2576555013656616, + "learning_rate": 0.00017954212047121583, + "loss": 2.4677, + "step": 4612 + }, + { + "epoch": 0.10251111111111111, + "grad_norm": 1.2574868202209473, + "learning_rate": 0.00017953767503889754, + "loss": 2.0982, + "step": 4613 + }, + { + "epoch": 0.10253333333333334, + "grad_norm": 1.2017476558685303, + "learning_rate": 0.00017953322960657925, + "loss": 1.8347, + "step": 4614 + }, + { + "epoch": 0.10255555555555555, + "grad_norm": 1.086390733718872, + "learning_rate": 0.00017952878417426096, + "loss": 1.2219, + "step": 4615 + }, + { + "epoch": 0.10257777777777778, + "grad_norm": 1.362026572227478, + "learning_rate": 0.00017952433874194264, + "loss": 2.381, + "step": 4616 + }, + { + "epoch": 0.1026, + "grad_norm": 1.6786465644836426, + "learning_rate": 0.00017951989330962438, + "loss": 1.6736, + "step": 4617 + }, + { + "epoch": 0.10262222222222223, + "grad_norm": 1.2606959342956543, + "learning_rate": 0.0001795154478773061, + "loss": 1.7454, + "step": 4618 + }, + { + "epoch": 0.10264444444444444, + "grad_norm": 1.5881798267364502, + "learning_rate": 0.00017951100244498777, + "loss": 2.7024, + "step": 4619 + }, + { + "epoch": 0.10266666666666667, + "grad_norm": 1.2433445453643799, + "learning_rate": 0.0001795065570126695, + "loss": 1.7929, + "step": 4620 + }, + { + "epoch": 0.10268888888888889, + "grad_norm": 1.2029064893722534, + "learning_rate": 0.0001795021115803512, + "loss": 2.0105, + "step": 4621 + }, + { + "epoch": 0.10271111111111111, + "grad_norm": 1.5071628093719482, + "learning_rate": 0.0001794976661480329, + "loss": 1.9158, + "step": 4622 + }, + { + "epoch": 0.10273333333333333, + "grad_norm": 1.4113117456436157, + "learning_rate": 0.0001794932207157146, + "loss": 2.107, + "step": 4623 + }, + { + "epoch": 0.10275555555555556, + "grad_norm": 1.5553901195526123, + "learning_rate": 0.00017948877528339632, + "loss": 2.4155, + "step": 4624 + }, + { + "epoch": 0.10277777777777777, + "grad_norm": 1.2681584358215332, + "learning_rate": 0.00017948432985107803, + "loss": 1.8085, + "step": 4625 + }, + { + "epoch": 0.1028, + "grad_norm": 1.3174275159835815, + "learning_rate": 0.00017947988441875974, + "loss": 1.8957, + "step": 4626 + }, + { + "epoch": 0.10282222222222222, + "grad_norm": 1.2613061666488647, + "learning_rate": 0.00017947543898644145, + "loss": 1.9034, + "step": 4627 + }, + { + "epoch": 0.10284444444444445, + "grad_norm": 1.515085220336914, + "learning_rate": 0.00017947099355412316, + "loss": 2.2849, + "step": 4628 + }, + { + "epoch": 0.10286666666666666, + "grad_norm": 1.2645028829574585, + "learning_rate": 0.00017946654812180487, + "loss": 2.1126, + "step": 4629 + }, + { + "epoch": 0.10288888888888889, + "grad_norm": 1.3133676052093506, + "learning_rate": 0.00017946210268948655, + "loss": 2.2592, + "step": 4630 + }, + { + "epoch": 0.1029111111111111, + "grad_norm": 1.1684843301773071, + "learning_rate": 0.0001794576572571683, + "loss": 1.6911, + "step": 4631 + }, + { + "epoch": 0.10293333333333334, + "grad_norm": 1.3858537673950195, + "learning_rate": 0.00017945321182484997, + "loss": 1.8967, + "step": 4632 + }, + { + "epoch": 0.10295555555555555, + "grad_norm": 1.3120898008346558, + "learning_rate": 0.00017944876639253168, + "loss": 2.1183, + "step": 4633 + }, + { + "epoch": 0.10297777777777778, + "grad_norm": 1.8002424240112305, + "learning_rate": 0.0001794443209602134, + "loss": 2.2696, + "step": 4634 + }, + { + "epoch": 0.103, + "grad_norm": 1.4287925958633423, + "learning_rate": 0.0001794398755278951, + "loss": 1.817, + "step": 4635 + }, + { + "epoch": 0.10302222222222222, + "grad_norm": 1.5401346683502197, + "learning_rate": 0.0001794354300955768, + "loss": 1.5767, + "step": 4636 + }, + { + "epoch": 0.10304444444444444, + "grad_norm": 1.336228370666504, + "learning_rate": 0.00017943098466325852, + "loss": 1.9442, + "step": 4637 + }, + { + "epoch": 0.10306666666666667, + "grad_norm": 1.4568718671798706, + "learning_rate": 0.00017942653923094023, + "loss": 1.9845, + "step": 4638 + }, + { + "epoch": 0.10308888888888888, + "grad_norm": 1.5085418224334717, + "learning_rate": 0.0001794220937986219, + "loss": 1.4438, + "step": 4639 + }, + { + "epoch": 0.10311111111111111, + "grad_norm": 1.366981029510498, + "learning_rate": 0.00017941764836630365, + "loss": 1.8725, + "step": 4640 + }, + { + "epoch": 0.10313333333333333, + "grad_norm": 1.7619227170944214, + "learning_rate": 0.00017941320293398533, + "loss": 2.3364, + "step": 4641 + }, + { + "epoch": 0.10315555555555556, + "grad_norm": 1.5690550804138184, + "learning_rate": 0.00017940875750166704, + "loss": 1.8431, + "step": 4642 + }, + { + "epoch": 0.10317777777777777, + "grad_norm": 1.686866044998169, + "learning_rate": 0.00017940431206934875, + "loss": 2.4302, + "step": 4643 + }, + { + "epoch": 0.1032, + "grad_norm": 1.7820451259613037, + "learning_rate": 0.00017939986663703046, + "loss": 2.4202, + "step": 4644 + }, + { + "epoch": 0.10322222222222223, + "grad_norm": 1.4131567478179932, + "learning_rate": 0.00017939542120471217, + "loss": 1.7421, + "step": 4645 + }, + { + "epoch": 0.10324444444444444, + "grad_norm": 1.5755765438079834, + "learning_rate": 0.00017939097577239388, + "loss": 2.2758, + "step": 4646 + }, + { + "epoch": 0.10326666666666667, + "grad_norm": 1.1355630159378052, + "learning_rate": 0.00017938653034007559, + "loss": 1.7723, + "step": 4647 + }, + { + "epoch": 0.10328888888888889, + "grad_norm": 1.059228777885437, + "learning_rate": 0.0001793820849077573, + "loss": 0.9362, + "step": 4648 + }, + { + "epoch": 0.10331111111111112, + "grad_norm": 1.6165074110031128, + "learning_rate": 0.000179377639475439, + "loss": 2.4257, + "step": 4649 + }, + { + "epoch": 0.10333333333333333, + "grad_norm": 1.3630965948104858, + "learning_rate": 0.0001793731940431207, + "loss": 1.037, + "step": 4650 + }, + { + "epoch": 0.10335555555555556, + "grad_norm": 0.8397119045257568, + "learning_rate": 0.00017936874861080242, + "loss": 1.2374, + "step": 4651 + }, + { + "epoch": 0.10337777777777778, + "grad_norm": 1.1855571269989014, + "learning_rate": 0.0001793643031784841, + "loss": 2.1357, + "step": 4652 + }, + { + "epoch": 0.1034, + "grad_norm": 1.1406707763671875, + "learning_rate": 0.00017935985774616582, + "loss": 2.4501, + "step": 4653 + }, + { + "epoch": 0.10342222222222222, + "grad_norm": 1.0034575462341309, + "learning_rate": 0.00017935541231384753, + "loss": 2.0184, + "step": 4654 + }, + { + "epoch": 0.10344444444444445, + "grad_norm": 1.1791536808013916, + "learning_rate": 0.00017935096688152924, + "loss": 2.3305, + "step": 4655 + }, + { + "epoch": 0.10346666666666667, + "grad_norm": 1.5166912078857422, + "learning_rate": 0.00017934652144921095, + "loss": 2.536, + "step": 4656 + }, + { + "epoch": 0.1034888888888889, + "grad_norm": 1.3112488985061646, + "learning_rate": 0.00017934207601689266, + "loss": 2.4141, + "step": 4657 + }, + { + "epoch": 0.10351111111111111, + "grad_norm": 1.2915891408920288, + "learning_rate": 0.00017933763058457437, + "loss": 2.1156, + "step": 4658 + }, + { + "epoch": 0.10353333333333334, + "grad_norm": 1.3239997625350952, + "learning_rate": 0.00017933318515225605, + "loss": 2.5297, + "step": 4659 + }, + { + "epoch": 0.10355555555555555, + "grad_norm": 1.2447015047073364, + "learning_rate": 0.00017932873971993778, + "loss": 2.1459, + "step": 4660 + }, + { + "epoch": 0.10357777777777778, + "grad_norm": 1.2146960496902466, + "learning_rate": 0.00017932429428761947, + "loss": 2.5321, + "step": 4661 + }, + { + "epoch": 0.1036, + "grad_norm": 1.3347951173782349, + "learning_rate": 0.00017931984885530118, + "loss": 2.353, + "step": 4662 + }, + { + "epoch": 0.10362222222222223, + "grad_norm": 1.039957880973816, + "learning_rate": 0.00017931540342298289, + "loss": 1.7461, + "step": 4663 + }, + { + "epoch": 0.10364444444444444, + "grad_norm": 1.240303874015808, + "learning_rate": 0.0001793109579906646, + "loss": 2.2365, + "step": 4664 + }, + { + "epoch": 0.10366666666666667, + "grad_norm": 1.6558023691177368, + "learning_rate": 0.0001793065125583463, + "loss": 2.2952, + "step": 4665 + }, + { + "epoch": 0.10368888888888889, + "grad_norm": 1.3637255430221558, + "learning_rate": 0.00017930206712602801, + "loss": 2.4326, + "step": 4666 + }, + { + "epoch": 0.10371111111111112, + "grad_norm": 1.1824246644973755, + "learning_rate": 0.00017929762169370972, + "loss": 2.1414, + "step": 4667 + }, + { + "epoch": 0.10373333333333333, + "grad_norm": 1.566886067390442, + "learning_rate": 0.00017929317626139143, + "loss": 1.8825, + "step": 4668 + }, + { + "epoch": 0.10375555555555556, + "grad_norm": 1.238523244857788, + "learning_rate": 0.00017928873082907314, + "loss": 1.7236, + "step": 4669 + }, + { + "epoch": 0.10377777777777777, + "grad_norm": 1.2555123567581177, + "learning_rate": 0.00017928428539675483, + "loss": 2.3086, + "step": 4670 + }, + { + "epoch": 0.1038, + "grad_norm": 1.174302101135254, + "learning_rate": 0.00017927983996443656, + "loss": 1.5017, + "step": 4671 + }, + { + "epoch": 0.10382222222222222, + "grad_norm": 1.2573962211608887, + "learning_rate": 0.00017927539453211825, + "loss": 2.0492, + "step": 4672 + }, + { + "epoch": 0.10384444444444445, + "grad_norm": 1.6517279148101807, + "learning_rate": 0.00017927094909979996, + "loss": 2.3336, + "step": 4673 + }, + { + "epoch": 0.10386666666666666, + "grad_norm": 1.2209466695785522, + "learning_rate": 0.00017926650366748166, + "loss": 1.7249, + "step": 4674 + }, + { + "epoch": 0.10388888888888889, + "grad_norm": 1.1546794176101685, + "learning_rate": 0.00017926205823516337, + "loss": 1.6352, + "step": 4675 + }, + { + "epoch": 0.1039111111111111, + "grad_norm": 1.363912582397461, + "learning_rate": 0.00017925761280284508, + "loss": 2.3831, + "step": 4676 + }, + { + "epoch": 0.10393333333333334, + "grad_norm": 1.3337188959121704, + "learning_rate": 0.0001792531673705268, + "loss": 1.7637, + "step": 4677 + }, + { + "epoch": 0.10395555555555555, + "grad_norm": 1.9137290716171265, + "learning_rate": 0.0001792487219382085, + "loss": 2.044, + "step": 4678 + }, + { + "epoch": 0.10397777777777778, + "grad_norm": 1.146369218826294, + "learning_rate": 0.00017924427650589019, + "loss": 1.8023, + "step": 4679 + }, + { + "epoch": 0.104, + "grad_norm": 1.2753961086273193, + "learning_rate": 0.00017923983107357192, + "loss": 2.0125, + "step": 4680 + }, + { + "epoch": 0.10402222222222222, + "grad_norm": 1.3141913414001465, + "learning_rate": 0.0001792353856412536, + "loss": 2.3434, + "step": 4681 + }, + { + "epoch": 0.10404444444444444, + "grad_norm": 1.7478870153427124, + "learning_rate": 0.00017923094020893534, + "loss": 1.908, + "step": 4682 + }, + { + "epoch": 0.10406666666666667, + "grad_norm": 1.4790189266204834, + "learning_rate": 0.00017922649477661702, + "loss": 1.8963, + "step": 4683 + }, + { + "epoch": 0.10408888888888888, + "grad_norm": 0.8964288830757141, + "learning_rate": 0.00017922204934429873, + "loss": 0.8126, + "step": 4684 + }, + { + "epoch": 0.10411111111111111, + "grad_norm": 1.1856062412261963, + "learning_rate": 0.00017921760391198047, + "loss": 1.2994, + "step": 4685 + }, + { + "epoch": 0.10413333333333333, + "grad_norm": 1.4017351865768433, + "learning_rate": 0.00017921315847966215, + "loss": 1.9044, + "step": 4686 + }, + { + "epoch": 0.10415555555555556, + "grad_norm": 1.7440826892852783, + "learning_rate": 0.00017920871304734386, + "loss": 2.5096, + "step": 4687 + }, + { + "epoch": 0.10417777777777777, + "grad_norm": 1.5403646230697632, + "learning_rate": 0.00017920426761502557, + "loss": 1.9192, + "step": 4688 + }, + { + "epoch": 0.1042, + "grad_norm": 1.7913638353347778, + "learning_rate": 0.00017919982218270728, + "loss": 2.1075, + "step": 4689 + }, + { + "epoch": 0.10422222222222222, + "grad_norm": 1.7125804424285889, + "learning_rate": 0.00017919537675038896, + "loss": 1.8505, + "step": 4690 + }, + { + "epoch": 0.10424444444444445, + "grad_norm": 1.6220624446868896, + "learning_rate": 0.0001791909313180707, + "loss": 2.1024, + "step": 4691 + }, + { + "epoch": 0.10426666666666666, + "grad_norm": 1.75843346118927, + "learning_rate": 0.0001791864858857524, + "loss": 2.3189, + "step": 4692 + }, + { + "epoch": 0.10428888888888889, + "grad_norm": 1.722414493560791, + "learning_rate": 0.0001791820404534341, + "loss": 1.8609, + "step": 4693 + }, + { + "epoch": 0.1043111111111111, + "grad_norm": 1.6046638488769531, + "learning_rate": 0.00017917759502111583, + "loss": 1.8687, + "step": 4694 + }, + { + "epoch": 0.10433333333333333, + "grad_norm": 1.341619610786438, + "learning_rate": 0.0001791731495887975, + "loss": 1.9194, + "step": 4695 + }, + { + "epoch": 0.10435555555555555, + "grad_norm": 1.5972071886062622, + "learning_rate": 0.00017916870415647922, + "loss": 2.2778, + "step": 4696 + }, + { + "epoch": 0.10437777777777778, + "grad_norm": 1.3288145065307617, + "learning_rate": 0.00017916425872416093, + "loss": 1.6617, + "step": 4697 + }, + { + "epoch": 0.1044, + "grad_norm": 1.6051876544952393, + "learning_rate": 0.00017915981329184264, + "loss": 1.8437, + "step": 4698 + }, + { + "epoch": 0.10442222222222222, + "grad_norm": 1.7933837175369263, + "learning_rate": 0.00017915536785952432, + "loss": 1.95, + "step": 4699 + }, + { + "epoch": 0.10444444444444445, + "grad_norm": 1.4337576627731323, + "learning_rate": 0.00017915092242720606, + "loss": 1.7093, + "step": 4700 + }, + { + "epoch": 0.10446666666666667, + "grad_norm": 1.213118314743042, + "learning_rate": 0.00017914647699488777, + "loss": 2.6718, + "step": 4701 + }, + { + "epoch": 0.1044888888888889, + "grad_norm": 1.1741292476654053, + "learning_rate": 0.00017914203156256948, + "loss": 2.4319, + "step": 4702 + }, + { + "epoch": 0.10451111111111111, + "grad_norm": 1.1501327753067017, + "learning_rate": 0.0001791375861302512, + "loss": 2.3273, + "step": 4703 + }, + { + "epoch": 0.10453333333333334, + "grad_norm": 1.2908824682235718, + "learning_rate": 0.00017913314069793287, + "loss": 2.25, + "step": 4704 + }, + { + "epoch": 0.10455555555555555, + "grad_norm": 1.2125142812728882, + "learning_rate": 0.0001791286952656146, + "loss": 2.3531, + "step": 4705 + }, + { + "epoch": 0.10457777777777778, + "grad_norm": 1.2105412483215332, + "learning_rate": 0.0001791242498332963, + "loss": 2.1998, + "step": 4706 + }, + { + "epoch": 0.1046, + "grad_norm": 1.067679762840271, + "learning_rate": 0.000179119804400978, + "loss": 1.9206, + "step": 4707 + }, + { + "epoch": 0.10462222222222223, + "grad_norm": 1.1268724203109741, + "learning_rate": 0.0001791153589686597, + "loss": 2.1677, + "step": 4708 + }, + { + "epoch": 0.10464444444444444, + "grad_norm": 1.1919324398040771, + "learning_rate": 0.00017911091353634142, + "loss": 2.4894, + "step": 4709 + }, + { + "epoch": 0.10466666666666667, + "grad_norm": 1.278702974319458, + "learning_rate": 0.00017910646810402313, + "loss": 0.8101, + "step": 4710 + }, + { + "epoch": 0.10468888888888889, + "grad_norm": 1.2591575384140015, + "learning_rate": 0.00017910202267170484, + "loss": 2.6963, + "step": 4711 + }, + { + "epoch": 0.10471111111111112, + "grad_norm": 1.5875438451766968, + "learning_rate": 0.00017909757723938655, + "loss": 2.4404, + "step": 4712 + }, + { + "epoch": 0.10473333333333333, + "grad_norm": 1.4721304178237915, + "learning_rate": 0.00017909313180706823, + "loss": 2.2582, + "step": 4713 + }, + { + "epoch": 0.10475555555555556, + "grad_norm": 1.1468361616134644, + "learning_rate": 0.00017908868637474997, + "loss": 1.5026, + "step": 4714 + }, + { + "epoch": 0.10477777777777778, + "grad_norm": 1.3252166509628296, + "learning_rate": 0.00017908424094243165, + "loss": 2.0172, + "step": 4715 + }, + { + "epoch": 0.1048, + "grad_norm": 1.3450089693069458, + "learning_rate": 0.00017907979551011336, + "loss": 2.2964, + "step": 4716 + }, + { + "epoch": 0.10482222222222222, + "grad_norm": 1.4002469778060913, + "learning_rate": 0.00017907535007779507, + "loss": 2.3678, + "step": 4717 + }, + { + "epoch": 0.10484444444444445, + "grad_norm": 1.2362087965011597, + "learning_rate": 0.00017907090464547678, + "loss": 1.9837, + "step": 4718 + }, + { + "epoch": 0.10486666666666666, + "grad_norm": 1.0984290838241577, + "learning_rate": 0.0001790664592131585, + "loss": 1.7908, + "step": 4719 + }, + { + "epoch": 0.10488888888888889, + "grad_norm": 1.2312449216842651, + "learning_rate": 0.0001790620137808402, + "loss": 2.3593, + "step": 4720 + }, + { + "epoch": 0.10491111111111111, + "grad_norm": 1.186219334602356, + "learning_rate": 0.0001790575683485219, + "loss": 2.3052, + "step": 4721 + }, + { + "epoch": 0.10493333333333334, + "grad_norm": 1.9416412115097046, + "learning_rate": 0.00017905312291620362, + "loss": 2.1005, + "step": 4722 + }, + { + "epoch": 0.10495555555555555, + "grad_norm": 1.5877373218536377, + "learning_rate": 0.00017904867748388533, + "loss": 2.1296, + "step": 4723 + }, + { + "epoch": 0.10497777777777778, + "grad_norm": 1.4939285516738892, + "learning_rate": 0.000179044232051567, + "loss": 2.2017, + "step": 4724 + }, + { + "epoch": 0.105, + "grad_norm": 1.6222294569015503, + "learning_rate": 0.00017903978661924875, + "loss": 2.1711, + "step": 4725 + }, + { + "epoch": 0.10502222222222223, + "grad_norm": 1.5012242794036865, + "learning_rate": 0.00017903534118693043, + "loss": 2.3452, + "step": 4726 + }, + { + "epoch": 0.10504444444444444, + "grad_norm": 1.6099516153335571, + "learning_rate": 0.00017903089575461214, + "loss": 2.2325, + "step": 4727 + }, + { + "epoch": 0.10506666666666667, + "grad_norm": 1.3687937259674072, + "learning_rate": 0.00017902645032229385, + "loss": 2.1793, + "step": 4728 + }, + { + "epoch": 0.10508888888888888, + "grad_norm": 1.3842027187347412, + "learning_rate": 0.00017902200488997556, + "loss": 1.632, + "step": 4729 + }, + { + "epoch": 0.10511111111111111, + "grad_norm": 1.439971923828125, + "learning_rate": 0.00017901755945765727, + "loss": 2.2228, + "step": 4730 + }, + { + "epoch": 0.10513333333333333, + "grad_norm": 1.350061058998108, + "learning_rate": 0.00017901311402533898, + "loss": 1.861, + "step": 4731 + }, + { + "epoch": 0.10515555555555556, + "grad_norm": 1.3200052976608276, + "learning_rate": 0.0001790086685930207, + "loss": 2.1378, + "step": 4732 + }, + { + "epoch": 0.10517777777777777, + "grad_norm": 1.5480362176895142, + "learning_rate": 0.00017900422316070237, + "loss": 1.9267, + "step": 4733 + }, + { + "epoch": 0.1052, + "grad_norm": 1.4195936918258667, + "learning_rate": 0.0001789997777283841, + "loss": 1.5747, + "step": 4734 + }, + { + "epoch": 0.10522222222222222, + "grad_norm": 1.2044605016708374, + "learning_rate": 0.0001789953322960658, + "loss": 1.9024, + "step": 4735 + }, + { + "epoch": 0.10524444444444445, + "grad_norm": 1.2100012302398682, + "learning_rate": 0.0001789908868637475, + "loss": 1.7301, + "step": 4736 + }, + { + "epoch": 0.10526666666666666, + "grad_norm": 1.2560068368911743, + "learning_rate": 0.0001789864414314292, + "loss": 1.7934, + "step": 4737 + }, + { + "epoch": 0.10528888888888889, + "grad_norm": 1.6757310628890991, + "learning_rate": 0.00017898199599911092, + "loss": 2.1064, + "step": 4738 + }, + { + "epoch": 0.1053111111111111, + "grad_norm": 1.3027863502502441, + "learning_rate": 0.00017897755056679263, + "loss": 1.7545, + "step": 4739 + }, + { + "epoch": 0.10533333333333333, + "grad_norm": 1.9690635204315186, + "learning_rate": 0.00017897310513447434, + "loss": 1.8703, + "step": 4740 + }, + { + "epoch": 0.10535555555555555, + "grad_norm": 1.5110101699829102, + "learning_rate": 0.00017896865970215605, + "loss": 1.8594, + "step": 4741 + }, + { + "epoch": 0.10537777777777778, + "grad_norm": 1.3774563074111938, + "learning_rate": 0.00017896421426983776, + "loss": 1.9482, + "step": 4742 + }, + { + "epoch": 0.1054, + "grad_norm": 1.1434893608093262, + "learning_rate": 0.00017895976883751947, + "loss": 1.4703, + "step": 4743 + }, + { + "epoch": 0.10542222222222222, + "grad_norm": 1.6772842407226562, + "learning_rate": 0.00017895532340520115, + "loss": 2.4015, + "step": 4744 + }, + { + "epoch": 0.10544444444444444, + "grad_norm": 1.4966915845870972, + "learning_rate": 0.00017895087797288289, + "loss": 2.1092, + "step": 4745 + }, + { + "epoch": 0.10546666666666667, + "grad_norm": 1.4620712995529175, + "learning_rate": 0.00017894643254056457, + "loss": 1.8991, + "step": 4746 + }, + { + "epoch": 0.10548888888888888, + "grad_norm": 1.4245212078094482, + "learning_rate": 0.00017894198710824628, + "loss": 1.6592, + "step": 4747 + }, + { + "epoch": 0.10551111111111111, + "grad_norm": 1.5226815938949585, + "learning_rate": 0.000178937541675928, + "loss": 1.7001, + "step": 4748 + }, + { + "epoch": 0.10553333333333334, + "grad_norm": 1.407592535018921, + "learning_rate": 0.0001789330962436097, + "loss": 1.525, + "step": 4749 + }, + { + "epoch": 0.10555555555555556, + "grad_norm": 1.8174995183944702, + "learning_rate": 0.0001789286508112914, + "loss": 1.8836, + "step": 4750 + }, + { + "epoch": 0.10557777777777778, + "grad_norm": 1.2203701734542847, + "learning_rate": 0.00017892420537897312, + "loss": 2.3811, + "step": 4751 + }, + { + "epoch": 0.1056, + "grad_norm": 1.1053575277328491, + "learning_rate": 0.00017891975994665483, + "loss": 2.0804, + "step": 4752 + }, + { + "epoch": 0.10562222222222223, + "grad_norm": 1.281872034072876, + "learning_rate": 0.0001789153145143365, + "loss": 2.5541, + "step": 4753 + }, + { + "epoch": 0.10564444444444444, + "grad_norm": 1.1466424465179443, + "learning_rate": 0.00017891086908201824, + "loss": 2.3009, + "step": 4754 + }, + { + "epoch": 0.10566666666666667, + "grad_norm": 2.035588502883911, + "learning_rate": 0.00017890642364969993, + "loss": 2.1204, + "step": 4755 + }, + { + "epoch": 0.10568888888888889, + "grad_norm": 1.331515908241272, + "learning_rate": 0.00017890197821738164, + "loss": 2.4788, + "step": 4756 + }, + { + "epoch": 0.10571111111111112, + "grad_norm": 1.2990413904190063, + "learning_rate": 0.00017889753278506335, + "loss": 2.3972, + "step": 4757 + }, + { + "epoch": 0.10573333333333333, + "grad_norm": 1.1266638040542603, + "learning_rate": 0.00017889308735274506, + "loss": 2.3233, + "step": 4758 + }, + { + "epoch": 0.10575555555555556, + "grad_norm": 1.1677242517471313, + "learning_rate": 0.0001788886419204268, + "loss": 1.0468, + "step": 4759 + }, + { + "epoch": 0.10577777777777778, + "grad_norm": 1.148490071296692, + "learning_rate": 0.00017888419648810848, + "loss": 2.4618, + "step": 4760 + }, + { + "epoch": 0.1058, + "grad_norm": 1.2375208139419556, + "learning_rate": 0.00017887975105579018, + "loss": 2.0278, + "step": 4761 + }, + { + "epoch": 0.10582222222222222, + "grad_norm": 1.6354830265045166, + "learning_rate": 0.0001788753056234719, + "loss": 3.0135, + "step": 4762 + }, + { + "epoch": 0.10584444444444445, + "grad_norm": 1.2000577449798584, + "learning_rate": 0.0001788708601911536, + "loss": 1.9629, + "step": 4763 + }, + { + "epoch": 0.10586666666666666, + "grad_norm": 1.2368160486221313, + "learning_rate": 0.0001788664147588353, + "loss": 2.2188, + "step": 4764 + }, + { + "epoch": 0.1058888888888889, + "grad_norm": 1.275530219078064, + "learning_rate": 0.00017886196932651702, + "loss": 1.9226, + "step": 4765 + }, + { + "epoch": 0.10591111111111111, + "grad_norm": 1.4124844074249268, + "learning_rate": 0.00017885752389419873, + "loss": 1.7367, + "step": 4766 + }, + { + "epoch": 0.10593333333333334, + "grad_norm": 1.3520641326904297, + "learning_rate": 0.00017885307846188042, + "loss": 1.6431, + "step": 4767 + }, + { + "epoch": 0.10595555555555555, + "grad_norm": 1.2531776428222656, + "learning_rate": 0.00017884863302956215, + "loss": 1.7625, + "step": 4768 + }, + { + "epoch": 0.10597777777777778, + "grad_norm": 1.1857998371124268, + "learning_rate": 0.00017884418759724383, + "loss": 1.8581, + "step": 4769 + }, + { + "epoch": 0.106, + "grad_norm": 1.1404083967208862, + "learning_rate": 0.00017883974216492554, + "loss": 1.9312, + "step": 4770 + }, + { + "epoch": 0.10602222222222223, + "grad_norm": 1.3994954824447632, + "learning_rate": 0.00017883529673260725, + "loss": 2.177, + "step": 4771 + }, + { + "epoch": 0.10604444444444444, + "grad_norm": 1.3618932962417603, + "learning_rate": 0.00017883085130028896, + "loss": 1.8714, + "step": 4772 + }, + { + "epoch": 0.10606666666666667, + "grad_norm": 1.509718656539917, + "learning_rate": 0.00017882640586797065, + "loss": 2.6175, + "step": 4773 + }, + { + "epoch": 0.10608888888888889, + "grad_norm": 1.5017961263656616, + "learning_rate": 0.00017882196043565238, + "loss": 1.9237, + "step": 4774 + }, + { + "epoch": 0.10611111111111111, + "grad_norm": 1.3233697414398193, + "learning_rate": 0.0001788175150033341, + "loss": 2.0806, + "step": 4775 + }, + { + "epoch": 0.10613333333333333, + "grad_norm": 1.19089674949646, + "learning_rate": 0.00017881306957101577, + "loss": 1.3739, + "step": 4776 + }, + { + "epoch": 0.10615555555555556, + "grad_norm": 1.4545414447784424, + "learning_rate": 0.0001788086241386975, + "loss": 2.0857, + "step": 4777 + }, + { + "epoch": 0.10617777777777777, + "grad_norm": 1.4069355726242065, + "learning_rate": 0.0001788041787063792, + "loss": 1.9801, + "step": 4778 + }, + { + "epoch": 0.1062, + "grad_norm": 1.385577917098999, + "learning_rate": 0.00017879973327406093, + "loss": 1.9267, + "step": 4779 + }, + { + "epoch": 0.10622222222222222, + "grad_norm": 1.0476232767105103, + "learning_rate": 0.0001787952878417426, + "loss": 1.1107, + "step": 4780 + }, + { + "epoch": 0.10624444444444445, + "grad_norm": 1.624247670173645, + "learning_rate": 0.00017879084240942432, + "loss": 1.8352, + "step": 4781 + }, + { + "epoch": 0.10626666666666666, + "grad_norm": 1.4389219284057617, + "learning_rate": 0.00017878639697710603, + "loss": 2.073, + "step": 4782 + }, + { + "epoch": 0.10628888888888889, + "grad_norm": 1.6805499792099, + "learning_rate": 0.00017878195154478774, + "loss": 1.6638, + "step": 4783 + }, + { + "epoch": 0.1063111111111111, + "grad_norm": 1.327546238899231, + "learning_rate": 0.00017877750611246945, + "loss": 1.851, + "step": 4784 + }, + { + "epoch": 0.10633333333333334, + "grad_norm": 1.2685459852218628, + "learning_rate": 0.00017877306068015116, + "loss": 1.7745, + "step": 4785 + }, + { + "epoch": 0.10635555555555555, + "grad_norm": 1.380784034729004, + "learning_rate": 0.00017876861524783287, + "loss": 1.9107, + "step": 4786 + }, + { + "epoch": 0.10637777777777778, + "grad_norm": 1.4243820905685425, + "learning_rate": 0.00017876416981551455, + "loss": 1.5676, + "step": 4787 + }, + { + "epoch": 0.1064, + "grad_norm": 1.5323160886764526, + "learning_rate": 0.0001787597243831963, + "loss": 2.1893, + "step": 4788 + }, + { + "epoch": 0.10642222222222222, + "grad_norm": 1.447121500968933, + "learning_rate": 0.00017875527895087797, + "loss": 2.2089, + "step": 4789 + }, + { + "epoch": 0.10644444444444444, + "grad_norm": 1.1103867292404175, + "learning_rate": 0.00017875083351855968, + "loss": 1.6697, + "step": 4790 + }, + { + "epoch": 0.10646666666666667, + "grad_norm": 1.676403522491455, + "learning_rate": 0.0001787463880862414, + "loss": 1.8635, + "step": 4791 + }, + { + "epoch": 0.10648888888888888, + "grad_norm": 1.495719075202942, + "learning_rate": 0.0001787419426539231, + "loss": 2.0954, + "step": 4792 + }, + { + "epoch": 0.10651111111111111, + "grad_norm": 1.6013007164001465, + "learning_rate": 0.0001787374972216048, + "loss": 1.8357, + "step": 4793 + }, + { + "epoch": 0.10653333333333333, + "grad_norm": 1.310623049736023, + "learning_rate": 0.00017873305178928652, + "loss": 1.3455, + "step": 4794 + }, + { + "epoch": 0.10655555555555556, + "grad_norm": 1.3772886991500854, + "learning_rate": 0.00017872860635696823, + "loss": 1.5966, + "step": 4795 + }, + { + "epoch": 0.10657777777777777, + "grad_norm": 1.4872381687164307, + "learning_rate": 0.00017872416092464994, + "loss": 1.9453, + "step": 4796 + }, + { + "epoch": 0.1066, + "grad_norm": 1.821520209312439, + "learning_rate": 0.00017871971549233165, + "loss": 2.0848, + "step": 4797 + }, + { + "epoch": 0.10662222222222222, + "grad_norm": 1.5731239318847656, + "learning_rate": 0.00017871527006001333, + "loss": 1.3454, + "step": 4798 + }, + { + "epoch": 0.10664444444444444, + "grad_norm": 1.2627689838409424, + "learning_rate": 0.00017871082462769507, + "loss": 0.9885, + "step": 4799 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 1.0051491260528564, + "learning_rate": 0.00017870637919537675, + "loss": 0.7215, + "step": 4800 + }, + { + "epoch": 0.10668888888888889, + "grad_norm": 1.0902740955352783, + "learning_rate": 0.00017870193376305846, + "loss": 2.5814, + "step": 4801 + }, + { + "epoch": 0.10671111111111112, + "grad_norm": 1.281722903251648, + "learning_rate": 0.00017869748833074017, + "loss": 2.689, + "step": 4802 + }, + { + "epoch": 0.10673333333333333, + "grad_norm": 0.7057554721832275, + "learning_rate": 0.00017869304289842188, + "loss": 0.9449, + "step": 4803 + }, + { + "epoch": 0.10675555555555556, + "grad_norm": 1.2787814140319824, + "learning_rate": 0.0001786885974661036, + "loss": 1.2284, + "step": 4804 + }, + { + "epoch": 0.10677777777777778, + "grad_norm": 1.2882000207901, + "learning_rate": 0.0001786841520337853, + "loss": 1.8383, + "step": 4805 + }, + { + "epoch": 0.1068, + "grad_norm": 1.1241916418075562, + "learning_rate": 0.000178679706601467, + "loss": 2.1864, + "step": 4806 + }, + { + "epoch": 0.10682222222222222, + "grad_norm": 1.198936939239502, + "learning_rate": 0.0001786752611691487, + "loss": 2.4488, + "step": 4807 + }, + { + "epoch": 0.10684444444444445, + "grad_norm": 1.236473560333252, + "learning_rate": 0.00017867081573683043, + "loss": 2.0607, + "step": 4808 + }, + { + "epoch": 0.10686666666666667, + "grad_norm": 1.1822491884231567, + "learning_rate": 0.0001786663703045121, + "loss": 1.833, + "step": 4809 + }, + { + "epoch": 0.1068888888888889, + "grad_norm": 1.7205073833465576, + "learning_rate": 0.00017866192487219382, + "loss": 2.3711, + "step": 4810 + }, + { + "epoch": 0.10691111111111111, + "grad_norm": 1.1875735521316528, + "learning_rate": 0.00017865747943987553, + "loss": 1.7567, + "step": 4811 + }, + { + "epoch": 0.10693333333333334, + "grad_norm": 1.2851990461349487, + "learning_rate": 0.00017865303400755724, + "loss": 2.2358, + "step": 4812 + }, + { + "epoch": 0.10695555555555555, + "grad_norm": 0.8558325171470642, + "learning_rate": 0.00017864858857523895, + "loss": 1.0373, + "step": 4813 + }, + { + "epoch": 0.10697777777777778, + "grad_norm": 1.146108627319336, + "learning_rate": 0.00017864414314292066, + "loss": 1.6266, + "step": 4814 + }, + { + "epoch": 0.107, + "grad_norm": 1.458898901939392, + "learning_rate": 0.00017863969771060237, + "loss": 1.9737, + "step": 4815 + }, + { + "epoch": 0.10702222222222223, + "grad_norm": 1.3957576751708984, + "learning_rate": 0.00017863525227828408, + "loss": 2.3041, + "step": 4816 + }, + { + "epoch": 0.10704444444444444, + "grad_norm": 1.4162242412567139, + "learning_rate": 0.0001786308068459658, + "loss": 1.5047, + "step": 4817 + }, + { + "epoch": 0.10706666666666667, + "grad_norm": 1.3430386781692505, + "learning_rate": 0.00017862636141364747, + "loss": 1.7485, + "step": 4818 + }, + { + "epoch": 0.10708888888888889, + "grad_norm": 1.3710466623306274, + "learning_rate": 0.0001786219159813292, + "loss": 2.2305, + "step": 4819 + }, + { + "epoch": 0.10711111111111112, + "grad_norm": 1.6137245893478394, + "learning_rate": 0.0001786174705490109, + "loss": 1.8626, + "step": 4820 + }, + { + "epoch": 0.10713333333333333, + "grad_norm": 1.2521051168441772, + "learning_rate": 0.0001786130251166926, + "loss": 1.6502, + "step": 4821 + }, + { + "epoch": 0.10715555555555556, + "grad_norm": 1.2675551176071167, + "learning_rate": 0.0001786085796843743, + "loss": 1.9744, + "step": 4822 + }, + { + "epoch": 0.10717777777777777, + "grad_norm": 1.7004122734069824, + "learning_rate": 0.00017860413425205602, + "loss": 2.2287, + "step": 4823 + }, + { + "epoch": 0.1072, + "grad_norm": 1.5085628032684326, + "learning_rate": 0.00017859968881973773, + "loss": 1.9892, + "step": 4824 + }, + { + "epoch": 0.10722222222222222, + "grad_norm": 1.344618320465088, + "learning_rate": 0.00017859524338741944, + "loss": 1.7773, + "step": 4825 + }, + { + "epoch": 0.10724444444444445, + "grad_norm": 1.485036015510559, + "learning_rate": 0.00017859079795510115, + "loss": 2.3897, + "step": 4826 + }, + { + "epoch": 0.10726666666666666, + "grad_norm": 1.508232593536377, + "learning_rate": 0.00017858635252278283, + "loss": 2.5241, + "step": 4827 + }, + { + "epoch": 0.10728888888888889, + "grad_norm": 1.3245428800582886, + "learning_rate": 0.00017858190709046457, + "loss": 1.5729, + "step": 4828 + }, + { + "epoch": 0.10731111111111111, + "grad_norm": 1.2436652183532715, + "learning_rate": 0.00017857746165814625, + "loss": 1.8424, + "step": 4829 + }, + { + "epoch": 0.10733333333333334, + "grad_norm": 1.1924527883529663, + "learning_rate": 0.00017857301622582796, + "loss": 1.5195, + "step": 4830 + }, + { + "epoch": 0.10735555555555555, + "grad_norm": 1.6256686449050903, + "learning_rate": 0.00017856857079350967, + "loss": 2.0897, + "step": 4831 + }, + { + "epoch": 0.10737777777777778, + "grad_norm": 1.4407004117965698, + "learning_rate": 0.00017856412536119138, + "loss": 1.9401, + "step": 4832 + }, + { + "epoch": 0.1074, + "grad_norm": 1.6473324298858643, + "learning_rate": 0.0001785596799288731, + "loss": 1.8209, + "step": 4833 + }, + { + "epoch": 0.10742222222222222, + "grad_norm": 1.5636391639709473, + "learning_rate": 0.0001785552344965548, + "loss": 1.8687, + "step": 4834 + }, + { + "epoch": 0.10744444444444444, + "grad_norm": 1.5384244918823242, + "learning_rate": 0.0001785507890642365, + "loss": 1.8711, + "step": 4835 + }, + { + "epoch": 0.10746666666666667, + "grad_norm": 1.4427685737609863, + "learning_rate": 0.00017854634363191822, + "loss": 1.6654, + "step": 4836 + }, + { + "epoch": 0.10748888888888888, + "grad_norm": 1.6583229303359985, + "learning_rate": 0.00017854189819959993, + "loss": 1.801, + "step": 4837 + }, + { + "epoch": 0.10751111111111111, + "grad_norm": 1.4824061393737793, + "learning_rate": 0.0001785374527672816, + "loss": 2.0656, + "step": 4838 + }, + { + "epoch": 0.10753333333333333, + "grad_norm": 1.9851138591766357, + "learning_rate": 0.00017853300733496335, + "loss": 2.6776, + "step": 4839 + }, + { + "epoch": 0.10755555555555556, + "grad_norm": 1.6271814107894897, + "learning_rate": 0.00017852856190264505, + "loss": 1.5037, + "step": 4840 + }, + { + "epoch": 0.10757777777777777, + "grad_norm": 1.7235820293426514, + "learning_rate": 0.00017852411647032674, + "loss": 2.0508, + "step": 4841 + }, + { + "epoch": 0.1076, + "grad_norm": 1.6878529787063599, + "learning_rate": 0.00017851967103800847, + "loss": 1.9263, + "step": 4842 + }, + { + "epoch": 0.10762222222222222, + "grad_norm": 1.3455007076263428, + "learning_rate": 0.00017851522560569016, + "loss": 1.8635, + "step": 4843 + }, + { + "epoch": 0.10764444444444445, + "grad_norm": 1.4259041547775269, + "learning_rate": 0.00017851078017337187, + "loss": 1.5115, + "step": 4844 + }, + { + "epoch": 0.10766666666666666, + "grad_norm": 1.975699543952942, + "learning_rate": 0.00017850633474105358, + "loss": 2.2073, + "step": 4845 + }, + { + "epoch": 0.10768888888888889, + "grad_norm": 1.9313888549804688, + "learning_rate": 0.00017850188930873529, + "loss": 1.9747, + "step": 4846 + }, + { + "epoch": 0.1077111111111111, + "grad_norm": 1.72438645362854, + "learning_rate": 0.00017849744387641697, + "loss": 2.3328, + "step": 4847 + }, + { + "epoch": 0.10773333333333333, + "grad_norm": 1.9362549781799316, + "learning_rate": 0.0001784929984440987, + "loss": 2.2887, + "step": 4848 + }, + { + "epoch": 0.10775555555555555, + "grad_norm": 1.6018445491790771, + "learning_rate": 0.00017848855301178041, + "loss": 1.5289, + "step": 4849 + }, + { + "epoch": 0.10777777777777778, + "grad_norm": 1.141117811203003, + "learning_rate": 0.0001784841075794621, + "loss": 0.7504, + "step": 4850 + }, + { + "epoch": 0.1078, + "grad_norm": 1.1608731746673584, + "learning_rate": 0.00017847966214714383, + "loss": 1.8391, + "step": 4851 + }, + { + "epoch": 0.10782222222222222, + "grad_norm": 0.7492461204528809, + "learning_rate": 0.00017847521671482552, + "loss": 1.148, + "step": 4852 + }, + { + "epoch": 0.10784444444444445, + "grad_norm": 1.2936536073684692, + "learning_rate": 0.00017847077128250725, + "loss": 2.5965, + "step": 4853 + }, + { + "epoch": 0.10786666666666667, + "grad_norm": 1.4905349016189575, + "learning_rate": 0.00017846632585018894, + "loss": 2.1515, + "step": 4854 + }, + { + "epoch": 0.1078888888888889, + "grad_norm": 1.23819899559021, + "learning_rate": 0.00017846188041787065, + "loss": 2.2115, + "step": 4855 + }, + { + "epoch": 0.10791111111111111, + "grad_norm": 1.4479632377624512, + "learning_rate": 0.00017845743498555235, + "loss": 2.641, + "step": 4856 + }, + { + "epoch": 0.10793333333333334, + "grad_norm": 1.1513296365737915, + "learning_rate": 0.00017845298955323406, + "loss": 2.1495, + "step": 4857 + }, + { + "epoch": 0.10795555555555555, + "grad_norm": 1.3184159994125366, + "learning_rate": 0.00017844854412091577, + "loss": 2.0914, + "step": 4858 + }, + { + "epoch": 0.10797777777777778, + "grad_norm": 1.2866036891937256, + "learning_rate": 0.00017844409868859748, + "loss": 1.5749, + "step": 4859 + }, + { + "epoch": 0.108, + "grad_norm": 1.1014026403427124, + "learning_rate": 0.0001784396532562792, + "loss": 2.0802, + "step": 4860 + }, + { + "epoch": 0.10802222222222223, + "grad_norm": 1.5733935832977295, + "learning_rate": 0.00017843520782396088, + "loss": 2.6836, + "step": 4861 + }, + { + "epoch": 0.10804444444444444, + "grad_norm": 1.2848235368728638, + "learning_rate": 0.0001784307623916426, + "loss": 2.3255, + "step": 4862 + }, + { + "epoch": 0.10806666666666667, + "grad_norm": 1.2833555936813354, + "learning_rate": 0.0001784263169593243, + "loss": 0.9655, + "step": 4863 + }, + { + "epoch": 0.10808888888888889, + "grad_norm": 1.536370873451233, + "learning_rate": 0.000178421871527006, + "loss": 1.7931, + "step": 4864 + }, + { + "epoch": 0.10811111111111112, + "grad_norm": 1.3962472677230835, + "learning_rate": 0.00017841742609468771, + "loss": 2.1334, + "step": 4865 + }, + { + "epoch": 0.10813333333333333, + "grad_norm": 1.568142294883728, + "learning_rate": 0.00017841298066236942, + "loss": 2.354, + "step": 4866 + }, + { + "epoch": 0.10815555555555556, + "grad_norm": 1.3509085178375244, + "learning_rate": 0.00017840853523005113, + "loss": 2.1654, + "step": 4867 + }, + { + "epoch": 0.10817777777777778, + "grad_norm": 1.3805365562438965, + "learning_rate": 0.00017840408979773284, + "loss": 2.1351, + "step": 4868 + }, + { + "epoch": 0.1082, + "grad_norm": 1.3206920623779297, + "learning_rate": 0.00017839964436541455, + "loss": 1.9483, + "step": 4869 + }, + { + "epoch": 0.10822222222222222, + "grad_norm": 1.3076742887496948, + "learning_rate": 0.00017839519893309624, + "loss": 1.877, + "step": 4870 + }, + { + "epoch": 0.10824444444444445, + "grad_norm": 1.265954613685608, + "learning_rate": 0.00017839075350077797, + "loss": 1.9334, + "step": 4871 + }, + { + "epoch": 0.10826666666666666, + "grad_norm": 1.1229366064071655, + "learning_rate": 0.00017838630806845965, + "loss": 2.0534, + "step": 4872 + }, + { + "epoch": 0.10828888888888889, + "grad_norm": 1.210316777229309, + "learning_rate": 0.0001783818626361414, + "loss": 1.5617, + "step": 4873 + }, + { + "epoch": 0.10831111111111111, + "grad_norm": 1.445582389831543, + "learning_rate": 0.00017837741720382307, + "loss": 2.0075, + "step": 4874 + }, + { + "epoch": 0.10833333333333334, + "grad_norm": 1.116840124130249, + "learning_rate": 0.00017837297177150478, + "loss": 1.5076, + "step": 4875 + }, + { + "epoch": 0.10835555555555555, + "grad_norm": 1.5497595071792603, + "learning_rate": 0.0001783685263391865, + "loss": 1.759, + "step": 4876 + }, + { + "epoch": 0.10837777777777778, + "grad_norm": 1.470854640007019, + "learning_rate": 0.0001783640809068682, + "loss": 1.9371, + "step": 4877 + }, + { + "epoch": 0.1084, + "grad_norm": 1.361628532409668, + "learning_rate": 0.0001783596354745499, + "loss": 1.9077, + "step": 4878 + }, + { + "epoch": 0.10842222222222223, + "grad_norm": 1.4020766019821167, + "learning_rate": 0.00017835519004223162, + "loss": 2.2299, + "step": 4879 + }, + { + "epoch": 0.10844444444444444, + "grad_norm": 1.097943902015686, + "learning_rate": 0.00017835074460991333, + "loss": 0.7599, + "step": 4880 + }, + { + "epoch": 0.10846666666666667, + "grad_norm": 1.819696307182312, + "learning_rate": 0.00017834629917759501, + "loss": 1.8885, + "step": 4881 + }, + { + "epoch": 0.10848888888888888, + "grad_norm": 1.4998507499694824, + "learning_rate": 0.00017834185374527675, + "loss": 2.2118, + "step": 4882 + }, + { + "epoch": 0.10851111111111111, + "grad_norm": 1.3697640895843506, + "learning_rate": 0.00017833740831295843, + "loss": 1.6194, + "step": 4883 + }, + { + "epoch": 0.10853333333333333, + "grad_norm": 1.3775430917739868, + "learning_rate": 0.00017833296288064014, + "loss": 1.9667, + "step": 4884 + }, + { + "epoch": 0.10855555555555556, + "grad_norm": 1.5209304094314575, + "learning_rate": 0.00017832851744832185, + "loss": 2.084, + "step": 4885 + }, + { + "epoch": 0.10857777777777777, + "grad_norm": 1.9952448606491089, + "learning_rate": 0.00017832407201600356, + "loss": 1.863, + "step": 4886 + }, + { + "epoch": 0.1086, + "grad_norm": 1.7274080514907837, + "learning_rate": 0.00017831962658368527, + "loss": 2.3409, + "step": 4887 + }, + { + "epoch": 0.10862222222222222, + "grad_norm": 1.2222557067871094, + "learning_rate": 0.00017831518115136698, + "loss": 0.8603, + "step": 4888 + }, + { + "epoch": 0.10864444444444445, + "grad_norm": 1.3831441402435303, + "learning_rate": 0.0001783107357190487, + "loss": 2.0508, + "step": 4889 + }, + { + "epoch": 0.10866666666666666, + "grad_norm": 1.679049015045166, + "learning_rate": 0.0001783062902867304, + "loss": 1.7804, + "step": 4890 + }, + { + "epoch": 0.10868888888888889, + "grad_norm": 1.5535331964492798, + "learning_rate": 0.0001783018448544121, + "loss": 2.0566, + "step": 4891 + }, + { + "epoch": 0.1087111111111111, + "grad_norm": 1.339060664176941, + "learning_rate": 0.0001782973994220938, + "loss": 1.3368, + "step": 4892 + }, + { + "epoch": 0.10873333333333333, + "grad_norm": 1.4295165538787842, + "learning_rate": 0.00017829295398977553, + "loss": 1.6355, + "step": 4893 + }, + { + "epoch": 0.10875555555555555, + "grad_norm": 1.288623332977295, + "learning_rate": 0.0001782885085574572, + "loss": 1.6462, + "step": 4894 + }, + { + "epoch": 0.10877777777777778, + "grad_norm": 1.2904632091522217, + "learning_rate": 0.00017828406312513892, + "loss": 1.8499, + "step": 4895 + }, + { + "epoch": 0.1088, + "grad_norm": 1.1083375215530396, + "learning_rate": 0.00017827961769282063, + "loss": 1.0046, + "step": 4896 + }, + { + "epoch": 0.10882222222222222, + "grad_norm": 1.6553095579147339, + "learning_rate": 0.00017827517226050234, + "loss": 2.0296, + "step": 4897 + }, + { + "epoch": 0.10884444444444444, + "grad_norm": 1.8628255128860474, + "learning_rate": 0.00017827072682818405, + "loss": 2.0301, + "step": 4898 + }, + { + "epoch": 0.10886666666666667, + "grad_norm": 1.0950030088424683, + "learning_rate": 0.00017826628139586576, + "loss": 0.9646, + "step": 4899 + }, + { + "epoch": 0.10888888888888888, + "grad_norm": 1.362380027770996, + "learning_rate": 0.00017826183596354747, + "loss": 0.9393, + "step": 4900 + }, + { + "epoch": 0.10891111111111111, + "grad_norm": 1.2046605348587036, + "learning_rate": 0.00017825739053122915, + "loss": 2.5841, + "step": 4901 + }, + { + "epoch": 0.10893333333333333, + "grad_norm": 1.240393877029419, + "learning_rate": 0.0001782529450989109, + "loss": 2.2994, + "step": 4902 + }, + { + "epoch": 0.10895555555555556, + "grad_norm": 1.2417223453521729, + "learning_rate": 0.00017824849966659257, + "loss": 2.3333, + "step": 4903 + }, + { + "epoch": 0.10897777777777778, + "grad_norm": 1.2935045957565308, + "learning_rate": 0.00017824405423427428, + "loss": 2.4592, + "step": 4904 + }, + { + "epoch": 0.109, + "grad_norm": 1.198891520500183, + "learning_rate": 0.000178239608801956, + "loss": 2.2766, + "step": 4905 + }, + { + "epoch": 0.10902222222222223, + "grad_norm": 1.267836570739746, + "learning_rate": 0.0001782351633696377, + "loss": 2.327, + "step": 4906 + }, + { + "epoch": 0.10904444444444444, + "grad_norm": 1.1461093425750732, + "learning_rate": 0.0001782307179373194, + "loss": 2.1304, + "step": 4907 + }, + { + "epoch": 0.10906666666666667, + "grad_norm": 1.1516743898391724, + "learning_rate": 0.00017822627250500112, + "loss": 1.8076, + "step": 4908 + }, + { + "epoch": 0.10908888888888889, + "grad_norm": 1.1365642547607422, + "learning_rate": 0.00017822182707268283, + "loss": 1.9656, + "step": 4909 + }, + { + "epoch": 0.10911111111111112, + "grad_norm": 1.3225398063659668, + "learning_rate": 0.00017821738164036454, + "loss": 2.2263, + "step": 4910 + }, + { + "epoch": 0.10913333333333333, + "grad_norm": 1.1225049495697021, + "learning_rate": 0.00017821293620804625, + "loss": 2.1251, + "step": 4911 + }, + { + "epoch": 0.10915555555555556, + "grad_norm": 1.3000221252441406, + "learning_rate": 0.00017820849077572793, + "loss": 1.6102, + "step": 4912 + }, + { + "epoch": 0.10917777777777778, + "grad_norm": 1.3952467441558838, + "learning_rate": 0.00017820404534340967, + "loss": 2.2641, + "step": 4913 + }, + { + "epoch": 0.1092, + "grad_norm": 1.2409698963165283, + "learning_rate": 0.00017819959991109138, + "loss": 2.2962, + "step": 4914 + }, + { + "epoch": 0.10922222222222222, + "grad_norm": 1.2674980163574219, + "learning_rate": 0.00017819515447877306, + "loss": 2.182, + "step": 4915 + }, + { + "epoch": 0.10924444444444445, + "grad_norm": 1.1855359077453613, + "learning_rate": 0.0001781907090464548, + "loss": 2.0495, + "step": 4916 + }, + { + "epoch": 0.10926666666666666, + "grad_norm": 1.5238451957702637, + "learning_rate": 0.00017818626361413648, + "loss": 2.3102, + "step": 4917 + }, + { + "epoch": 0.1092888888888889, + "grad_norm": 1.4892759323120117, + "learning_rate": 0.0001781818181818182, + "loss": 2.2334, + "step": 4918 + }, + { + "epoch": 0.10931111111111111, + "grad_norm": 1.322411298751831, + "learning_rate": 0.0001781773727494999, + "loss": 1.8538, + "step": 4919 + }, + { + "epoch": 0.10933333333333334, + "grad_norm": 1.4651658535003662, + "learning_rate": 0.0001781729273171816, + "loss": 2.2097, + "step": 4920 + }, + { + "epoch": 0.10935555555555555, + "grad_norm": 1.3706555366516113, + "learning_rate": 0.0001781684818848633, + "loss": 2.2071, + "step": 4921 + }, + { + "epoch": 0.10937777777777778, + "grad_norm": 1.6024689674377441, + "learning_rate": 0.00017816403645254503, + "loss": 2.5414, + "step": 4922 + }, + { + "epoch": 0.1094, + "grad_norm": 1.3139142990112305, + "learning_rate": 0.00017815959102022674, + "loss": 1.8648, + "step": 4923 + }, + { + "epoch": 0.10942222222222223, + "grad_norm": 1.3900974988937378, + "learning_rate": 0.00017815514558790842, + "loss": 2.267, + "step": 4924 + }, + { + "epoch": 0.10944444444444444, + "grad_norm": 1.4711378812789917, + "learning_rate": 0.00017815070015559016, + "loss": 2.6183, + "step": 4925 + }, + { + "epoch": 0.10946666666666667, + "grad_norm": 1.3628692626953125, + "learning_rate": 0.00017814625472327184, + "loss": 2.119, + "step": 4926 + }, + { + "epoch": 0.10948888888888889, + "grad_norm": 1.5487639904022217, + "learning_rate": 0.00017814180929095355, + "loss": 1.9755, + "step": 4927 + }, + { + "epoch": 0.10951111111111111, + "grad_norm": 1.4975794553756714, + "learning_rate": 0.00017813736385863526, + "loss": 1.8296, + "step": 4928 + }, + { + "epoch": 0.10953333333333333, + "grad_norm": 1.407785177230835, + "learning_rate": 0.00017813291842631697, + "loss": 1.9145, + "step": 4929 + }, + { + "epoch": 0.10955555555555556, + "grad_norm": 1.6278789043426514, + "learning_rate": 0.00017812847299399868, + "loss": 2.4235, + "step": 4930 + }, + { + "epoch": 0.10957777777777777, + "grad_norm": 0.8241516351699829, + "learning_rate": 0.00017812402756168039, + "loss": 0.8306, + "step": 4931 + }, + { + "epoch": 0.1096, + "grad_norm": 0.8477980494499207, + "learning_rate": 0.0001781195821293621, + "loss": 1.043, + "step": 4932 + }, + { + "epoch": 0.10962222222222222, + "grad_norm": 1.435505986213684, + "learning_rate": 0.0001781151366970438, + "loss": 1.9168, + "step": 4933 + }, + { + "epoch": 0.10964444444444445, + "grad_norm": 1.3857914209365845, + "learning_rate": 0.00017811069126472552, + "loss": 1.8039, + "step": 4934 + }, + { + "epoch": 0.10966666666666666, + "grad_norm": 1.3236032724380493, + "learning_rate": 0.0001781062458324072, + "loss": 1.911, + "step": 4935 + }, + { + "epoch": 0.10968888888888889, + "grad_norm": 1.2719550132751465, + "learning_rate": 0.00017810180040008893, + "loss": 1.9364, + "step": 4936 + }, + { + "epoch": 0.1097111111111111, + "grad_norm": 1.5228955745697021, + "learning_rate": 0.00017809735496777062, + "loss": 2.2249, + "step": 4937 + }, + { + "epoch": 0.10973333333333334, + "grad_norm": 1.7752206325531006, + "learning_rate": 0.00017809290953545233, + "loss": 2.1801, + "step": 4938 + }, + { + "epoch": 0.10975555555555555, + "grad_norm": 1.5022207498550415, + "learning_rate": 0.00017808846410313404, + "loss": 2.0358, + "step": 4939 + }, + { + "epoch": 0.10977777777777778, + "grad_norm": 1.2860084772109985, + "learning_rate": 0.00017808401867081575, + "loss": 2.0872, + "step": 4940 + }, + { + "epoch": 0.1098, + "grad_norm": 1.8445580005645752, + "learning_rate": 0.00017807957323849746, + "loss": 2.161, + "step": 4941 + }, + { + "epoch": 0.10982222222222222, + "grad_norm": 1.8703105449676514, + "learning_rate": 0.00017807512780617917, + "loss": 2.2376, + "step": 4942 + }, + { + "epoch": 0.10984444444444444, + "grad_norm": 1.394773244857788, + "learning_rate": 0.00017807068237386087, + "loss": 1.8604, + "step": 4943 + }, + { + "epoch": 0.10986666666666667, + "grad_norm": 1.3939281702041626, + "learning_rate": 0.00017806623694154256, + "loss": 1.9885, + "step": 4944 + }, + { + "epoch": 0.10988888888888888, + "grad_norm": 1.4619903564453125, + "learning_rate": 0.0001780617915092243, + "loss": 2.0994, + "step": 4945 + }, + { + "epoch": 0.10991111111111111, + "grad_norm": 1.3319731950759888, + "learning_rate": 0.00017805734607690598, + "loss": 1.8153, + "step": 4946 + }, + { + "epoch": 0.10993333333333333, + "grad_norm": 1.2182470560073853, + "learning_rate": 0.0001780529006445877, + "loss": 1.5511, + "step": 4947 + }, + { + "epoch": 0.10995555555555556, + "grad_norm": 1.3883278369903564, + "learning_rate": 0.0001780484552122694, + "loss": 1.6702, + "step": 4948 + }, + { + "epoch": 0.10997777777777777, + "grad_norm": 1.6375178098678589, + "learning_rate": 0.0001780440097799511, + "loss": 1.9152, + "step": 4949 + }, + { + "epoch": 0.11, + "grad_norm": 1.1389442682266235, + "learning_rate": 0.00017803956434763281, + "loss": 0.9172, + "step": 4950 + }, + { + "epoch": 0.11002222222222222, + "grad_norm": 0.12997838854789734, + "learning_rate": 0.00017803511891531452, + "loss": 0.0177, + "step": 4951 + }, + { + "epoch": 0.11004444444444444, + "grad_norm": 1.1792343854904175, + "learning_rate": 0.00017803067348299623, + "loss": 2.3594, + "step": 4952 + }, + { + "epoch": 0.11006666666666666, + "grad_norm": 1.1777515411376953, + "learning_rate": 0.00017802622805067794, + "loss": 2.3509, + "step": 4953 + }, + { + "epoch": 0.11008888888888889, + "grad_norm": 1.1146148443222046, + "learning_rate": 0.00017802178261835965, + "loss": 2.4819, + "step": 4954 + }, + { + "epoch": 0.11011111111111112, + "grad_norm": 1.207305908203125, + "learning_rate": 0.00017801733718604134, + "loss": 2.2144, + "step": 4955 + }, + { + "epoch": 0.11013333333333333, + "grad_norm": 1.1073167324066162, + "learning_rate": 0.00017801289175372307, + "loss": 2.1333, + "step": 4956 + }, + { + "epoch": 0.11015555555555556, + "grad_norm": 1.449088454246521, + "learning_rate": 0.00017800844632140476, + "loss": 1.8638, + "step": 4957 + }, + { + "epoch": 0.11017777777777778, + "grad_norm": 1.4596796035766602, + "learning_rate": 0.00017800400088908646, + "loss": 1.7366, + "step": 4958 + }, + { + "epoch": 0.1102, + "grad_norm": 0.9645782709121704, + "learning_rate": 0.00017799955545676817, + "loss": 0.7482, + "step": 4959 + }, + { + "epoch": 0.11022222222222222, + "grad_norm": 1.3452082872390747, + "learning_rate": 0.00017799511002444988, + "loss": 2.503, + "step": 4960 + }, + { + "epoch": 0.11024444444444445, + "grad_norm": 1.2432230710983276, + "learning_rate": 0.0001779906645921316, + "loss": 2.2808, + "step": 4961 + }, + { + "epoch": 0.11026666666666667, + "grad_norm": 1.3141149282455444, + "learning_rate": 0.0001779862191598133, + "loss": 1.7479, + "step": 4962 + }, + { + "epoch": 0.1102888888888889, + "grad_norm": 1.176876425743103, + "learning_rate": 0.000177981773727495, + "loss": 2.1083, + "step": 4963 + }, + { + "epoch": 0.11031111111111111, + "grad_norm": 1.2352588176727295, + "learning_rate": 0.0001779773282951767, + "loss": 1.6807, + "step": 4964 + }, + { + "epoch": 0.11033333333333334, + "grad_norm": 1.4506590366363525, + "learning_rate": 0.00017797288286285843, + "loss": 2.1653, + "step": 4965 + }, + { + "epoch": 0.11035555555555555, + "grad_norm": 1.2555843591690063, + "learning_rate": 0.00017796843743054011, + "loss": 1.7592, + "step": 4966 + }, + { + "epoch": 0.11037777777777778, + "grad_norm": 1.2213855981826782, + "learning_rate": 0.00017796399199822185, + "loss": 2.0853, + "step": 4967 + }, + { + "epoch": 0.1104, + "grad_norm": 1.7171430587768555, + "learning_rate": 0.00017795954656590353, + "loss": 2.107, + "step": 4968 + }, + { + "epoch": 0.11042222222222223, + "grad_norm": 1.5660433769226074, + "learning_rate": 0.00017795510113358524, + "loss": 1.9708, + "step": 4969 + }, + { + "epoch": 0.11044444444444444, + "grad_norm": 1.2019463777542114, + "learning_rate": 0.00017795065570126695, + "loss": 2.2367, + "step": 4970 + }, + { + "epoch": 0.11046666666666667, + "grad_norm": 1.367891550064087, + "learning_rate": 0.00017794621026894866, + "loss": 1.7857, + "step": 4971 + }, + { + "epoch": 0.11048888888888889, + "grad_norm": 1.2923423051834106, + "learning_rate": 0.00017794176483663037, + "loss": 1.9825, + "step": 4972 + }, + { + "epoch": 0.11051111111111112, + "grad_norm": 1.4158298969268799, + "learning_rate": 0.00017793731940431208, + "loss": 2.176, + "step": 4973 + }, + { + "epoch": 0.11053333333333333, + "grad_norm": 1.428587555885315, + "learning_rate": 0.0001779328739719938, + "loss": 2.1497, + "step": 4974 + }, + { + "epoch": 0.11055555555555556, + "grad_norm": 1.3398618698120117, + "learning_rate": 0.00017792842853967547, + "loss": 2.0232, + "step": 4975 + }, + { + "epoch": 0.11057777777777777, + "grad_norm": 1.2881113290786743, + "learning_rate": 0.0001779239831073572, + "loss": 2.2488, + "step": 4976 + }, + { + "epoch": 0.1106, + "grad_norm": 1.1857106685638428, + "learning_rate": 0.0001779195376750389, + "loss": 1.4271, + "step": 4977 + }, + { + "epoch": 0.11062222222222222, + "grad_norm": 1.5726913213729858, + "learning_rate": 0.0001779150922427206, + "loss": 1.9038, + "step": 4978 + }, + { + "epoch": 0.11064444444444445, + "grad_norm": 1.5969356298446655, + "learning_rate": 0.00017791064681040234, + "loss": 1.9209, + "step": 4979 + }, + { + "epoch": 0.11066666666666666, + "grad_norm": 1.407378077507019, + "learning_rate": 0.00017790620137808402, + "loss": 1.408, + "step": 4980 + }, + { + "epoch": 0.11068888888888889, + "grad_norm": 1.4328492879867554, + "learning_rate": 0.00017790175594576573, + "loss": 2.2418, + "step": 4981 + }, + { + "epoch": 0.11071111111111111, + "grad_norm": 1.4168318510055542, + "learning_rate": 0.00017789731051344744, + "loss": 1.9438, + "step": 4982 + }, + { + "epoch": 0.11073333333333334, + "grad_norm": 1.2629501819610596, + "learning_rate": 0.00017789286508112915, + "loss": 1.973, + "step": 4983 + }, + { + "epoch": 0.11075555555555555, + "grad_norm": 1.528676152229309, + "learning_rate": 0.00017788841964881083, + "loss": 1.9864, + "step": 4984 + }, + { + "epoch": 0.11077777777777778, + "grad_norm": 1.5707221031188965, + "learning_rate": 0.00017788397421649257, + "loss": 2.4735, + "step": 4985 + }, + { + "epoch": 0.1108, + "grad_norm": 1.2189866304397583, + "learning_rate": 0.00017787952878417425, + "loss": 1.4992, + "step": 4986 + }, + { + "epoch": 0.11082222222222222, + "grad_norm": 1.1503536701202393, + "learning_rate": 0.000177875083351856, + "loss": 1.4935, + "step": 4987 + }, + { + "epoch": 0.11084444444444444, + "grad_norm": 1.5683157444000244, + "learning_rate": 0.0001778706379195377, + "loss": 1.7106, + "step": 4988 + }, + { + "epoch": 0.11086666666666667, + "grad_norm": 1.5320016145706177, + "learning_rate": 0.00017786619248721938, + "loss": 1.669, + "step": 4989 + }, + { + "epoch": 0.11088888888888888, + "grad_norm": 1.1583964824676514, + "learning_rate": 0.00017786174705490112, + "loss": 0.9219, + "step": 4990 + }, + { + "epoch": 0.11091111111111111, + "grad_norm": 1.0285687446594238, + "learning_rate": 0.0001778573016225828, + "loss": 0.9763, + "step": 4991 + }, + { + "epoch": 0.11093333333333333, + "grad_norm": 1.4588276147842407, + "learning_rate": 0.0001778528561902645, + "loss": 1.9239, + "step": 4992 + }, + { + "epoch": 0.11095555555555556, + "grad_norm": 1.398634433746338, + "learning_rate": 0.00017784841075794622, + "loss": 1.6122, + "step": 4993 + }, + { + "epoch": 0.11097777777777777, + "grad_norm": 1.389514684677124, + "learning_rate": 0.00017784396532562793, + "loss": 1.7873, + "step": 4994 + }, + { + "epoch": 0.111, + "grad_norm": 1.3286993503570557, + "learning_rate": 0.0001778395198933096, + "loss": 1.5322, + "step": 4995 + }, + { + "epoch": 0.11102222222222222, + "grad_norm": 1.3495367765426636, + "learning_rate": 0.00017783507446099135, + "loss": 1.7065, + "step": 4996 + }, + { + "epoch": 0.11104444444444445, + "grad_norm": 1.3817431926727295, + "learning_rate": 0.00017783062902867306, + "loss": 1.8559, + "step": 4997 + }, + { + "epoch": 0.11106666666666666, + "grad_norm": 1.6605621576309204, + "learning_rate": 0.00017782618359635474, + "loss": 2.1082, + "step": 4998 + }, + { + "epoch": 0.11108888888888889, + "grad_norm": 1.6809682846069336, + "learning_rate": 0.00017782173816403648, + "loss": 1.3724, + "step": 4999 + }, + { + "epoch": 0.1111111111111111, + "grad_norm": 2.218095541000366, + "learning_rate": 0.00017781729273171816, + "loss": 1.8033, + "step": 5000 + } + ], + "logging_steps": 1, + "max_steps": 45000, + "num_input_tokens_seen": 0, + "num_train_epochs": 1, + "save_steps": 5000, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": false + }, + "attributes": {} + } + }, + "total_flos": 4.949362506397286e+16, + "train_batch_size": 1, + "trial_name": null, + "trial_params": null +}