|
{'loss': 0.4667, 'grad_norm': 13.565043449401855, 'learning_rate': 1.978138964338912e-05, 'epoch': 0.01}
|
|
{'loss': 0.179, 'grad_norm': 12.648781776428223, 'learning_rate': 1.95623411898712e-05, 'epoch': 0.02}
|
|
{'loss': 0.1543, 'grad_norm': 7.569096565246582, 'learning_rate': 1.9343292736353283e-05, 'epoch': 0.03}
|
|
{'loss': 0.1284, 'grad_norm': 8.04305648803711, 'learning_rate': 1.9124244282835366e-05, 'epoch': 0.04}
|
|
{'loss': 0.1123, 'grad_norm': 1.5785869359970093, 'learning_rate': 1.8905195829317446e-05, 'epoch': 0.05}
|
|
{'loss': 0.101, 'grad_norm': 11.429397583007812, 'learning_rate': 1.868614737579953e-05, 'epoch': 0.07}
|
|
{'loss': 0.0989, 'grad_norm': 2.253450393676758, 'learning_rate': 1.846709892228161e-05, 'epoch': 0.08}
|
|
{'loss': 0.0941, 'grad_norm': 2.223756790161133, 'learning_rate': 1.8248050468763692e-05, 'epoch': 0.09}
|
|
{'loss': 0.0827, 'grad_norm': 11.125922203063965, 'learning_rate': 1.8029002015245775e-05, 'epoch': 0.1}
|
|
{'loss': 0.0874, 'grad_norm': 1.5281122922897339, 'learning_rate': 1.7809953561727855e-05, 'epoch': 0.11}
|
|
{'loss': 0.0825, 'grad_norm': 1.3396228551864624, 'learning_rate': 1.7590905108209938e-05, 'epoch': 0.12}
|
|
{'loss': 0.0788, 'grad_norm': 3.097214460372925, 'learning_rate': 1.7371856654692018e-05, 'epoch': 0.13}
|
|
{'loss': 0.0728, 'grad_norm': 0.49445801973342896, 'learning_rate': 1.71528082011741e-05, 'epoch': 0.14}
|
|
{'loss': 0.0768, 'grad_norm': 4.991362571716309, 'learning_rate': 1.693375974765618e-05, 'epoch': 0.15}
|
|
{'loss': 0.0707, 'grad_norm': 0.243109792470932, 'learning_rate': 1.6714711294138264e-05, 'epoch': 0.16}
|
|
{'loss': 0.0691, 'grad_norm': 0.27024760842323303, 'learning_rate': 1.6495662840620347e-05, 'epoch': 0.18}
|
|
{'loss': 0.0666, 'grad_norm': 7.135988712310791, 'learning_rate': 1.6276614387102427e-05, 'epoch': 0.19}
|
|
{'loss': 0.0644, 'grad_norm': 12.5233154296875, 'learning_rate': 1.605756593358451e-05, 'epoch': 0.2}
|
|
{'loss': 0.0615, 'grad_norm': 4.112820148468018, 'learning_rate': 1.5838517480066593e-05, 'epoch': 0.21}
|
|
{'loss': 0.0651, 'grad_norm': 1.6842459440231323, 'learning_rate': 1.5619469026548676e-05, 'epoch': 0.22}
|
|
{'loss': 0.0604, 'grad_norm': 12.45095443725586, 'learning_rate': 1.5400420573030756e-05, 'epoch': 0.23}
|
|
{'loss': 0.0595, 'grad_norm': 2.162442445755005, 'learning_rate': 1.5181372119512839e-05, 'epoch': 0.24}
|
|
{'loss': 0.0622, 'grad_norm': 1.0790185928344727, 'learning_rate': 1.496232366599492e-05, 'epoch': 0.25}
|
|
{'loss': 0.0537, 'grad_norm': 3.753148317337036, 'learning_rate': 1.4743275212477002e-05, 'epoch': 0.26}
|
|
{'loss': 0.0564, 'grad_norm': 5.757555961608887, 'learning_rate': 1.4524226758959083e-05, 'epoch': 0.27}
|
|
{'loss': 0.0622, 'grad_norm': 5.632264614105225, 'learning_rate': 1.4305178305441165e-05, 'epoch': 0.28}
|
|
{'loss': 0.052, 'grad_norm': 8.988792419433594, 'learning_rate': 1.4086129851923248e-05, 'epoch': 0.3}
|
|
{'loss': 0.0475, 'grad_norm': 5.292848587036133, 'learning_rate': 1.386708139840533e-05, 'epoch': 0.31}
|
|
{'loss': 0.0569, 'grad_norm': 6.716405391693115, 'learning_rate': 1.364803294488741e-05, 'epoch': 0.32}
|
|
{'loss': 0.0511, 'grad_norm': 0.022643841803073883, 'learning_rate': 1.3428984491369492e-05, 'epoch': 0.33}
|
|
{'loss': 0.0476, 'grad_norm': 8.440044403076172, 'learning_rate': 1.3209936037851574e-05, 'epoch': 0.34}
|
|
{'loss': 0.0498, 'grad_norm': 0.30164211988449097, 'learning_rate': 1.2990887584333655e-05, 'epoch': 0.35}
|
|
{'loss': 0.0527, 'grad_norm': 0.6262193918228149, 'learning_rate': 1.2771839130815738e-05, 'epoch': 0.36}
|
|
{'loss': 0.0556, 'grad_norm': 0.5987337231636047, 'learning_rate': 1.255279067729782e-05, 'epoch': 0.37}
|
|
{'loss': 0.0495, 'grad_norm': 0.11035127192735672, 'learning_rate': 1.2333742223779901e-05, 'epoch': 0.38}
|
|
{'loss': 0.0482, 'grad_norm': 8.444112777709961, 'learning_rate': 1.2114693770261983e-05, 'epoch': 0.39}
|
|
{'loss': 0.0556, 'grad_norm': 3.3394901752471924, 'learning_rate': 1.1895645316744064e-05, 'epoch': 0.41}
|
|
{'loss': 0.0454, 'grad_norm': 0.5866299867630005, 'learning_rate': 1.1676596863226145e-05, 'epoch': 0.42}
|
|
{'loss': 0.0452, 'grad_norm': 0.6568431854248047, 'learning_rate': 1.1457548409708229e-05, 'epoch': 0.43}
|
|
{'loss': 0.0431, 'grad_norm': 4.396225452423096, 'learning_rate': 1.123849995619031e-05, 'epoch': 0.44}
|
|
{'loss': 0.0462, 'grad_norm': 1.3214092254638672, 'learning_rate': 1.1019451502672391e-05, 'epoch': 0.45}
|
|
{'loss': 0.0473, 'grad_norm': 6.367979049682617, 'learning_rate': 1.0800403049154473e-05, 'epoch': 0.46}
|
|
{'loss': 0.0387, 'grad_norm': 2.694465160369873, 'learning_rate': 1.0581354595636554e-05, 'epoch': 0.47}
|
|
{'loss': 0.041, 'grad_norm': 1.0588641166687012, 'learning_rate': 1.0362306142118636e-05, 'epoch': 0.48}
|
|
{'loss': 0.0472, 'grad_norm': 2.1439011096954346, 'learning_rate': 1.0143257688600719e-05, 'epoch': 0.49}
|
|
{'loss': 0.0435, 'grad_norm': 1.194575548171997, 'learning_rate': 9.9242092350828e-06, 'epoch': 0.5}
|
|
{'loss': 0.0419, 'grad_norm': 11.476897239685059, 'learning_rate': 9.705160781564884e-06, 'epoch': 0.51}
|
|
{'loss': 0.0395, 'grad_norm': 8.643529891967773, 'learning_rate': 9.486112328046965e-06, 'epoch': 0.53}
|
|
{'loss': 0.043, 'grad_norm': 0.6745238900184631, 'learning_rate': 9.267063874529046e-06, 'epoch': 0.54}
|
|
{'loss': 0.0419, 'grad_norm': 0.9084439873695374, 'learning_rate': 9.048015421011128e-06, 'epoch': 0.55}
|
|
{'loss': 0.0394, 'grad_norm': 0.5197725892066956, 'learning_rate': 8.82896696749321e-06, 'epoch': 0.56}
|
|
{'loss': 0.0403, 'grad_norm': 0.03646567091345787, 'learning_rate': 8.609918513975292e-06, 'epoch': 0.57}
|
|
{'loss': 0.0436, 'grad_norm': 1.5766927003860474, 'learning_rate': 8.390870060457374e-06, 'epoch': 0.58}
|
|
{'loss': 0.0414, 'grad_norm': 8.600505828857422, 'learning_rate': 8.171821606939455e-06, 'epoch': 0.59}
|
|
{'loss': 0.0418, 'grad_norm': 0.32232749462127686, 'learning_rate': 7.952773153421538e-06, 'epoch': 0.6}
|
|
{'loss': 0.0411, 'grad_norm': 1.5211155414581299, 'learning_rate': 7.73372469990362e-06, 'epoch': 0.61}
|
|
{'loss': 0.035, 'grad_norm': 0.3087010085582733, 'learning_rate': 7.514676246385701e-06, 'epoch': 0.62}
|
|
{'loss': 0.0397, 'grad_norm': 7.905180931091309, 'learning_rate': 7.295627792867783e-06, 'epoch': 0.64}
|
|
{'loss': 0.0392, 'grad_norm': 0.3070434331893921, 'learning_rate': 7.076579339349865e-06, 'epoch': 0.65}
|
|
{'loss': 0.0373, 'grad_norm': 7.915885925292969, 'learning_rate': 6.8575308858319466e-06, 'epoch': 0.66}
|
|
{'loss': 0.0373, 'grad_norm': 1.2518105506896973, 'learning_rate': 6.638482432314029e-06, 'epoch': 0.67}
|
|
{'loss': 0.0363, 'grad_norm': 1.4480468034744263, 'learning_rate': 6.41943397879611e-06, 'epoch': 0.68}
|
|
{'loss': 0.0418, 'grad_norm': 1.203717589378357, 'learning_rate': 6.200385525278192e-06, 'epoch': 0.69}
|
|
{'loss': 0.0377, 'grad_norm': 1.5048280954360962, 'learning_rate': 5.981337071760274e-06, 'epoch': 0.7}
|
|
{'loss': 0.0321, 'grad_norm': 0.9017734527587891, 'learning_rate': 5.7622886182423555e-06, 'epoch': 0.71}
|
|
{'loss': 0.0331, 'grad_norm': 1.6583552360534668, 'learning_rate': 5.543240164724437e-06, 'epoch': 0.72}
|
|
{'loss': 0.0373, 'grad_norm': 0.6316823959350586, 'learning_rate': 5.324191711206519e-06, 'epoch': 0.73}
|
|
{'loss': 0.0342, 'grad_norm': 4.767064094543457, 'learning_rate': 5.105143257688601e-06, 'epoch': 0.74}
|
|
{'loss': 0.0335, 'grad_norm': 0.1754075288772583, 'learning_rate': 4.886094804170683e-06, 'epoch': 0.76}
|
|
{'loss': 0.0323, 'grad_norm': 2.113138437271118, 'learning_rate': 4.667046350652764e-06, 'epoch': 0.77}
|
|
{'loss': 0.0362, 'grad_norm': 12.435863494873047, 'learning_rate': 4.447997897134847e-06, 'epoch': 0.78}
|
|
{'loss': 0.0376, 'grad_norm': 3.4276435375213623, 'learning_rate': 4.228949443616928e-06, 'epoch': 0.79}
|
|
{'loss': 0.0364, 'grad_norm': 9.459793090820312, 'learning_rate': 4.0099009900990104e-06, 'epoch': 0.8}
|
|
{'loss': 0.0396, 'grad_norm': 0.425851970911026, 'learning_rate': 3.7908525365810923e-06, 'epoch': 0.81}
|
|
{'loss': 0.0321, 'grad_norm': 0.4842585623264313, 'learning_rate': 3.5718040830631738e-06, 'epoch': 0.82}
|
|
{'loss': 0.0358, 'grad_norm': 4.428570747375488, 'learning_rate': 3.3527556295452556e-06, 'epoch': 0.83}
|
|
{'loss': 0.0299, 'grad_norm': 1.5310533046722412, 'learning_rate': 3.1337071760273375e-06, 'epoch': 0.84}
|
|
{'loss': 0.0304, 'grad_norm': 0.5274935364723206, 'learning_rate': 2.9146587225094194e-06, 'epoch': 0.85}
|
|
{'loss': 0.0317, 'grad_norm': 0.3205825090408325, 'learning_rate': 2.695610268991501e-06, 'epoch': 0.87}
|
|
{'loss': 0.0334, 'grad_norm': 0.3429725468158722, 'learning_rate': 2.476561815473583e-06, 'epoch': 0.88}
|
|
{'loss': 0.0331, 'grad_norm': 4.579667568206787, 'learning_rate': 2.2575133619556646e-06, 'epoch': 0.89}
|
|
{'loss': 0.0326, 'grad_norm': 0.6423684358596802, 'learning_rate': 2.038464908437747e-06, 'epoch': 0.9}
|
|
{'loss': 0.0325, 'grad_norm': 2.7020912170410156, 'learning_rate': 1.8194164549198285e-06, 'epoch': 0.91}
|
|
{'loss': 0.0321, 'grad_norm': 0.07015173882246017, 'learning_rate': 1.6003680014019102e-06, 'epoch': 0.92}
|
|
{'loss': 0.0316, 'grad_norm': 3.600149631500244, 'learning_rate': 1.3813195478839918e-06, 'epoch': 0.93}
|
|
{'loss': 0.0321, 'grad_norm': 1.3229649066925049, 'learning_rate': 1.162271094366074e-06, 'epoch': 0.94}
|
|
{'loss': 0.0353, 'grad_norm': 0.21412307024002075, 'learning_rate': 9.432226408481557e-07, 'epoch': 0.95}
|
|
{'loss': 0.0315, 'grad_norm': 0.8051860928535461, 'learning_rate': 7.241741873302376e-07, 'epoch': 0.96}
|
|
{'loss': 0.0326, 'grad_norm': 0.09261493384838104, 'learning_rate': 5.051257338123193e-07, 'epoch': 0.97}
|
|
{'loss': 0.031, 'grad_norm': 1.8044675588607788, 'learning_rate': 2.8607728029440114e-07, 'epoch': 0.99}
|
|
{'loss': 0.0315, 'grad_norm': 5.446718215942383, 'learning_rate': 6.702882677648297e-08, 'epoch': 1.0}
|
|
{'train_runtime': 19215.0068, 'train_samples_per_second': 38.015, 'train_steps_per_second': 2.376, 'train_loss': 0.056530908753462804, 'epoch': 1.0}
|
|
2024-07-20 07:20:41 - Save model to ./output |