Training in progress, epoch 2, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/global_step834/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step834/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step834/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step834/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step834/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step834/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +648 -2

last-checkpoint/global_step834/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f4d631a1b650315fa7f47d494d5dc90813cfa1a228bbc9829c7e772fc0ee414
+size 20308318462

last-checkpoint/global_step834/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bd981a3eca97cc976039dc6467c9712d528ec4aea67c25a590460f07981139e
+size 20308318462

last-checkpoint/global_step834/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:763444484d0640da859eaac1055fd9670e227fdab7063816c1ab3f418674fd5f
+size 20308318462

last-checkpoint/global_step834/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:024ace79dd673f7972bcda314a22238789f9b2c7ef7d25eb76567e5d3f324fa1
+size 168021

last-checkpoint/global_step834/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46717b755c898ee645bde65296e2b1b0172ede54f0775e47bb2278d05db803f8
+size 168021

last-checkpoint/global_step834/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8cc94c6743e0f17155029d5e411e13115bbbc756d14639250e19dcd6d3fcf17
+size 168021

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step417~~


1	+ global_step834

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35fcd90d2fa8518d79b9f906e70f89d1da45a2e10a94e0cb7d84fdb271149d5c
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:503a0542de7434fd94cf507a1454667cc4db309bcb5768fe92cc7048e5cf709b
 size 4877660776

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cebf0418a5b9b8e11615f33221f45b6524cd7081ec5d6c5a8fcb30cd8649362f
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:5435bf5d9f48362da28a7f0483244712eab1583416c1d93ba4ff4f8c9571990f
 size 4932751008

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a17c0412083715ca51a28dd276cb04145564a6d4f3e608be7ee38fdceb4c4488
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:c64867fad1455680c0ccba908bdb82f5ef2f574e48845eb1662eec4b64a7838f
 size 4330865200

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c10aaab0ab89e8f297bb3356fae83ca80ee5cbd747690e5f05d88586c38d58b
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:473a3519933c9b22c048af564bfcbc7f216e05e95e6fd261ec5743f527a9163b
 size 1089994880

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:631f61dad47c5631344141603fb1c02a0ce0b3b06dfee24d9478b7b6f7a84be9
 size 14768

 version https://git-lfs.github.com/spec/v1
+oid sha256:122ac94678b6917d31dc059510d8313aa8631655cb9d780b749ba1ea53548879
 size 14768

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9d92931a182cd49df186048006139276c5d8b789e1cb6ac8b24b15490df8cda
 size 14768

 version https://git-lfs.github.com/spec/v1
+oid sha256:911b3814b631205d77beb4597874c7b3e54a28967f5a2afad57483b742364341
 size 14768

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2f3fbe989a553c9191c882a60380a9a85e77cec0d291a6bbc785dcea37d7325
 size 14768

 version https://git-lfs.github.com/spec/v1
+oid sha256:132ff809344340444ac3d547eaa795a9ce6b4dbf6ac473db7e4ccf506c2d41e9
 size 14768

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b69703daf02b3ddebef74c7f1e3ec0fbb6f4cfd0f928900ca26fcee4ae6f77f3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b827597f074228bbdf970b7a8c86f735e50cc45cc1d15e8574037a53c30f9d7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 417,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -653,6 +653,652 @@
       "eval_samples_per_second": 17.17,
       "eval_steps_per_second": 0.773,
       "step": 417
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 834,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.17,
       "eval_steps_per_second": 0.773,
       "step": 417
+    },
+    {
+      "epoch": 1.0071942446043165,
+      "grad_norm": 3.0018225466088073,
+      "learning_rate": 3.693333333333333e-07,
+      "logits/chosen": -1.28125,
+      "logits/rejected": -1.765625,
+      "logps/chosen": -235.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0515,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.4453125,
+      "rewards/margins": 9.0,
+      "rewards/rejected": -7.53125,
+      "step": 420
+    },
+    {
+      "epoch": 1.0311750599520384,
+      "grad_norm": 0.5745094685784482,
+      "learning_rate": 3.6488888888888884e-07,
+      "logits/chosen": -1.34375,
+      "logits/rejected": -1.78125,
+      "logps/chosen": -268.0,
+      "logps/rejected": -356.0,
+      "loss": 0.0099,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.703125,
+      "rewards/margins": 9.75,
+      "rewards/rejected": -8.0,
+      "step": 430
+    },
+    {
+      "epoch": 1.0551558752997603,
+      "grad_norm": 0.23864223290524259,
+      "learning_rate": 3.604444444444444e-07,
+      "logits/chosen": -1.2734375,
+      "logits/rejected": -1.734375,
+      "logps/chosen": -237.0,
+      "logps/rejected": -372.0,
+      "loss": 0.0096,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.34375,
+      "rewards/margins": 9.625,
+      "rewards/rejected": -8.25,
+      "step": 440
+    },
+    {
+      "epoch": 1.079136690647482,
+      "grad_norm": 7.163267004525079,
+      "learning_rate": 3.5599999999999996e-07,
+      "logits/chosen": -1.3359375,
+      "logits/rejected": -1.71875,
+      "logps/chosen": -247.0,
+      "logps/rejected": -372.0,
+      "loss": 0.0294,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.296875,
+      "rewards/margins": 10.0,
+      "rewards/rejected": -8.6875,
+      "step": 450
+    },
+    {
+      "epoch": 1.1031175059952039,
+      "grad_norm": 5.519803193762622,
+      "learning_rate": 3.5155555555555554e-07,
+      "logits/chosen": -1.3125,
+      "logits/rejected": -1.8046875,
+      "logps/chosen": -235.0,
+      "logps/rejected": -354.0,
+      "loss": 0.0251,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 1.75,
+      "rewards/margins": 9.125,
+      "rewards/rejected": -7.40625,
+      "step": 460
+    },
+    {
+      "epoch": 1.1270983213429258,
+      "grad_norm": 0.5909316496529458,
+      "learning_rate": 3.471111111111111e-07,
+      "logits/chosen": -1.3125,
+      "logits/rejected": -1.703125,
+      "logps/chosen": -247.0,
+      "logps/rejected": -350.0,
+      "loss": 0.0093,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.4609375,
+      "rewards/margins": 9.5,
+      "rewards/rejected": -8.0625,
+      "step": 470
+    },
+    {
+      "epoch": 1.1510791366906474,
+      "grad_norm": 3.011810128815269,
+      "learning_rate": 3.4266666666666666e-07,
+      "logits/chosen": -1.3359375,
+      "logits/rejected": -1.8046875,
+      "logps/chosen": -242.0,
+      "logps/rejected": -362.0,
+      "loss": 0.0096,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.6484375,
+      "rewards/margins": 10.1875,
+      "rewards/rejected": -8.5,
+      "step": 480
+    },
+    {
+      "epoch": 1.1750599520383693,
+      "grad_norm": 0.17942480332235972,
+      "learning_rate": 3.382222222222222e-07,
+      "logits/chosen": -1.3828125,
+      "logits/rejected": -1.71875,
+      "logps/chosen": -247.0,
+      "logps/rejected": -364.0,
+      "loss": 0.0059,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.1875,
+      "rewards/margins": 9.1875,
+      "rewards/rejected": -8.0,
+      "step": 490
+    },
+    {
+      "epoch": 1.1990407673860912,
+      "grad_norm": 0.1553054654263466,
+      "learning_rate": 3.337777777777778e-07,
+      "logits/chosen": -1.296875,
+      "logits/rejected": -1.7734375,
+      "logps/chosen": -260.0,
+      "logps/rejected": -358.0,
+      "loss": 0.0064,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.671875,
+      "rewards/margins": 11.0,
+      "rewards/rejected": -9.375,
+      "step": 500
+    },
+    {
+      "epoch": 1.223021582733813,
+      "grad_norm": 1.1092919311137273,
+      "learning_rate": 3.293333333333333e-07,
+      "logits/chosen": -1.3046875,
+      "logits/rejected": -1.6953125,
+      "logps/chosen": -232.0,
+      "logps/rejected": -376.0,
+      "loss": 0.0198,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.265625,
+      "rewards/margins": 9.9375,
+      "rewards/rejected": -8.625,
+      "step": 510
+    },
+    {
+      "epoch": 1.2470023980815348,
+      "grad_norm": 0.37821643712530456,
+      "learning_rate": 3.248888888888889e-07,
+      "logits/chosen": -1.25,
+      "logits/rejected": -1.671875,
+      "logps/chosen": -245.0,
+      "logps/rejected": -354.0,
+      "loss": 0.0078,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.15625,
+      "rewards/margins": 9.8125,
+      "rewards/rejected": -8.625,
+      "step": 520
+    },
+    {
+      "epoch": 1.2709832134292567,
+      "grad_norm": 0.3096451149240373,
+      "learning_rate": 3.204444444444444e-07,
+      "logits/chosen": -1.328125,
+      "logits/rejected": -1.7578125,
+      "logps/chosen": -278.0,
+      "logps/rejected": -358.0,
+      "loss": 0.0213,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.953125,
+      "rewards/margins": 9.625,
+      "rewards/rejected": -8.6875,
+      "step": 530
+    },
+    {
+      "epoch": 1.2949640287769784,
+      "grad_norm": 4.82912252555677,
+      "learning_rate": 3.1599999999999997e-07,
+      "logits/chosen": -1.2890625,
+      "logits/rejected": -1.734375,
+      "logps/chosen": -251.0,
+      "logps/rejected": -368.0,
+      "loss": 0.0034,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.21875,
+      "rewards/margins": 10.5,
+      "rewards/rejected": -9.3125,
+      "step": 540
+    },
+    {
+      "epoch": 1.3189448441247003,
+      "grad_norm": 0.21054005672290058,
+      "learning_rate": 3.115555555555555e-07,
+      "logits/chosen": -1.3515625,
+      "logits/rejected": -1.8671875,
+      "logps/chosen": -230.0,
+      "logps/rejected": -364.0,
+      "loss": 0.003,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.6953125,
+      "rewards/margins": 10.5,
+      "rewards/rejected": -8.8125,
+      "step": 550
+    },
+    {
+      "epoch": 1.3429256594724222,
+      "grad_norm": 0.3308230367772809,
+      "learning_rate": 3.071111111111111e-07,
+      "logits/chosen": -1.265625,
+      "logits/rejected": -1.7421875,
+      "logps/chosen": -244.0,
+      "logps/rejected": -368.0,
+      "loss": 0.0066,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.421875,
+      "rewards/margins": 10.5625,
+      "rewards/rejected": -9.1875,
+      "step": 560
+    },
+    {
+      "epoch": 1.3669064748201438,
+      "grad_norm": 2.5398850541641953,
+      "learning_rate": 3.026666666666666e-07,
+      "logits/chosen": -1.25,
+      "logits/rejected": -1.796875,
+      "logps/chosen": -234.0,
+      "logps/rejected": -366.0,
+      "loss": 0.005,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.296875,
+      "rewards/margins": 10.75,
+      "rewards/rejected": -9.5,
+      "step": 570
+    },
+    {
+      "epoch": 1.3908872901678657,
+      "grad_norm": 0.03226588556395318,
+      "learning_rate": 2.982222222222222e-07,
+      "logits/chosen": -1.2734375,
+      "logits/rejected": -1.71875,
+      "logps/chosen": -258.0,
+      "logps/rejected": -370.0,
+      "loss": 0.0039,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.5546875,
+      "rewards/margins": 11.5625,
+      "rewards/rejected": -10.0,
+      "step": 580
+    },
+    {
+      "epoch": 1.4148681055155876,
+      "grad_norm": 3.5465151461901057,
+      "learning_rate": 2.937777777777778e-07,
+      "logits/chosen": -1.3203125,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -238.0,
+      "logps/rejected": -366.0,
+      "loss": 0.0054,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.421875,
+      "rewards/margins": 9.875,
+      "rewards/rejected": -8.4375,
+      "step": 590
+    },
+    {
+      "epoch": 1.4388489208633093,
+      "grad_norm": 0.9672041242288474,
+      "learning_rate": 2.8933333333333333e-07,
+      "logits/chosen": -1.2890625,
+      "logits/rejected": -1.765625,
+      "logps/chosen": -256.0,
+      "logps/rejected": -378.0,
+      "loss": 0.0091,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.2421875,
+      "rewards/margins": 11.0625,
+      "rewards/rejected": -9.8125,
+      "step": 600
+    },
+    {
+      "epoch": 1.4628297362110312,
+      "grad_norm": 0.23832756129503824,
+      "learning_rate": 2.848888888888889e-07,
+      "logits/chosen": -1.296875,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -241.0,
+      "logps/rejected": -376.0,
+      "loss": 0.0177,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.015625,
+      "rewards/margins": 10.9375,
+      "rewards/rejected": -9.9375,
+      "step": 610
+    },
+    {
+      "epoch": 1.486810551558753,
+      "grad_norm": 14.900430603440345,
+      "learning_rate": 2.8044444444444445e-07,
+      "logits/chosen": -1.3515625,
+      "logits/rejected": -1.765625,
+      "logps/chosen": -274.0,
+      "logps/rejected": -372.0,
+      "loss": 0.0184,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.46875,
+      "rewards/margins": 11.6875,
+      "rewards/rejected": -10.25,
+      "step": 620
+    },
+    {
+      "epoch": 1.5107913669064748,
+      "grad_norm": 29.0158558612294,
+      "learning_rate": 2.7600000000000004e-07,
+      "logits/chosen": -1.296875,
+      "logits/rejected": -1.875,
+      "logps/chosen": -264.0,
+      "logps/rejected": -392.0,
+      "loss": 0.0258,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.8515625,
+      "rewards/margins": 11.0625,
+      "rewards/rejected": -10.1875,
+      "step": 630
+    },
+    {
+      "epoch": 1.5347721822541966,
+      "grad_norm": 0.10758431473862176,
+      "learning_rate": 2.715555555555555e-07,
+      "logits/chosen": -1.2734375,
+      "logits/rejected": -1.8125,
+      "logps/chosen": -258.0,
+      "logps/rejected": -380.0,
+      "loss": 0.0205,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.390625,
+      "rewards/margins": 12.6875,
+      "rewards/rejected": -11.3125,
+      "step": 640
+    },
+    {
+      "epoch": 1.5587529976019185,
+      "grad_norm": 0.6643883173223759,
+      "learning_rate": 2.671111111111111e-07,
+      "logits/chosen": -1.3359375,
+      "logits/rejected": -1.734375,
+      "logps/chosen": -247.0,
+      "logps/rejected": -388.0,
+      "loss": 0.001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.34375,
+      "rewards/margins": 11.3125,
+      "rewards/rejected": -10.0,
+      "step": 650
+    },
+    {
+      "epoch": 1.5827338129496402,
+      "grad_norm": 0.19081443363615663,
+      "learning_rate": 2.6266666666666664e-07,
+      "logits/chosen": -1.359375,
+      "logits/rejected": -1.7109375,
+      "logps/chosen": -268.0,
+      "logps/rejected": -376.0,
+      "loss": 0.0085,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.1796875,
+      "rewards/margins": 10.8125,
+      "rewards/rejected": -9.625,
+      "step": 660
+    },
+    {
+      "epoch": 1.6067146282973621,
+      "grad_norm": 0.6802954971662545,
+      "learning_rate": 2.582222222222222e-07,
+      "logits/chosen": -1.2734375,
+      "logits/rejected": -1.71875,
+      "logps/chosen": -241.0,
+      "logps/rejected": -382.0,
+      "loss": 0.004,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.609375,
+      "rewards/margins": 10.6875,
+      "rewards/rejected": -9.125,
+      "step": 670
+    },
+    {
+      "epoch": 1.630695443645084,
+      "grad_norm": 0.21946623844305102,
+      "learning_rate": 2.5377777777777776e-07,
+      "logits/chosen": -1.3125,
+      "logits/rejected": -1.734375,
+      "logps/chosen": -246.0,
+      "logps/rejected": -378.0,
+      "loss": 0.0077,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.34375,
+      "rewards/margins": 12.1875,
+      "rewards/rejected": -10.875,
+      "step": 680
+    },
+    {
+      "epoch": 1.6546762589928057,
+      "grad_norm": 14.387030473360179,
+      "learning_rate": 2.493333333333333e-07,
+      "logits/chosen": -1.2890625,
+      "logits/rejected": -1.7265625,
+      "logps/chosen": -252.0,
+      "logps/rejected": -382.0,
+      "loss": 0.0055,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.8046875,
+      "rewards/margins": 11.0,
+      "rewards/rejected": -10.1875,
+      "step": 690
+    },
+    {
+      "epoch": 1.6786570743405276,
+      "grad_norm": 4.254572167354162,
+      "learning_rate": 2.448888888888889e-07,
+      "logits/chosen": -1.265625,
+      "logits/rejected": -1.796875,
+      "logps/chosen": -248.0,
+      "logps/rejected": -384.0,
+      "loss": 0.0027,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.578125,
+      "rewards/margins": 11.5,
+      "rewards/rejected": -9.875,
+      "step": 700
+    },
+    {
+      "epoch": 1.7026378896882495,
+      "grad_norm": 2.551492265163294,
+      "learning_rate": 2.404444444444444e-07,
+      "logits/chosen": -1.3125,
+      "logits/rejected": -1.734375,
+      "logps/chosen": -241.0,
+      "logps/rejected": -384.0,
+      "loss": 0.0037,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.546875,
+      "rewards/margins": 12.5,
+      "rewards/rejected": -10.9375,
+      "step": 710
+    },
+    {
+      "epoch": 1.7266187050359711,
+      "grad_norm": 3.5788184390591766,
+      "learning_rate": 2.3599999999999997e-07,
+      "logits/chosen": -1.296875,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -270.0,
+      "logps/rejected": -370.0,
+      "loss": 0.002,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.94921875,
+      "rewards/margins": 11.9375,
+      "rewards/rejected": -11.0,
+      "step": 720
+    },
+    {
+      "epoch": 1.750599520383693,
+      "grad_norm": 0.22812646760052926,
+      "learning_rate": 2.3155555555555553e-07,
+      "logits/chosen": -1.3125,
+      "logits/rejected": -1.7265625,
+      "logps/chosen": -252.0,
+      "logps/rejected": -376.0,
+      "loss": 0.003,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.421875,
+      "rewards/margins": 11.1875,
+      "rewards/rejected": -9.8125,
+      "step": 730
+    },
+    {
+      "epoch": 1.774580335731415,
+      "grad_norm": 3.5369041443316966,
+      "learning_rate": 2.2711111111111112e-07,
+      "logits/chosen": -1.28125,
+      "logits/rejected": -1.765625,
+      "logps/chosen": -247.0,
+      "logps/rejected": -374.0,
+      "loss": 0.0019,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.453125,
+      "rewards/margins": 10.9375,
+      "rewards/rejected": -9.4375,
+      "step": 740
+    },
+    {
+      "epoch": 1.7985611510791366,
+      "grad_norm": 0.15385299522364304,
+      "learning_rate": 2.2266666666666668e-07,
+      "logits/chosen": -1.296875,
+      "logits/rejected": -1.6640625,
+      "logps/chosen": -247.0,
+      "logps/rejected": -372.0,
+      "loss": 0.0083,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.109375,
+      "rewards/margins": 11.25,
+      "rewards/rejected": -10.125,
+      "step": 750
+    },
+    {
+      "epoch": 1.8225419664268585,
+      "grad_norm": 1.8182203002712007,
+      "learning_rate": 2.1822222222222224e-07,
+      "logits/chosen": -1.34375,
+      "logits/rejected": -1.7421875,
+      "logps/chosen": -260.0,
+      "logps/rejected": -378.0,
+      "loss": 0.001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.03125,
+      "rewards/margins": 11.5625,
+      "rewards/rejected": -10.5,
+      "step": 760
+    },
+    {
+      "epoch": 1.8465227817745804,
+      "grad_norm": 0.12014261187968397,
+      "learning_rate": 2.1377777777777777e-07,
+      "logits/chosen": -1.234375,
+      "logits/rejected": -1.71875,
+      "logps/chosen": -237.0,
+      "logps/rejected": -366.0,
+      "loss": 0.0005,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.4609375,
+      "rewards/margins": 11.75,
+      "rewards/rejected": -10.25,
+      "step": 770
+    },
+    {
+      "epoch": 1.870503597122302,
+      "grad_norm": 0.017562287950709583,
+      "learning_rate": 2.0933333333333333e-07,
+      "logits/chosen": -1.328125,
+      "logits/rejected": -1.7109375,
+      "logps/chosen": -256.0,
+      "logps/rejected": -378.0,
+      "loss": 0.0054,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.4765625,
+      "rewards/margins": 11.6875,
+      "rewards/rejected": -10.1875,
+      "step": 780
+    },
+    {
+      "epoch": 1.894484412470024,
+      "grad_norm": 0.15749847503299128,
+      "learning_rate": 2.048888888888889e-07,
+      "logits/chosen": -1.34375,
+      "logits/rejected": -1.65625,
+      "logps/chosen": -242.0,
+      "logps/rejected": -378.0,
+      "loss": 0.023,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.59375,
+      "rewards/margins": 11.0,
+      "rewards/rejected": -9.375,
+      "step": 790
+    },
+    {
+      "epoch": 1.9184652278177459,
+      "grad_norm": 0.08616776985304095,
+      "learning_rate": 2.0044444444444445e-07,
+      "logits/chosen": -1.3046875,
+      "logits/rejected": -1.6875,
+      "logps/chosen": -235.0,
+      "logps/rejected": -388.0,
+      "loss": 0.0009,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.68359375,
+      "rewards/margins": 11.5625,
+      "rewards/rejected": -10.875,
+      "step": 800
+    },
+    {
+      "epoch": 1.9424460431654675,
+      "grad_norm": 0.11034132303896381,
+      "learning_rate": 1.96e-07,
+      "logits/chosen": -1.3515625,
+      "logits/rejected": -1.7109375,
+      "logps/chosen": -258.0,
+      "logps/rejected": -374.0,
+      "loss": 0.0052,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.375,
+      "rewards/margins": 11.9375,
+      "rewards/rejected": -10.625,
+      "step": 810
+    },
+    {
+      "epoch": 1.9664268585131894,
+      "grad_norm": 0.1125888676469132,
+      "learning_rate": 1.9155555555555554e-07,
+      "logits/chosen": -1.203125,
+      "logits/rejected": -1.7109375,
+      "logps/chosen": -264.0,
+      "logps/rejected": -380.0,
+      "loss": 0.006,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.4921875,
+      "rewards/margins": 12.1875,
+      "rewards/rejected": -10.75,
+      "step": 820
+    },
+    {
+      "epoch": 1.9904076738609113,
+      "grad_norm": 0.15670668500960064,
+      "learning_rate": 1.871111111111111e-07,
+      "logits/chosen": -1.296875,
+      "logits/rejected": -1.6953125,
+      "logps/chosen": -252.0,
+      "logps/rejected": -392.0,
+      "loss": 0.0101,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.1640625,
+      "rewards/margins": 11.0625,
+      "rewards/rejected": -9.875,
+      "step": 830
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": -1.2109375,
+      "eval_logits/rejected": -1.6796875,
+      "eval_logps/chosen": -227.0,
+      "eval_logps/rejected": -376.0,
+      "eval_loss": 0.11118045449256897,
+      "eval_rewards/accuracies": 0.9583333134651184,
+      "eval_rewards/chosen": 1.1171875,
+      "eval_rewards/margins": 10.125,
+      "eval_rewards/rejected": -9.0,
+      "eval_runtime": 11.778,
+      "eval_samples_per_second": 16.981,
+      "eval_steps_per_second": 0.764,
+      "step": 834
     }
   ],
   "logging_steps": 10,