cat-searcher commited on Jul 17, 2024

Commit

58c9ef9

verified ·

1 Parent(s): eea720d

Training in progress, epoch 4, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step987/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step987/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step987/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step987/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step987/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step987/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step987/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step987/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step987/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step987/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step987/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step987/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step987/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step987/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step987/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step987/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +287 -2

last-checkpoint/global_step987/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e08ed8f9a3bcbcb2c4d63ac9315322a9c67d1d1853045d6a735fd71555098bc2
+size 2506176112

last-checkpoint/global_step987/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9475412bd1ce86508201c127efc3e0edee6633a49299c81896146b3652959bd
+size 2506176112

last-checkpoint/global_step987/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7f9e8477484da2f362a8d538703ae02607946193817e058365b45cf019a6b53
+size 2506176112

last-checkpoint/global_step987/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d63379f76bfad20b1d84d0afcc1f2f2688a7af70f41e4453e65183454d9e9368
+size 2506176112

last-checkpoint/global_step987/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d30dacf4855b30b73cc83e700ae2748a85a94ca8628a2feb75b206cbe909ffec
+size 2506176112

last-checkpoint/global_step987/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b715c7992af463ed7ef9f47ae64199b59d1fb3a71c90915154004d4eab71ad4d
+size 2506176112

last-checkpoint/global_step987/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ddce83e72ba4d49bc6bc065f2030345a82a5667f8dae4ec6fc90eb324d3f214
+size 2506176112

last-checkpoint/global_step987/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2df8414c72cbc2967c0c40f2215e0bd2917efa93ede3063ed7fe54f4bcf0306e
+size 2506176112

last-checkpoint/global_step987/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c7d49adf53cb4919d277113e5d2286f11daf9bfd0c5fc27770ad51337147826
+size 85570

last-checkpoint/global_step987/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:523fb792a177804d3a89c3d960a8b61cb85d786b8588ca6eb40850c88b463f0d
+size 85506

last-checkpoint/global_step987/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db467bc7ac5a73bdda871ba0cf84b28bfbe8ffb532017690ee42e00cf9027801
+size 85506

last-checkpoint/global_step987/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:882f62fdd9c0fa0cb53f73107ad9dc72d0756d30a94587750f2dc29a67024c77
+size 85506

last-checkpoint/global_step987/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeff6161357c3bf99eecd7fe3dad1ef8c5a95c24e2da1d2ad819e9e713e5cc38
+size 85506

last-checkpoint/global_step987/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d772a1419efe720b7a7fdd266fcc1365156f5adebf06de57810e9a7b0f603d16
+size 85506

last-checkpoint/global_step987/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ed060b90554fd9e0930346a0c2ae5814d8ca9d73b074ca36b52a358dd056d81
+size 85506

last-checkpoint/global_step987/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d08f7be62362f05f62bcbbfde5442c6e140ae6a3be863c7db3bb03c2dcf1686e
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step790~~


1	+ global_step987

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ee3f893a00b883ea2140dd40c1fb5676a8e4b4c39e9f77ab126e1a38a9c2786
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9d6347bbdfb78d6d728cf68948d2c89598dfbfde2c1c992084431e44430796d
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:391cf44d17535a2b42d0a567444b9ca191b26d208e2891eee80e248f7f6c3747
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbb9d1038339e10330e9562076f77aac42d42c8f7c5245bf246911f8ffc69ef0
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36d2a2034ebb05cb71c510897f2795b31164e50f17b270bc25d2be3ad9a17b22
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a0ef6f96a48e59aa52c4b471312c2a62378c19acc7ebbae839612b03a7d775a
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:060dfdb1c49102cbdc8868a6031e68787601b4ccd782f3fb9b137e20c1fd2c7a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab11d533c0fdad46ea8b8e295ba5fdb705e078eeb88cc28f37d82913508766e9
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af01895cb66e616591f2e4baa8dcd8151530eab133c73571ccb31c74f35422ce
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:615c168147e3465ce5bfab6da2ff4afc68566ce00ec0f0c6c9fc988038a58d0a
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:677921992b1e0cef3aee776f245975003d22f51d9bd6ed20f248ded1deb72fa9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:79f71e8f8674ecaef9f8cdcbf7ac457a8b8ff15b12694ba2a2fffcb4b43f0f08
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d69353c629541c690c5471f8ec05fdab2bfecf3d37afaa436bc45939da6db68f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:88cf6d674dab5545c300a55135f08ca935730a3d35e2c419fb0b333f19482c19
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e40ba6668cc03c9162c68a933d164bf38ae2d196a9a6fec03ae615491201185
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2754f2cd8824702f027870d93748b3c0491b0ecd30f1e3d8e937116b2be6151f
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:870968fea834e24b2e099cf3e4fe1e3fb8caf38d8f8e5b790d7d47386d4d05f5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1385124ac55604598f45ea6e2d141f29456647d3e7c10d12ca64ec93d312be8d
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9e19618bee7c6ef43256fea25abe19bca88535eb1e7dc213cde8929ae4e8180
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:416538efaec7391fa8fe782fb15146b83e5612d9e1961292c34c53e964806873
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b9e01fb8119366f950b23568c9c5eaa6d3e352534620301a9291190e4d0ef8f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebe1f41c97c016e1df7ebf5446401ec464be377a52a8190323220b8692dc187a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.0,
   "eval_steps": 100,
-  "global_step": 790,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1207,6 +1207,291 @@
       "rewards/margins": 0.1435452550649643,
       "rewards/rejected": -0.11581633985042572,
       "step": 790
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.99746835443038,
   "eval_steps": 100,
+  "global_step": 987,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.1435452550649643,
       "rewards/rejected": -0.11581633985042572,
       "step": 790
+    },
+    {
+      "epoch": 4.050632911392405,
+      "grad_norm": 1782853.8797277175,
+      "learning_rate": 4.3027264180507676e-07,
+      "logits/chosen": -8.29829216003418,
+      "logits/rejected": -8.205643653869629,
+      "logps/chosen": -178.8797149658203,
+      "logps/rejected": -378.06121826171875,
+      "loss": 69143.425,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.05098045617341995,
+      "rewards/margins": 0.1993386447429657,
+      "rewards/rejected": -0.14835818111896515,
+      "step": 800
+    },
+    {
+      "epoch": 4.10126582278481,
+      "grad_norm": 1719472.9461235409,
+      "learning_rate": 4.287057348793481e-07,
+      "logits/chosen": -7.558290958404541,
+      "logits/rejected": -7.646592617034912,
+      "logps/chosen": -186.36911010742188,
+      "logps/rejected": -386.6961975097656,
+      "loss": 67634.3375,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.04189852252602577,
+      "rewards/margins": 0.19968575239181519,
+      "rewards/rejected": -0.1577872335910797,
+      "step": 810
+    },
+    {
+      "epoch": 4.151898734177215,
+      "grad_norm": 1571399.8942716653,
+      "learning_rate": 4.2713882795361953e-07,
+      "logits/chosen": -7.811161994934082,
+      "logits/rejected": -7.783130645751953,
+      "logps/chosen": -181.81602478027344,
+      "logps/rejected": -402.1683654785156,
+      "loss": 66806.9187,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.049001529812812805,
+      "rewards/margins": 0.21849961578845978,
+      "rewards/rejected": -0.16949808597564697,
+      "step": 820
+    },
+    {
+      "epoch": 4.2025316455696204,
+      "grad_norm": 1992030.3917670588,
+      "learning_rate": 4.255719210278909e-07,
+      "logits/chosen": -7.349759101867676,
+      "logits/rejected": -7.380797386169434,
+      "logps/chosen": -175.21702575683594,
+      "logps/rejected": -396.2167053222656,
+      "loss": 67021.875,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.05283821374177933,
+      "rewards/margins": 0.22190704941749573,
+      "rewards/rejected": -0.169068843126297,
+      "step": 830
+    },
+    {
+      "epoch": 4.253164556962025,
+      "grad_norm": 1859879.670487208,
+      "learning_rate": 4.2400501410216235e-07,
+      "logits/chosen": -7.482248783111572,
+      "logits/rejected": -7.252910614013672,
+      "logps/chosen": -187.070556640625,
+      "logps/rejected": -401.1556701660156,
+      "loss": 68463.9,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.05697192624211311,
+      "rewards/margins": 0.21645841002464294,
+      "rewards/rejected": -0.15948647260665894,
+      "step": 840
+    },
+    {
+      "epoch": 4.30379746835443,
+      "grad_norm": 1688181.1410657803,
+      "learning_rate": 4.224381071764337e-07,
+      "logits/chosen": -5.693742275238037,
+      "logits/rejected": -5.435591697692871,
+      "logps/chosen": -198.21900939941406,
+      "logps/rejected": -398.49981689453125,
+      "loss": 67266.2,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.04546400159597397,
+      "rewards/margins": 0.20465342700481415,
+      "rewards/rejected": -0.15918943285942078,
+      "step": 850
+    },
+    {
+      "epoch": 4.3544303797468356,
+      "grad_norm": 1750431.6432656392,
+      "learning_rate": 4.208712002507051e-07,
+      "logits/chosen": -8.664016723632812,
+      "logits/rejected": -8.082508087158203,
+      "logps/chosen": -178.05966186523438,
+      "logps/rejected": -402.77093505859375,
+      "loss": 65760.2625,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.056066203862428665,
+      "rewards/margins": 0.22950176894664764,
+      "rewards/rejected": -0.17343556880950928,
+      "step": 860
+    },
+    {
+      "epoch": 4.405063291139241,
+      "grad_norm": 1904336.610304837,
+      "learning_rate": 4.193042933249765e-07,
+      "logits/chosen": -5.778517723083496,
+      "logits/rejected": -5.432709693908691,
+      "logps/chosen": -176.563720703125,
+      "logps/rejected": -379.2276916503906,
+      "loss": 67058.1125,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.05091014504432678,
+      "rewards/margins": 0.2058809995651245,
+      "rewards/rejected": -0.15497085452079773,
+      "step": 870
+    },
+    {
+      "epoch": 4.455696202531645,
+      "grad_norm": 1779397.1811982268,
+      "learning_rate": 4.177373863992479e-07,
+      "logits/chosen": -6.937778472900391,
+      "logits/rejected": -6.611588954925537,
+      "logps/chosen": -180.23001098632812,
+      "logps/rejected": -400.9800720214844,
+      "loss": 67019.0875,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.05085798352956772,
+      "rewards/margins": 0.2235671728849411,
+      "rewards/rejected": -0.17270918190479279,
+      "step": 880
+    },
+    {
+      "epoch": 4.506329113924051,
+      "grad_norm": 1755630.994265544,
+      "learning_rate": 4.1617047947351925e-07,
+      "logits/chosen": -6.663479804992676,
+      "logits/rejected": -6.144991397857666,
+      "logps/chosen": -189.93707275390625,
+      "logps/rejected": -383.9622802734375,
+      "loss": 66060.8813,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.053109876811504364,
+      "rewards/margins": 0.20497091114521027,
+      "rewards/rejected": -0.1518610268831253,
+      "step": 890
+    },
+    {
+      "epoch": 4.556962025316456,
+      "grad_norm": 1729683.010514938,
+      "learning_rate": 4.1460357254779067e-07,
+      "logits/chosen": -7.10635232925415,
+      "logits/rejected": -7.227837562561035,
+      "logps/chosen": -184.3021240234375,
+      "logps/rejected": -391.59930419921875,
+      "loss": 67231.6313,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.050502438098192215,
+      "rewards/margins": 0.20674797892570496,
+      "rewards/rejected": -0.15624557435512543,
+      "step": 900
+    },
+    {
+      "epoch": 4.6075949367088604,
+      "grad_norm": 1921064.671845176,
+      "learning_rate": 4.13036665622062e-07,
+      "logits/chosen": -7.409733772277832,
+      "logits/rejected": -7.2668256759643555,
+      "logps/chosen": -184.89645385742188,
+      "logps/rejected": -395.2364501953125,
+      "loss": 67370.1875,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.047733135521411896,
+      "rewards/margins": 0.2108074128627777,
+      "rewards/rejected": -0.1630742847919464,
+      "step": 910
+    },
+    {
+      "epoch": 4.658227848101266,
+      "grad_norm": 1780170.6356310213,
+      "learning_rate": 4.1146975869633344e-07,
+      "logits/chosen": -8.294339179992676,
+      "logits/rejected": -8.312765121459961,
+      "logps/chosen": -185.74949645996094,
+      "logps/rejected": -405.0606689453125,
+      "loss": 64484.2438,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.05801473185420036,
+      "rewards/margins": 0.21365991234779358,
+      "rewards/rejected": -0.15564517676830292,
+      "step": 920
+    },
+    {
+      "epoch": 4.708860759493671,
+      "grad_norm": 1755118.627079852,
+      "learning_rate": 4.099028517706048e-07,
+      "logits/chosen": -8.692441940307617,
+      "logits/rejected": -8.729148864746094,
+      "logps/chosen": -177.8703155517578,
+      "logps/rejected": -410.15179443359375,
+      "loss": 65960.6812,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.061922211199998856,
+      "rewards/margins": 0.2333444058895111,
+      "rewards/rejected": -0.17142215371131897,
+      "step": 930
+    },
+    {
+      "epoch": 4.759493670886076,
+      "grad_norm": 1801666.0452341542,
+      "learning_rate": 4.083359448448762e-07,
+      "logits/chosen": -8.838138580322266,
+      "logits/rejected": -8.679426193237305,
+      "logps/chosen": -160.35488891601562,
+      "logps/rejected": -387.3427429199219,
+      "loss": 65957.3,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.061734091490507126,
+      "rewards/margins": 0.2303626835346222,
+      "rewards/rejected": -0.16862855851650238,
+      "step": 940
+    },
+    {
+      "epoch": 4.810126582278481,
+      "grad_norm": 1823914.1164093877,
+      "learning_rate": 4.0676903791914757e-07,
+      "logits/chosen": -8.039133071899414,
+      "logits/rejected": -8.235550880432129,
+      "logps/chosen": -181.90818786621094,
+      "logps/rejected": -390.46075439453125,
+      "loss": 65100.0437,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.05453425645828247,
+      "rewards/margins": 0.20622405409812927,
+      "rewards/rejected": -0.1516897976398468,
+      "step": 950
+    },
+    {
+      "epoch": 4.860759493670886,
+      "grad_norm": 2552504.752187401,
+      "learning_rate": 4.05202130993419e-07,
+      "logits/chosen": -8.228861808776855,
+      "logits/rejected": -8.044200897216797,
+      "logps/chosen": -175.62306213378906,
+      "logps/rejected": -387.7801818847656,
+      "loss": 65251.5563,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.05643890053033829,
+      "rewards/margins": 0.2162017822265625,
+      "rewards/rejected": -0.15976287424564362,
+      "step": 960
+    },
+    {
+      "epoch": 4.911392405063291,
+      "grad_norm": 2112562.829549655,
+      "learning_rate": 4.0363522406769034e-07,
+      "logits/chosen": -8.678482055664062,
+      "logits/rejected": -8.680012702941895,
+      "logps/chosen": -180.9581298828125,
+      "logps/rejected": -402.48944091796875,
+      "loss": 65731.7188,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.05988938361406326,
+      "rewards/margins": 0.22270476818084717,
+      "rewards/rejected": -0.1628153920173645,
+      "step": 970
+    },
+    {
+      "epoch": 4.962025316455696,
+      "grad_norm": 1800725.2761679955,
+      "learning_rate": 4.0206831714196175e-07,
+      "logits/chosen": -9.068916320800781,
+      "logits/rejected": -8.908533096313477,
+      "logps/chosen": -191.30018615722656,
+      "logps/rejected": -433.2850036621094,
+      "loss": 64987.5125,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.0664498582482338,
+      "rewards/margins": 0.24509286880493164,
+      "rewards/rejected": -0.17864301800727844,
+      "step": 980
     }
   ],
   "logging_steps": 10,