cat-searcher commited on Jul 17, 2024

Commit

0990fc5

verified ·

1 Parent(s): bfad752

Training in progress, epoch 16, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step3160/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3160/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3160/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3160/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3160/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3160/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3160/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3160/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3160/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3160/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3160/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3160/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3160/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3160/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3160/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3160/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step3160/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d7df19b094e998bc270861a0d9638f0e3d610b45c1c4337c8162eb04e57a7a2
+size 2506176112

last-checkpoint/global_step3160/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf4f42fbcb8b45a15c03f4a5762030763f610baf0a359e2053ef909a86b2da52
+size 2506176112

last-checkpoint/global_step3160/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5431b1dfbf113ec2b512798b731a06e79aa451e1e628f564f1c174e70383cf0
+size 2506176112

last-checkpoint/global_step3160/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcd6fd8f34c1c234e1aaf5f55d5ee1a115fe054ccf4ff54ec9e5103b0fea4111
+size 2506176112

last-checkpoint/global_step3160/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:961712083c3a0c67f9e4587d014bed9fba8af072a557fd7f240099ba5c84a605
+size 2506176112

last-checkpoint/global_step3160/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a7d01cf37be4172699a0ed5323a6dedae08a4812420de3fd2d87a9b28a105ac
+size 2506176112

last-checkpoint/global_step3160/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a297f1dcf25a2802f686a7e5996c451fcdfa7815bf25dca209979111be6e9905
+size 2506176112

last-checkpoint/global_step3160/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e23ce2caf12e5daef3555edec7095e39194e271cd73cf8627b8dd73442bff97
+size 2506176112

last-checkpoint/global_step3160/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f86f35b2023250b5d6ea9bd4f9c3fb7c0dec434f1923a23a7d97bd8943f278c
+size 85570

last-checkpoint/global_step3160/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:258251d0c79eb809b3a76b0f0c4e8d8a3e52e7d17d3e25ea91ac600ed6049250
+size 85506

last-checkpoint/global_step3160/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4d29af929bcdefba5c8d5f5442eb3ae4a94175eb9ecf16c8195ee6e32792bbc
+size 85506

last-checkpoint/global_step3160/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8de8db06dd1ee1a2458a8854bd81ca99c2813a34e47f7931af130fa5c281883
+size 85506

last-checkpoint/global_step3160/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fa05abfe28ad70750e32b024d5ca7ba52e1c23e238a1034eb37528600791b71
+size 85506

last-checkpoint/global_step3160/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:413272eae30b1ea540031b8affe42f6ba5ae9d57b787085a79e5eef1fd675e90
+size 85506

last-checkpoint/global_step3160/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d41768b98b57b45674684524f1007d4b3e71f713acded1c10019b50b89e73f72
+size 85506

last-checkpoint/global_step3160/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22d9138e5b10b22ccd10a820052819783437ccea3bac4a71a39897156d294c71
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2962~~


1	+ global_step3160

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6ab34130d90aebe29868ecf9b47a15403e74bd3aa5e09f06dc3ea9032f8089b
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8e8cc757116e636d03d7d2362f38003ee7b34b00b1dae4f4914662ad92e7fad
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cf91018b2355dca95814934115beac2e49e42607748ab6a28986a106363bbcd
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba27efdeb5b44a8b8136905559c82e77a7f13309db0036dad3e99a470705fb98
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07d994b317c4df888a1a1aabc0c532e81f1fa34c18c8313cb2feadca3bb37194
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb7c3bc1248de8b4739437317b988d953fd64a5de9736606d74f9c8277f1b485
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f5b05860618aa49c7f5d8c366d6ee73cf8b3b0d0adc17d9313b72621630d0aa
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8e571d57a85eb2cdabf3f46c86e446bdb7d26aba8b1467b5e4b5bbe29ad42a7
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7262faf861e984775b4fd85bc76a11b0b8b04037690e8a08a58cf9ff5328a042
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:489e5542988617525a395c45dc83ec6bf25b473812e139122f0a3f3d92f031d0
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9479cad91150e2e266d17eb95fe678579a770f6df6b53496cf72067b186b094d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cd77682efb711872c5be25e87e87a2726a2e7105422cddd00f04da7be35ca20
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:435cb6cf559e0ce3fe0d4582cac16ea40b48b7a64589952402a4c399cafbfc00
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e44d9e7d535f5fbcd7cfef16ba22d32d5f445aacceba782a05df1f97d47a608a
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f51001b0d8dc5792180c3a9705ccbfa66b61d46d7639afb6f7abf409629ed74f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a107290a0d9898930bc6abe369ee246ef7322541985fc2a5320e7775f5ea5c88
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1e87084f11088fdce293e1fbbb05e35f5c7385b00e2f9ba195bf61cb36f757d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:88ab49d56ee4079c2a208376064f825918f070addc8f0c58c5c594265f9e8a78
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d32e9bdd65145ae509e6c6ef4f6ea9d842f94a34c34a0d7d2ab6c248d3f2121
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d15033d06420b17d80db45c89544170faa67833d5a0d9c30a51a38a1102b073
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ef29c4eabe559fffbf188b61164c94ef6c3807ccd683770ebd49ca46d0f6823
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e02caff31fe06a664e85dd7b31b3300391f1a9f4f3b97aaaec945d54216a88e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 14.99746835443038,
   "eval_steps": 100,
-  "global_step": 2962,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4462,6 +4462,306 @@
       "rewards/margins": 0.49641647934913635,
       "rewards/rejected": -0.32356563210487366,
       "step": 2960
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 16.0,
   "eval_steps": 100,
+  "global_step": 3160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.49641647934913635,
       "rewards/rejected": -0.32356563210487366,
       "step": 2960
+    },
+    {
+      "epoch": 15.037974683544304,
+      "grad_norm": 518700.7292410764,
+      "learning_rate": 9.025383892196802e-08,
+      "logits/chosen": 1.0516235828399658,
+      "logits/rejected": 1.4486608505249023,
+      "logps/chosen": -50.19924545288086,
+      "logps/rejected": -568.3731689453125,
+      "loss": 15371.2547,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1881760060787201,
+      "rewards/margins": 0.5164635181427002,
+      "rewards/rejected": -0.3282875716686249,
+      "step": 2970
+    },
+    {
+      "epoch": 15.08860759493671,
+      "grad_norm": 331391.7564792058,
+      "learning_rate": 8.868693199623942e-08,
+      "logits/chosen": 2.2234063148498535,
+      "logits/rejected": 2.0345654487609863,
+      "logps/chosen": -52.14508819580078,
+      "logps/rejected": -595.8091430664062,
+      "loss": 14717.8656,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1904282122850418,
+      "rewards/margins": 0.5425348877906799,
+      "rewards/rejected": -0.3521067202091217,
+      "step": 2980
+    },
+    {
+      "epoch": 15.139240506329115,
+      "grad_norm": 245591.75428222032,
+      "learning_rate": 8.712002507051081e-08,
+      "logits/chosen": -0.6622523069381714,
+      "logits/rejected": -0.06956877559423447,
+      "logps/chosen": -52.00910186767578,
+      "logps/rejected": -563.0474853515625,
+      "loss": 15161.7313,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1884680539369583,
+      "rewards/margins": 0.5108307003974915,
+      "rewards/rejected": -0.32236260175704956,
+      "step": 2990
+    },
+    {
+      "epoch": 15.189873417721518,
+      "grad_norm": 310549.6440256543,
+      "learning_rate": 8.555311814478219e-08,
+      "logits/chosen": 0.2366395890712738,
+      "logits/rejected": 0.44344860315322876,
+      "logps/chosen": -41.386192321777344,
+      "logps/rejected": -572.7687377929688,
+      "loss": 14740.5063,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1788499653339386,
+      "rewards/margins": 0.5284099578857422,
+      "rewards/rejected": -0.3495599925518036,
+      "step": 3000
+    },
+    {
+      "epoch": 15.240506329113924,
+      "grad_norm": 306008.0109626414,
+      "learning_rate": 8.398621121905358e-08,
+      "logits/chosen": 0.007425785064697266,
+      "logits/rejected": 0.6882709264755249,
+      "logps/chosen": -61.54619598388672,
+      "logps/rejected": -565.9954833984375,
+      "loss": 14890.1531,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.18634898960590363,
+      "rewards/margins": 0.5029118061065674,
+      "rewards/rejected": -0.31656283140182495,
+      "step": 3010
+    },
+    {
+      "epoch": 15.291139240506329,
+      "grad_norm": 542292.2583731171,
+      "learning_rate": 8.241930429332496e-08,
+      "logits/chosen": -1.8317344188690186,
+      "logits/rejected": -1.2810354232788086,
+      "logps/chosen": -55.94157791137695,
+      "logps/rejected": -610.6949462890625,
+      "loss": 14922.1328,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20198726654052734,
+      "rewards/margins": 0.5547267198562622,
+      "rewards/rejected": -0.3527393639087677,
+      "step": 3020
+    },
+    {
+      "epoch": 15.341772151898734,
+      "grad_norm": 246111.44147055785,
+      "learning_rate": 8.085239736759636e-08,
+      "logits/chosen": 0.38201937079429626,
+      "logits/rejected": 0.48218441009521484,
+      "logps/chosen": -49.771148681640625,
+      "logps/rejected": -579.5675048828125,
+      "loss": 14315.8422,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.18888349831104279,
+      "rewards/margins": 0.52850741147995,
+      "rewards/rejected": -0.33962392807006836,
+      "step": 3030
+    },
+    {
+      "epoch": 15.39240506329114,
+      "grad_norm": 365392.8501035466,
+      "learning_rate": 7.928549044186775e-08,
+      "logits/chosen": 0.2196371853351593,
+      "logits/rejected": 0.5740281939506531,
+      "logps/chosen": -37.870933532714844,
+      "logps/rejected": -532.795166015625,
+      "loss": 14228.8297,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.17593248188495636,
+      "rewards/margins": 0.4975932538509369,
+      "rewards/rejected": -0.3216607868671417,
+      "step": 3040
+    },
+    {
+      "epoch": 15.443037974683545,
+      "grad_norm": 601622.5104727764,
+      "learning_rate": 7.771858351613913e-08,
+      "logits/chosen": -0.6718970537185669,
+      "logits/rejected": -0.666345477104187,
+      "logps/chosen": -44.54059600830078,
+      "logps/rejected": -578.719482421875,
+      "loss": 15052.1406,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19072814285755157,
+      "rewards/margins": 0.5325638055801392,
+      "rewards/rejected": -0.3418356776237488,
+      "step": 3050
+    },
+    {
+      "epoch": 15.49367088607595,
+      "grad_norm": 343253.0399713909,
+      "learning_rate": 7.615167659041052e-08,
+      "logits/chosen": -1.7298717498779297,
+      "logits/rejected": -1.107236385345459,
+      "logps/chosen": -48.916072845458984,
+      "logps/rejected": -581.4259643554688,
+      "loss": 15088.4312,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.18928301334381104,
+      "rewards/margins": 0.5350446701049805,
+      "rewards/rejected": -0.34576165676116943,
+      "step": 3060
+    },
+    {
+      "epoch": 15.544303797468354,
+      "grad_norm": 228770.67672990158,
+      "learning_rate": 7.45847696646819e-08,
+      "logits/chosen": 1.368043303489685,
+      "logits/rejected": 2.1229677200317383,
+      "logps/chosen": -49.823055267333984,
+      "logps/rejected": -576.06103515625,
+      "loss": 13555.7672,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.18895366787910461,
+      "rewards/margins": 0.5293976664543152,
+      "rewards/rejected": -0.34044402837753296,
+      "step": 3070
+    },
+    {
+      "epoch": 15.594936708860759,
+      "grad_norm": 292818.2312129945,
+      "learning_rate": 7.30178627389533e-08,
+      "logits/chosen": -0.7066992521286011,
+      "logits/rejected": 0.058099888265132904,
+      "logps/chosen": -52.58687210083008,
+      "logps/rejected": -577.005859375,
+      "loss": 14893.6594,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.19148708879947662,
+      "rewards/margins": 0.5295326113700867,
+      "rewards/rejected": -0.33804553747177124,
+      "step": 3080
+    },
+    {
+      "epoch": 15.645569620253164,
+      "grad_norm": 275063.1192623706,
+      "learning_rate": 7.145095581322469e-08,
+      "logits/chosen": 0.057862140238285065,
+      "logits/rejected": -0.10827471315860748,
+      "logps/chosen": -51.52691650390625,
+      "logps/rejected": -598.4918212890625,
+      "loss": 14740.6531,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1917671114206314,
+      "rewards/margins": 0.5416404008865356,
+      "rewards/rejected": -0.34987324476242065,
+      "step": 3090
+    },
+    {
+      "epoch": 15.69620253164557,
+      "grad_norm": 270643.231235499,
+      "learning_rate": 6.988404888749608e-08,
+      "logits/chosen": 0.49672946333885193,
+      "logits/rejected": 0.9934390187263489,
+      "logps/chosen": -53.964393615722656,
+      "logps/rejected": -592.7462158203125,
+      "loss": 14747.2812,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19860555231571198,
+      "rewards/margins": 0.5442546010017395,
+      "rewards/rejected": -0.3456490635871887,
+      "step": 3100
+    },
+    {
+      "epoch": 15.746835443037975,
+      "grad_norm": 366703.97931916115,
+      "learning_rate": 6.831714196176746e-08,
+      "logits/chosen": -1.272958517074585,
+      "logits/rejected": -1.2677191495895386,
+      "logps/chosen": -46.67731475830078,
+      "logps/rejected": -578.444091796875,
+      "loss": 14561.6719,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19132201373577118,
+      "rewards/margins": 0.5392004251480103,
+      "rewards/rejected": -0.3478783965110779,
+      "step": 3110
+    },
+    {
+      "epoch": 15.79746835443038,
+      "grad_norm": 363431.4061189904,
+      "learning_rate": 6.675023503603886e-08,
+      "logits/chosen": -0.16689462959766388,
+      "logits/rejected": 0.6665533781051636,
+      "logps/chosen": -49.408546447753906,
+      "logps/rejected": -587.0728759765625,
+      "loss": 14602.2328,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1951448619365692,
+      "rewards/margins": 0.538873553276062,
+      "rewards/rejected": -0.3437287211418152,
+      "step": 3120
+    },
+    {
+      "epoch": 15.848101265822784,
+      "grad_norm": 1925815.481070705,
+      "learning_rate": 6.518332811031025e-08,
+      "logits/chosen": -0.1888163536787033,
+      "logits/rejected": -0.3901883661746979,
+      "logps/chosen": -37.012611389160156,
+      "logps/rejected": -553.5242919921875,
+      "loss": 15093.5328,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.18000957369804382,
+      "rewards/margins": 0.5157765746116638,
+      "rewards/rejected": -0.3357670307159424,
+      "step": 3130
+    },
+    {
+      "epoch": 15.89873417721519,
+      "grad_norm": 406865.81368112064,
+      "learning_rate": 6.361642118458163e-08,
+      "logits/chosen": -1.0143232345581055,
+      "logits/rejected": -1.1421440839767456,
+      "logps/chosen": -39.294063568115234,
+      "logps/rejected": -572.8070068359375,
+      "loss": 15857.7219,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18329963088035583,
+      "rewards/margins": 0.5344266891479492,
+      "rewards/rejected": -0.351127028465271,
+      "step": 3140
+    },
+    {
+      "epoch": 15.949367088607595,
+      "grad_norm": 283773.4922827141,
+      "learning_rate": 6.204951425885302e-08,
+      "logits/chosen": 0.45898357033729553,
+      "logits/rejected": 1.1897245645523071,
+      "logps/chosen": -47.45745086669922,
+      "logps/rejected": -564.1045532226562,
+      "loss": 15274.2656,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.17995783686637878,
+      "rewards/margins": 0.516915500164032,
+      "rewards/rejected": -0.3369576930999756,
+      "step": 3150
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 338639.8303682123,
+      "learning_rate": 6.04826073331244e-08,
+      "logits/chosen": -1.1235512495040894,
+      "logits/rejected": 0.0012889147037640214,
+      "logps/chosen": -41.902889251708984,
+      "logps/rejected": -569.4451293945312,
+      "loss": 15055.2062,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18416796624660492,
+      "rewards/margins": 0.5268322825431824,
+      "rewards/rejected": -0.34266436100006104,
+      "step": 3160
     }
   ],
   "logging_steps": 10,