Model save

Browse files

Files changed (5) hide show

README.md +21 -24
adapter_model.safetensors +1 -1
all_results.json +2 -17
train_results.json +2 -2
trainer_state.json +681 -1497

README.md CHANGED Viewed

@@ -2,13 +2,10 @@
 license: apache-2.0
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
-datasets:
-- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: zephyr-7b
   results: []
@@ -19,19 +16,19 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-qlora](https://huggingface.co/alignment-handbook/zephyr-7b-sft-qlora) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6906
-- Rewards/chosen: -0.3413
-- Rewards/rejected: -0.5652
-- Rewards/accuracies: 0.3631
-- Rewards/margins: 0.2239
-- Logps/rejected: -131.9189
-- Logps/chosen: -103.0295
-- Logits/rejected: -0.1381
-- Logits/chosen: -0.2453
-- Use Label: 15879.8574
-- Pred Label: 4192.1431
 ## Model description
@@ -68,15 +65,15 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen | Use Label  | Pred Label |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|:----------:|:----------:|
-| 0.6818        | 0.1   | 100  | 0.6814          | -0.0056        | -0.0496          | 0.3393             | 0.0440          | -80.3582       | -69.4632     | -2.0664         | -2.0975       | 1833.4603  | 22.5397    |
-| 0.6818        | 0.21  | 200  | 0.6861          | -0.1358        | -0.2381          | 0.3373             | 0.1023          | -99.2068       | -82.4782     | -1.9938         | -2.0215       | 3701.2063  | 258.7936   |
-| 0.6848        | 0.31  | 300  | 0.6877          | -0.2068        | -0.3388          | 0.3413             | 0.1320          | -109.2766      | -89.5763     | -1.8828         | -1.9157       | 5437.8730  | 626.1270   |
-| 0.6857        | 0.42  | 400  | 0.6885          | -0.1802        | -0.3299          | 0.3532             | 0.1497          | -108.3913      | -86.9237     | -1.4031         | -1.4529       | 7112.4443  | 1055.5555  |
-| 0.6894        | 0.52  | 500  | 0.6892          | -0.2862        | -0.4559          | 0.3552             | 0.1697          | -120.9922      | -97.5203     | -0.5997         | -0.6889       | 8741.4287  | 1530.5714  |
-| 0.6881        | 0.63  | 600  | 0.6918          | -0.3826        | -0.6059          | 0.3532             | 0.2233          | -135.9845      | -107.1618    | -0.2548         | -0.3579       | 10293.6826 | 2082.3174  |
-| 0.6913        | 0.73  | 700  | 0.6899          | -0.3542        | -0.5787          | 0.3671             | 0.2244          | -133.2637      | -104.3247    | -0.2462         | -0.3470       | 11806.4766 | 2673.5239  |
-| 0.6893        | 0.84  | 800  | 0.6904          | -0.3443        | -0.5684          | 0.3631             | 0.2241          | -132.2416      | -103.3355    | -0.1293         | -0.2367       | 13331.9043 | 3252.0952  |
-| 0.689         | 0.94  | 900  | 0.6907          | -0.3413        | -0.5651          | 0.3631             | 0.2238          | -131.9111      | -103.0301    | -0.1367         | -0.2437       | 14866.4766 | 3821.5239  |
 ### Framework versions

 license: apache-2.0
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
 - name: zephyr-7b
   results: []
 # zephyr-7b
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6918
+- Rewards/chosen: -0.0863
+- Rewards/rejected: -0.1983
+- Rewards/accuracies: 0.3571
+- Rewards/margins: 0.1120
+- Logps/rejected: -95.2291
+- Logps/chosen: -77.5275
+- Logits/rejected: -1.9113
+- Logits/chosen: -1.9391
+- Use Label: 14335.7139
+- Pred Label: 4352.2856
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen | Use Label  | Pred Label |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|:----------:|:----------:|
+| 0.6876        | 0.1   | 100  | 0.6896          | -0.0555        | -0.0989          | 0.3353             | 0.0434          | -85.2883       | -74.4495     | -2.0761         | -2.1076       | 1766.8572  | 89.1429    |
+| 0.6892        | 0.21  | 200  | 0.6894          | -0.0049        | -0.0560          | 0.3492             | 0.0511          | -80.9954       | -69.3876     | -2.0287         | -2.0520       | 3500.8889  | 459.1111   |
+| 0.6904        | 0.31  | 300  | 0.6909          | -0.0625        | -0.1410          | 0.3532             | 0.0785          | -89.5016       | -75.1524     | -1.9943         | -2.0164       | 5140.6826  | 923.3174   |
+| 0.6906        | 0.42  | 400  | 0.6921          | -0.0637        | -0.1541          | 0.3512             | 0.0904          | -90.8064       | -75.2687     | -2.0248         | -2.0481       | 6695.4287  | 1472.5714  |
+| 0.6903        | 0.52  | 500  | 0.6914          | -0.0747        | -0.1726          | 0.3492             | 0.0979          | -92.6561       | -76.3697     | -1.9801         | -2.0071       | 8246.2061  | 2025.7937  |
+| 0.6903        | 0.63  | 600  | 0.6917          | -0.1005        | -0.2047          | 0.3552             | 0.1042          | -95.8670       | -78.9543     | -1.9601         | -1.9870       | 9772.0635  | 2603.9365  |
+| 0.6917        | 0.73  | 700  | 0.6917          | -0.1117        | -0.2224          | 0.3512             | 0.1108          | -97.6411       | -80.0681     | -1.9401         | -1.9659       | 11284.7773 | 3195.2222  |
+| 0.6912        | 0.84  | 800  | 0.6917          | -0.0869        | -0.1981          | 0.3631             | 0.1112          | -95.2089       | -77.5874     | -1.9144         | -1.9422       | 12826.8252 | 3757.1746  |
+| 0.6914        | 0.94  | 900  | 0.6918          | -0.0863        | -0.1983          | 0.3571             | 0.1120          | -95.2291       | -77.5275     | -1.9113         | -1.9391       | 14335.7139 | 4352.2856  |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39226468743b2eef561efc7ded35bd95e31454122bc7f6a650b598ae1273a8d0
 size 671150064

 version https://git-lfs.github.com/spec/v1
+oid sha256:37ff211fdd55e89806d0731a069b1a1347270a24364fedc285bf81c9b757d749
 size 671150064

all_results.json CHANGED Viewed

@@ -1,22 +1,7 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": -0.24525223672389984,
-    "eval_logits/rejected": -0.1380803883075714,
-    "eval_logps/chosen": -103.02954864501953,
-    "eval_logps/rejected": -131.91891479492188,
-    "eval_loss": 0.6906174421310425,
-    "eval_pred_label": 4192.14306640625,
-    "eval_rewards/accuracies": 0.363095223903656,
-    "eval_rewards/chosen": -0.3412899374961853,
-    "eval_rewards/margins": 0.22391849756240845,
-    "eval_rewards/rejected": -0.5652084350585938,
-    "eval_runtime": 247.5585,
-    "eval_samples": 2000,
-    "eval_samples_per_second": 8.079,
-    "eval_steps_per_second": 0.254,
-    "eval_use_label": 15879.857421875,
-    "train_loss": 0.6880922077838039,
-    "train_runtime": 20023.3666,
     "train_samples": 61135,
     "train_samples_per_second": 3.053,
     "train_steps_per_second": 0.048

 {
     "epoch": 1.0,
+    "train_loss": 0.6906769273168754,
+    "train_runtime": 20027.4031,
     "train_samples": 61135,
     "train_samples_per_second": 3.053,
     "train_steps_per_second": 0.048

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.6880922077838039,
-    "train_runtime": 20023.3666,
     "train_samples": 61135,
     "train_samples_per_second": 3.053,
     "train_steps_per_second": 0.048

 {
     "epoch": 1.0,
+    "train_loss": 0.6906769273168754,
+    "train_runtime": 20027.4031,
     "train_samples": 61135,
     "train_samples_per_second": 3.053,
     "train_steps_per_second": 0.048

trainer_state.json CHANGED Viewed

@@ -25,1798 +25,982 @@
       "step": 1,
       "use_label": 10.0
     },
-    {
-      "epoch": 0.01,
-      "grad_norm": 0.60546875,
-      "learning_rate": 5.208333333333334e-07,
-      "logits/chosen": -2.2113068103790283,
-      "logits/rejected": -2.2719719409942627,
-      "logps/chosen": -57.57659149169922,
-      "logps/rejected": -65.19544219970703,
-      "loss": 0.693,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.2152777761220932,
-      "rewards/chosen": 0.001057142741046846,
-      "rewards/margins": 3.17241829179693e-05,
-      "rewards/rejected": 0.001025418401695788,
-      "step": 10,
-      "use_label": 90.0
-    },
     {
       "epoch": 0.02,
       "grad_norm": 0.6796875,
       "learning_rate": 1.0416666666666667e-06,
-      "logits/chosen": -2.243159770965576,
-      "logits/rejected": -2.2802278995513916,
-      "logps/chosen": -56.544715881347656,
-      "logps/rejected": -68.35901641845703,
-      "loss": 0.6924,
       "pred_label": 0.0,
-      "rewards/accuracies": 0.22499999403953552,
-      "rewards/chosen": 0.006556531880050898,
-      "rewards/margins": 0.001379690133035183,
-      "rewards/rejected": 0.005176841747015715,
       "step": 20,
-      "use_label": 242.0
-    },
-    {
-      "epoch": 0.03,
-      "grad_norm": 0.55078125,
-      "learning_rate": 1.5625e-06,
-      "logits/chosen": -2.2634024620056152,
-      "logits/rejected": -2.2475943565368652,
-      "logps/chosen": -53.98667526245117,
-      "logps/rejected": -67.89213562011719,
-      "loss": 0.692,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.2750000059604645,
-      "rewards/chosen": 0.01648966409265995,
-      "rewards/margins": 0.002599921775981784,
-      "rewards/rejected": 0.013889740221202374,
-      "step": 30,
-      "use_label": 402.0
     },
     {
       "epoch": 0.04,
       "grad_norm": 0.6328125,
       "learning_rate": 2.0833333333333334e-06,
-      "logits/chosen": -2.2825467586517334,
-      "logits/rejected": -2.2754693031311035,
-      "logps/chosen": -55.582061767578125,
-      "logps/rejected": -66.59407043457031,
-      "loss": 0.6909,
       "pred_label": 0.0,
-      "rewards/accuracies": 0.21250000596046448,
-      "rewards/chosen": 0.018406417220830917,
-      "rewards/margins": 0.0006764450808987021,
-      "rewards/rejected": 0.017729971557855606,
       "step": 40,
-      "use_label": 562.0
-    },
-    {
-      "epoch": 0.05,
-      "grad_norm": 0.6015625,
-      "learning_rate": 2.604166666666667e-06,
-      "logits/chosen": -2.3444912433624268,
-      "logits/rejected": -2.3341281414031982,
-      "logps/chosen": -69.13630676269531,
-      "logps/rejected": -84.64376831054688,
-      "loss": 0.6889,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.2874999940395355,
-      "rewards/chosen": 0.02657836303114891,
-      "rewards/margins": 0.005359734408557415,
-      "rewards/rejected": 0.021218623965978622,
-      "step": 50,
-      "use_label": 722.0
     },
     {
       "epoch": 0.06,
-      "grad_norm": 0.72265625,
       "learning_rate": 3.125e-06,
-      "logits/chosen": -2.3026936054229736,
-      "logits/rejected": -2.309264659881592,
-      "logps/chosen": -82.00704193115234,
-      "logps/rejected": -90.7305908203125,
-      "loss": 0.6874,
       "pred_label": 0.0,
-      "rewards/accuracies": 0.34375,
-      "rewards/chosen": 0.03688042238354683,
-      "rewards/margins": 0.014220851473510265,
-      "rewards/rejected": 0.02265957184135914,
       "step": 60,
-      "use_label": 882.0
-    },
-    {
-      "epoch": 0.07,
-      "grad_norm": 0.79296875,
-      "learning_rate": 3.6458333333333333e-06,
-      "logits/chosen": -2.344853401184082,
-      "logits/rejected": -2.3261306285858154,
-      "logps/chosen": -77.20336151123047,
-      "logps/rejected": -77.6347885131836,
-      "loss": 0.6851,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.30000001192092896,
-      "rewards/chosen": 0.02531364932656288,
-      "rewards/margins": 0.01608472317457199,
-      "rewards/rejected": 0.009228924289345741,
-      "step": 70,
-      "use_label": 1042.0
     },
     {
       "epoch": 0.08,
-      "grad_norm": 0.80078125,
       "learning_rate": 4.166666666666667e-06,
-      "logits/chosen": -2.241945743560791,
-      "logits/rejected": -2.195178985595703,
-      "logps/chosen": -81.6376953125,
-      "logps/rejected": -89.05104064941406,
-      "loss": 0.6814,
-      "pred_label": 0.9750000238418579,
-      "rewards/accuracies": 0.32499998807907104,
-      "rewards/chosen": 0.004142354242503643,
-      "rewards/margins": 0.025017932057380676,
-      "rewards/rejected": -0.02087557688355446,
       "step": 80,
-      "use_label": 1201.0250244140625
-    },
-    {
-      "epoch": 0.09,
-      "grad_norm": 1.578125,
-      "learning_rate": 4.6875000000000004e-06,
-      "logits/chosen": -2.1907405853271484,
-      "logits/rejected": -2.232959270477295,
-      "logps/chosen": -62.31688690185547,
-      "logps/rejected": -80.38573455810547,
-      "loss": 0.6812,
-      "pred_label": 3.0999999046325684,
-      "rewards/accuracies": 0.33125001192092896,
-      "rewards/chosen": -0.012271342799067497,
-      "rewards/margins": 0.04507603123784065,
-      "rewards/rejected": -0.0573473684489727,
-      "step": 90,
-      "use_label": 1358.9000244140625
     },
     {
       "epoch": 0.1,
-      "grad_norm": 0.796875,
       "learning_rate": 4.9997324926814375e-06,
-      "logits/chosen": -2.132638454437256,
-      "logits/rejected": -2.0995519161224365,
-      "logps/chosen": -76.97563171386719,
-      "logps/rejected": -79.27615356445312,
-      "loss": 0.6818,
-      "pred_label": 7.150000095367432,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": -0.02400936186313629,
-      "rewards/margins": 0.05036945268511772,
-      "rewards/rejected": -0.07437881827354431,
       "step": 100,
-      "use_label": 1514.8499755859375
     },
     {
       "epoch": 0.1,
-      "eval_logits/chosen": -2.097480297088623,
-      "eval_logits/rejected": -2.0663790702819824,
-      "eval_logps/chosen": -69.46318054199219,
-      "eval_logps/rejected": -80.35824584960938,
-      "eval_loss": 0.6813791394233704,
-      "eval_pred_label": 22.539682388305664,
-      "eval_rewards/accuracies": 0.3392857015132904,
-      "eval_rewards/chosen": -0.005626226309686899,
-      "eval_rewards/margins": 0.04397555813193321,
-      "eval_rewards/rejected": -0.04960178583860397,
-      "eval_runtime": 245.3242,
-      "eval_samples_per_second": 8.152,
-      "eval_steps_per_second": 0.257,
-      "eval_use_label": 1833.4603271484375,
       "step": 100
     },
-    {
-      "epoch": 0.12,
-      "grad_norm": 1.1171875,
-      "learning_rate": 4.996723692767927e-06,
-      "logits/chosen": -2.114673137664795,
-      "logits/rejected": -2.094468355178833,
-      "logps/chosen": -63.9236946105957,
-      "logps/rejected": -79.44518280029297,
-      "loss": 0.6827,
-      "pred_label": 34.0,
-      "rewards/accuracies": 0.30000001192092896,
-      "rewards/chosen": -0.02154584601521492,
-      "rewards/margins": 0.04528125748038292,
-      "rewards/rejected": -0.06682710349559784,
-      "step": 110,
-      "use_label": 2152.0
-    },
     {
       "epoch": 0.13,
-      "grad_norm": 1.0390625,
       "learning_rate": 4.9903757462135984e-06,
-      "logits/chosen": -2.2926628589630127,
-      "logits/rejected": -2.177788257598877,
-      "logps/chosen": -83.48246002197266,
-      "logps/rejected": -97.60291290283203,
-      "loss": 0.683,
-      "pred_label": 44.67499923706055,
-      "rewards/accuracies": 0.3062500059604645,
-      "rewards/chosen": -0.0941522866487503,
-      "rewards/margins": 0.06425690650939941,
-      "rewards/rejected": -0.15840919315814972,
       "step": 120,
-      "use_label": 2301.324951171875
-    },
-    {
-      "epoch": 0.14,
-      "grad_norm": 0.546875,
-      "learning_rate": 4.980697142834315e-06,
-      "logits/chosen": -2.0968613624572754,
-      "logits/rejected": -2.1124091148376465,
-      "logps/chosen": -66.370849609375,
-      "logps/rejected": -77.3319320678711,
-      "loss": 0.6845,
-      "pred_label": 57.57500076293945,
-      "rewards/accuracies": 0.2750000059604645,
-      "rewards/chosen": -0.07896758615970612,
-      "rewards/margins": 0.04609644412994385,
-      "rewards/rejected": -0.12506404519081116,
-      "step": 130,
-      "use_label": 2448.425048828125
     },
     {
       "epoch": 0.15,
-      "grad_norm": 0.78515625,
       "learning_rate": 4.967700826904229e-06,
-      "logits/chosen": -2.1041221618652344,
-      "logits/rejected": -2.138929843902588,
-      "logps/chosen": -68.11909484863281,
-      "logps/rejected": -90.16340637207031,
-      "loss": 0.6868,
-      "pred_label": 73.75,
-      "rewards/accuracies": 0.30000001192092896,
-      "rewards/chosen": -0.08846104890108109,
-      "rewards/margins": 0.0647779330611229,
-      "rewards/rejected": -0.15323898196220398,
       "step": 140,
-      "use_label": 2592.25
-    },
-    {
-      "epoch": 0.16,
-      "grad_norm": 1.1015625,
-      "learning_rate": 4.951404179843963e-06,
-      "logits/chosen": -2.1765952110290527,
-      "logits/rejected": -2.125175714492798,
-      "logps/chosen": -54.37804412841797,
-      "logps/rejected": -58.982269287109375,
-      "loss": 0.6809,
-      "pred_label": 91.3499984741211,
-      "rewards/accuracies": 0.30000001192092896,
-      "rewards/chosen": -0.06883221119642258,
-      "rewards/margins": 0.06803621351718903,
-      "rewards/rejected": -0.136868417263031,
-      "step": 150,
-      "use_label": 2734.64990234375
     },
     {
       "epoch": 0.17,
-      "grad_norm": 1.03125,
       "learning_rate": 4.931828996974498e-06,
-      "logits/chosen": -2.2455694675445557,
-      "logits/rejected": -2.213240623474121,
-      "logps/chosen": -94.4081802368164,
-      "logps/rejected": -107.48802185058594,
-      "loss": 0.6857,
-      "pred_label": 115.55000305175781,
-      "rewards/accuracies": 0.35624998807907104,
-      "rewards/chosen": -0.12804970145225525,
-      "rewards/margins": 0.12874242663383484,
-      "rewards/rejected": -0.2567921280860901,
       "step": 160,
-      "use_label": 2870.449951171875
-    },
-    {
-      "epoch": 0.18,
-      "grad_norm": 1.1875,
-      "learning_rate": 4.909001458367867e-06,
-      "logits/chosen": -2.1201233863830566,
-      "logits/rejected": -2.0822367668151855,
-      "logps/chosen": -75.75311279296875,
-      "logps/rejected": -87.55944061279297,
-      "loss": 0.6869,
-      "pred_label": 141.85000610351562,
-      "rewards/accuracies": 0.33125001192092896,
-      "rewards/chosen": -0.1179669052362442,
-      "rewards/margins": 0.09383226186037064,
-      "rewards/rejected": -0.21179917454719543,
-      "step": 170,
-      "use_label": 3004.14990234375
     },
     {
       "epoch": 0.19,
-      "grad_norm": 1.4296875,
       "learning_rate": 4.882952093833628e-06,
-      "logits/chosen": -2.1013779640197754,
-      "logits/rejected": -2.121537685394287,
-      "logps/chosen": -70.6474838256836,
-      "logps/rejected": -89.79743957519531,
-      "loss": 0.685,
-      "pred_label": 161.3249969482422,
-      "rewards/accuracies": 0.33125001192092896,
-      "rewards/chosen": -0.08145526796579361,
-      "rewards/margins": 0.08172430098056793,
-      "rewards/rejected": -0.16317956149578094,
       "step": 180,
-      "use_label": 3144.675048828125
-    },
-    {
-      "epoch": 0.2,
-      "grad_norm": 0.8515625,
-      "learning_rate": 4.853715742087947e-06,
-      "logits/chosen": -2.1533255577087402,
-      "logits/rejected": -2.104222297668457,
-      "logps/chosen": -87.3572998046875,
-      "logps/rejected": -91.95249938964844,
-      "loss": 0.6862,
-      "pred_label": 181.39999389648438,
-      "rewards/accuracies": 0.375,
-      "rewards/chosen": -0.13474301993846893,
-      "rewards/margins": 0.08988693356513977,
-      "rewards/rejected": -0.2246299535036087,
-      "step": 190,
-      "use_label": 3284.60009765625
     },
     {
       "epoch": 0.21,
-      "grad_norm": 0.96875,
       "learning_rate": 4.821331504159906e-06,
-      "logits/chosen": -2.137516736984253,
-      "logits/rejected": -2.13090443611145,
-      "logps/chosen": -94.10081481933594,
-      "logps/rejected": -95.15316009521484,
-      "loss": 0.6818,
-      "pred_label": 205.875,
-      "rewards/accuracies": 0.38749998807907104,
-      "rewards/chosen": -0.14046669006347656,
-      "rewards/margins": 0.07937734574079514,
-      "rewards/rejected": -0.2198440283536911,
       "step": 200,
-      "use_label": 3420.125
     },
     {
       "epoch": 0.21,
-      "eval_logits/chosen": -2.021465301513672,
-      "eval_logits/rejected": -1.9937611818313599,
-      "eval_logps/chosen": -82.4782485961914,
-      "eval_logps/rejected": -99.20675659179688,
-      "eval_loss": 0.6860649585723877,
-      "eval_pred_label": 258.79364013671875,
-      "eval_rewards/accuracies": 0.3373015820980072,
-      "eval_rewards/chosen": -0.13577698171138763,
-      "eval_rewards/margins": 0.10230996459722519,
-      "eval_rewards/rejected": -0.23808695375919342,
-      "eval_runtime": 245.9338,
-      "eval_samples_per_second": 8.132,
-      "eval_steps_per_second": 0.256,
-      "eval_use_label": 3701.206298828125,
       "step": 200
     },
-    {
-      "epoch": 0.22,
-      "grad_norm": 1.1484375,
-      "learning_rate": 4.7858426910973435e-06,
-      "logits/chosen": -2.1574149131774902,
-      "logits/rejected": -2.1307334899902344,
-      "logps/chosen": -77.64894104003906,
-      "logps/rejected": -89.26710510253906,
-      "loss": 0.6828,
-      "pred_label": 313.32501220703125,
-      "rewards/accuracies": 0.3687500059604645,
-      "rewards/chosen": -0.09638272225856781,
-      "rewards/margins": 0.12071452289819717,
-      "rewards/rejected": -0.2170972377061844,
-      "step": 210,
-      "use_label": 3976.675048828125
-    },
     {
       "epoch": 0.23,
-      "grad_norm": 1.40625,
       "learning_rate": 4.747296766042161e-06,
-      "logits/chosen": -2.1187565326690674,
-      "logits/rejected": -2.102626323699951,
-      "logps/chosen": -90.67762756347656,
-      "logps/rejected": -96.60699462890625,
-      "loss": 0.6884,
-      "pred_label": 343.875,
-      "rewards/accuracies": 0.35624998807907104,
-      "rewards/chosen": -0.1462414264678955,
-      "rewards/margins": 0.12368818372488022,
-      "rewards/rejected": -0.2699296176433563,
       "step": 220,
-      "use_label": 4106.125
-    },
-    {
-      "epoch": 0.24,
-      "grad_norm": 1.1484375,
-      "learning_rate": 4.705745280752586e-06,
-      "logits/chosen": -2.1437509059906006,
-      "logits/rejected": -2.084073781967163,
-      "logps/chosen": -90.86326599121094,
-      "logps/rejected": -96.72235870361328,
-      "loss": 0.6875,
-      "pred_label": 378.6000061035156,
-      "rewards/accuracies": 0.35624998807907104,
-      "rewards/chosen": -0.12124122679233551,
-      "rewards/margins": 0.11637073755264282,
-      "rewards/rejected": -0.23761197924613953,
-      "step": 230,
-      "use_label": 4231.39990234375
     },
     {
       "epoch": 0.25,
-      "grad_norm": 0.953125,
       "learning_rate": 4.661243806657256e-06,
-      "logits/chosen": -2.1431565284729004,
-      "logits/rejected": -2.1365227699279785,
-      "logps/chosen": -71.16796875,
-      "logps/rejected": -91.01861572265625,
-      "loss": 0.6846,
-      "pred_label": 403.125,
-      "rewards/accuracies": 0.32499998807907104,
-      "rewards/chosen": -0.07454425096511841,
-      "rewards/margins": 0.09627760201692581,
-      "rewards/rejected": -0.17082183063030243,
       "step": 240,
-      "use_label": 4366.875
-    },
-    {
-      "epoch": 0.26,
-      "grad_norm": 0.890625,
-      "learning_rate": 4.613851860533367e-06,
-      "logits/chosen": -2.1595332622528076,
-      "logits/rejected": -2.183953285217285,
-      "logps/chosen": -71.86934661865234,
-      "logps/rejected": -80.0597152709961,
-      "loss": 0.6844,
-      "pred_label": 422.25,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": -0.06741674989461899,
-      "rewards/margins": 0.08548234403133392,
-      "rewards/rejected": -0.1528991013765335,
-      "step": 250,
-      "use_label": 4507.75
     },
     {
       "epoch": 0.27,
-      "grad_norm": 1.0390625,
       "learning_rate": 4.563632824908252e-06,
-      "logits/chosen": -2.1189560890197754,
-      "logits/rejected": -2.071620464324951,
-      "logps/chosen": -77.1129150390625,
-      "logps/rejected": -101.45845031738281,
-      "loss": 0.6837,
-      "pred_label": 445.79998779296875,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": -0.16171860694885254,
-      "rewards/margins": 0.11343212425708771,
-      "rewards/rejected": -0.27515071630477905,
       "step": 260,
-      "use_label": 4644.2001953125
-    },
-    {
-      "epoch": 0.28,
-      "grad_norm": 1.0703125,
-      "learning_rate": 4.510653863290871e-06,
-      "logits/chosen": -2.1512458324432373,
-      "logits/rejected": -2.164412021636963,
-      "logps/chosen": -91.74055480957031,
-      "logps/rejected": -95.13731384277344,
-      "loss": 0.6883,
-      "pred_label": 470.04998779296875,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": -0.16311386227607727,
-      "rewards/margins": 0.0933571308851242,
-      "rewards/rejected": -0.2564709782600403,
-      "step": 270,
-      "use_label": 4779.9501953125
     },
     {
       "epoch": 0.29,
-      "grad_norm": 0.8828125,
       "learning_rate": 4.454985830346574e-06,
-      "logits/chosen": -2.0734293460845947,
-      "logits/rejected": -2.1033730506896973,
-      "logps/chosen": -76.7903823852539,
-      "logps/rejected": -86.99803161621094,
-      "loss": 0.6858,
-      "pred_label": 494.9750061035156,
-      "rewards/accuracies": 0.29374998807907104,
-      "rewards/chosen": -0.15558014810085297,
-      "rewards/margins": 0.050300367176532745,
-      "rewards/rejected": -0.2058805227279663,
       "step": 280,
-      "use_label": 4915.02490234375
-    },
-    {
-      "epoch": 0.3,
-      "grad_norm": 1.3125,
-      "learning_rate": 4.396703177135262e-06,
-      "logits/chosen": -1.9870249032974243,
-      "logits/rejected": -1.956434965133667,
-      "logps/chosen": -89.98160552978516,
-      "logps/rejected": -99.75212097167969,
-      "loss": 0.6905,
-      "pred_label": 527.0499877929688,
-      "rewards/accuracies": 0.36250001192092896,
-      "rewards/chosen": -0.13706301152706146,
-      "rewards/margins": 0.16557420790195465,
-      "rewards/rejected": -0.3026372492313385,
-      "step": 290,
-      "use_label": 5042.9501953125
     },
     {
       "epoch": 0.31,
-      "grad_norm": 1.6015625,
       "learning_rate": 4.335883851539693e-06,
-      "logits/chosen": -1.9497883319854736,
-      "logits/rejected": -1.964604377746582,
-      "logps/chosen": -68.64933013916016,
-      "logps/rejected": -91.48945617675781,
-      "loss": 0.6848,
-      "pred_label": 561.8499755859375,
-      "rewards/accuracies": 0.33125001192092896,
-      "rewards/chosen": -0.14721202850341797,
-      "rewards/margins": 0.14547064900398254,
-      "rewards/rejected": -0.2926826477050781,
       "step": 300,
-      "use_label": 5168.14990234375
     },
     {
       "epoch": 0.31,
-      "eval_logits/chosen": -1.9156862497329712,
-      "eval_logits/rejected": -1.8827954530715942,
-      "eval_logps/chosen": -89.57630920410156,
-      "eval_logps/rejected": -109.2765884399414,
-      "eval_loss": 0.6877307295799255,
-      "eval_pred_label": 626.1270141601562,
-      "eval_rewards/accuracies": 0.341269850730896,
-      "eval_rewards/chosen": -0.20675767958164215,
-      "eval_rewards/margins": 0.13202756643295288,
-      "eval_rewards/rejected": -0.33878523111343384,
-      "eval_runtime": 246.2269,
-      "eval_samples_per_second": 8.123,
-      "eval_steps_per_second": 0.256,
-      "eval_use_label": 5437.873046875,
       "step": 300
     },
-    {
-      "epoch": 0.32,
-      "grad_norm": 1.5,
-      "learning_rate": 4.2726091940171055e-06,
-      "logits/chosen": -2.043640613555908,
-      "logits/rejected": -2.01674222946167,
-      "logps/chosen": -72.24534606933594,
-      "logps/rejected": -89.407470703125,
-      "loss": 0.6865,
-      "pred_label": 688.9500122070312,
-      "rewards/accuracies": 0.29374998807907104,
-      "rewards/chosen": -0.23255303502082825,
-      "rewards/margins": 0.06651856750249863,
-      "rewards/rejected": -0.29907160997390747,
-      "step": 310,
-      "use_label": 5705.0498046875
-    },
     {
       "epoch": 0.33,
-      "grad_norm": 1.1796875,
       "learning_rate": 4.206963828813555e-06,
-      "logits/chosen": -1.9597671031951904,
-      "logits/rejected": -1.9893718957901,
-      "logps/chosen": -94.37977600097656,
-      "logps/rejected": -118.25643157958984,
-      "loss": 0.6871,
-      "pred_label": 724.375,
-      "rewards/accuracies": 0.36250001192092896,
-      "rewards/chosen": -0.20438706874847412,
-      "rewards/margins": 0.13566336035728455,
-      "rewards/rejected": -0.34005045890808105,
       "step": 320,
-      "use_label": 5829.625
-    },
-    {
-      "epoch": 0.35,
-      "grad_norm": 0.95703125,
-      "learning_rate": 4.139035550786495e-06,
-      "logits/chosen": -1.989506483078003,
-      "logits/rejected": -1.9580066204071045,
-      "logps/chosen": -73.50363159179688,
-      "logps/rejected": -87.75289154052734,
-      "loss": 0.683,
-      "pred_label": 754.4500122070312,
-      "rewards/accuracies": 0.36250001192092896,
-      "rewards/chosen": -0.1003209576010704,
-      "rewards/margins": 0.13466720283031464,
-      "rewards/rejected": -0.23498816788196564,
-      "step": 330,
-      "use_label": 5959.5498046875
     },
     {
       "epoch": 0.36,
-      "grad_norm": 1.0234375,
       "learning_rate": 4.068915207986931e-06,
-      "logits/chosen": -2.0428695678710938,
-      "logits/rejected": -2.016120195388794,
-      "logps/chosen": -74.91081237792969,
-      "logps/rejected": -93.89201354980469,
-      "loss": 0.6894,
-      "pred_label": 786.4749755859375,
       "rewards/accuracies": 0.3375000059604645,
-      "rewards/chosen": -0.11903776973485947,
-      "rewards/margins": 0.11223740875720978,
-      "rewards/rejected": -0.23127520084381104,
       "step": 340,
-      "use_label": 6087.52490234375
-    },
-    {
-      "epoch": 0.37,
-      "grad_norm": 0.984375,
-      "learning_rate": 3.996696580158211e-06,
-      "logits/chosen": -2.0441341400146484,
-      "logits/rejected": -2.0229620933532715,
-      "logps/chosen": -73.9575424194336,
-      "logps/rejected": -86.34129333496094,
-      "loss": 0.6869,
-      "pred_label": 817.5250244140625,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": -0.133123978972435,
-      "rewards/margins": 0.08419892936944962,
-      "rewards/rejected": -0.2173229157924652,
-      "step": 350,
-      "use_label": 6216.47509765625
     },
     {
       "epoch": 0.38,
-      "grad_norm": 1.546875,
       "learning_rate": 3.922476253313921e-06,
-      "logits/chosen": -2.0575146675109863,
-      "logits/rejected": -2.054591417312622,
-      "logps/chosen": -82.88232421875,
-      "logps/rejected": -90.05668640136719,
-      "loss": 0.6863,
-      "pred_label": 848.6500244140625,
-      "rewards/accuracies": 0.3375000059604645,
-      "rewards/chosen": -0.13817565143108368,
-      "rewards/margins": 0.11208128929138184,
-      "rewards/rejected": -0.2502569556236267,
       "step": 360,
-      "use_label": 6345.35009765625
-    },
-    {
-      "epoch": 0.39,
-      "grad_norm": 0.75,
-      "learning_rate": 3.846353490562664e-06,
-      "logits/chosen": -2.076312780380249,
-      "logits/rejected": -1.9995708465576172,
-      "logps/chosen": -85.83981323242188,
-      "logps/rejected": -95.1656723022461,
-      "loss": 0.6844,
-      "pred_label": 880.4249877929688,
-      "rewards/accuracies": 0.3687500059604645,
-      "rewards/chosen": -0.11745607852935791,
-      "rewards/margins": 0.14055705070495605,
-      "rewards/rejected": -0.2580130994319916,
-      "step": 370,
-      "use_label": 6473.5751953125
     },
     {
       "epoch": 0.4,
-      "grad_norm": 0.96484375,
       "learning_rate": 3.768430099352445e-06,
-      "logits/chosen": -2.0079166889190674,
-      "logits/rejected": -1.986297845840454,
-      "logps/chosen": -76.30638122558594,
-      "logps/rejected": -93.93800354003906,
-      "loss": 0.6924,
-      "pred_label": 912.5999755859375,
-      "rewards/accuracies": 0.3062500059604645,
-      "rewards/chosen": -0.1675274670124054,
-      "rewards/margins": 0.08305275440216064,
-      "rewards/rejected": -0.25058022141456604,
       "step": 380,
-      "use_label": 6601.39990234375
-    },
-    {
-      "epoch": 0.41,
-      "grad_norm": 0.97265625,
-      "learning_rate": 3.6888102953122307e-06,
-      "logits/chosen": -1.9291635751724243,
-      "logits/rejected": -1.914608359336853,
-      "logps/chosen": -101.44157409667969,
-      "logps/rejected": -96.10136413574219,
-      "loss": 0.6878,
-      "pred_label": 952.8250122070312,
-      "rewards/accuracies": 0.3187499940395355,
-      "rewards/chosen": -0.1657881736755371,
-      "rewards/margins": 0.12364902347326279,
-      "rewards/rejected": -0.2894372344017029,
-      "step": 390,
-      "use_label": 6721.1748046875
     },
     {
       "epoch": 0.42,
-      "grad_norm": 1.296875,
       "learning_rate": 3.607600562872785e-06,
-      "logits/chosen": -1.8988447189331055,
-      "logits/rejected": -1.8926557302474976,
-      "logps/chosen": -87.97608947753906,
-      "logps/rejected": -108.15446472167969,
-      "loss": 0.6857,
-      "pred_label": 987.5999755859375,
-      "rewards/accuracies": 0.34375,
-      "rewards/chosen": -0.16945099830627441,
-      "rewards/margins": 0.11657001823186874,
-      "rewards/rejected": -0.28602102398872375,
       "step": 400,
-      "use_label": 6846.39990234375
     },
     {
       "epoch": 0.42,
-      "eval_logits/chosen": -1.4529144763946533,
-      "eval_logits/rejected": -1.4031411409378052,
-      "eval_logps/chosen": -86.92367553710938,
-      "eval_logps/rejected": -108.39134979248047,
-      "eval_loss": 0.6884719133377075,
-      "eval_pred_label": 1055.5555419921875,
-      "eval_rewards/accuracies": 0.3531745970249176,
-      "eval_rewards/chosen": -0.18023118376731873,
-      "eval_rewards/margins": 0.14970164000988007,
-      "eval_rewards/rejected": -0.32993283867836,
-      "eval_runtime": 246.35,
-      "eval_samples_per_second": 8.119,
-      "eval_steps_per_second": 0.256,
-      "eval_use_label": 7112.4443359375,
       "step": 400
     },
-    {
-      "epoch": 0.43,
-      "grad_norm": 1.28125,
-      "learning_rate": 3.5249095128531863e-06,
-      "logits/chosen": -1.289879560470581,
-      "logits/rejected": -1.4085474014282227,
-      "logps/chosen": -85.75054168701172,
-      "logps/rejected": -96.24283599853516,
-      "loss": 0.6874,
-      "pred_label": 1135.699951171875,
-      "rewards/accuracies": 0.38749998807907104,
-      "rewards/chosen": -0.21242520213127136,
-      "rewards/margins": 0.17107079923152924,
-      "rewards/rejected": -0.3834960162639618,
-      "step": 410,
-      "use_label": 7362.2998046875
-    },
     {
       "epoch": 0.44,
-      "grad_norm": 0.97265625,
       "learning_rate": 3.4408477372034743e-06,
-      "logits/chosen": -1.2336995601654053,
-      "logits/rejected": -1.1623611450195312,
-      "logps/chosen": -97.20266723632812,
-      "logps/rejected": -117.6893081665039,
-      "loss": 0.6882,
-      "pred_label": 1171.425048828125,
-      "rewards/accuracies": 0.3375000059604645,
-      "rewards/chosen": -0.3355943560600281,
-      "rewards/margins": 0.16045086085796356,
-      "rewards/rejected": -0.49604520201683044,
       "step": 420,
-      "use_label": 7486.5751953125
-    },
-    {
-      "epoch": 0.45,
-      "grad_norm": 1.1484375,
-      "learning_rate": 3.355527661097728e-06,
-      "logits/chosen": -1.3129976987838745,
-      "logits/rejected": -1.2275488376617432,
-      "logps/chosen": -106.88911437988281,
-      "logps/rejected": -112.3751449584961,
-      "loss": 0.6918,
-      "pred_label": 1207.9749755859375,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": -0.3042059540748596,
-      "rewards/margins": 0.13597823679447174,
-      "rewards/rejected": -0.44018417596817017,
-      "step": 430,
-      "use_label": 7610.02490234375
     },
     {
       "epoch": 0.46,
-      "grad_norm": 1.5625,
       "learning_rate": 3.269063392575352e-06,
-      "logits/chosen": -1.3159044981002808,
-      "logits/rejected": -1.413769006729126,
-      "logps/chosen": -90.12797546386719,
-      "logps/rejected": -101.85379028320312,
-      "loss": 0.6858,
-      "pred_label": 1242.5,
       "rewards/accuracies": 0.33125001192092896,
-      "rewards/chosen": -0.22682049870491028,
-      "rewards/margins": 0.159098818898201,
-      "rewards/rejected": -0.3859192728996277,
       "step": 440,
-      "use_label": 7735.5
-    },
-    {
-      "epoch": 0.47,
-      "grad_norm": 1.375,
-      "learning_rate": 3.181570569931697e-06,
-      "logits/chosen": -1.4389588832855225,
-      "logits/rejected": -1.5265202522277832,
-      "logps/chosen": -96.37947845458984,
-      "logps/rejected": -113.1718521118164,
-      "loss": 0.6951,
-      "pred_label": 1281.3499755859375,
-      "rewards/accuracies": 0.3375000059604645,
-      "rewards/chosen": -0.2355901300907135,
-      "rewards/margins": 0.13590970635414124,
-      "rewards/rejected": -0.37149983644485474,
-      "step": 450,
-      "use_label": 7856.64990234375
     },
     {
       "epoch": 0.48,
-      "grad_norm": 1.015625,
       "learning_rate": 3.09316620706208e-06,
-      "logits/chosen": -1.2455997467041016,
-      "logits/rejected": -1.1902601718902588,
-      "logps/chosen": -72.07853698730469,
-      "logps/rejected": -84.86478424072266,
-      "loss": 0.6842,
-      "pred_label": 1311.824951171875,
-      "rewards/accuracies": 0.29374998807907104,
-      "rewards/chosen": -0.1508016437292099,
-      "rewards/margins": 0.1797787994146347,
-      "rewards/rejected": -0.330580472946167,
       "step": 460,
-      "use_label": 7986.1748046875
-    },
-    {
-      "epoch": 0.49,
-      "grad_norm": 1.1015625,
-      "learning_rate": 3.0039685369660785e-06,
-      "logits/chosen": -1.175449252128601,
-      "logits/rejected": -1.0759943723678589,
-      "logps/chosen": -88.91249084472656,
-      "logps/rejected": -110.02799987792969,
-      "loss": 0.6873,
-      "pred_label": 1345.1500244140625,
-      "rewards/accuracies": 0.3687500059604645,
-      "rewards/chosen": -0.22000393271446228,
-      "rewards/margins": 0.1964809000492096,
-      "rewards/rejected": -0.4164848327636719,
-      "step": 470,
-      "use_label": 8112.85009765625
     },
     {
       "epoch": 0.5,
-      "grad_norm": 1.0859375,
       "learning_rate": 2.91409685362137e-06,
-      "logits/chosen": -1.0014227628707886,
-      "logits/rejected": -1.0880533456802368,
-      "logps/chosen": -99.41879272460938,
-      "logps/rejected": -120.02769470214844,
-      "loss": 0.6868,
-      "pred_label": 1391.25,
-      "rewards/accuracies": 0.35624998807907104,
-      "rewards/chosen": -0.24276605248451233,
-      "rewards/margins": 0.17868337035179138,
-      "rewards/rejected": -0.4214494228363037,
       "step": 480,
-      "use_label": 8226.75
-    },
-    {
-      "epoch": 0.51,
-      "grad_norm": 1.4375,
-      "learning_rate": 2.8236713524386085e-06,
-      "logits/chosen": -1.0729541778564453,
-      "logits/rejected": -0.9298813939094543,
-      "logps/chosen": -88.73147583007812,
-      "logps/rejected": -94.53245544433594,
-      "loss": 0.6921,
-      "pred_label": 1428.9000244140625,
-      "rewards/accuracies": 0.26875001192092896,
-      "rewards/chosen": -0.22107498347759247,
-      "rewards/margins": 0.12524999678134918,
-      "rewards/rejected": -0.34632498025894165,
-      "step": 490,
-      "use_label": 8349.099609375
     },
     {
       "epoch": 0.52,
-      "grad_norm": 1.421875,
       "learning_rate": 2.7328129695107205e-06,
-      "logits/chosen": -0.8902079463005066,
-      "logits/rejected": -1.065393090248108,
-      "logps/chosen": -113.58573150634766,
-      "logps/rejected": -131.9083709716797,
-      "loss": 0.6894,
-      "pred_label": 1462.4000244140625,
-      "rewards/accuracies": 0.41874998807907104,
-      "rewards/chosen": -0.37447452545166016,
-      "rewards/margins": 0.17800332605838776,
-      "rewards/rejected": -0.5524778962135315,
       "step": 500,
-      "use_label": 8475.599609375
     },
     {
       "epoch": 0.52,
-      "eval_logits/chosen": -0.6888664960861206,
-      "eval_logits/rejected": -0.5997034311294556,
-      "eval_logps/chosen": -97.52025604248047,
-      "eval_logps/rejected": -120.9921646118164,
-      "eval_loss": 0.6891720294952393,
-      "eval_pred_label": 1530.5714111328125,
-      "eval_rewards/accuracies": 0.3551587164402008,
-      "eval_rewards/chosen": -0.28619715571403503,
-      "eval_rewards/margins": 0.1697438359260559,
-      "eval_rewards/rejected": -0.45594096183776855,
-      "eval_runtime": 246.2759,
-      "eval_samples_per_second": 8.121,
-      "eval_steps_per_second": 0.256,
-      "eval_use_label": 8741.4287109375,
       "step": 500
     },
-    {
-      "epoch": 0.53,
-      "grad_norm": 1.0078125,
-      "learning_rate": 2.641643219871597e-06,
-      "logits/chosen": -0.7708507776260376,
-      "logits/rejected": -0.882653534412384,
-      "logps/chosen": -90.50456237792969,
-      "logps/rejected": -116.84162902832031,
-      "loss": 0.686,
-      "pred_label": 1610.5999755859375,
-      "rewards/accuracies": 0.36250001192092896,
-      "rewards/chosen": -0.2625977396965027,
-      "rewards/margins": 0.20036396384239197,
-      "rewards/rejected": -0.4629616141319275,
-      "step": 510,
-      "use_label": 8991.400390625
-    },
     {
       "epoch": 0.54,
-      "grad_norm": 1.4765625,
       "learning_rate": 2.5502840349805074e-06,
-      "logits/chosen": -0.8800374865531921,
-      "logits/rejected": -1.038163185119629,
-      "logps/chosen": -100.99266052246094,
-      "logps/rejected": -116.75798034667969,
-      "loss": 0.6895,
-      "pred_label": 1653.0,
-      "rewards/accuracies": 0.36250001192092896,
-      "rewards/chosen": -0.2859944701194763,
-      "rewards/margins": 0.15662841498851776,
-      "rewards/rejected": -0.4426229000091553,
       "step": 520,
-      "use_label": 9109.0
-    },
-    {
-      "epoch": 0.55,
-      "grad_norm": 1.3671875,
-      "learning_rate": 2.4588575996495797e-06,
-      "logits/chosen": -0.8304817080497742,
-      "logits/rejected": -0.7847825288772583,
-      "logps/chosen": -105.92545318603516,
-      "logps/rejected": -117.15931701660156,
-      "loss": 0.6895,
-      "pred_label": 1692.175048828125,
-      "rewards/accuracies": 0.36250001192092896,
-      "rewards/chosen": -0.316447913646698,
-      "rewards/margins": 0.17969803512096405,
-      "rewards/rejected": -0.49614596366882324,
-      "step": 530,
-      "use_label": 9229.8251953125
     },
     {
       "epoch": 0.57,
-      "grad_norm": 2.03125,
       "learning_rate": 2.367486188632446e-06,
-      "logits/chosen": -0.67156982421875,
-      "logits/rejected": -0.8070074319839478,
-      "logps/chosen": -112.666748046875,
-      "logps/rejected": -131.92593383789062,
-      "loss": 0.6896,
-      "pred_label": 1734.375,
-      "rewards/accuracies": 0.375,
-      "rewards/chosen": -0.35928016901016235,
-      "rewards/margins": 0.22706659138202667,
-      "rewards/rejected": -0.5863467454910278,
       "step": 540,
-      "use_label": 9347.625
-    },
-    {
-      "epoch": 0.58,
-      "grad_norm": 1.796875,
-      "learning_rate": 2.276292003092593e-06,
-      "logits/chosen": -0.7944391369819641,
-      "logits/rejected": -0.7596977353096008,
-      "logps/chosen": -107.38740539550781,
-      "logps/rejected": -111.28292083740234,
-      "loss": 0.6887,
-      "pred_label": 1775.7249755859375,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": -0.3932684063911438,
-      "rewards/margins": 0.12325477600097656,
-      "rewards/rejected": -0.5165232419967651,
-      "step": 550,
-      "use_label": 9466.275390625
     },
     {
       "epoch": 0.59,
-      "grad_norm": 1.3515625,
       "learning_rate": 2.1853970071701415e-06,
-      "logits/chosen": -0.7152852416038513,
-      "logits/rejected": -0.7174454927444458,
-      "logps/chosen": -104.6649398803711,
-      "logps/rejected": -117.61528015136719,
-      "loss": 0.6901,
-      "pred_label": 1814.375,
-      "rewards/accuracies": 0.32499998807907104,
-      "rewards/chosen": -0.3510952889919281,
-      "rewards/margins": 0.15508435666561127,
-      "rewards/rejected": -0.5061796307563782,
       "step": 560,
-      "use_label": 9587.625
-    },
-    {
-      "epoch": 0.6,
-      "grad_norm": 2.125,
-      "learning_rate": 2.0949227648656194e-06,
-      "logits/chosen": -0.925454318523407,
-      "logits/rejected": -0.849765956401825,
-      "logps/chosen": -100.53346252441406,
-      "logps/rejected": -131.70309448242188,
-      "loss": 0.6872,
-      "pred_label": 1852.2249755859375,
-      "rewards/accuracies": 0.375,
-      "rewards/chosen": -0.3393338620662689,
-      "rewards/margins": 0.23398590087890625,
-      "rewards/rejected": -0.5733197927474976,
-      "step": 570,
-      "use_label": 9709.775390625
     },
     {
       "epoch": 0.61,
-      "grad_norm": 1.15625,
       "learning_rate": 2.00499027745888e-06,
-      "logits/chosen": -0.7680953145027161,
-      "logits/rejected": -0.8566532135009766,
-      "logps/chosen": -111.98583984375,
-      "logps/rejected": -131.1743927001953,
-      "loss": 0.6879,
-      "pred_label": 1893.7750244140625,
-      "rewards/accuracies": 0.34375,
-      "rewards/chosen": -0.37074294686317444,
-      "rewards/margins": 0.1566895693540573,
-      "rewards/rejected": -0.5274325013160706,
       "step": 580,
-      "use_label": 9828.224609375
-    },
-    {
-      "epoch": 0.62,
-      "grad_norm": 1.1171875,
-      "learning_rate": 1.915719821680624e-06,
-      "logits/chosen": -0.8080962300300598,
-      "logits/rejected": -0.7905328869819641,
-      "logps/chosen": -125.2184066772461,
-      "logps/rejected": -148.79432678222656,
-      "loss": 0.6891,
-      "pred_label": 1939.25,
-      "rewards/accuracies": 0.40625,
-      "rewards/chosen": -0.4552985727787018,
-      "rewards/margins": 0.22290782630443573,
-      "rewards/rejected": -0.6782063245773315,
-      "step": 590,
-      "use_label": 9942.75
     },
     {
       "epoch": 0.63,
-      "grad_norm": 1.9609375,
       "learning_rate": 1.8272307888529276e-06,
-      "logits/chosen": -0.5244548320770264,
-      "logits/rejected": -0.7590290904045105,
-      "logps/chosen": -122.6807632446289,
-      "logps/rejected": -162.36203002929688,
-      "loss": 0.6881,
-      "pred_label": 1992.0,
-      "rewards/accuracies": 0.42500001192092896,
-      "rewards/chosen": -0.48354387283325195,
-      "rewards/margins": 0.23392179608345032,
-      "rewards/rejected": -0.7174656391143799,
       "step": 600,
-      "use_label": 10050.0
     },
     {
       "epoch": 0.63,
-      "eval_logits/chosen": -0.35794487595558167,
-      "eval_logits/rejected": -0.2547617554664612,
-      "eval_logps/chosen": -107.16178131103516,
-      "eval_logps/rejected": -135.9844512939453,
-      "eval_loss": 0.6918326616287231,
-      "eval_pred_label": 2082.3173828125,
-      "eval_rewards/accuracies": 0.3531745970249176,
-      "eval_rewards/chosen": -0.3826123774051666,
-      "eval_rewards/margins": 0.22325147688388824,
-      "eval_rewards/rejected": -0.6058638095855713,
-      "eval_runtime": 248.3104,
-      "eval_samples_per_second": 8.054,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 10293.6826171875,
       "step": 600
     },
-    {
-      "epoch": 0.64,
-      "grad_norm": 1.515625,
-      "learning_rate": 1.739641525213929e-06,
-      "logits/chosen": -0.572044312953949,
-      "logits/rejected": -0.654716432094574,
-      "logps/chosen": -95.46563720703125,
-      "logps/rejected": -132.0639190673828,
-      "loss": 0.6926,
-      "pred_label": 2185.449951171875,
-      "rewards/accuracies": 0.33125001192092896,
-      "rewards/chosen": -0.3655874729156494,
-      "rewards/margins": 0.21378450095653534,
-      "rewards/rejected": -0.579371988773346,
-      "step": 610,
-      "use_label": 10520.5498046875
-    },
     {
       "epoch": 0.65,
-      "grad_norm": 1.0859375,
       "learning_rate": 1.6530691736402317e-06,
-      "logits/chosen": -0.7425838708877563,
-      "logits/rejected": -0.7612688541412354,
-      "logps/chosen": -98.45491790771484,
-      "logps/rejected": -139.22779846191406,
-      "loss": 0.6874,
-      "pred_label": 2228.10009765625,
-      "rewards/accuracies": 0.39375001192092896,
-      "rewards/chosen": -0.3674684762954712,
-      "rewards/margins": 0.22383132576942444,
-      "rewards/rejected": -0.591299831867218,
       "step": 620,
-      "use_label": 10637.900390625
-    },
-    {
-      "epoch": 0.66,
-      "grad_norm": 1.34375,
-      "learning_rate": 1.5676295169786864e-06,
-      "logits/chosen": -0.5626051425933838,
-      "logits/rejected": -0.7373117208480835,
-      "logps/chosen": -109.76419830322266,
-      "logps/rejected": -132.89573669433594,
-      "loss": 0.6861,
-      "pred_label": 2268.074951171875,
-      "rewards/accuracies": 0.35624998807907104,
-      "rewards/chosen": -0.3673921525478363,
-      "rewards/margins": 0.2162620723247528,
-      "rewards/rejected": -0.5836542844772339,
-      "step": 630,
-      "use_label": 10757.9248046875
     },
     {
       "epoch": 0.67,
-      "grad_norm": 1.2578125,
       "learning_rate": 1.4834368231970922e-06,
-      "logits/chosen": -0.70842045545578,
-      "logits/rejected": -0.5356844663619995,
-      "logps/chosen": -115.94453430175781,
-      "logps/rejected": -132.53977966308594,
-      "loss": 0.6881,
-      "pred_label": 2312.199951171875,
-      "rewards/accuracies": 0.38749998807907104,
-      "rewards/chosen": -0.4425238072872162,
-      "rewards/margins": 0.23113970458507538,
-      "rewards/rejected": -0.6736636161804199,
       "step": 640,
-      "use_label": 10873.7998046875
-    },
-    {
-      "epoch": 0.68,
-      "grad_norm": 1.5,
-      "learning_rate": 1.4006036925609245e-06,
-      "logits/chosen": -0.7530516386032104,
-      "logits/rejected": -0.39667490124702454,
-      "logps/chosen": -117.97354888916016,
-      "logps/rejected": -148.5204620361328,
-      "loss": 0.6907,
-      "pred_label": 2364.60009765625,
-      "rewards/accuracies": 0.35624998807907104,
-      "rewards/chosen": -0.4478411078453064,
-      "rewards/margins": 0.25875502824783325,
-      "rewards/rejected": -0.7065961956977844,
-      "step": 650,
-      "use_label": 10981.400390625
     },
     {
       "epoch": 0.69,
-      "grad_norm": 1.2109375,
       "learning_rate": 1.3192409070404582e-06,
-      "logits/chosen": -0.4164413511753082,
-      "logits/rejected": -0.5387105345726013,
-      "logps/chosen": -93.08172607421875,
-      "logps/rejected": -106.9631576538086,
-      "loss": 0.6884,
-      "pred_label": 2410.39990234375,
-      "rewards/accuracies": 0.3062500059604645,
-      "rewards/chosen": -0.3495523929595947,
-      "rewards/margins": 0.1542079746723175,
-      "rewards/rejected": -0.5037603378295898,
       "step": 660,
-      "use_label": 11095.599609375
-    },
-    {
-      "epoch": 0.7,
-      "grad_norm": 1.515625,
-      "learning_rate": 1.2394572821496953e-06,
-      "logits/chosen": -0.9564473032951355,
-      "logits/rejected": -1.0122594833374023,
-      "logps/chosen": -100.20994567871094,
-      "logps/rejected": -121.32554626464844,
-      "loss": 0.6935,
-      "pred_label": 2446.14990234375,
-      "rewards/accuracies": 0.34375,
-      "rewards/chosen": -0.3450331687927246,
-      "rewards/margins": 0.19006122648715973,
-      "rewards/rejected": -0.5350943803787231,
-      "step": 670,
-      "use_label": 11219.849609375
     },
     {
       "epoch": 0.71,
-      "grad_norm": 1.546875,
       "learning_rate": 1.1613595214152713e-06,
-      "logits/chosen": -0.588452935218811,
-      "logits/rejected": -0.6323766708374023,
-      "logps/chosen": -125.20991516113281,
-      "logps/rejected": -139.94993591308594,
-      "loss": 0.6902,
-      "pred_label": 2485.10009765625,
-      "rewards/accuracies": 0.38749998807907104,
-      "rewards/chosen": -0.3915707468986511,
-      "rewards/margins": 0.19166378676891327,
-      "rewards/rejected": -0.5832345485687256,
       "step": 680,
-      "use_label": 11340.900390625
-    },
-    {
-      "epoch": 0.72,
-      "grad_norm": 1.578125,
-      "learning_rate": 1.0850520736699362e-06,
-      "logits/chosen": -0.6506579518318176,
-      "logits/rejected": -0.7167869806289673,
-      "logps/chosen": -144.53038024902344,
-      "logps/rejected": -167.38192749023438,
-      "loss": 0.6898,
-      "pred_label": 2534.75,
-      "rewards/accuracies": 0.39375001192092896,
-      "rewards/chosen": -0.42825189232826233,
-      "rewards/margins": 0.28569427132606506,
-      "rewards/rejected": -0.7139460444450378,
-      "step": 690,
-      "use_label": 11451.25
     },
     {
       "epoch": 0.73,
-      "grad_norm": 1.59375,
       "learning_rate": 1.0106369933615043e-06,
-      "logits/chosen": -0.8556931614875793,
-      "logits/rejected": -0.6913198232650757,
-      "logps/chosen": -105.3968505859375,
-      "logps/rejected": -124.95710754394531,
-      "loss": 0.6913,
-      "pred_label": 2580.824951171875,
-      "rewards/accuracies": 0.3375000059604645,
-      "rewards/chosen": -0.39049768447875977,
-      "rewards/margins": 0.17418017983436584,
-      "rewards/rejected": -0.564677894115448,
       "step": 700,
-      "use_label": 11565.1748046875
     },
     {
       "epoch": 0.73,
-      "eval_logits/chosen": -0.3469957709312439,
-      "eval_logits/rejected": -0.24619349837303162,
-      "eval_logps/chosen": -104.32471466064453,
-      "eval_logps/rejected": -133.26370239257812,
-      "eval_loss": 0.6898515224456787,
-      "eval_pred_label": 2673.52392578125,
-      "eval_rewards/accuracies": 0.3670634925365448,
-      "eval_rewards/chosen": -0.35424166917800903,
-      "eval_rewards/margins": 0.22441466152668,
-      "eval_rewards/rejected": -0.5786563754081726,
-      "eval_runtime": 248.2749,
-      "eval_samples_per_second": 8.056,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 11806.4765625,
       "step": 700
     },
-    {
-      "epoch": 0.74,
-      "grad_norm": 1.03125,
-      "learning_rate": 9.382138040640714e-07,
-      "logits/chosen": -0.6519032716751099,
-      "logits/rejected": -0.637380063533783,
-      "logps/chosen": -102.23021697998047,
-      "logps/rejected": -127.60137939453125,
-      "loss": 0.6903,
-      "pred_label": 2771.699951171875,
-      "rewards/accuracies": 0.3499999940395355,
-      "rewards/chosen": -0.3915974497795105,
-      "rewards/margins": 0.21561889350414276,
-      "rewards/rejected": -0.6072162985801697,
-      "step": 710,
-      "use_label": 12038.2998046875
-    },
     {
       "epoch": 0.75,
-      "grad_norm": 1.609375,
       "learning_rate": 8.678793653740633e-07,
-      "logits/chosen": -0.6509895324707031,
-      "logits/rejected": -0.6935362815856934,
-      "logps/chosen": -87.30061340332031,
-      "logps/rejected": -114.2796630859375,
-      "loss": 0.6903,
-      "pred_label": 2811.47509765625,
-      "rewards/accuracies": 0.29374998807907104,
-      "rewards/chosen": -0.30430155992507935,
-      "rewards/margins": 0.18221500515937805,
-      "rewards/rejected": -0.486516535282135,
       "step": 720,
-      "use_label": 12158.525390625
-    },
-    {
-      "epoch": 0.76,
-      "grad_norm": 2.21875,
-      "learning_rate": 7.997277433690984e-07,
-      "logits/chosen": -0.6035222411155701,
-      "logits/rejected": -0.65208500623703,
-      "logps/chosen": -100.17440032958984,
-      "logps/rejected": -119.87808990478516,
-      "loss": 0.6865,
-      "pred_label": 2850.0,
-      "rewards/accuracies": 0.35624998807907104,
-      "rewards/chosen": -0.2982019782066345,
-      "rewards/margins": 0.2585477828979492,
-      "rewards/rejected": -0.5567497611045837,
-      "step": 730,
-      "use_label": 12280.0
     },
     {
       "epoch": 0.77,
-      "grad_norm": 0.80859375,
       "learning_rate": 7.338500848029603e-07,
-      "logits/chosen": -0.4770827293395996,
-      "logits/rejected": -0.5081530213356018,
-      "logps/chosen": -94.86068725585938,
-      "logps/rejected": -116.67037200927734,
-      "loss": 0.6916,
-      "pred_label": 2886.125,
-      "rewards/accuracies": 0.28125,
-      "rewards/chosen": -0.34235304594039917,
-      "rewards/margins": 0.19017408788204193,
-      "rewards/rejected": -0.5325270891189575,
       "step": 740,
-      "use_label": 12403.875
-    },
-    {
-      "epoch": 0.79,
-      "grad_norm": 1.1015625,
-      "learning_rate": 6.70334495204884e-07,
-      "logits/chosen": -0.5357509851455688,
-      "logits/rejected": -0.594279408454895,
-      "logps/chosen": -119.76139831542969,
-      "logps/rejected": -145.1709747314453,
-      "loss": 0.6905,
-      "pred_label": 2929.22509765625,
-      "rewards/accuracies": 0.35624998807907104,
-      "rewards/chosen": -0.4223107397556305,
-      "rewards/margins": 0.18705633282661438,
-      "rewards/rejected": -0.6093670725822449,
-      "step": 750,
-      "use_label": 12520.775390625
     },
     {
       "epoch": 0.8,
-      "grad_norm": 1.1640625,
       "learning_rate": 6.092659210462232e-07,
-      "logits/chosen": -0.6737512350082397,
-      "logits/rejected": -0.6523575186729431,
-      "logps/chosen": -86.640625,
-      "logps/rejected": -124.01812744140625,
-      "loss": 0.6899,
-      "pred_label": 2976.050048828125,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": -0.32672789692878723,
-      "rewards/margins": 0.1930442750453949,
-      "rewards/rejected": -0.5197721719741821,
       "step": 760,
-      "use_label": 12633.9501953125
-    },
-    {
-      "epoch": 0.81,
-      "grad_norm": 1.4375,
-      "learning_rate": 5.507260361320738e-07,
-      "logits/chosen": -0.6238114833831787,
-      "logits/rejected": -0.6686199307441711,
-      "logps/chosen": -127.0525131225586,
-      "logps/rejected": -142.44747924804688,
-      "loss": 0.689,
-      "pred_label": 3021.85009765625,
-      "rewards/accuracies": 0.39375001192092896,
-      "rewards/chosen": -0.43505221605300903,
-      "rewards/margins": 0.25210094451904297,
-      "rewards/rejected": -0.687153160572052,
-      "step": 770,
-      "use_label": 12748.150390625
     },
     {
       "epoch": 0.82,
-      "grad_norm": 1.7578125,
       "learning_rate": 4.947931323697983e-07,
-      "logits/chosen": -0.6369722485542297,
-      "logits/rejected": -0.7722553014755249,
-      "logps/chosen": -112.76126861572266,
-      "logps/rejected": -133.56796264648438,
-      "loss": 0.6915,
-      "pred_label": 3075.72509765625,
-      "rewards/accuracies": 0.36250001192092896,
-      "rewards/chosen": -0.3996170461177826,
-      "rewards/margins": 0.22261002659797668,
-      "rewards/rejected": -0.6222270727157593,
       "step": 780,
-      "use_label": 12854.275390625
-    },
-    {
-      "epoch": 0.83,
-      "grad_norm": 1.421875,
-      "learning_rate": 4.4154201506053985e-07,
-      "logits/chosen": -0.5256940126419067,
-      "logits/rejected": -0.467402845621109,
-      "logps/chosen": -95.73258209228516,
-      "logps/rejected": -103.3360366821289,
-      "loss": 0.6917,
-      "pred_label": 3123.85009765625,
-      "rewards/accuracies": 0.32499998807907104,
-      "rewards/chosen": -0.30898317694664,
-      "rewards/margins": 0.2029590606689453,
-      "rewards/rejected": -0.5119422674179077,
-      "step": 790,
-      "use_label": 12966.150390625
     },
     {
       "epoch": 0.84,
-      "grad_norm": 1.359375,
       "learning_rate": 3.910439028537638e-07,
-      "logits/chosen": -0.6677756905555725,
-      "logits/rejected": -0.607046902179718,
-      "logps/chosen": -92.61612701416016,
-      "logps/rejected": -115.20296478271484,
-      "loss": 0.6893,
-      "pred_label": 3166.449951171875,
-      "rewards/accuracies": 0.3499999940395355,
-      "rewards/chosen": -0.3256850242614746,
-      "rewards/margins": 0.20536477863788605,
-      "rewards/rejected": -0.5310498476028442,
       "step": 800,
-      "use_label": 13083.5498046875
     },
     {
       "epoch": 0.84,
-      "eval_logits/chosen": -0.23666124045848846,
-      "eval_logits/rejected": -0.1293245106935501,
-      "eval_logps/chosen": -103.33552551269531,
-      "eval_logps/rejected": -132.24159240722656,
-      "eval_loss": 0.6903889179229736,
-      "eval_pred_label": 3252.09521484375,
       "eval_rewards/accuracies": 0.363095223903656,
-      "eval_rewards/chosen": -0.34434974193573,
-      "eval_rewards/margins": 0.22408555448055267,
-      "eval_rewards/rejected": -0.5684353113174438,
-      "eval_runtime": 248.2839,
-      "eval_samples_per_second": 8.055,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 13331.904296875,
       "step": 800
     },
-    {
-      "epoch": 0.85,
-      "grad_norm": 1.3828125,
-      "learning_rate": 3.4336633249862084e-07,
-      "logits/chosen": -0.6630854606628418,
-      "logits/rejected": -0.6445407867431641,
-      "logps/chosen": -108.18148040771484,
-      "logps/rejected": -135.99142456054688,
-      "loss": 0.6901,
-      "pred_label": 3350.35009765625,
-      "rewards/accuracies": 0.34375,
-      "rewards/chosen": -0.3832666873931885,
-      "rewards/margins": 0.1908622682094574,
-      "rewards/rejected": -0.5741289258003235,
-      "step": 810,
-      "use_label": 13563.650390625
-    },
     {
       "epoch": 0.86,
-      "grad_norm": 1.3359375,
       "learning_rate": 2.98573068519539e-07,
-      "logits/chosen": -0.6042599081993103,
-      "logits/rejected": -0.6371781826019287,
-      "logps/chosen": -94.31297302246094,
-      "logps/rejected": -101.22802734375,
-      "loss": 0.689,
-      "pred_label": 3393.47509765625,
-      "rewards/accuracies": 0.29374998807907104,
-      "rewards/chosen": -0.3432285487651825,
-      "rewards/margins": 0.13310988247394562,
-      "rewards/rejected": -0.4763384461402893,
       "step": 820,
-      "use_label": 13680.525390625
-    },
-    {
-      "epoch": 0.87,
-      "grad_norm": 1.484375,
-      "learning_rate": 2.5672401793681854e-07,
-      "logits/chosen": -0.5476540923118591,
-      "logits/rejected": -0.43125781416893005,
-      "logps/chosen": -86.91058349609375,
-      "logps/rejected": -110.5887222290039,
-      "loss": 0.6923,
-      "pred_label": 3435.074951171875,
-      "rewards/accuracies": 0.36250001192092896,
-      "rewards/chosen": -0.2886909246444702,
-      "rewards/margins": 0.25071993470191956,
-      "rewards/rejected": -0.5394108295440674,
-      "step": 830,
-      "use_label": 13798.9248046875
     },
     {
       "epoch": 0.88,
-      "grad_norm": 1.9296875,
       "learning_rate": 2.178751501463036e-07,
-      "logits/chosen": -0.5565081834793091,
-      "logits/rejected": -0.6612057685852051,
-      "logps/chosen": -89.98490142822266,
-      "logps/rejected": -93.48139953613281,
       "loss": 0.6915,
-      "pred_label": 3471.35009765625,
-      "rewards/accuracies": 0.24375000596046448,
-      "rewards/chosen": -0.306854248046875,
-      "rewards/margins": 0.09164027869701385,
-      "rewards/rejected": -0.39849454164505005,
       "step": 840,
-      "use_label": 13922.650390625
-    },
-    {
-      "epoch": 0.89,
-      "grad_norm": 1.359375,
-      "learning_rate": 1.820784220652766e-07,
-      "logits/chosen": -0.6778563261032104,
-      "logits/rejected": -0.73534095287323,
-      "logps/chosen": -120.2663345336914,
-      "logps/rejected": -149.02294921875,
-      "loss": 0.6854,
-      "pred_label": 3509.0,
-      "rewards/accuracies": 0.41874998807907104,
-      "rewards/chosen": -0.36049091815948486,
-      "rewards/margins": 0.2984590530395508,
-      "rewards/rejected": -0.6589499711990356,
-      "step": 850,
-      "use_label": 14045.0
     },
     {
       "epoch": 0.9,
-      "grad_norm": 1.796875,
       "learning_rate": 1.4938170864468636e-07,
-      "logits/chosen": -0.5929479002952576,
-      "logits/rejected": -0.48117414116859436,
-      "logps/chosen": -115.10990142822266,
-      "logps/rejected": -133.1912841796875,
-      "loss": 0.6892,
-      "pred_label": 3556.324951171875,
-      "rewards/accuracies": 0.3812499940395355,
-      "rewards/chosen": -0.33908045291900635,
-      "rewards/margins": 0.23609444499015808,
-      "rewards/rejected": -0.5751749277114868,
       "step": 860,
-      "use_label": 14157.6748046875
-    },
-    {
-      "epoch": 0.91,
-      "grad_norm": 1.7578125,
-      "learning_rate": 1.1982873884064466e-07,
-      "logits/chosen": -0.6633087992668152,
-      "logits/rejected": -0.6678288578987122,
-      "logps/chosen": -117.92154693603516,
-      "logps/rejected": -145.3701171875,
-      "loss": 0.6893,
-      "pred_label": 3603.75,
-      "rewards/accuracies": 0.375,
-      "rewards/chosen": -0.3660942316055298,
-      "rewards/margins": 0.2644110918045044,
-      "rewards/rejected": -0.6305053234100342,
-      "step": 870,
-      "use_label": 14270.25
     },
     {
       "epoch": 0.92,
-      "grad_norm": 0.87890625,
       "learning_rate": 9.345903713082305e-08,
-      "logits/chosen": -0.5895944237709045,
-      "logits/rejected": -0.5510295629501343,
-      "logps/chosen": -96.94719696044922,
-      "logps/rejected": -141.16554260253906,
-      "loss": 0.6891,
-      "pred_label": 3651.0,
-      "rewards/accuracies": 0.4312500059604645,
-      "rewards/chosen": -0.3419613242149353,
-      "rewards/margins": 0.32287630438804626,
-      "rewards/rejected": -0.6648377180099487,
       "step": 880,
-      "use_label": 14383.0
-    },
-    {
-      "epoch": 0.93,
-      "grad_norm": 1.6484375,
-      "learning_rate": 7.030787065396866e-08,
-      "logits/chosen": -0.5159703493118286,
-      "logits/rejected": -0.5519541501998901,
-      "logps/chosen": -96.9026107788086,
-      "logps/rejected": -120.7626724243164,
-      "loss": 0.693,
-      "pred_label": 3690.675048828125,
-      "rewards/accuracies": 0.28125,
-      "rewards/chosen": -0.3307461142539978,
-      "rewards/margins": 0.1426464170217514,
-      "rewards/rejected": -0.4733925461769104,
-      "step": 890,
-      "use_label": 14503.3251953125
     },
     {
       "epoch": 0.94,
-      "grad_norm": 1.9609375,
       "learning_rate": 5.0406202043228604e-08,
-      "logits/chosen": -0.2721698582172394,
-      "logits/rejected": -0.407818466424942,
-      "logps/chosen": -104.2662582397461,
-      "logps/rejected": -149.70314025878906,
-      "loss": 0.689,
-      "pred_label": 3732.824951171875,
-      "rewards/accuracies": 0.39375001192092896,
-      "rewards/chosen": -0.3485477864742279,
-      "rewards/margins": 0.2633667290210724,
-      "rewards/rejected": -0.6119145154953003,
       "step": 900,
-      "use_label": 14621.1748046875
     },
     {
       "epoch": 0.94,
-      "eval_logits/chosen": -0.2437347173690796,
-      "eval_logits/rejected": -0.13671822845935822,
-      "eval_logps/chosen": -103.0300521850586,
-      "eval_logps/rejected": -131.91110229492188,
-      "eval_loss": 0.6907457709312439,
-      "eval_pred_label": 3821.52392578125,
-      "eval_rewards/accuracies": 0.363095223903656,
-      "eval_rewards/chosen": -0.3412950336933136,
-      "eval_rewards/margins": 0.22383520007133484,
-      "eval_rewards/rejected": -0.5651301741600037,
-      "eval_runtime": 248.2504,
-      "eval_samples_per_second": 8.056,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 14866.4765625,
       "step": 900
     },
-    {
-      "epoch": 0.95,
-      "grad_norm": 1.171875,
-      "learning_rate": 3.378064801637687e-08,
-      "logits/chosen": -0.5370496511459351,
-      "logits/rejected": -0.5028234720230103,
-      "logps/chosen": -89.67744445800781,
-      "logps/rejected": -113.96895599365234,
-      "loss": 0.6882,
-      "pred_label": 3916.52490234375,
-      "rewards/accuracies": 0.3187499940395355,
-      "rewards/chosen": -0.2901899218559265,
-      "rewards/margins": 0.2133828103542328,
-      "rewards/rejected": -0.5035727024078369,
-      "step": 910,
-      "use_label": 15101.474609375
-    },
     {
       "epoch": 0.96,
-      "grad_norm": 1.3125,
       "learning_rate": 2.0453443778310766e-08,
-      "logits/chosen": -0.43033066391944885,
-      "logits/rejected": -0.4173038899898529,
-      "logps/chosen": -80.09765625,
-      "logps/rejected": -120.93513488769531,
-      "loss": 0.6934,
-      "pred_label": 3958.0,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": -0.26141807436943054,
-      "rewards/margins": 0.23344416916370392,
-      "rewards/rejected": -0.49486222863197327,
       "step": 920,
-      "use_label": 15220.0
-    },
-    {
-      "epoch": 0.97,
-      "grad_norm": 2.109375,
-      "learning_rate": 1.0442413283435759e-08,
-      "logits/chosen": -0.4513850212097168,
-      "logits/rejected": -0.5099025964736938,
-      "logps/chosen": -92.44239807128906,
-      "logps/rejected": -119.61177062988281,
-      "loss": 0.6878,
-      "pred_label": 3998.60009765625,
-      "rewards/accuracies": 0.33125001192092896,
-      "rewards/chosen": -0.29288578033447266,
-      "rewards/margins": 0.20934204757213593,
-      "rewards/rejected": -0.502227783203125,
-      "step": 930,
-      "use_label": 15339.400390625
     },
     {
       "epoch": 0.98,
-      "grad_norm": 1.25,
       "learning_rate": 3.760945397705828e-09,
-      "logits/chosen": -0.3625331521034241,
-      "logits/rejected": -0.5358187556266785,
-      "logps/chosen": -103.41780090332031,
-      "logps/rejected": -130.23828125,
-      "loss": 0.691,
-      "pred_label": 4038.60009765625,
-      "rewards/accuracies": 0.3187499940395355,
-      "rewards/chosen": -0.34467238187789917,
-      "rewards/margins": 0.18087737262248993,
-      "rewards/rejected": -0.5255497694015503,
       "step": 940,
-      "use_label": 15459.400390625
-    },
-    {
-      "epoch": 0.99,
-      "grad_norm": 1.59375,
-      "learning_rate": 4.1797599220405605e-10,
-      "logits/chosen": -0.674268901348114,
-      "logits/rejected": -0.7018919587135315,
-      "logps/chosen": -114.91938781738281,
-      "logps/rejected": -133.3175506591797,
-      "loss": 0.6895,
-      "pred_label": 4082.625,
-      "rewards/accuracies": 0.33125001192092896,
-      "rewards/chosen": -0.3830910325050354,
-      "rewards/margins": 0.1591145098209381,
-      "rewards/rejected": -0.5422054529190063,
-      "step": 950,
-      "use_label": 15575.375
     },
     {
       "epoch": 1.0,
       "step": 955,
       "total_flos": 0.0,
-      "train_loss": 0.6880922077838039,
-      "train_runtime": 20023.3666,
       "train_samples_per_second": 3.053,
       "train_steps_per_second": 0.048
     }
   ],
-  "logging_steps": 10,
   "max_steps": 955,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 50,
   "total_flos": 0.0,
   "train_batch_size": 4,
   "trial_name": null,

       "step": 1,
       "use_label": 10.0
     },
     {
       "epoch": 0.02,
       "grad_norm": 0.6796875,
       "learning_rate": 1.0416666666666667e-06,
+      "logits/chosen": -2.2281553745269775,
+      "logits/rejected": -2.276446580886841,
+      "logps/chosen": -57.036190032958984,
+      "logps/rejected": -66.88007354736328,
+      "loss": 0.6927,
       "pred_label": 0.0,
+      "rewards/accuracies": 0.24013157188892365,
+      "rewards/chosen": 0.003924594726413488,
+      "rewards/margins": 0.0009102027979679406,
+      "rewards/rejected": 0.0030143915209919214,
       "step": 20,
+      "use_label": 170.0
     },
     {
       "epoch": 0.04,
       "grad_norm": 0.6328125,
       "learning_rate": 2.0833333333333334e-06,
+      "logits/chosen": -2.2738099098205566,
+      "logits/rejected": -2.2623789310455322,
+      "logps/chosen": -54.78137969970703,
+      "logps/rejected": -67.2437515258789,
+      "loss": 0.6914,
       "pred_label": 0.0,
+      "rewards/accuracies": 0.24687500298023224,
+      "rewards/chosen": 0.01747792772948742,
+      "rewards/margins": 0.001674558618105948,
+      "rewards/rejected": 0.015803368762135506,
       "step": 40,
+      "use_label": 482.0
     },
     {
       "epoch": 0.06,
+      "grad_norm": 0.71875,
       "learning_rate": 3.125e-06,
+      "logits/chosen": -2.3237431049346924,
+      "logits/rejected": -2.321906089782715,
+      "logps/chosen": -75.5770034790039,
+      "logps/rejected": -87.68544006347656,
+      "loss": 0.6885,
       "pred_label": 0.0,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": 0.031676117330789566,
+      "rewards/margins": 0.009719676338136196,
+      "rewards/rejected": 0.021956440061330795,
       "step": 60,
+      "use_label": 802.0
     },
     {
       "epoch": 0.08,
+      "grad_norm": 0.73828125,
       "learning_rate": 4.166666666666667e-06,
+      "logits/chosen": -2.2948005199432373,
+      "logits/rejected": -2.2623462677001953,
+      "logps/chosen": -79.29240417480469,
+      "logps/rejected": -83.04844665527344,
+      "loss": 0.6876,
+      "pred_label": 5.800000190734863,
+      "rewards/accuracies": 0.3343749940395355,
+      "rewards/chosen": 0.016009245067834854,
+      "rewards/margins": 0.018887853249907494,
+      "rewards/rejected": -0.0028786074835807085,
       "step": 80,
+      "use_label": 1116.199951171875
     },
     {
       "epoch": 0.1,
+      "grad_norm": 0.6953125,
       "learning_rate": 4.9997324926814375e-06,
+      "logits/chosen": -2.2056884765625,
+      "logits/rejected": -2.210036039352417,
+      "logps/chosen": -68.87937927246094,
+      "logps/rejected": -77.87590026855469,
+      "loss": 0.6876,
+      "pred_label": 27.537500381469727,
+      "rewards/accuracies": 0.34062498807907104,
+      "rewards/chosen": -0.010471501387655735,
+      "rewards/margins": 0.03584115579724312,
+      "rewards/rejected": -0.04631265625357628,
       "step": 100,
+      "use_label": 1414.4625244140625
     },
     {
       "epoch": 0.1,
+      "eval_logits/chosen": -2.1076083183288574,
+      "eval_logits/rejected": -2.0761499404907227,
+      "eval_logps/chosen": -74.44951629638672,
+      "eval_logps/rejected": -85.2883071899414,
+      "eval_loss": 0.6895647048950195,
+      "eval_pred_label": 89.14286041259766,
+      "eval_rewards/accuracies": 0.335317462682724,
+      "eval_rewards/chosen": -0.05548960343003273,
+      "eval_rewards/margins": 0.04341282695531845,
+      "eval_rewards/rejected": -0.09890241920948029,
+      "eval_runtime": 247.5952,
+      "eval_samples_per_second": 8.078,
+      "eval_steps_per_second": 0.254,
+      "eval_use_label": 1766.857177734375,
       "step": 100
     },
     {
       "epoch": 0.13,
+      "grad_norm": 0.7578125,
       "learning_rate": 4.9903757462135984e-06,
+      "logits/chosen": -2.2542896270751953,
+      "logits/rejected": -2.1902401447296143,
+      "logps/chosen": -70.2941665649414,
+      "logps/rejected": -84.7874755859375,
+      "loss": 0.6884,
+      "pred_label": 155.6374969482422,
+      "rewards/accuracies": 0.3187499940395355,
+      "rewards/chosen": -0.023759985342621803,
+      "rewards/margins": 0.051492441445589066,
+      "rewards/rejected": -0.07525241374969482,
       "step": 120,
+      "use_label": 2110.362548828125
     },
     {
       "epoch": 0.15,
+      "grad_norm": 0.55859375,
       "learning_rate": 4.967700826904229e-06,
+      "logits/chosen": -2.1823272705078125,
+      "logits/rejected": -2.210157632827759,
+      "logps/chosen": -61.80498504638672,
+      "logps/rejected": -76.43424224853516,
+      "loss": 0.6907,
+      "pred_label": 204.22500610351562,
+      "rewards/accuracies": 0.26875001192092896,
+      "rewards/chosen": -0.029314354062080383,
+      "rewards/margins": 0.036702848970890045,
+      "rewards/rejected": -0.06601719558238983,
       "step": 140,
+      "use_label": 2381.77490234375
     },
     {
       "epoch": 0.17,
+      "grad_norm": 0.70703125,
       "learning_rate": 4.931828996974498e-06,
+      "logits/chosen": -2.251568555831909,
+      "logits/rejected": -2.220432996749878,
+      "logps/chosen": -66.60148620605469,
+      "logps/rejected": -71.53702545166016,
+      "loss": 0.69,
+      "pred_label": 257.2124938964844,
+      "rewards/accuracies": 0.3343749940395355,
+      "rewards/chosen": -0.020524730905890465,
+      "rewards/margins": 0.05932433158159256,
+      "rewards/rejected": -0.07984906435012817,
       "step": 160,
+      "use_label": 2648.78759765625
     },
     {
       "epoch": 0.19,
+      "grad_norm": 0.6796875,
       "learning_rate": 4.882952093833628e-06,
+      "logits/chosen": -2.114015817642212,
+      "logits/rejected": -2.126950740814209,
+      "logps/chosen": -66.40071868896484,
+      "logps/rejected": -78.54503631591797,
+      "loss": 0.6901,
+      "pred_label": 319.9624938964844,
+      "rewards/accuracies": 0.328125,
+      "rewards/chosen": -0.03171534463763237,
+      "rewards/margins": 0.0544399619102478,
+      "rewards/rejected": -0.08615531027317047,
       "step": 180,
+      "use_label": 2906.03759765625
     },
     {
       "epoch": 0.21,
+      "grad_norm": 0.9140625,
       "learning_rate": 4.821331504159906e-06,
+      "logits/chosen": -2.138213872909546,
+      "logits/rejected": -2.108750343322754,
+      "logps/chosen": -77.92289733886719,
+      "logps/rejected": -78.32075500488281,
+      "loss": 0.6892,
+      "pred_label": 383.5249938964844,
+      "rewards/accuracies": 0.37812501192092896,
+      "rewards/chosen": -0.009543296881020069,
+      "rewards/margins": 0.06037301942706108,
+      "rewards/rejected": -0.06991632282733917,
       "step": 200,
+      "use_label": 3162.47509765625
     },
     {
       "epoch": 0.21,
+      "eval_logits/chosen": -2.051973581314087,
+      "eval_logits/rejected": -2.028658390045166,
+      "eval_logps/chosen": -69.3875503540039,
+      "eval_logps/rejected": -80.99542999267578,
+      "eval_loss": 0.6893584132194519,
+      "eval_pred_label": 459.1111145019531,
+      "eval_rewards/accuracies": 0.3492063581943512,
+      "eval_rewards/chosen": -0.0048699695616960526,
+      "eval_rewards/margins": 0.05110359564423561,
+      "eval_rewards/rejected": -0.05597356706857681,
+      "eval_runtime": 247.8689,
+      "eval_samples_per_second": 8.069,
+      "eval_steps_per_second": 0.254,
+      "eval_use_label": 3500.888916015625,
       "step": 200
     },
     {
       "epoch": 0.23,
+      "grad_norm": 0.765625,
       "learning_rate": 4.747296766042161e-06,
+      "logits/chosen": -2.172316074371338,
+      "logits/rejected": -2.1599390506744385,
+      "logps/chosen": -73.75865173339844,
+      "logps/rejected": -76.45826721191406,
+      "loss": 0.6906,
+      "pred_label": 537.4000244140625,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": -0.017265746369957924,
+      "rewards/margins": 0.061459798365831375,
+      "rewards/rejected": -0.07872554659843445,
       "step": 220,
+      "use_label": 3832.60009765625
     },
     {
       "epoch": 0.25,
+      "grad_norm": 0.671875,
       "learning_rate": 4.661243806657256e-06,
+      "logits/chosen": -2.1377243995666504,
+      "logits/rejected": -2.114131450653076,
+      "logps/chosen": -78.08522033691406,
+      "logps/rejected": -88.16291809082031,
+      "loss": 0.6906,
+      "pred_label": 610.8624877929688,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -0.06858871877193451,
+      "rewards/margins": 0.07855252921581268,
+      "rewards/rejected": -0.1471412628889084,
       "step": 240,
+      "use_label": 4079.137451171875
     },
     {
       "epoch": 0.27,
+      "grad_norm": 0.70703125,
       "learning_rate": 4.563632824908252e-06,
+      "logits/chosen": -2.1762757301330566,
+      "logits/rejected": -2.173243999481201,
+      "logps/chosen": -69.33678436279297,
+      "logps/rejected": -82.98787689208984,
+      "loss": 0.6907,
+      "pred_label": 682.2750244140625,
+      "rewards/accuracies": 0.33125001192092896,
+      "rewards/chosen": -0.06302420794963837,
+      "rewards/margins": 0.0732887014746666,
+      "rewards/rejected": -0.13631291687488556,
       "step": 260,
+      "use_label": 4327.72509765625
     },
     {
       "epoch": 0.29,
+      "grad_norm": 0.625,
       "learning_rate": 4.454985830346574e-06,
+      "logits/chosen": -2.16465425491333,
+      "logits/rejected": -2.1788923740386963,
+      "logps/chosen": -74.41441345214844,
+      "logps/rejected": -78.55416870117188,
+      "loss": 0.6892,
+      "pred_label": 749.125,
+      "rewards/accuracies": 0.3062500059604645,
+      "rewards/chosen": -0.06083650514483452,
+      "rewards/margins": 0.04520425945520401,
+      "rewards/rejected": -0.10604077577590942,
       "step": 280,
+      "use_label": 4580.875
     },
     {
       "epoch": 0.31,
+      "grad_norm": 0.65234375,
       "learning_rate": 4.335883851539693e-06,
+      "logits/chosen": -2.0553781986236572,
+      "logits/rejected": -2.0573229789733887,
+      "logps/chosen": -69.96788024902344,
+      "logps/rejected": -80.52223205566406,
+      "loss": 0.6904,
+      "pred_label": 824.5499877929688,
+      "rewards/accuracies": 0.359375,
+      "rewards/chosen": -0.04866168648004532,
+      "rewards/margins": 0.09801270812749863,
+      "rewards/rejected": -0.14667439460754395,
       "step": 300,
+      "use_label": 4825.4501953125
     },
     {
       "epoch": 0.31,
+      "eval_logits/chosen": -2.0163989067077637,
+      "eval_logits/rejected": -1.9942671060562134,
+      "eval_logps/chosen": -75.15243530273438,
+      "eval_logps/rejected": -89.50163269042969,
+      "eval_loss": 0.6908969879150391,
+      "eval_pred_label": 923.3174438476562,
+      "eval_rewards/accuracies": 0.3531745970249176,
+      "eval_rewards/chosen": -0.06251893937587738,
+      "eval_rewards/margins": 0.07851671427488327,
+      "eval_rewards/rejected": -0.14103564620018005,
+      "eval_runtime": 247.8241,
+      "eval_samples_per_second": 8.07,
+      "eval_steps_per_second": 0.254,
+      "eval_use_label": 5140.6826171875,
       "step": 300
     },
     {
       "epoch": 0.33,
+      "grad_norm": 0.9140625,
       "learning_rate": 4.206963828813555e-06,
+      "logits/chosen": -2.065279483795166,
+      "logits/rejected": -2.0684821605682373,
+      "logps/chosen": -72.58639526367188,
+      "logps/rejected": -89.45655822753906,
+      "loss": 0.6899,
+      "pred_label": 1033.7874755859375,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": -0.11120834201574326,
+      "rewards/margins": 0.0645986869931221,
+      "rewards/rejected": -0.17580702900886536,
       "step": 320,
+      "use_label": 5440.21240234375
     },
     {
       "epoch": 0.36,
+      "grad_norm": 0.56640625,
       "learning_rate": 4.068915207986931e-06,
+      "logits/chosen": -2.033398151397705,
+      "logits/rejected": -1.991502046585083,
+      "logps/chosen": -71.1894760131836,
+      "logps/rejected": -84.0774154663086,
+      "loss": 0.6917,
+      "pred_label": 1122.112548828125,
       "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -0.07950185984373093,
+      "rewards/margins": 0.08617939054965973,
+      "rewards/rejected": -0.16568127274513245,
       "step": 340,
+      "use_label": 5671.8876953125
     },
     {
       "epoch": 0.38,
+      "grad_norm": 0.84765625,
       "learning_rate": 3.922476253313921e-06,
+      "logits/chosen": -2.0358688831329346,
+      "logits/rejected": -2.0224781036376953,
+      "logps/chosen": -76.57051849365234,
+      "logps/rejected": -84.2589340209961,
+      "loss": 0.6914,
+      "pred_label": 1204.4124755859375,
+      "rewards/accuracies": 0.31562501192092896,
+      "rewards/chosen": -0.11715561151504517,
+      "rewards/margins": 0.07723374664783478,
+      "rewards/rejected": -0.19438934326171875,
       "step": 360,
+      "use_label": 5909.58740234375
     },
     {
       "epoch": 0.4,
+      "grad_norm": 0.55078125,
       "learning_rate": 3.768430099352445e-06,
+      "logits/chosen": -2.12782621383667,
+      "logits/rejected": -2.086026430130005,
+      "logps/chosen": -74.41622161865234,
+      "logps/rejected": -85.17180633544922,
+      "loss": 0.6918,
+      "pred_label": 1289.9375,
+      "rewards/accuracies": 0.3656249940395355,
+      "rewards/chosen": -0.07592298835515976,
+      "rewards/margins": 0.08457346260547638,
+      "rewards/rejected": -0.16049645841121674,
       "step": 380,
+      "use_label": 6144.0625
     },
     {
       "epoch": 0.42,
+      "grad_norm": 0.73046875,
       "learning_rate": 3.607600562872785e-06,
+      "logits/chosen": -2.126784086227417,
+      "logits/rejected": -2.1261298656463623,
+      "logps/chosen": -83.82131958007812,
+      "logps/rejected": -86.00455474853516,
+      "loss": 0.6906,
+      "pred_label": 1373.137451171875,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -0.05874443054199219,
+      "rewards/margins": 0.06775099784135818,
+      "rewards/rejected": -0.12649545073509216,
       "step": 400,
+      "use_label": 6380.8623046875
     },
     {
       "epoch": 0.42,
+      "eval_logits/chosen": -2.0480618476867676,
+      "eval_logits/rejected": -2.0248324871063232,
+      "eval_logps/chosen": -75.26866149902344,
+      "eval_logps/rejected": -90.80635070800781,
+      "eval_loss": 0.6920759081840515,
+      "eval_pred_label": 1472.5714111328125,
+      "eval_rewards/accuracies": 0.3511904776096344,
+      "eval_rewards/chosen": -0.06368114054203033,
+      "eval_rewards/margins": 0.09040173143148422,
+      "eval_rewards/rejected": -0.15408287942409515,
+      "eval_runtime": 248.0088,
+      "eval_samples_per_second": 8.064,
+      "eval_steps_per_second": 0.254,
+      "eval_use_label": 6695.4287109375,
       "step": 400
     },
     {
       "epoch": 0.44,
+      "grad_norm": 0.78515625,
       "learning_rate": 3.4408477372034743e-06,
+      "logits/chosen": -2.055358409881592,
+      "logits/rejected": -2.068175792694092,
+      "logps/chosen": -70.47552490234375,
+      "logps/rejected": -79.02010345458984,
+      "loss": 0.6903,
+      "pred_label": 1589.0374755859375,
+      "rewards/accuracies": 0.3656249940395355,
+      "rewards/chosen": -0.06399895995855331,
+      "rewards/margins": 0.0963120311498642,
+      "rewards/rejected": -0.16031098365783691,
       "step": 420,
+      "use_label": 6988.96240234375
     },
     {
       "epoch": 0.46,
+      "grad_norm": 0.95703125,
       "learning_rate": 3.269063392575352e-06,
+      "logits/chosen": -2.0893940925598145,
+      "logits/rejected": -2.09212589263916,
+      "logps/chosen": -85.68560028076172,
+      "logps/rejected": -87.41291809082031,
+      "loss": 0.6912,
+      "pred_label": 1667.6875,
       "rewards/accuracies": 0.33125001192092896,
+      "rewards/chosen": -0.13728377223014832,
+      "rewards/margins": 0.07875251770019531,
+      "rewards/rejected": -0.21603628993034363,
       "step": 440,
+      "use_label": 7230.3125
     },
     {
       "epoch": 0.48,
+      "grad_norm": 0.53515625,
       "learning_rate": 3.09316620706208e-06,
+      "logits/chosen": -2.079465389251709,
+      "logits/rejected": -2.091001033782959,
+      "logps/chosen": -73.67254638671875,
+      "logps/rejected": -81.05415344238281,
+      "loss": 0.6916,
+      "pred_label": 1751.75,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -0.0876312330365181,
+      "rewards/margins": 0.08376732468605042,
+      "rewards/rejected": -0.17139855027198792,
       "step": 460,
+      "use_label": 7466.25
     },
     {
       "epoch": 0.5,
+      "grad_norm": 0.69921875,
       "learning_rate": 2.91409685362137e-06,
+      "logits/chosen": -2.0379364490509033,
+      "logits/rejected": -2.0492634773254395,
+      "logps/chosen": -77.06828308105469,
+      "logps/rejected": -89.38865661621094,
+      "loss": 0.6912,
+      "pred_label": 1832.6500244140625,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.06041146069765091,
+      "rewards/margins": 0.10216375440359116,
+      "rewards/rejected": -0.16257521510124207,
       "step": 480,
+      "use_label": 7705.35009765625
     },
     {
       "epoch": 0.52,
+      "grad_norm": 0.86328125,
       "learning_rate": 2.7328129695107205e-06,
+      "logits/chosen": -2.031346082687378,
+      "logits/rejected": -2.0272762775421143,
+      "logps/chosen": -79.55888366699219,
+      "logps/rejected": -84.47586822509766,
+      "loss": 0.6903,
+      "pred_label": 1919.5374755859375,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.08177755773067474,
+      "rewards/margins": 0.08017835766077042,
+      "rewards/rejected": -0.16195592284202576,
       "step": 500,
+      "use_label": 7938.46240234375
     },
     {
       "epoch": 0.52,
+      "eval_logits/chosen": -2.0070507526397705,
+      "eval_logits/rejected": -1.9800992012023926,
+      "eval_logps/chosen": -76.36968231201172,
+      "eval_logps/rejected": -92.65614318847656,
+      "eval_loss": 0.6914148926734924,
+      "eval_pred_label": 2025.793701171875,
+      "eval_rewards/accuracies": 0.3492063581943512,
+      "eval_rewards/chosen": -0.07469133287668228,
+      "eval_rewards/margins": 0.09788943827152252,
+      "eval_rewards/rejected": -0.1725807636976242,
+      "eval_runtime": 247.8554,
+      "eval_samples_per_second": 8.069,
+      "eval_steps_per_second": 0.254,
+      "eval_use_label": 8246.2060546875,
       "step": 500
     },
     {
       "epoch": 0.54,
+      "grad_norm": 0.78125,
       "learning_rate": 2.5502840349805074e-06,
+      "logits/chosen": -2.026449203491211,
+      "logits/rejected": -2.0701510906219482,
+      "logps/chosen": -75.1209487915039,
+      "logps/rejected": -88.01356506347656,
+      "loss": 0.6913,
+      "pred_label": 2148.887451171875,
+      "rewards/accuracies": 0.3531250059604645,
+      "rewards/chosen": -0.06801941990852356,
+      "rewards/margins": 0.09691040217876434,
+      "rewards/rejected": -0.1649298369884491,
       "step": 520,
+      "use_label": 8533.1123046875
     },
     {
       "epoch": 0.57,
+      "grad_norm": 1.09375,
       "learning_rate": 2.367486188632446e-06,
+      "logits/chosen": -2.0245327949523926,
+      "logits/rejected": -2.0479135513305664,
+      "logps/chosen": -84.60169219970703,
+      "logps/rejected": -90.6330795288086,
+      "loss": 0.692,
+      "pred_label": 2235.550048828125,
+      "rewards/accuracies": 0.359375,
+      "rewards/chosen": -0.09091995656490326,
+      "rewards/margins": 0.11123095452785492,
+      "rewards/rejected": -0.20215091109275818,
       "step": 540,
+      "use_label": 8766.4501953125
     },
     {
       "epoch": 0.59,
+      "grad_norm": 0.75390625,
       "learning_rate": 2.1853970071701415e-06,
+      "logits/chosen": -2.0177600383758545,
+      "logits/rejected": -2.016798257827759,
+      "logps/chosen": -78.94650268554688,
+      "logps/rejected": -80.36412811279297,
+      "loss": 0.6917,
+      "pred_label": 2319.53759765625,
+      "rewards/accuracies": 0.2874999940395355,
+      "rewards/chosen": -0.10138510167598724,
+      "rewards/margins": 0.06911652535200119,
+      "rewards/rejected": -0.17050163447856903,
       "step": 560,
+      "use_label": 9002.462890625
     },
     {
       "epoch": 0.61,
+      "grad_norm": 0.71875,
       "learning_rate": 2.00499027745888e-06,
+      "logits/chosen": -2.054065704345703,
+      "logits/rejected": -2.0555384159088135,
+      "logps/chosen": -80.3529281616211,
+      "logps/rejected": -95.12947082519531,
+      "loss": 0.6919,
+      "pred_label": 2401.675048828125,
+      "rewards/accuracies": 0.359375,
+      "rewards/chosen": -0.09597108513116837,
+      "rewards/margins": 0.09131233394145966,
+      "rewards/rejected": -0.18728342652320862,
       "step": 580,
+      "use_label": 9240.3251953125
     },
     {
       "epoch": 0.63,
+      "grad_norm": 0.76171875,
       "learning_rate": 1.8272307888529276e-06,
+      "logits/chosen": -2.059126377105713,
+      "logits/rejected": -2.099806547164917,
+      "logps/chosen": -89.58797454833984,
+      "logps/rejected": -108.6166000366211,
+      "loss": 0.6903,
+      "pred_label": 2492.9375,
+      "rewards/accuracies": 0.41874998807907104,
+      "rewards/chosen": -0.12580521404743195,
+      "rewards/margins": 0.10241512209177017,
+      "rewards/rejected": -0.22822031378746033,
       "step": 600,
+      "use_label": 9469.0625
     },
     {
       "epoch": 0.63,
+      "eval_logits/chosen": -1.9870026111602783,
+      "eval_logits/rejected": -1.960112452507019,
+      "eval_logps/chosen": -78.95431518554688,
+      "eval_logps/rejected": -95.86695861816406,
+      "eval_loss": 0.6917396187782288,
+      "eval_pred_label": 2603.9365234375,
+      "eval_rewards/accuracies": 0.3551587164402008,
+      "eval_rewards/chosen": -0.1005377396941185,
+      "eval_rewards/margins": 0.104151152074337,
+      "eval_rewards/rejected": -0.2046888917684555,
+      "eval_runtime": 247.9642,
+      "eval_samples_per_second": 8.066,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 9772.0634765625,
       "step": 600
     },
     {
       "epoch": 0.65,
+      "grad_norm": 0.5859375,
       "learning_rate": 1.6530691736402317e-06,
+      "logits/chosen": -1.9752880334854126,
+      "logits/rejected": -2.011981964111328,
+      "logps/chosen": -69.71615600585938,
+      "logps/rejected": -95.88337707519531,
+      "loss": 0.6918,
+      "pred_label": 2726.324951171875,
+      "rewards/accuracies": 0.34687501192092896,
+      "rewards/chosen": -0.09408678859472275,
+      "rewards/margins": 0.09362435340881348,
+      "rewards/rejected": -0.18771114945411682,
       "step": 620,
+      "use_label": 10059.6748046875
     },
     {
       "epoch": 0.67,
+      "grad_norm": 0.73046875,
       "learning_rate": 1.4834368231970922e-06,
+      "logits/chosen": -2.0288071632385254,
+      "logits/rejected": -2.0409998893737793,
+      "logps/chosen": -82.56907653808594,
+      "logps/rejected": -90.75765228271484,
+      "loss": 0.6894,
+      "pred_label": 2805.512451171875,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.10210500657558441,
+      "rewards/margins": 0.10695278644561768,
+      "rewards/rejected": -0.2090577781200409,
       "step": 640,
+      "use_label": 10300.4873046875
     },
     {
       "epoch": 0.69,
+      "grad_norm": 0.5625,
       "learning_rate": 1.3192409070404582e-06,
+      "logits/chosen": -2.055405855178833,
+      "logits/rejected": -2.0071816444396973,
+      "logps/chosen": -77.25361633300781,
+      "logps/rejected": -88.34065246582031,
+      "loss": 0.6915,
+      "pred_label": 2899.9375,
+      "rewards/accuracies": 0.34687501192092896,
+      "rewards/chosen": -0.11595650017261505,
+      "rewards/margins": 0.0952102541923523,
+      "rewards/rejected": -0.21116676926612854,
       "step": 660,
+      "use_label": 10526.0625
     },
     {
       "epoch": 0.71,
+      "grad_norm": 0.67578125,
       "learning_rate": 1.1613595214152713e-06,
+      "logits/chosen": -2.056795597076416,
+      "logits/rejected": -2.071035861968994,
+      "logps/chosen": -88.15283203125,
+      "logps/rejected": -96.39839172363281,
+      "loss": 0.6918,
+      "pred_label": 2978.0625,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": -0.12273094803094864,
+      "rewards/margins": 0.09404005855321884,
+      "rewards/rejected": -0.2167709767818451,
       "step": 680,
+      "use_label": 10767.9375
     },
     {
       "epoch": 0.73,
+      "grad_norm": 0.74609375,
       "learning_rate": 1.0106369933615043e-06,
+      "logits/chosen": -2.0782313346862793,
+      "logits/rejected": -2.0467371940612793,
+      "logps/chosen": -97.93621826171875,
+      "logps/rejected": -106.91497802734375,
+      "loss": 0.6917,
+      "pred_label": 3075.71240234375,
+      "rewards/accuracies": 0.3687500059604645,
+      "rewards/chosen": -0.1391007900238037,
+      "rewards/margins": 0.10766571760177612,
+      "rewards/rejected": -0.24676652252674103,
       "step": 700,
+      "use_label": 10990.287109375
     },
     {
       "epoch": 0.73,
+      "eval_logits/chosen": -1.9658821821212769,
+      "eval_logits/rejected": -1.9401167631149292,
+      "eval_logps/chosen": -80.06806182861328,
+      "eval_logps/rejected": -97.64107513427734,
+      "eval_loss": 0.6917343735694885,
+      "eval_pred_label": 3195.22216796875,
+      "eval_rewards/accuracies": 0.3511904776096344,
+      "eval_rewards/chosen": -0.11167524009943008,
+      "eval_rewards/margins": 0.1107548326253891,
+      "eval_rewards/rejected": -0.2224300652742386,
+      "eval_runtime": 247.943,
+      "eval_samples_per_second": 8.066,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 11284.77734375,
       "step": 700
     },
     {
       "epoch": 0.75,
+      "grad_norm": 0.72265625,
       "learning_rate": 8.678793653740633e-07,
+      "logits/chosen": -2.015249729156494,
+      "logits/rejected": -2.0358498096466064,
+      "logps/chosen": -70.9017562866211,
+      "logps/rejected": -86.4397201538086,
+      "loss": 0.6908,
+      "pred_label": 3306.39990234375,
+      "rewards/accuracies": 0.3187499940395355,
+      "rewards/chosen": -0.10931293666362762,
+      "rewards/margins": 0.0925455391407013,
+      "rewards/rejected": -0.20185847580432892,
       "step": 720,
+      "use_label": 11583.599609375
     },
     {
       "epoch": 0.77,
+      "grad_norm": 0.83203125,
       "learning_rate": 7.338500848029603e-07,
+      "logits/chosen": -2.01334810256958,
+      "logits/rejected": -2.0296788215637207,
+      "logps/chosen": -74.19635772705078,
+      "logps/rejected": -83.99024200439453,
+      "loss": 0.6911,
+      "pred_label": 3386.16259765625,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -0.08706559240818024,
+      "rewards/margins": 0.11473299562931061,
+      "rewards/rejected": -0.20179858803749084,
       "step": 740,
+      "use_label": 11823.837890625
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.66015625,
       "learning_rate": 6.092659210462232e-07,
+      "logits/chosen": -2.052433967590332,
+      "logits/rejected": -2.060997724533081,
+      "logps/chosen": -76.93110656738281,
+      "logps/rejected": -97.30107879638672,
+      "loss": 0.6904,
+      "pred_label": 3466.5,
+      "rewards/accuracies": 0.33125001192092896,
+      "rewards/chosen": -0.11182014644145966,
+      "rewards/margins": 0.07981495559215546,
+      "rewards/rejected": -0.1916351020336151,
       "step": 760,
+      "use_label": 12063.5
     },
     {
       "epoch": 0.82,
+      "grad_norm": 0.859375,
       "learning_rate": 4.947931323697983e-07,
+      "logits/chosen": -2.032320737838745,
+      "logits/rejected": -2.047227144241333,
+      "logps/chosen": -89.46810913085938,
+      "logps/rejected": -95.58660125732422,
+      "loss": 0.6913,
+      "pred_label": 3558.875,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.11294672638177872,
+      "rewards/margins": 0.11753211170434952,
+      "rewards/rejected": -0.23047883808612823,
       "step": 780,
+      "use_label": 12291.125
     },
     {
       "epoch": 0.84,
+      "grad_norm": 0.74609375,
       "learning_rate": 3.910439028537638e-07,
+      "logits/chosen": -2.010045289993286,
+      "logits/rejected": -1.989505410194397,
+      "logps/chosen": -70.47514343261719,
+      "logps/rejected": -75.11082458496094,
+      "loss": 0.6912,
+      "pred_label": 3649.22509765625,
+      "rewards/accuracies": 0.3656249940395355,
+      "rewards/chosen": -0.08034199476242065,
+      "rewards/margins": 0.0995674580335617,
+      "rewards/rejected": -0.17990948259830475,
       "step": 800,
+      "use_label": 12520.775390625
     },
     {
       "epoch": 0.84,
+      "eval_logits/chosen": -1.9421576261520386,
+      "eval_logits/rejected": -1.9144233465194702,
+      "eval_logps/chosen": -77.5874252319336,
+      "eval_logps/rejected": -95.20885467529297,
+      "eval_loss": 0.6917100548744202,
+      "eval_pred_label": 3757.174560546875,
       "eval_rewards/accuracies": 0.363095223903656,
+      "eval_rewards/chosen": -0.08686873316764832,
+      "eval_rewards/margins": 0.11123905330896378,
+      "eval_rewards/rejected": -0.19810780882835388,
+      "eval_runtime": 247.8932,
+      "eval_samples_per_second": 8.068,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 12826.8251953125,
       "step": 800
     },
     {
       "epoch": 0.86,
+      "grad_norm": 0.828125,
       "learning_rate": 2.98573068519539e-07,
+      "logits/chosen": -2.035728931427002,
+      "logits/rejected": -2.029679775238037,
+      "logps/chosen": -74.97032165527344,
+      "logps/rejected": -84.2763900756836,
+      "loss": 0.6908,
+      "pred_label": 3872.199951171875,
+      "rewards/accuracies": 0.3343749940395355,
+      "rewards/chosen": -0.1004786491394043,
+      "rewards/margins": 0.08142165094614029,
+      "rewards/rejected": -0.181900292634964,
       "step": 820,
+      "use_label": 13121.7998046875
     },
     {
       "epoch": 0.88,
+      "grad_norm": 0.6953125,
       "learning_rate": 2.178751501463036e-07,
+      "logits/chosen": -2.0276803970336914,
+      "logits/rejected": -2.0149848461151123,
+      "logps/chosen": -66.70552062988281,
+      "logps/rejected": -70.63726806640625,
       "loss": 0.6915,
+      "pred_label": 3954.60009765625,
+      "rewards/accuracies": 0.28437501192092896,
+      "rewards/chosen": -0.08035041391849518,
+      "rewards/margins": 0.07462439686059952,
+      "rewards/rejected": -0.1549748182296753,
       "step": 840,
+      "use_label": 13359.400390625
     },
     {
       "epoch": 0.9,
+      "grad_norm": 0.7578125,
       "learning_rate": 1.4938170864468636e-07,
+      "logits/chosen": -2.048083543777466,
+      "logits/rejected": -2.0321922302246094,
+      "logps/chosen": -90.8042221069336,
+      "logps/rejected": -100.8233413696289,
+      "loss": 0.69,
+      "pred_label": 4041.72509765625,
+      "rewards/accuracies": 0.40625,
+      "rewards/chosen": -0.0809466689825058,
+      "rewards/margins": 0.1332779824733734,
+      "rewards/rejected": -0.2142246663570404,
       "step": 860,
+      "use_label": 13592.275390625
     },
     {
       "epoch": 0.92,
+      "grad_norm": 0.5546875,
       "learning_rate": 9.345903713082305e-08,
+      "logits/chosen": -2.047487735748291,
+      "logits/rejected": -2.034466505050659,
+      "logps/chosen": -81.69231414794922,
+      "logps/rejected": -101.5263442993164,
+      "loss": 0.6915,
+      "pred_label": 4142.625,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -0.09660721570253372,
+      "rewards/margins": 0.13364934921264648,
+      "rewards/rejected": -0.23025652766227722,
       "step": 880,
+      "use_label": 13811.375
     },
     {
       "epoch": 0.94,
+      "grad_norm": 0.7578125,
       "learning_rate": 5.0406202043228604e-08,
+      "logits/chosen": -1.9304163455963135,
+      "logits/rejected": -1.9657026529312134,
+      "logps/chosen": -75.30284118652344,
+      "logps/rejected": -99.71704864501953,
+      "loss": 0.6914,
+      "pred_label": 4235.9248046875,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -0.08683101832866669,
+      "rewards/margins": 0.10066400468349457,
+      "rewards/rejected": -0.18749502301216125,
       "step": 900,
+      "use_label": 14038.0751953125
     },
     {
       "epoch": 0.94,
+      "eval_logits/chosen": -1.939072847366333,
+      "eval_logits/rejected": -1.9112603664398193,
+      "eval_logps/chosen": -77.5274658203125,
+      "eval_logps/rejected": -95.22908020019531,
+      "eval_loss": 0.6917905211448669,
+      "eval_pred_label": 4352.28564453125,
+      "eval_rewards/accuracies": 0.3571428656578064,
+      "eval_rewards/chosen": -0.08626923710107803,
+      "eval_rewards/margins": 0.1120409369468689,
+      "eval_rewards/rejected": -0.19831016659736633,
+      "eval_runtime": 247.7794,
+      "eval_samples_per_second": 8.072,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 14335.7138671875,
       "step": 900
     },
     {
       "epoch": 0.96,
+      "grad_norm": 0.80078125,
       "learning_rate": 2.0453443778310766e-08,
+      "logits/chosen": -1.9801095724105835,
+      "logits/rejected": -1.9714418649673462,
+      "logps/chosen": -63.8930778503418,
+      "logps/rejected": -85.15528869628906,
+      "loss": 0.6906,
+      "pred_label": 4473.8125,
+      "rewards/accuracies": 0.31562501192092896,
+      "rewards/chosen": -0.06585933268070221,
+      "rewards/margins": 0.11039040982723236,
+      "rewards/rejected": -0.17624975740909576,
       "step": 920,
+      "use_label": 14624.1875
     },
     {
       "epoch": 0.98,
+      "grad_norm": 0.8359375,
       "learning_rate": 3.760945397705828e-09,
+      "logits/chosen": -1.9589160680770874,
+      "logits/rejected": -1.9971154928207397,
+      "logps/chosen": -74.0462646484375,
+      "logps/rejected": -91.64708709716797,
+      "loss": 0.6913,
+      "pred_label": 4558.71240234375,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -0.0799408107995987,
+      "rewards/margins": 0.10116855055093765,
+      "rewards/rejected": -0.18110935389995575,
       "step": 940,
+      "use_label": 14859.287109375
     },
     {
       "epoch": 1.0,
       "step": 955,
       "total_flos": 0.0,
+      "train_loss": 0.6906769273168754,
+      "train_runtime": 20027.4031,
       "train_samples_per_second": 3.053,
       "train_steps_per_second": 0.048
     }
   ],
+  "logging_steps": 20,
   "max_steps": 955,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 100,
   "total_flos": 0.0,
   "train_batch_size": 4,
   "trial_name": null,