Training in progress, step 12, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +74 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b1de24cbfa9f4cd9b6b61603c5c430d66f5117b0066916e6a94348617ac0ab3
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:d49859a687f5bcf62f01bc8c9be1882fef9ff208931820730895575f61667169
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b68b8c960390833091b8923f7bf648b58f1b9f278a335e629b104d215fc140a
 size 42545748

 version https://git-lfs.github.com/spec/v1
+oid sha256:29c35731a9801a0d6782d07ac7c7beaaec9504135a62fbfbd41a6f5842ef98a5
 size 42545748

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a3d18e607a27cfab9cec7cfaa7384cdb877a2330c4bcd4e1efcae25be9908cb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6dc9dacb9cf3beacf8a1b58112bb95fab90581585484c32e86dfb3d4ea057b6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.163109270468302,
   "eval_steps": 500,
-  "global_step": 8,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -151,6 +151,78 @@
       "rewards/margins": 0.0022785186301916838,
       "rewards/rejected": -0.3476927876472473,
       "step": 8
     }
   ],
   "logging_steps": 1,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.244663905702453,
   "eval_steps": 500,
+  "global_step": 12,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.0022785186301916838,
       "rewards/rejected": -0.3476927876472473,
       "step": 8
+    },
+    {
+      "epoch": 0.18349792927683975,
+      "grad_norm": 6.6126298904418945,
+      "learning_rate": 9e-05,
+      "log_odds_chosen": 0.16790322959423065,
+      "log_odds_ratio": -0.6347489356994629,
+      "logits/chosen": -2.5679516792297363,
+      "logits/rejected": -2.5715692043304443,
+      "logps/chosen": -2.9835710525512695,
+      "logps/rejected": -3.140634059906006,
+      "loss": 3.2274,
+      "nll_loss": 3.163942813873291,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.2983570992946625,
+      "rewards/margins": 0.015706289559602737,
+      "rewards/rejected": -0.3140634000301361,
+      "step": 9
+    },
+    {
+      "epoch": 0.20388658808537752,
+      "grad_norm": 6.9558281898498535,
+      "learning_rate": 0.0001,
+      "log_odds_chosen": 0.17972886562347412,
+      "log_odds_ratio": -0.6277650594711304,
+      "logits/chosen": -2.6125497817993164,
+      "logits/rejected": -2.6118133068084717,
+      "logps/chosen": -2.6501834392547607,
+      "logps/rejected": -2.8179259300231934,
+      "loss": 2.8684,
+      "nll_loss": 2.8056435585021973,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": -0.26501837372779846,
+      "rewards/margins": 0.01677425391972065,
+      "rewards/rejected": -0.2817925810813904,
+      "step": 10
+    },
+    {
+      "epoch": 0.22427524689391526,
+      "grad_norm": 7.142885684967041,
+      "learning_rate": 9.743589743589744e-05,
+      "log_odds_chosen": 0.11056404560804367,
+      "log_odds_ratio": -0.662803053855896,
+      "logits/chosen": -2.665982723236084,
+      "logits/rejected": -2.6722326278686523,
+      "logps/chosen": -2.1527411937713623,
+      "logps/rejected": -2.2486300468444824,
+      "loss": 2.383,
+      "nll_loss": 2.316676378250122,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.2152741551399231,
+      "rewards/margins": 0.009588859975337982,
+      "rewards/rejected": -0.2248629927635193,
+      "step": 11
+    },
+    {
+      "epoch": 0.244663905702453,
+      "grad_norm": 4.808487415313721,
+      "learning_rate": 9.487179487179487e-05,
+      "log_odds_chosen": 0.09381386637687683,
+      "log_odds_ratio": -0.6690701842308044,
+      "logits/chosen": -2.6697304248809814,
+      "logits/rejected": -2.684809446334839,
+      "logps/chosen": -1.6216576099395752,
+      "logps/rejected": -1.695598840713501,
+      "loss": 1.9113,
+      "nll_loss": 1.8443692922592163,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.16216576099395752,
+      "rewards/margins": 0.007394128944724798,
+      "rewards/rejected": -0.16955989599227905,
+      "step": 12
     }
   ],
   "logging_steps": 1,