Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

checkpoint-100/adapter_config.json +1 -1
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/trainer_state.json +46 -46
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -20,9 +20,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "k_proj",
     "v_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "v_proj",
+    "q_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f30e5cab4159743259ea25988060ddd0796aa045be1b0d895d433c3835a71464
 size 872450448

 version https://git-lfs.github.com/spec/v1
+oid sha256:625e1afaabf27f3c4b4d662331681428569385509fbeaa4f2b10ade303f513d2
 size 872450448

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17e4f2ce1e411941009ba9612f26c008414cb32e1d3562295057d2e3d6edaea8
 size 1745047034

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b72dc8562e0b97c6f460f11d8faeb9872f3f13223f56b9ab73829f958e960e3
 size 1745047034

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_metric": 0.47333332896232605,
-  "best_model_checkpoint": "./zephyr/08-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.15-KTO_Hyperparameter search, altering lora params for KTO task.-2_max_steps-145_batch_16_2024-04-08_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
@@ -12,39 +12,39 @@
       "epoch": 0.14,
       "grad_norm": 0.0,
       "learning_rate": 0.0001785714285714286,
-      "loss": 0.4625,
       "step": 20,
-      "train/kl": 0.0,
-      "train/logps/chosen": -1776.8545590753424,
-      "train/logps/rejected": -1942.4822198275863,
-      "train/rewards/chosen": -150.52799925085617,
-      "train/rewards/margins": 14.066132394258773,
-      "train/rewards/rejected": -164.59413164511494
     },
     {
       "epoch": 0.27,
       "grad_norm": 0.0,
       "learning_rate": 0.00015000000000000001,
-      "loss": 0.5125,
       "step": 40,
       "train/kl": 0.0,
-      "train/logps/chosen": -2509.815929878049,
-      "train/logps/rejected": -2293.327123397436,
-      "train/rewards/chosen": -221.2838700457317,
-      "train/rewards/margins": -20.546890879065046,
-      "train/rewards/rejected": -200.73697916666666
     },
     {
       "epoch": 0.34,
       "eval/kl": 0.0,
-      "eval/logps/chosen": -2216.0310299295775,
-      "eval/logps/rejected": -2032.4711234177216,
-      "eval/rewards/chosen": -193.23674075704224,
-      "eval/rewards/margins": -16.426811959573882,
-      "eval/rewards/rejected": -176.80992879746836,
       "eval_loss": 0.47333332896232605,
-      "eval_runtime": 140.9169,
-      "eval_samples_per_second": 2.129,
       "eval_steps_per_second": 0.532,
       "step": 50
     },
@@ -52,52 +52,52 @@
       "epoch": 0.41,
       "grad_norm": 0.0,
       "learning_rate": 0.00012142857142857143,
-      "loss": 0.5344,
       "step": 60,
       "train/kl": 0.0,
-      "train/logps/chosen": -2424.8951023391814,
-      "train/logps/rejected": -2159.9033137583892,
-      "train/rewards/chosen": -213.98085709064327,
-      "train/rewards/margins": -25.586968143495625,
-      "train/rewards/rejected": -188.39388894714764
     },
     {
       "epoch": 0.55,
       "grad_norm": 0.0,
       "learning_rate": 9.285714285714286e-05,
-      "loss": 0.4469,
       "step": 80,
       "train/kl": 0.0,
-      "train/logps/chosen": -2407.7829982517483,
-      "train/logps/rejected": -2151.3718220338983,
-      "train/rewards/chosen": -211.3436680506993,
-      "train/rewards/margins": -24.664863319060885,
-      "train/rewards/rejected": -186.67880473163842
     },
     {
       "epoch": 0.68,
       "grad_norm": 0.0,
       "learning_rate": 6.428571428571429e-05,
-      "loss": 0.4281,
       "step": 100,
       "train/kl": 0.0,
-      "train/logps/chosen": -2460.182253649635,
-      "train/logps/rejected": -2252.468920765027,
-      "train/rewards/chosen": -215.44699475364965,
-      "train/rewards/margins": -18.727454965398294,
-      "train/rewards/rejected": -196.71953978825135
     },
     {
       "epoch": 0.68,
       "eval/kl": 0.0,
-      "eval/logps/chosen": -2217.5072623239435,
-      "eval/logps/rejected": -2035.4477848101267,
-      "eval/rewards/chosen": -193.3844080105634,
-      "eval/rewards/margins": -16.276813073854527,
-      "eval/rewards/rejected": -177.10759493670886,
       "eval_loss": 0.47333332896232605,
-      "eval_runtime": 140.8307,
-      "eval_samples_per_second": 2.13,
       "eval_steps_per_second": 0.533,
       "step": 100
     }

 {
   "best_metric": 0.47333332896232605,
+  "best_model_checkpoint": "./zephyr/09-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.15-KTO_Hyperparameter search, altering lora params for KTO task.-2_max_steps-145_batch_16_2024-04-09_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
       "epoch": 0.14,
       "grad_norm": 0.0,
       "learning_rate": 0.0001785714285714286,
+      "loss": 0.4711,
       "step": 20,
+      "train/kl": 5.843189239501953,
+      "train/logps/chosen": -1172.703515625,
+      "train/logps/rejected": -1156.49736328125,
+      "train/rewards/chosen": -88.494970703125,
+      "train/rewards/margins": -1.6718872070312614,
+      "train/rewards/rejected": -86.82308349609374
     },
     {
       "epoch": 0.27,
       "grad_norm": 0.0,
       "learning_rate": 0.00015000000000000001,
+      "loss": 0.4437,
       "step": 40,
       "train/kl": 0.0,
+      "train/logps/chosen": -2424.414392605634,
+      "train/logps/rejected": -2336.605688202247,
+      "train/rewards/chosen": -215.21177651848592,
+      "train/rewards/margins": -9.581421883654457,
+      "train/rewards/rejected": -205.63035463483146
     },
     {
       "epoch": 0.34,
       "eval/kl": 0.0,
+      "eval/logps/chosen": -2342.893926056338,
+      "eval/logps/rejected": -2118.181566455696,
+      "eval/rewards/chosen": -205.92391065140845,
+      "eval/rewards/margins": -20.54295238400337,
+      "eval/rewards/rejected": -185.38095826740508,
       "eval_loss": 0.47333332896232605,
+      "eval_runtime": 140.8471,
+      "eval_samples_per_second": 2.13,
       "eval_steps_per_second": 0.532,
       "step": 50
     },
       "epoch": 0.41,
       "grad_norm": 0.0,
       "learning_rate": 0.00012142857142857143,
+      "loss": 0.4594,
       "step": 60,
       "train/kl": 0.0,
+      "train/logps/chosen": -2388.497661564626,
+      "train/logps/rejected": -2377.544617052023,
+      "train/rewards/chosen": -211.77136479591837,
+      "train/rewards/margins": -3.213425850831669,
+      "train/rewards/rejected": -208.5579389450867
     },
     {
       "epoch": 0.55,
       "grad_norm": 0.0,
       "learning_rate": 9.285714285714286e-05,
+      "loss": 0.4656,
       "step": 80,
       "train/kl": 0.0,
+      "train/logps/chosen": -2349.194211409396,
+      "train/logps/rejected": -2324.7878289473683,
+      "train/rewards/chosen": -207.3123295931208,
+      "train/rewards/margins": -3.7029089059863054,
+      "train/rewards/rejected": -203.6094206871345
     },
     {
       "epoch": 0.68,
       "grad_norm": 0.0,
       "learning_rate": 6.428571428571429e-05,
+      "loss": 0.4469,
       "step": 100,
       "train/kl": 0.0,
+      "train/logps/chosen": -2737.1844405594406,
+      "train/logps/rejected": -2257.276836158192,
+      "train/rewards/chosen": -243.65840799825176,
+      "train/rewards/margins": -45.40216241209356,
+      "train/rewards/rejected": -198.2562455861582
     },
     {
       "epoch": 0.68,
       "eval/kl": 0.0,
+      "eval/logps/chosen": -2343.730193661972,
+      "eval/logps/rejected": -2118.9036787974683,
+      "eval/rewards/chosen": -206.00756492077466,
+      "eval/rewards/margins": -20.55440283612276,
+      "eval/rewards/rejected": -185.4531620846519,
       "eval_loss": 0.47333332896232605,
+      "eval_runtime": 140.7532,
+      "eval_samples_per_second": 2.131,
       "eval_steps_per_second": 0.533,
       "step": 100
     }

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8af4fa13b4cd94fa3928354a40920f92728810d4e9e99adc8fe770546867309
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:4967bdcccc06e58769a9d818abb4a59d6b51f317661e09036a6f536bee3b86b2
 size 5688