End of training

Browse files

Files changed (5) hide show

all_results.json +17 -0
eval_results.json +12 -0
runs/May24_08-16-03_555aebd6415b/events.out.tfevents.1684922092.555aebd6415b.20495.2 +3 -0
train_results.json +8 -0
trainer_state.json +133 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 300.0,
+    "eval_bleu": 95.481,
+    "eval_em": 0.6019,
+    "eval_gen_len": 80.4676,
+    "eval_loss": 0.42530182003974915,
+    "eval_rm": 0.6547,
+    "eval_runtime": 118.0533,
+    "eval_samples": 417,
+    "eval_samples_per_second": 3.532,
+    "eval_steps_per_second": 0.229,
+    "train_loss": 0.49965806714693706,
+    "train_runtime": 5702.8364,
+    "train_samples": 1226,
+    "train_samples_per_second": 64.494,
+    "train_steps_per_second": 1.052
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 300.0,
+    "eval_bleu": 95.481,
+    "eval_em": 0.6019,
+    "eval_gen_len": 80.4676,
+    "eval_loss": 0.42530182003974915,
+    "eval_rm": 0.6547,
+    "eval_runtime": 118.0533,
+    "eval_samples": 417,
+    "eval_samples_per_second": 3.532,
+    "eval_steps_per_second": 0.229
+}

runs/May24_08-16-03_555aebd6415b/events.out.tfevents.1684922092.555aebd6415b.20495.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61b353968c1a46c1ff437e663b9d093d9e125cfd34856df6fdc235f82c5c71a9
+size 550

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 300.0,
+    "train_loss": 0.49965806714693706,
+    "train_runtime": 5702.8364,
+    "train_samples": 1226,
+    "train_samples_per_second": 64.494,
+    "train_steps_per_second": 1.052
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,133 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 300.0,
+  "global_step": 6000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 50.0,
+      "learning_rate": 2.4875e-05,
+      "loss": 2.9129,
+      "step": 1000
+    },
+    {
+      "epoch": 50.0,
+      "eval_bleu": 92.7571,
+      "eval_em": 0.2302,
+      "eval_gen_len": 79.2806,
+      "eval_loss": 0.3861088156700134,
+      "eval_rm": 0.2422,
+      "eval_runtime": 119.9581,
+      "eval_samples_per_second": 3.476,
+      "eval_steps_per_second": 0.225,
+      "step": 1000
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 4.9875000000000006e-05,
+      "loss": 0.052,
+      "step": 2000
+    },
+    {
+      "epoch": 100.0,
+      "eval_bleu": 95.3257,
+      "eval_em": 0.5156,
+      "eval_gen_len": 80.6859,
+      "eval_loss": 0.3531915545463562,
+      "eval_rm": 0.5635,
+      "eval_runtime": 114.8636,
+      "eval_samples_per_second": 3.63,
+      "eval_steps_per_second": 0.235,
+      "step": 2000
+    },
+    {
+      "epoch": 150.0,
+      "learning_rate": 3.75625e-05,
+      "loss": 0.0155,
+      "step": 3000
+    },
+    {
+      "epoch": 150.0,
+      "eval_bleu": 94.8017,
+      "eval_em": 0.5659,
+      "eval_gen_len": 79.3165,
+      "eval_loss": 0.4279763698577881,
+      "eval_rm": 0.6355,
+      "eval_runtime": 113.6979,
+      "eval_samples_per_second": 3.668,
+      "eval_steps_per_second": 0.237,
+      "step": 3000
+    },
+    {
+      "epoch": 200.0,
+      "learning_rate": 2.50625e-05,
+      "loss": 0.0086,
+      "step": 4000
+    },
+    {
+      "epoch": 200.0,
+      "eval_bleu": 95.5885,
+      "eval_em": 0.5803,
+      "eval_gen_len": 80.6978,
+      "eval_loss": 0.40772923827171326,
+      "eval_rm": 0.6283,
+      "eval_runtime": 118.0147,
+      "eval_samples_per_second": 3.533,
+      "eval_steps_per_second": 0.229,
+      "step": 4000
+    },
+    {
+      "epoch": 250.0,
+      "learning_rate": 1.2562499999999999e-05,
+      "loss": 0.0051,
+      "step": 5000
+    },
+    {
+      "epoch": 250.0,
+      "eval_bleu": 95.5923,
+      "eval_em": 0.6019,
+      "eval_gen_len": 80.6523,
+      "eval_loss": 0.41692906618118286,
+      "eval_rm": 0.6523,
+      "eval_runtime": 120.2437,
+      "eval_samples_per_second": 3.468,
+      "eval_steps_per_second": 0.225,
+      "step": 5000
+    },
+    {
+      "epoch": 300.0,
+      "learning_rate": 6.250000000000001e-08,
+      "loss": 0.0038,
+      "step": 6000
+    },
+    {
+      "epoch": 300.0,
+      "eval_bleu": 95.481,
+      "eval_em": 0.6019,
+      "eval_gen_len": 80.4676,
+      "eval_loss": 0.42530182003974915,
+      "eval_rm": 0.6547,
+      "eval_runtime": 133.449,
+      "eval_samples_per_second": 3.125,
+      "eval_steps_per_second": 0.202,
+      "step": 6000
+    },
+    {
+      "epoch": 300.0,
+      "step": 6000,
+      "total_flos": 1.014399554069376e+16,
+      "train_loss": 0.49965806714693706,
+      "train_runtime": 5702.8364,
+      "train_samples_per_second": 64.494,
+      "train_steps_per_second": 1.052
+    }
+  ],
+  "max_steps": 6000,
+  "num_train_epochs": 300,
+  "total_flos": 1.014399554069376e+16,
+  "trial_name": null,
+  "trial_params": null
+}