Model save

Browse files

Files changed (11) hide show

README.md +13 -12
all_results.json +11 -11
config.json +3 -3
eval_results.json +6 -6
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
tokenizer_config.json +1 -1
train_results.json +6 -6
trainer_state.json +404 -196
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 license: apache-2.0
-base_model: mistralai/Mistral-7B-Instruct-v0.2
 tags:
 - generated_from_trainer
 model-index:
@@ -13,9 +13,9 @@ should probably proofread and complete it, then remove this comment. -->
 # mistral_channel_targeter
-This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0435
 ## Model description
@@ -35,27 +35,28 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-07
-- train_batch_size: 4
-- eval_batch_size: 4
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 3
-- gradient_accumulation_steps: 2
 - total_train_batch_size: 24
-- total_eval_batch_size: 12
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 4
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.0493        | 1.0   | 158  | 0.0488          |
-| 0.0401        | 2.0   | 317  | 0.0401          |
-| 0.0256        | 3.0   | 475  | 0.0430          |
-| 0.0249        | 3.99  | 632  | 0.0435          |
 ### Framework versions

 ---
 license: apache-2.0
+base_model: BioMistral/BioMistral-7B
 tags:
 - generated_from_trainer
 model-index:
 # mistral_channel_targeter
+This model is a fine-tuned version of [BioMistral/BioMistral-7B](https://huggingface.co/BioMistral/BioMistral-7B) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0708
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-07
+- train_batch_size: 8
+- eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 3
 - total_train_batch_size: 24
+- total_eval_batch_size: 24
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 6
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.0526        | 1.0   | 159  | 0.0547          |
+| 0.0421        | 2.0   | 318  | 0.0447          |
+| 0.0285        | 3.0   | 477  | 0.0385          |
+| 0.0165        | 4.0   | 636  | 0.0465          |
+| 0.0021        | 5.0   | 795  | 0.0659          |
+| 0.0008        | 6.0   | 954  | 0.0708          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 3.99,
-    "eval_loss": 0.04349230229854584,
-    "eval_runtime": 21.7581,
-    "eval_samples": 205,
-    "eval_samples_per_second": 9.422,
-    "eval_steps_per_second": 0.827,
-    "train_loss": 0.2913021882878074,
-    "train_runtime": 5985.1883,
-    "train_samples": 3793,
-    "train_samples_per_second": 2.535,
-    "train_steps_per_second": 0.106
 }

 {
+    "epoch": 6.0,
+    "eval_loss": 0.07076797634363174,
+    "eval_runtime": 22.043,
+    "eval_samples": 206,
+    "eval_samples_per_second": 9.345,
+    "eval_steps_per_second": 0.408,
+    "train_loss": 0.18272512886366676,
+    "train_runtime": 9319.8502,
+    "train_samples": 3795,
+    "train_samples_per_second": 2.443,
+    "train_steps_per_second": 0.102
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
   "architectures": [
     "MistralForCausalLM"
   ],
@@ -16,8 +16,8 @@
   "num_hidden_layers": 32,
   "num_key_value_heads": 8,
   "rms_norm_eps": 1e-05,
-  "rope_theta": 1000000.0,
-  "sliding_window": null,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.36.0",

 {
+  "_name_or_path": "BioMistral/BioMistral-7B",
   "architectures": [
     "MistralForCausalLM"
   ],
   "num_hidden_layers": 32,
   "num_key_value_heads": 8,
   "rms_norm_eps": 1e-05,
+  "rope_theta": 10000.0,
+  "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.36.0",

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.99,
-    "eval_loss": 0.04349230229854584,
-    "eval_runtime": 21.7581,
-    "eval_samples": 205,
-    "eval_samples_per_second": 9.422,
-    "eval_steps_per_second": 0.827
 }

 {
+    "epoch": 6.0,
+    "eval_loss": 0.07076797634363174,
+    "eval_runtime": 22.043,
+    "eval_samples": 206,
+    "eval_samples_per_second": 9.345,
+    "eval_steps_per_second": 0.408
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f13aa6ca4c805d82509ea4fd28952c56690304047ea285baf9b0da946dd196e6
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:92afcd4e1fb769e701a48bf65d7750b51820f9f5a06061b2c6899dcc4a6f685f
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03f7c08a8cebca32ab7301b2ea9f060e8549bf94876bc3871c3614b3912197d9
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:41cf70dcb5493928483654d17938b754ba42fc66b87167bce580acd30dddb91a
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:922173b16483b3ece4d5bb441e8c6042ecda1cfffdc9eb54db8916c372276d26
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:70519e3fb132eb05253592faf31ad4116681d32d6b102810c5cb276ac15ce06c
 size 4540516344

tokenizer_config.json CHANGED Viewed

@@ -29,7 +29,7 @@
   },
   "additional_special_tokens": [],
   "bos_token": "<s>",
-  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ message['content'] }}\n{% elif message['role'] == 'system' %}\n{{ message['content'] }}\n{% elif message['role'] == 'assistant' %}\n{{ '\n###Response :\n'  + message['content'] }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '###Response :\n' }}\n{% endif %}\n{% endfor %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
   "legacy": true,

   },
   "additional_special_tokens": [],
   "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '### Input:\n\n' + message['content'] }}\n{% elif message['role'] == 'system' %}\n{{ '### Instruction:\n\n' + message['content'] }}\n{% elif message['role'] == 'assistant' %}\n{{ '\n###Response :\n\n'  + message['content'] }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '###Response :\n\n' }}\n{% endif %}\n{% endfor %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
   "legacy": true,

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.99,
-    "train_loss": 0.2913021882878074,
-    "train_runtime": 5985.1883,
-    "train_samples": 3793,
-    "train_samples_per_second": 2.535,
-    "train_steps_per_second": 0.106
 }

 {
+    "epoch": 6.0,
+    "train_loss": 0.18272512886366676,
+    "train_runtime": 9319.8502,
+    "train_samples": 3795,
+    "train_samples_per_second": 2.443,
+    "train_steps_per_second": 0.102
 }

trainer_state.json CHANGED Viewed

@@ -1,440 +1,648 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.9873817034700316,
   "eval_steps": 500,
-  "global_step": 632,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.06,
-      "learning_rate": 7.812499999999999e-08,
-      "loss": 6.7461,
       "step": 10
     },
     {
       "epoch": 0.13,
-      "learning_rate": 1.5624999999999999e-07,
-      "loss": 5.4679,
       "step": 20
     },
     {
       "epoch": 0.19,
-      "learning_rate": 2.3437499999999998e-07,
-      "loss": 2.9019,
       "step": 30
     },
     {
       "epoch": 0.25,
-      "learning_rate": 3.1249999999999997e-07,
-      "loss": 0.8112,
       "step": 40
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 3.9062499999999997e-07,
-      "loss": 0.2134,
       "step": 50
     },
     {
       "epoch": 0.38,
-      "learning_rate": 4.6874999999999996e-07,
-      "loss": 0.1487,
       "step": 60
     },
     {
       "epoch": 0.44,
-      "learning_rate": 4.998623501539504e-07,
-      "loss": 0.1156,
       "step": 70
     },
     {
       "epoch": 0.5,
-      "learning_rate": 4.990217055187362e-07,
-      "loss": 0.0821,
       "step": 80
     },
     {
       "epoch": 0.57,
-      "learning_rate": 4.974194562818019e-07,
-      "loss": 0.0675,
       "step": 90
     },
     {
       "epoch": 0.63,
-      "learning_rate": 4.950605027404507e-07,
-      "loss": 0.066,
       "step": 100
     },
     {
       "epoch": 0.69,
-      "learning_rate": 4.91952059486152e-07,
-      "loss": 0.0627,
       "step": 110
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 4.881036333395328e-07,
-      "loss": 0.0583,
       "step": 120
     },
     {
       "epoch": 0.82,
-      "learning_rate": 4.835269942748475e-07,
-      "loss": 0.0534,
       "step": 130
     },
     {
       "epoch": 0.88,
-      "learning_rate": 4.782361394228472e-07,
-      "loss": 0.0524,
       "step": 140
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 4.7224725026214615e-07,
-      "loss": 0.0493,
       "step": 150
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.04877917468547821,
-      "eval_runtime": 21.7578,
-      "eval_samples_per_second": 9.422,
-      "eval_steps_per_second": 0.827,
-      "step": 158
     },
     {
       "epoch": 1.01,
-      "learning_rate": 4.655786431300069e-07,
-      "loss": 0.0434,
       "step": 160
     },
     {
       "epoch": 1.07,
-      "learning_rate": 4.582507132039034e-07,
-      "loss": 0.0411,
       "step": 170
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 4.5028587212518697e-07,
-      "loss": 0.0423,
       "step": 180
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 4.4170847945562717e-07,
-      "loss": 0.0416,
       "step": 190
     },
     {
       "epoch": 1.26,
-      "learning_rate": 4.325447681764586e-07,
-      "loss": 0.0417,
       "step": 200
     },
     {
       "epoch": 1.32,
-      "learning_rate": 4.228227644577875e-07,
-      "loss": 0.039,
       "step": 210
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 4.1257220194373424e-07,
-      "loss": 0.0406,
       "step": 220
     },
     {
       "epoch": 1.45,
-      "learning_rate": 4.0182443081545917e-07,
-      "loss": 0.0448,
       "step": 230
     },
     {
       "epoch": 1.51,
-      "learning_rate": 3.9061232191019517e-07,
-      "loss": 0.0408,
       "step": 240
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 3.78970166189525e-07,
-      "loss": 0.0438,
       "step": 250
     },
     {
       "epoch": 1.64,
-      "learning_rate": 3.669335698643704e-07,
-      "loss": 0.0357,
       "step": 260
     },
     {
       "epoch": 1.7,
-      "learning_rate": 3.5453934549744043e-07,
-      "loss": 0.0373,
       "step": 270
     },
     {
-      "epoch": 1.77,
-      "learning_rate": 3.418253994161892e-07,
-      "loss": 0.0446,
       "step": 280
     },
     {
-      "epoch": 1.83,
-      "learning_rate": 3.288306157806193e-07,
-      "loss": 0.039,
       "step": 290
     },
     {
       "epoch": 1.89,
-      "learning_rate": 3.1559473766049476e-07,
-      "loss": 0.0382,
       "step": 300
     },
     {
-      "epoch": 1.96,
-      "learning_rate": 3.021582454856766e-07,
-      "loss": 0.0401,
       "step": 310
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.040096793323755264,
-      "eval_runtime": 21.7544,
-      "eval_samples_per_second": 9.423,
-      "eval_steps_per_second": 0.827,
-      "step": 317
     },
     {
-      "epoch": 2.02,
-      "learning_rate": 2.8856223324132555e-07,
-      "loss": 0.0351,
       "step": 320
     },
     {
       "epoch": 2.08,
-      "learning_rate": 2.748482827866165e-07,
-      "loss": 0.0239,
       "step": 330
     },
     {
-      "epoch": 2.15,
-      "learning_rate": 2.610583366813447e-07,
-      "loss": 0.0318,
       "step": 340
     },
     {
-      "epoch": 2.21,
-      "learning_rate": 2.472345699093711e-07,
       "loss": 0.0304,
       "step": 350
     },
     {
-      "epoch": 2.27,
-      "learning_rate": 2.3341926089122408e-07,
-      "loss": 0.0318,
       "step": 360
     },
     {
       "epoch": 2.33,
-      "learning_rate": 2.1965466218035267e-07,
-      "loss": 0.03,
       "step": 370
     },
     {
-      "epoch": 2.4,
-      "learning_rate": 2.0598287123849092e-07,
-      "loss": 0.034,
       "step": 380
     },
     {
-      "epoch": 2.46,
-      "learning_rate": 1.9244570168535297e-07,
       "loss": 0.0295,
       "step": 390
     },
     {
       "epoch": 2.52,
-      "learning_rate": 1.7908455541642582e-07,
-      "loss": 0.0312,
       "step": 400
     },
     {
-      "epoch": 2.59,
-      "learning_rate": 1.659402959799753e-07,
-      "loss": 0.0269,
       "step": 410
     },
     {
-      "epoch": 2.65,
-      "learning_rate": 1.5305312360052443e-07,
-      "loss": 0.0289,
       "step": 420
     },
     {
-      "epoch": 2.71,
-      "learning_rate": 1.4046245223103348e-07,
-      "loss": 0.0362,
       "step": 430
     },
     {
-      "epoch": 2.78,
-      "learning_rate": 1.2820678900980092e-07,
       "loss": 0.0314,
       "step": 440
     },
     {
-      "epoch": 2.84,
-      "learning_rate": 1.1632361649075498e-07,
-      "loss": 0.0302,
       "step": 450
     },
     {
-      "epoch": 2.9,
-      "learning_rate": 1.0484927800731982e-07,
-      "loss": 0.0305,
       "step": 460
     },
     {
-      "epoch": 2.97,
-      "learning_rate": 9.381886652045845e-08,
-      "loss": 0.0256,
       "step": 470
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.042997319251298904,
-      "eval_runtime": 21.7318,
-      "eval_samples_per_second": 9.433,
-      "eval_steps_per_second": 0.828,
-      "step": 475
     },
     {
-      "epoch": 3.03,
-      "learning_rate": 8.32661172908373e-08,
-      "loss": 0.026,
       "step": 480
     },
     {
-      "epoch": 3.09,
-      "learning_rate": 7.322330470336313e-08,
-      "loss": 0.022,
       "step": 490
     },
     {
-      "epoch": 3.15,
-      "learning_rate": 6.372114355964292e-08,
-      "loss": 0.0253,
       "step": 500
     },
     {
-      "epoch": 3.22,
-      "learning_rate": 5.4788695140251637e-08,
-      "loss": 0.0216,
       "step": 510
     },
     {
-      "epoch": 3.28,
-      "learning_rate": 4.645327832410648e-08,
-      "loss": 0.0194,
       "step": 520
     },
     {
-      "epoch": 3.34,
-      "learning_rate": 3.874038603677882e-08,
-      "loss": 0.0247,
       "step": 530
     },
     {
-      "epoch": 3.41,
-      "learning_rate": 3.167360728327681e-08,
-      "loss": 0.021,
       "step": 540
     },
     {
-      "epoch": 3.47,
-      "learning_rate": 2.5274555003752697e-08,
-      "loss": 0.0245,
       "step": 550
     },
     {
-      "epoch": 3.53,
-      "learning_rate": 1.956279997278043e-08,
-      "loss": 0.0226,
       "step": 560
     },
     {
-      "epoch": 3.6,
-      "learning_rate": 1.4555810944364478e-08,
-      "loss": 0.023,
       "step": 570
     },
     {
-      "epoch": 3.66,
-      "learning_rate": 1.0268901225739979e-08,
-      "loss": 0.0209,
       "step": 580
     },
     {
-      "epoch": 3.72,
-      "learning_rate": 6.715181843361617e-09,
-      "loss": 0.0258,
       "step": 590
     },
     {
-      "epoch": 3.79,
-      "learning_rate": 3.905521444318604e-09,
-      "loss": 0.0204,
       "step": 600
     },
     {
-      "epoch": 3.85,
-      "learning_rate": 1.8485130558120454e-09,
-      "loss": 0.0215,
       "step": 610
     },
     {
-      "epoch": 3.91,
-      "learning_rate": 5.504478043572291e-10,
-      "loss": 0.0204,
       "step": 620
     },
     {
-      "epoch": 3.97,
-      "learning_rate": 1.5295675087678705e-11,
-      "loss": 0.0249,
       "step": 630
     },
     {
-      "epoch": 3.99,
-      "eval_loss": 0.04349230229854584,
-      "eval_runtime": 21.7702,
-      "eval_samples_per_second": 9.417,
-      "eval_steps_per_second": 0.827,
-      "step": 632
     },
     {
-      "epoch": 3.99,
-      "step": 632,
-      "total_flos": 72589258260480.0,
-      "train_loss": 0.2913021882878074,
-      "train_runtime": 5985.1883,
-      "train_samples_per_second": 2.535,
-      "train_steps_per_second": 0.106
     }
   ],
   "logging_steps": 10,
-  "max_steps": 632,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
-  "total_flos": 72589258260480.0,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.0,
   "eval_steps": 500,
+  "global_step": 954,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.06,
+      "learning_rate": 5.208333333333333e-08,
+      "loss": 5.1406,
       "step": 10
     },
     {
       "epoch": 0.13,
+      "learning_rate": 1.0416666666666667e-07,
+      "loss": 4.8324,
       "step": 20
     },
     {
       "epoch": 0.19,
+      "learning_rate": 1.5624999999999999e-07,
+      "loss": 3.282,
       "step": 30
     },
     {
       "epoch": 0.25,
+      "learning_rate": 2.0833333333333333e-07,
+      "loss": 1.166,
       "step": 40
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 2.604166666666667e-07,
+      "loss": 0.3744,
       "step": 50
     },
     {
       "epoch": 0.38,
+      "learning_rate": 3.1249999999999997e-07,
+      "loss": 0.2785,
       "step": 60
     },
     {
       "epoch": 0.44,
+      "learning_rate": 3.645833333333333e-07,
+      "loss": 0.2278,
       "step": 70
     },
     {
       "epoch": 0.5,
+      "learning_rate": 4.1666666666666667e-07,
+      "loss": 0.1459,
       "step": 80
     },
     {
       "epoch": 0.57,
+      "learning_rate": 4.6874999999999996e-07,
+      "loss": 0.0876,
       "step": 90
     },
     {
       "epoch": 0.63,
+      "learning_rate": 4.999731868769026e-07,
+      "loss": 0.071,
       "step": 100
     },
     {
       "epoch": 0.69,
+      "learning_rate": 4.996716052911017e-07,
+      "loss": 0.0626,
       "step": 110
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 4.990353313429303e-07,
+      "loss": 0.0586,
       "step": 120
     },
     {
       "epoch": 0.82,
+      "learning_rate": 4.980652179769217e-07,
+      "loss": 0.055,
       "step": 130
     },
     {
       "epoch": 0.88,
+      "learning_rate": 4.967625656594781e-07,
+      "loss": 0.0547,
       "step": 140
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 4.951291206355559e-07,
+      "loss": 0.0526,
       "step": 150
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.054711490869522095,
+      "eval_runtime": 21.9924,
+      "eval_samples_per_second": 9.367,
+      "eval_steps_per_second": 0.409,
+      "step": 159
     },
     {
       "epoch": 1.01,
+      "learning_rate": 4.93167072587771e-07,
+      "loss": 0.0468,
       "step": 160
     },
     {
       "epoch": 1.07,
+      "learning_rate": 4.908790517010636e-07,
+      "loss": 0.0447,
       "step": 170
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 4.882681251368548e-07,
+      "loss": 0.0447,
       "step": 180
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 4.853377929214243e-07,
+      "loss": 0.0498,
       "step": 190
     },
     {
       "epoch": 1.26,
+      "learning_rate": 4.820919832540181e-07,
+      "loss": 0.0468,
       "step": 200
     },
     {
       "epoch": 1.32,
+      "learning_rate": 4.785350472409791e-07,
+      "loss": 0.0458,
       "step": 210
     },
     {
+      "epoch": 1.38,
+      "learning_rate": 4.7467175306295647e-07,
+      "loss": 0.046,
       "step": 220
     },
     {
       "epoch": 1.45,
+      "learning_rate": 4.70507279583015e-07,
+      "loss": 0.043,
       "step": 230
     },
     {
       "epoch": 1.51,
+      "learning_rate": 4.6604720940421207e-07,
+      "loss": 0.0431,
       "step": 240
     },
     {
+      "epoch": 1.57,
+      "learning_rate": 4.612975213859487e-07,
+      "loss": 0.0428,
       "step": 250
     },
     {
       "epoch": 1.64,
+      "learning_rate": 4.5626458262912735e-07,
+      "loss": 0.0468,
       "step": 260
     },
     {
       "epoch": 1.7,
+      "learning_rate": 4.5095513994085974e-07,
+      "loss": 0.0418,
       "step": 270
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 4.453763107901675e-07,
+      "loss": 0.0437,
       "step": 280
     },
     {
+      "epoch": 1.82,
+      "learning_rate": 4.395355737667985e-07,
+      "loss": 0.0429,
       "step": 290
     },
     {
       "epoch": 1.89,
+      "learning_rate": 4.3344075855595097e-07,
+      "loss": 0.0408,
       "step": 300
     },
     {
+      "epoch": 1.95,
+      "learning_rate": 4.271000354423425e-07,
+      "loss": 0.0421,
       "step": 310
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.04473445564508438,
+      "eval_runtime": 22.0105,
+      "eval_samples_per_second": 9.359,
+      "eval_steps_per_second": 0.409,
+      "step": 318
     },
     {
+      "epoch": 2.01,
+      "learning_rate": 4.2052190435769554e-07,
+      "loss": 0.0355,
       "step": 320
     },
     {
       "epoch": 2.08,
+      "learning_rate": 4.137151834863213e-07,
+      "loss": 0.0348,
       "step": 330
     },
     {
+      "epoch": 2.14,
+      "learning_rate": 4.0668899744407567e-07,
+      "loss": 0.0326,
       "step": 340
     },
     {
+      "epoch": 2.2,
+      "learning_rate": 3.994527650465352e-07,
       "loss": 0.0304,
       "step": 350
     },
     {
+      "epoch": 2.26,
+      "learning_rate": 3.920161866827889e-07,
+      "loss": 0.0258,
       "step": 360
     },
     {
       "epoch": 2.33,
+      "learning_rate": 3.8438923131177237e-07,
+      "loss": 0.0317,
       "step": 370
     },
     {
+      "epoch": 2.39,
+      "learning_rate": 3.765821230985757e-07,
+      "loss": 0.0326,
       "step": 380
     },
     {
+      "epoch": 2.45,
+      "learning_rate": 3.6860532770864005e-07,
       "loss": 0.0295,
       "step": 390
     },
     {
       "epoch": 2.52,
+      "learning_rate": 3.604695382782159e-07,
+      "loss": 0.0275,
       "step": 400
     },
     {
+      "epoch": 2.58,
+      "learning_rate": 3.5218566107988867e-07,
+      "loss": 0.0344,
       "step": 410
     },
     {
+      "epoch": 2.64,
+      "learning_rate": 3.4376480090239047e-07,
+      "loss": 0.0341,
       "step": 420
     },
     {
+      "epoch": 2.7,
+      "learning_rate": 3.3521824616429284e-07,
+      "loss": 0.0273,
       "step": 430
     },
     {
+      "epoch": 2.77,
+      "learning_rate": 3.265574537815398e-07,
       "loss": 0.0314,
       "step": 440
     },
     {
+      "epoch": 2.83,
+      "learning_rate": 3.1779403380910425e-07,
+      "loss": 0.0354,
       "step": 450
     },
     {
+      "epoch": 2.89,
+      "learning_rate": 3.0893973387735683e-07,
+      "loss": 0.0336,
       "step": 460
     },
     {
+      "epoch": 2.96,
+      "learning_rate": 3.000064234440111e-07,
+      "loss": 0.0285,
       "step": 470
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.03846818581223488,
+      "eval_runtime": 22.5077,
+      "eval_samples_per_second": 9.152,
+      "eval_steps_per_second": 0.4,
+      "step": 477
     },
     {
+      "epoch": 3.02,
+      "learning_rate": 2.910060778827554e-07,
+      "loss": 0.0259,
       "step": 480
     },
     {
+      "epoch": 3.08,
+      "learning_rate": 2.8195076242990116e-07,
+      "loss": 0.0098,
       "step": 490
     },
     {
+      "epoch": 3.14,
+      "learning_rate": 2.7285261601056697e-07,
+      "loss": 0.0153,
       "step": 500
     },
     {
+      "epoch": 3.21,
+      "learning_rate": 2.6372383496608186e-07,
+      "loss": 0.0162,
       "step": 510
     },
     {
+      "epoch": 3.27,
+      "learning_rate": 2.5457665670441937e-07,
+      "loss": 0.0155,
       "step": 520
     },
     {
+      "epoch": 3.33,
+      "learning_rate": 2.454233432955807e-07,
+      "loss": 0.0185,
       "step": 530
     },
     {
+      "epoch": 3.4,
+      "learning_rate": 2.3627616503391812e-07,
+      "loss": 0.0138,
       "step": 540
     },
     {
+      "epoch": 3.46,
+      "learning_rate": 2.2714738398943308e-07,
+      "loss": 0.0136,
       "step": 550
     },
     {
+      "epoch": 3.52,
+      "learning_rate": 2.1804923757009882e-07,
+      "loss": 0.016,
       "step": 560
     },
     {
+      "epoch": 3.58,
+      "learning_rate": 2.089939221172446e-07,
+      "loss": 0.0155,
       "step": 570
     },
     {
+      "epoch": 3.65,
+      "learning_rate": 1.9999357655598891e-07,
+      "loss": 0.009,
       "step": 580
     },
     {
+      "epoch": 3.71,
+      "learning_rate": 1.9106026612264315e-07,
+      "loss": 0.0186,
       "step": 590
     },
     {
+      "epoch": 3.77,
+      "learning_rate": 1.8220596619089573e-07,
+      "loss": 0.0109,
       "step": 600
     },
     {
+      "epoch": 3.84,
+      "learning_rate": 1.7344254621846017e-07,
+      "loss": 0.016,
       "step": 610
     },
     {
+      "epoch": 3.9,
+      "learning_rate": 1.647817538357072e-07,
+      "loss": 0.0111,
       "step": 620
     },
     {
+      "epoch": 3.96,
+      "learning_rate": 1.562351990976095e-07,
+      "loss": 0.0165,
       "step": 630
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 0.04646956920623779,
+      "eval_runtime": 22.0005,
+      "eval_samples_per_second": 9.363,
+      "eval_steps_per_second": 0.409,
+      "step": 636
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 1.478143389201113e-07,
+      "loss": 0.0104,
+      "step": 640
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 1.3953046172178413e-07,
+      "loss": 0.0041,
+      "step": 650
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 1.3139467229135998e-07,
+      "loss": 0.0041,
+      "step": 660
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 1.2341787690142435e-07,
+      "loss": 0.0011,
+      "step": 670
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 1.1561076868822755e-07,
+      "loss": 0.0028,
+      "step": 680
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 1.0798381331721107e-07,
+      "loss": 0.0024,
+      "step": 690
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 1.0054723495346482e-07,
+      "loss": 0.0021,
+      "step": 700
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 9.331100255592436e-08,
+      "loss": 0.0038,
+      "step": 710
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 8.628481651367875e-08,
+      "loss": 0.0068,
+      "step": 720
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 7.947809564230445e-08,
+      "loss": 0.0018,
+      "step": 730
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 7.289996455765748e-08,
+      "loss": 0.0035,
+      "step": 740
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 6.655924144404906e-08,
+      "loss": 0.0032,
+      "step": 750
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 6.046442623320145e-08,
+      "loss": 0.0048,
+      "step": 760
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 5.4623689209832484e-08,
+      "loss": 0.0034,
+      "step": 770
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 4.904486005914027e-08,
+      "loss": 0.0031,
+      "step": 780
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 4.373541737087263e-08,
+      "loss": 0.0021,
+      "step": 790
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.06586528569459915,
+      "eval_runtime": 22.2256,
+      "eval_samples_per_second": 9.269,
+      "eval_steps_per_second": 0.405,
+      "step": 795
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 3.8702478614051345e-08,
+      "loss": 0.0037,
+      "step": 800
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 3.3952790595787986e-08,
+      "loss": 0.0015,
+      "step": 810
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 2.9492720416985e-08,
+      "loss": 0.0007,
+      "step": 820
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 2.5328246937043525e-08,
+      "loss": 0.002,
+      "step": 830
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 2.1464952759020856e-08,
+      "loss": 0.0005,
+      "step": 840
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 1.7908016745981856e-08,
+      "loss": 0.0012,
+      "step": 850
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 1.4662207078575684e-08,
+      "loss": 0.0005,
+      "step": 860
+    },
+    {
+      "epoch": 5.47,
+      "learning_rate": 1.1731874863145142e-08,
+      "loss": 0.0024,
+      "step": 870
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 9.12094829893642e-09,
+      "loss": 0.0011,
+      "step": 880
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 6.832927412229017e-09,
+      "loss": 0.0006,
+      "step": 890
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 4.8708793644441086e-09,
+      "loss": 0.0023,
+      "step": 900
+    },
+    {
+      "epoch": 5.72,
+      "learning_rate": 3.2374343405217884e-09,
+      "loss": 0.0023,
+      "step": 910
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 1.9347820230782295e-09,
+      "loss": 0.0005,
+      "step": 920
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 9.64668657069706e-10,
+      "loss": 0.0023,
+      "step": 930
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 3.2839470889836627e-10,
+      "loss": 0.0011,
+      "step": 940
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 2.6813123097352287e-11,
+      "loss": 0.0008,
+      "step": 950
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.07076797634363174,
+      "eval_runtime": 21.958,
+      "eval_samples_per_second": 9.382,
+      "eval_steps_per_second": 0.41,
+      "step": 954
     },
     {
+      "epoch": 6.0,
+      "step": 954,
+      "total_flos": 126473593159680.0,
+      "train_loss": 0.18272512886366676,
+      "train_runtime": 9319.8502,
+      "train_samples_per_second": 2.443,
+      "train_steps_per_second": 0.102
     }
   ],
   "logging_steps": 10,
+  "max_steps": 954,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
+  "total_flos": 126473593159680.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5b2affc5d29584c63baf83c2c1002a4fb75eed308d418c32cba8a909ddcc19f
 size 5371

 version https://git-lfs.github.com/spec/v1
+oid sha256:55228b00492b67368a9b7ba885cdae50dcc19467b0776ba18e45dcad51e7aa44
 size 5371