Model save

Browse files

Files changed (7) hide show

README.md +65 -0
adapter_model.safetensors +1 -1
all_results.json +13 -0
config_argument.yaml +52 -0
eval_results.json +8 -0
train_results.json +8 -0
trainer_state.json +1196 -0

README.md ADDED Viewed

	@@ -0,0 +1,65 @@

+---
+base_model: hllj/Mistral-7B-Vi-Math
+tags:
+- trl
+- sft
+- generated_from_trainer
+datasets:
+- generator
+model-index:
+- name: sft-mistral-7b-vi-math-v1-clean-valid
+  results: []
+library_name: peft
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# sft-mistral-7b-vi-math-v1-clean-valid
+This model is a fine-tuned version of [hllj/Mistral-7B-Vi-Math](https://huggingface.co/hllj/Mistral-7B-Vi-Math) on the generator dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4370
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 2
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 0.2954        | 1.04  | 1000 | 0.4506          |
+### Framework versions
+- PEFT 0.5.0
+- Transformers 4.36.2
+- Pytorch 2.1.2
+- Datasets 2.16.0
+- Tokenizers 0.15.0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e56d061928b3fadfd801df00d6cd869b98b193461085c9322e3f191ae738df5b
 size 872450448

 version https://git-lfs.github.com/spec/v1
+oid sha256:73c248137607a1bc2eca838dab3f4a7a482207c5fbad2777d0c18359cf5d848a
 size 872450448

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 2.0,
+    "eval_loss": 0.4370269775390625,
+    "eval_runtime": 13.746,
+    "eval_samples": 140,
+    "eval_samples_per_second": 3.201,
+    "eval_steps_per_second": 0.8,
+    "train_loss": 0.3247208358966101,
+    "train_runtime": 7447.4364,
+    "train_samples": 8657,
+    "train_samples_per_second": 1.032,
+    "train_steps_per_second": 0.258
+}

config_argument.yaml ADDED Viewed

	@@ -0,0 +1,52 @@

+cache_dir: ./cache
+ddp_find_unused_parameters: false
+ddp_timeout: 30000
+device_map: auto
+do_eval: true
+do_train: true
+eval_steps: 1000
+evaluation_strategy: steps
+fp16: true
+gradient_accumulation_steps: 1
+gradient_checkpointing: true
+gradient_checkpointing_kwargs:
+  use_reentrant: false
+hub_model_id: BaoLocTown/sft-mistral-7b-vi-math-v1-clean-valid
+hub_strategy: every_save
+learning_rate: 3.0e-05
+log_level: info
+logging_first_step: true
+logging_steps: 10
+logging_strategy: steps
+lora_alpha: 128
+lora_dropout: 0.05
+lora_r: 256
+lora_target_modules:
+- q_proj
+- k_proj
+- v_proj
+- o_proj
+lr_scheduler_type: cosine
+max_seq_length: 1024
+model_name_or_path: hllj/Mistral-7B-Vi-Math
+model_type: auto
+num_train_epochs: 2
+output_dir: outputs-sft-mistral-7b-vi-math-v1-clean-valid
+overwrite_output_dir: true
+per_device_eval_batch_size: 4
+per_device_train_batch_size: 4
+preprocessing_num_workers: 4
+push_to_hub: true
+report_to: wandb
+run_name: sft-mistral-7b-vi-math-v1-clean-valid
+save_steps: 1000
+save_strategy: steps
+save_total_limit: 13
+seed: 42
+token: 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
+torch_dtype: float16
+train_file_dir: datasets/finetune
+use_peft: true
+validation_file_dir: datasets/validation
+warmup_ratio: 0.05
+weight_decay: 0.05

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "eval_loss": 0.4370269775390625,
+    "eval_runtime": 13.746,
+    "eval_samples": 140,
+    "eval_samples_per_second": 3.201,
+    "eval_steps_per_second": 0.8
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "train_loss": 0.3247208358966101,
+    "train_runtime": 7447.4364,
+    "train_samples": 8657,
+    "train_samples_per_second": 1.032,
+    "train_steps_per_second": 0.258
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1196 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 1000,
+  "global_step": 1922,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.0927835051546394e-07,
+      "loss": 0.5665,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 3.092783505154639e-06,
+      "loss": 0.7248,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 6.185567010309278e-06,
+      "loss": 0.7059,
+      "step": 20
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.278350515463918e-06,
+      "loss": 0.6139,
+      "step": 30
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.2371134020618556e-05,
+      "loss": 0.5087,
+      "step": 40
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.5463917525773194e-05,
+      "loss": 0.4724,
+      "step": 50
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.8556701030927837e-05,
+      "loss": 0.4124,
+      "step": 60
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.1649484536082473e-05,
+      "loss": 0.4254,
+      "step": 70
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.4742268041237112e-05,
+      "loss": 0.3885,
+      "step": 80
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.7835051546391755e-05,
+      "loss": 0.3624,
+      "step": 90
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.999979997843754e-05,
+      "loss": 0.4005,
+      "step": 100
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.999624418794702e-05,
+      "loss": 0.3947,
+      "step": 110
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.998824468665815e-05,
+      "loss": 0.383,
+      "step": 120
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.997580384499581e-05,
+      "loss": 0.3477,
+      "step": 130
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.9958925349449884e-05,
+      "loss": 0.3627,
+      "step": 140
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.9937614201482864e-05,
+      "loss": 0.3744,
+      "step": 150
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.9911876716047828e-05,
+      "loss": 0.3545,
+      "step": 160
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.988172051971717e-05,
+      "loss": 0.3598,
+      "step": 170
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.9847154548422685e-05,
+      "loss": 0.336,
+      "step": 180
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.9808189044807664e-05,
+      "loss": 0.3482,
+      "step": 190
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 2.976483555519177e-05,
+      "loss": 0.3675,
+      "step": 200
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 2.9717106926149626e-05,
+      "loss": 0.3417,
+      "step": 210
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.9665017300704087e-05,
+      "loss": 0.3401,
+      "step": 220
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.9608582114135352e-05,
+      "loss": 0.3315,
+      "step": 230
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.954781808940717e-05,
+      "loss": 0.366,
+      "step": 240
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.9482743232211473e-05,
+      "loss": 0.3604,
+      "step": 250
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.9413376825632873e-05,
+      "loss": 0.3548,
+      "step": 260
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.9339739424434687e-05,
+      "loss": 0.3615,
+      "step": 270
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.9261852848968123e-05,
+      "loss": 0.3681,
+      "step": 280
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.9179740178706412e-05,
+      "loss": 0.368,
+      "step": 290
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 2.9093425745405897e-05,
+      "loss": 0.3509,
+      "step": 300
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 2.9012171361681493e-05,
+      "loss": 0.3321,
+      "step": 310
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 2.8917945065723644e-05,
+      "loss": 0.3653,
+      "step": 320
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 2.8819594582268972e-05,
+      "loss": 0.3548,
+      "step": 330
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 2.8717149054688286e-05,
+      "loss": 0.3602,
+      "step": 340
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 2.8610638839802383e-05,
+      "loss": 0.3333,
+      "step": 350
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 2.85000954988866e-05,
+      "loss": 0.3642,
+      "step": 360
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 2.838555178831857e-05,
+      "loss": 0.346,
+      "step": 370
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 2.8267041649871796e-05,
+      "loss": 0.3542,
+      "step": 380
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 2.8144600200657953e-05,
+      "loss": 0.3364,
+      "step": 390
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 2.8018263722720953e-05,
+      "loss": 0.3526,
+      "step": 400
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 2.7888069652285765e-05,
+      "loss": 0.3457,
+      "step": 410
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 2.775405656866529e-05,
+      "loss": 0.328,
+      "step": 420
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 2.7616264182828423e-05,
+      "loss": 0.3445,
+      "step": 430
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.747473332563291e-05,
+      "loss": 0.3503,
+      "step": 440
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.7329505935726215e-05,
+      "loss": 0.3631,
+      "step": 450
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 2.718062504711823e-05,
+      "loss": 0.3456,
+      "step": 460
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.7028134776429372e-05,
+      "loss": 0.3373,
+      "step": 470
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.6872080309817844e-05,
+      "loss": 0.3477,
+      "step": 480
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.6712507889590042e-05,
+      "loss": 0.3603,
+      "step": 490
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.654946480049793e-05,
+      "loss": 0.3242,
+      "step": 500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.6382999355727565e-05,
+      "loss": 0.3277,
+      "step": 510
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.6213160882582855e-05,
+      "loss": 0.3424,
+      "step": 520
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.6039999707868797e-05,
+      "loss": 0.3277,
+      "step": 530
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.5863567142978596e-05,
+      "loss": 0.34,
+      "step": 540
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.5683915468688945e-05,
+      "loss": 0.3086,
+      "step": 550
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.5501097919668147e-05,
+      "loss": 0.3462,
+      "step": 560
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.531516866870149e-05,
+      "loss": 0.3497,
+      "step": 570
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.512618281063873e-05,
+      "loss": 0.3328,
+      "step": 580
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 2.4934196346068248e-05,
+      "loss": 0.339,
+      "step": 590
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 2.4739266164722916e-05,
+      "loss": 0.3323,
+      "step": 600
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 2.4541450028622397e-05,
+      "loss": 0.344,
+      "step": 610
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 2.4340806554957033e-05,
+      "loss": 0.3494,
+      "step": 620
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 2.413739519871833e-05,
+      "loss": 0.3224,
+      "step": 630
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 2.39312762350811e-05,
+      "loss": 0.3296,
+      "step": 640
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 2.372251074154269e-05,
+      "loss": 0.3324,
+      "step": 650
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 2.351116057982436e-05,
+      "loss": 0.3217,
+      "step": 660
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 2.329728837754034e-05,
+      "loss": 0.344,
+      "step": 670
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 2.3080957509639908e-05,
+      "loss": 0.3426,
+      "step": 680
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 2.286223207962802e-05,
+      "loss": 0.3166,
+      "step": 690
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 2.264117690057007e-05,
+      "loss": 0.3145,
+      "step": 700
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 2.2417857475886383e-05,
+      "loss": 0.342,
+      "step": 710
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 2.219233997994211e-05,
+      "loss": 0.3259,
+      "step": 720
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 2.1964691238438374e-05,
+      "loss": 0.3195,
+      "step": 730
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2.173497870861034e-05,
+      "loss": 0.3442,
+      "step": 740
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 2.1503270459238204e-05,
+      "loss": 0.3387,
+      "step": 750
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 2.1269635150476917e-05,
+      "loss": 0.337,
+      "step": 760
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 2.1034142013510735e-05,
+      "loss": 0.32,
+      "step": 770
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 2.0796860830038506e-05,
+      "loss": 0.3168,
+      "step": 780
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 2.055786191159583e-05,
+      "loss": 0.3229,
+      "step": 790
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 2.0317216078720264e-05,
+      "loss": 0.3341,
+      "step": 800
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 2.0074994639965654e-05,
+      "loss": 0.3204,
+      "step": 810
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1.9831269370771864e-05,
+      "loss": 0.3518,
+      "step": 820
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.9586112492196187e-05,
+      "loss": 0.317,
+      "step": 830
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.9339596649512653e-05,
+      "loss": 0.3297,
+      "step": 840
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.9091794890685704e-05,
+      "loss": 0.3332,
+      "step": 850
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.884278064472448e-05,
+      "loss": 0.3375,
+      "step": 860
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.8592627699924218e-05,
+      "loss": 0.3372,
+      "step": 870
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.8341410182001225e-05,
+      "loss": 0.3291,
+      "step": 880
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1.8089202532127756e-05,
+      "loss": 0.33,
+      "step": 890
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.783607948487357e-05,
+      "loss": 0.3214,
+      "step": 900
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.758211604606041e-05,
+      "loss": 0.3423,
+      "step": 910
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.7327387470536174e-05,
+      "loss": 0.3171,
+      "step": 920
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.7071969239875282e-05,
+      "loss": 0.3308,
+      "step": 930
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.6815937040011855e-05,
+      "loss": 0.3234,
+      "step": 940
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.6559366738812345e-05,
+      "loss": 0.3103,
+      "step": 950
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.6302334363594227e-05,
+      "loss": 0.3305,
+      "step": 960
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1.6044916078597505e-05,
+      "loss": 0.289,
+      "step": 970
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.578718816241556e-05,
+      "loss": 0.3036,
+      "step": 980
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1.5529226985392172e-05,
+      "loss": 0.2895,
+      "step": 990
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 1.527110898699136e-05,
+      "loss": 0.2954,
+      "step": 1000
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.450633704662323,
+      "eval_runtime": 13.7441,
+      "eval_samples_per_second": 3.201,
+      "eval_steps_per_second": 0.8,
+      "step": 1000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1.5012910653146696e-05,
+      "loss": 0.2868,
+      "step": 1010
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 1.475470849359687e-05,
+      "loss": 0.3139,
+      "step": 1020
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.449657901921421e-05,
+      "loss": 0.2902,
+      "step": 1030
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1.4238598719332875e-05,
+      "loss": 0.3213,
+      "step": 1040
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 1.398084403908339e-05,
+      "loss": 0.2874,
+      "step": 1050
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1.372339135674031e-05,
+      "loss": 0.3001,
+      "step": 1060
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 1.3466316961089692e-05,
+      "loss": 0.3068,
+      "step": 1070
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1.3209697028823101e-05,
+      "loss": 0.281,
+      "step": 1080
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1.295360760196477e-05,
+      "loss": 0.2817,
+      "step": 1090
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.2698124565338744e-05,
+      "loss": 0.2874,
+      "step": 1100
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.244332362408255e-05,
+      "loss": 0.2759,
+      "step": 1110
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.2189280281214128e-05,
+      "loss": 0.289,
+      "step": 1120
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.193606981525869e-05,
+      "loss": 0.3084,
+      "step": 1130
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.1683767257942017e-05,
+      "loss": 0.27,
+      "step": 1140
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.143244737195698e-05,
+      "loss": 0.3034,
+      "step": 1150
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.1182184628809725e-05,
+      "loss": 0.3149,
+      "step": 1160
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.093305318675215e-05,
+      "loss": 0.3223,
+      "step": 1170
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.068512686880725e-05,
+      "loss": 0.2817,
+      "step": 1180
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.0438479140893711e-05,
+      "loss": 0.2904,
+      "step": 1190
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.0193183090056407e-05,
+      "loss": 0.3009,
+      "step": 1200
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 9.949311402809125e-06,
+      "loss": 0.2932,
+      "step": 1210
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 9.706936343595973e-06,
+      "loss": 0.3013,
+      "step": 1220
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 9.466129733377887e-06,
+      "loss": 0.2935,
+      "step": 1230
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 9.226962928350503e-06,
+      "loss": 0.289,
+      "step": 1240
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 8.989506798799793e-06,
+      "loss": 0.2822,
+      "step": 1250
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 8.753831708101669e-06,
+      "loss": 0.3064,
+      "step": 1260
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 8.520007491871777e-06,
+      "loss": 0.3173,
+      "step": 1270
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 8.288103437271743e-06,
+      "loss": 0.2797,
+      "step": 1280
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 8.058188262477835e-06,
+      "loss": 0.2604,
+      "step": 1290
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 7.830330096318326e-06,
+      "loss": 0.2976,
+      "step": 1300
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 7.604596458085425e-06,
+      "loss": 0.2776,
+      "step": 1310
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 7.381054237527869e-06,
+      "loss": 0.288,
+      "step": 1320
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 7.159769675030054e-06,
+      "loss": 0.2975,
+      "step": 1330
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 6.940808341983558e-06,
+      "loss": 0.2845,
+      "step": 1340
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 6.724235121356932e-06,
+      "loss": 0.2831,
+      "step": 1350
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 6.510114188469482e-06,
+      "loss": 0.2933,
+      "step": 1360
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 6.298508991974726e-06,
+      "loss": 0.2913,
+      "step": 1370
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 6.089482235059209e-06,
+      "loss": 0.2855,
+      "step": 1380
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 5.8830958568621676e-06,
+      "loss": 0.3165,
+      "step": 1390
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 5.679411014121645e-06,
+      "loss": 0.2847,
+      "step": 1400
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 5.478488063052423e-06,
+      "loss": 0.2904,
+      "step": 1410
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 5.280386541461171e-06,
+      "loss": 0.2815,
+      "step": 1420
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 5.085165151104125e-06,
+      "loss": 0.3055,
+      "step": 1430
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 4.892881740292471e-06,
+      "loss": 0.2837,
+      "step": 1440
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 4.7035932867506446e-06,
+      "loss": 0.2791,
+      "step": 1450
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 4.51735588073261e-06,
+      "loss": 0.2597,
+      "step": 1460
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 4.334224708401099e-06,
+      "loss": 0.2961,
+      "step": 1470
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 4.154254035474777e-06,
+      "loss": 0.2974,
+      "step": 1480
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 3.977497191148111e-06,
+      "loss": 0.2864,
+      "step": 1490
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 3.804006552288802e-06,
+      "loss": 0.2961,
+      "step": 1500
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 3.633833527917379e-06,
+      "loss": 0.2924,
+      "step": 1510
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 3.467028543973591e-06,
+      "loss": 0.2942,
+      "step": 1520
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 3.303641028374138e-06,
+      "loss": 0.2837,
+      "step": 1530
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 3.1437193963660797e-06,
+      "loss": 0.3026,
+      "step": 1540
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 2.987311036180369e-06,
+      "loss": 0.2928,
+      "step": 1550
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 2.8344622949896986e-06,
+      "loss": 0.2862,
+      "step": 1560
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 2.685218465174828e-06,
+      "loss": 0.2872,
+      "step": 1570
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 2.5396237709034816e-06,
+      "loss": 0.3098,
+      "step": 1580
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 2.3977213550257583e-06,
+      "loss": 0.2866,
+      "step": 1590
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 2.2595532662899915e-06,
+      "loss": 0.3035,
+      "step": 1600
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 2.1251604468827823e-06,
+      "loss": 0.3049,
+      "step": 1610
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.994582720296954e-06,
+      "loss": 0.2678,
+      "step": 1620
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.8678587795309971e-06,
+      "loss": 0.2966,
+      "step": 1630
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1.7450261756234849e-06,
+      "loss": 0.2787,
+      "step": 1640
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 1.6261213065258984e-06,
+      "loss": 0.2957,
+      "step": 1650
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 1.511179406317131e-06,
+      "loss": 0.2747,
+      "step": 1660
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.4002345347628598e-06,
+      "loss": 0.2764,
+      "step": 1670
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.293319567222918e-06,
+      "loss": 0.2983,
+      "step": 1680
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 1.1904661849095993e-06,
+      "loss": 0.2981,
+      "step": 1690
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.0917048654998407e-06,
+      "loss": 0.3148,
+      "step": 1700
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 9.970648741040273e-07,
+      "loss": 0.3123,
+      "step": 1710
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 9.065742545941052e-07,
+      "loss": 0.2972,
+      "step": 1720
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 8.202598212935897e-07,
+      "loss": 0.271,
+      "step": 1730
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 7.381471510318799e-07,
+      "loss": 0.2761,
+      "step": 1740
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 6.602605755653124e-07,
+      "loss": 0.3004,
+      "step": 1750
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 5.866231743671296e-07,
+      "loss": 0.2771,
+      "step": 1760
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 5.172567677885276e-07,
+      "loss": 0.2985,
+      "step": 1770
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 4.521819105928293e-07,
+      "loss": 0.2873,
+      "step": 1780
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 3.9141788586465224e-07,
+      "loss": 0.2869,
+      "step": 1790
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 3.349826992959154e-07,
+      "loss": 0.2814,
+      "step": 1800
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 2.828930738503727e-07,
+      "loss": 0.2875,
+      "step": 1810
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.3516444480822962e-07,
+      "loss": 0.3106,
+      "step": 1820
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 1.9181095519233748e-07,
+      "loss": 0.2933,
+      "step": 1830
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.52845451577317e-07,
+      "loss": 0.2798,
+      "step": 1840
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.1827948028283353e-07,
+      "loss": 0.3051,
+      "step": 1850
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 8.812328395217395e-08,
+      "loss": 0.2644,
+      "step": 1860
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 6.238579851713611e-08,
+      "loss": 0.3041,
+      "step": 1870
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 4.1074650550116946e-08,
+      "loss": 0.2848,
+      "step": 1880
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 2.4196155004190256e-08,
+      "loss": 0.2695,
+      "step": 1890
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.175531334185187e-08,
+      "loss": 0.2958,
+      "step": 1900
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 3.755812052983476e-09,
+      "loss": 0.2994,
+      "step": 1910
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 2.0002156246146096e-10,
+      "loss": 0.2929,
+      "step": 1920
+    },
+    {
+      "epoch": 2.0,
+      "step": 1922,
+      "total_flos": 3.4599459174219776e+17,
+      "train_loss": 0.3247208358966101,
+      "train_runtime": 7447.4364,
+      "train_samples_per_second": 1.032,
+      "train_steps_per_second": 0.258
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1922,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 1000,
+  "total_flos": 3.4599459174219776e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}