royallab
/

LimaRP-ShareGPT-13b-qloras

PEFT

Not-For-All-Audiences

Model card Files Files and versions Community

kingbri commited on Sep 11, 2023

Commit

c2f1218

1 Parent(s): 85aac7e

Add multi-prompt onechar

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

multi-prompt/onechar/README.md +21 -0
multi-prompt/onechar/adapter_config.json +26 -0
multi-prompt/onechar/adapter_model.bin +3 -0
multi-prompt/onechar/added_tokens.json +3 -0
multi-prompt/onechar/checkpoint-100/README.md +21 -0
multi-prompt/onechar/checkpoint-100/adapter_config.json +26 -0
multi-prompt/onechar/checkpoint-100/adapter_model.bin +3 -0
multi-prompt/onechar/checkpoint-100/adapter_model/README.md +21 -0
multi-prompt/onechar/checkpoint-100/adapter_model/adapter_config.json +26 -0
multi-prompt/onechar/checkpoint-100/adapter_model/adapter_model.bin +3 -0
multi-prompt/onechar/checkpoint-100/optimizer.pt +3 -0
multi-prompt/onechar/checkpoint-100/rng_state_0.pth +3 -0
multi-prompt/onechar/checkpoint-100/rng_state_1.pth +3 -0
multi-prompt/onechar/checkpoint-100/rng_state_2.pth +3 -0
multi-prompt/onechar/checkpoint-100/rng_state_3.pth +3 -0
multi-prompt/onechar/checkpoint-100/rng_state_4.pth +3 -0
multi-prompt/onechar/checkpoint-100/rng_state_5.pth +3 -0
multi-prompt/onechar/checkpoint-100/rng_state_6.pth +3 -0
multi-prompt/onechar/checkpoint-100/rng_state_7.pth +3 -0
multi-prompt/onechar/checkpoint-100/scheduler.pt +3 -0
multi-prompt/onechar/checkpoint-100/trainer_state.json +659 -0
multi-prompt/onechar/checkpoint-100/training_args.bin +3 -0
multi-prompt/onechar/checkpoint-150/README.md +21 -0
multi-prompt/onechar/checkpoint-150/adapter_config.json +26 -0
multi-prompt/onechar/checkpoint-150/adapter_model.bin +3 -0
multi-prompt/onechar/checkpoint-150/adapter_model/README.md +21 -0
multi-prompt/onechar/checkpoint-150/adapter_model/adapter_config.json +26 -0
multi-prompt/onechar/checkpoint-150/adapter_model/adapter_model.bin +3 -0
multi-prompt/onechar/checkpoint-150/optimizer.pt +3 -0
multi-prompt/onechar/checkpoint-150/rng_state_0.pth +3 -0
multi-prompt/onechar/checkpoint-150/rng_state_1.pth +3 -0
multi-prompt/onechar/checkpoint-150/rng_state_2.pth +3 -0
multi-prompt/onechar/checkpoint-150/rng_state_3.pth +3 -0
multi-prompt/onechar/checkpoint-150/rng_state_4.pth +3 -0
multi-prompt/onechar/checkpoint-150/rng_state_5.pth +3 -0
multi-prompt/onechar/checkpoint-150/rng_state_6.pth +3 -0
multi-prompt/onechar/checkpoint-150/rng_state_7.pth +3 -0
multi-prompt/onechar/checkpoint-150/scheduler.pt +3 -0
multi-prompt/onechar/checkpoint-150/trainer_state.json +975 -0
multi-prompt/onechar/checkpoint-150/training_args.bin +3 -0
multi-prompt/onechar/checkpoint-200/README.md +21 -0
multi-prompt/onechar/checkpoint-200/adapter_config.json +26 -0
multi-prompt/onechar/checkpoint-200/adapter_model.bin +3 -0
multi-prompt/onechar/checkpoint-200/adapter_model/README.md +21 -0
multi-prompt/onechar/checkpoint-200/adapter_model/adapter_config.json +26 -0
multi-prompt/onechar/checkpoint-200/adapter_model/adapter_model.bin +3 -0
multi-prompt/onechar/checkpoint-200/optimizer.pt +3 -0
multi-prompt/onechar/checkpoint-200/rng_state_0.pth +3 -0
multi-prompt/onechar/checkpoint-200/rng_state_1.pth +3 -0
multi-prompt/onechar/checkpoint-200/rng_state_2.pth +3 -0

multi-prompt/onechar/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

multi-prompt/onechar/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-13b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.01,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "up_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj",
+    "v_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

multi-prompt/onechar/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f266c8f28aeb4146c465ef7004873002f6e6c034944a4db8f17302ce67c6a862
+size 125374989

multi-prompt/onechar/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

multi-prompt/onechar/checkpoint-100/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

multi-prompt/onechar/checkpoint-100/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-13b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.01,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "up_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj",
+    "v_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

multi-prompt/onechar/checkpoint-100/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1af7c00d9a0e6b2273252442fb5b28c4fda27d30155fc3a45b243f10710e64e
+size 125374989

multi-prompt/onechar/checkpoint-100/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

multi-prompt/onechar/checkpoint-100/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-13b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.01,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "up_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj",
+    "v_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

multi-prompt/onechar/checkpoint-100/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1af7c00d9a0e6b2273252442fb5b28c4fda27d30155fc3a45b243f10710e64e
+size 125374989

multi-prompt/onechar/checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53efac46328a269479ab1d4b76210aa6e5cbeb00730ffd8b0465e62803e2d1e8
+size 250681597

multi-prompt/onechar/checkpoint-100/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffac017074dc1743416b93d99259123de8bccd7eef35b7714d90c3ff554892e6
+size 21687

multi-prompt/onechar/checkpoint-100/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:927e0cc9e535e309ce8f950c18cbb24e9ff4ce11f775e216fea35f08db6749bb
+size 21687

multi-prompt/onechar/checkpoint-100/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b04f5328a9e61e03750a85f07aeb8175eda82723ff1b161d1d92242b3f11b88
+size 21687

multi-prompt/onechar/checkpoint-100/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2196d11b98dce47062253ced048888cfcc6e240b6b982ca31ed9a3c176c65f0c
+size 21687

multi-prompt/onechar/checkpoint-100/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:692cbdc0c723117d42d247d2bbc9b53db924c46288b3071feb3d078e1da9f0bb
+size 21687

multi-prompt/onechar/checkpoint-100/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c2484a26724d353031205b8a8cf5c4a591784b893dff3bebf515dc4c611a2de
+size 21687

multi-prompt/onechar/checkpoint-100/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:892311743a14ba0c3ac8aade82c0dbe84b33bc30737ef2d5af1c0d17ebec0769
+size 21687

multi-prompt/onechar/checkpoint-100/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:59d4826d969f40c21fb5971719a30b577c16e685840e162d55bf0ac7dac2850e
+size 21687

multi-prompt/onechar/checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c741f9566ddbc689206be27d7fd96297c367c06c1ae6caa0c1917264131a0d1
+size 627

multi-prompt/onechar/checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,659 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9615384615384616,
+  "eval_steps": 20,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 6.5e-06,
+      "loss": 1.977,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.3e-05,
+      "loss": 2.1076,
+      "step": 2
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.9499999999999996e-05,
+      "loss": 1.9238,
+      "step": 3
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.6e-05,
+      "loss": 2.2224,
+      "step": 4
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 3.25e-05,
+      "loss": 2.198,
+      "step": 5
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3.899999999999999e-05,
+      "loss": 2.1477,
+      "step": 6
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.5499999999999995e-05,
+      "loss": 2.0655,
+      "step": 7
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 5.2e-05,
+      "loss": 2.1448,
+      "step": 8
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 5.85e-05,
+      "loss": 2.1936,
+      "step": 9
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 6.5e-05,
+      "loss": 2.201,
+      "step": 10
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 6.499590914940094e-05,
+      "loss": 2.169,
+      "step": 11
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 6.49836376274535e-05,
+      "loss": 2.0327,
+      "step": 12
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 6.496318852344776e-05,
+      "loss": 2.2921,
+      "step": 13
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 6.493456698533623e-05,
+      "loss": 2.0172,
+      "step": 14
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 6.489778021843813e-05,
+      "loss": 2.232,
+      "step": 15
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 6.485283748362525e-05,
+      "loss": 1.9163,
+      "step": 16
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 6.479975009499076e-05,
+      "loss": 2.0446,
+      "step": 17
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 6.473853141700085e-05,
+      "loss": 2.005,
+      "step": 18
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 6.466919686113032e-05,
+      "loss": 2.1004,
+      "step": 19
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 6.45917638819828e-05,
+      "loss": 2.308,
+      "step": 20
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.1830556392669678,
+      "eval_runtime": 2.6888,
+      "eval_samples_per_second": 4.091,
+      "eval_steps_per_second": 0.744,
+      "step": 20
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 6.450625197289675e-05,
+      "loss": 2.119,
+      "step": 21
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 6.441268266103796e-05,
+      "loss": 2.1047,
+      "step": 22
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 6.43110795019803e-05,
+      "loss": 2.0454,
+      "step": 23
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 6.420146807377572e-05,
+      "loss": 2.0439,
+      "step": 24
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 6.408387597051511e-05,
+      "loss": 2.0833,
+      "step": 25
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 6.395833279538157e-05,
+      "loss": 1.9844,
+      "step": 26
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 6.382487015319812e-05,
+      "loss": 2.1317,
+      "step": 27
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 6.368352164247117e-05,
+      "loss": 2.2273,
+      "step": 28
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 6.35343228469324e-05,
+      "loss": 2.1833,
+      "step": 29
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 6.337731132658071e-05,
+      "loss": 2.0888,
+      "step": 30
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 6.321252660822672e-05,
+      "loss": 2.0598,
+      "step": 31
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 6.304001017554202e-05,
+      "loss": 2.0894,
+      "step": 32
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 6.285980545861596e-05,
+      "loss": 2.0645,
+      "step": 33
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 6.267195782302235e-05,
+      "loss": 2.123,
+      "step": 34
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 6.247651455839889e-05,
+      "loss": 2.1683,
+      "step": 35
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 6.227352486654226e-05,
+      "loss": 2.2418,
+      "step": 36
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 6.206303984902185e-05,
+      "loss": 2.0361,
+      "step": 37
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 6.184511249431519e-05,
+      "loss": 1.9246,
+      "step": 38
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 6.16197976644684e-05,
+      "loss": 1.9607,
+      "step": 39
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 6.138715208128501e-05,
+      "loss": 2.1105,
+      "step": 40
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 2.1629483699798584,
+      "eval_runtime": 2.6976,
+      "eval_samples_per_second": 4.078,
+      "eval_steps_per_second": 0.741,
+      "step": 40
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 6.114723431204641e-05,
+      "loss": 2.1141,
+      "step": 41
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 6.090010475476801e-05,
+      "loss": 2.1362,
+      "step": 42
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 6.0645825622994254e-05,
+      "loss": 1.9861,
+      "step": 43
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 6.038446093013675e-05,
+      "loss": 2.0427,
+      "step": 44
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 6.011607647335922e-05,
+      "loss": 2.0936,
+      "step": 45
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 5.9840739817013386e-05,
+      "loss": 2.1971,
+      "step": 46
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 5.955852027563006e-05,
+      "loss": 2.033,
+      "step": 47
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 5.9269488896469564e-05,
+      "loss": 2.1994,
+      "step": 48
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 5.897371844163591e-05,
+      "loss": 2.0339,
+      "step": 49
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 5.86712833697594e-05,
+      "loss": 2.0523,
+      "step": 50
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 5.8362259817252044e-05,
+      "loss": 2.0054,
+      "step": 51
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 5.8046725579140586e-05,
+      "loss": 2.0617,
+      "step": 52
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 5.772476008948209e-05,
+      "loss": 2.0812,
+      "step": 53
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 5.739644440136678e-05,
+      "loss": 1.993,
+      "step": 54
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 5.706186116651339e-05,
+      "loss": 2.0843,
+      "step": 55
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 5.6721094614462025e-05,
+      "loss": 2.2769,
+      "step": 56
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 5.637423053136982e-05,
+      "loss": 2.0877,
+      "step": 57
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 5.6021356238414775e-05,
+      "loss": 1.995,
+      "step": 58
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 5.5662560569813045e-05,
+      "loss": 2.0595,
+      "step": 59
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 5.5297933850455436e-05,
+      "loss": 2.0496,
+      "step": 60
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 2.146815299987793,
+      "eval_runtime": 2.6998,
+      "eval_samples_per_second": 4.074,
+      "eval_steps_per_second": 0.741,
+      "step": 60
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 5.492756787316864e-05,
+      "loss": 2.0805,
+      "step": 61
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 5.455155587560679e-05,
+      "loss": 2.055,
+      "step": 62
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 5.416999251677947e-05,
+      "loss": 2.1191,
+      "step": 63
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 5.3782973853221766e-05,
+      "loss": 2.0373,
+      "step": 64
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 5.339059731481252e-05,
+      "loss": 1.9465,
+      "step": 65
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 5.2992961680246975e-05,
+      "loss": 2.0444,
+      "step": 66
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 5.259016705216966e-05,
+      "loss": 2.1411,
+      "step": 67
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 5.218231483197416e-05,
+      "loss": 2.0416,
+      "step": 68
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 5.176950769427582e-05,
+      "loss": 1.9937,
+      "step": 69
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 5.135184956106394e-05,
+      "loss": 2.0153,
+      "step": 70
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 5.092944557554004e-05,
+      "loss": 1.9772,
+      "step": 71
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 5.0502402075648585e-05,
+      "loss": 2.0616,
+      "step": 72
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 5.007082656730692e-05,
+      "loss": 2.0015,
+      "step": 73
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.963482769734132e-05,
+      "loss": 1.951,
+      "step": 74
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 4.9194515226135705e-05,
+      "loss": 2.0443,
+      "step": 75
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 4.874999999999999e-05,
+      "loss": 2.0238,
+      "step": 76
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 4.830139392326523e-05,
+      "loss": 1.9664,
+      "step": 77
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 4.784880993011219e-05,
+      "loss": 2.0828,
+      "step": 78
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 4.739236195614084e-05,
+      "loss": 2.0008,
+      "step": 79
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 4.6932164909687655e-05,
+      "loss": 2.0787,
+      "step": 80
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 2.13932204246521,
+      "eval_runtime": 2.7011,
+      "eval_samples_per_second": 4.072,
+      "eval_steps_per_second": 0.74,
+      "step": 80
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.646833464289808e-05,
+      "loss": 2.0961,
+      "step": 81
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 4.600098792256131e-05,
+      "loss": 1.986,
+      "step": 82
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 4.5530242400714944e-05,
+      "loss": 2.1558,
+      "step": 83
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.505621658502667e-05,
+      "loss": 1.9636,
+      "step": 84
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.457902980896064e-05,
+      "loss": 2.0659,
+      "step": 85
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.409880220173583e-05,
+      "loss": 2.0239,
+      "step": 86
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.3615654658084234e-05,
+      "loss": 2.0932,
+      "step": 87
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 4.3129708807816206e-05,
+      "loss": 1.8754,
+      "step": 88
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4.264108698520082e-05,
+      "loss": 2.0868,
+      "step": 89
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 4.2149912198168935e-05,
+      "loss": 2.0433,
+      "step": 90
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 4.1656308097346466e-05,
+      "loss": 2.1271,
+      "step": 91
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 4.116039894492613e-05,
+      "loss": 2.1713,
+      "step": 92
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 4.066230958338507e-05,
+      "loss": 2.021,
+      "step": 93
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.0162165404056384e-05,
+      "loss": 2.021,
+      "step": 94
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 3.9660092315562566e-05,
+      "loss": 2.0075,
+      "step": 95
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.91562167121187e-05,
+      "loss": 2.0444,
+      "step": 96
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.8650665441713327e-05,
+      "loss": 1.9967,
+      "step": 97
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.814356577417524e-05,
+      "loss": 2.2019,
+      "step": 98
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.763504536913387e-05,
+      "loss": 1.936,
+      "step": 99
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 3.712523224388177e-05,
+      "loss": 1.9272,
+      "step": 100
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 2.134587287902832,
+      "eval_runtime": 2.7065,
+      "eval_samples_per_second": 4.064,
+      "eval_steps_per_second": 0.739,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 208,
+  "num_train_epochs": 2,
+  "save_steps": 50,
+  "total_flos": 8.151676451238707e+16,
+  "trial_name": null,
+  "trial_params": null
+}

multi-prompt/onechar/checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:deca3b521b13630aa127a677d66c86cecd19f6ba8eb8e593ac9a0d31193246e9
+size 4475

multi-prompt/onechar/checkpoint-150/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

multi-prompt/onechar/checkpoint-150/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-13b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.01,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "up_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj",
+    "v_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

multi-prompt/onechar/checkpoint-150/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a88ca139e2a7d5321493c43410f7c8874dcf5dd158c7f2267189238cba5b2e8e
+size 125374989

multi-prompt/onechar/checkpoint-150/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

multi-prompt/onechar/checkpoint-150/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-13b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.01,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "up_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj",
+    "v_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

multi-prompt/onechar/checkpoint-150/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a88ca139e2a7d5321493c43410f7c8874dcf5dd158c7f2267189238cba5b2e8e
+size 125374989

multi-prompt/onechar/checkpoint-150/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36f6f59bf42fda7cef4a3db7d2ba9063716670a01f31f410451c3877b93b91fd
+size 250681597

multi-prompt/onechar/checkpoint-150/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebe4080394353d7133f04b4673e50961f3043110ec8d1128ee2e3e296b061c86
+size 21687

multi-prompt/onechar/checkpoint-150/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a4d9fd37760216bbb28070ef4d2e2e0be700bbf1ec89831778ebc6a298e5622
+size 21687

multi-prompt/onechar/checkpoint-150/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:302d299783dd83cc63183bbf69795215510d85b9c0b5f56b75b7989f03437344
+size 21687

multi-prompt/onechar/checkpoint-150/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef7613df4d25b459724ab8e45996bbe862cf7f498a97f5f0bedd0a20e60b04a3
+size 21687

multi-prompt/onechar/checkpoint-150/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a09d5660be18b2300f0c6030ffd427dd486af8a98254c4f6aba3a481a043d572
+size 21687

multi-prompt/onechar/checkpoint-150/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:784e8a97c961f412059dba03c53f1a4b5b3e4c4d39bedf8eae0b5e0d4f41e6c3
+size 21687

multi-prompt/onechar/checkpoint-150/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a75028de3fd9a7ddf9a281872bb8f021c1d2901266449ea9e5c74d790d29f6db
+size 21687

multi-prompt/onechar/checkpoint-150/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:440b7938477873ff8f28f52682c20f692e5381cdbfe768b1f432c98615010804
+size 21687

multi-prompt/onechar/checkpoint-150/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b570b3ad0cad17fc1d14736697e293a3b6ed0588a61240c41e6ab9ccc80f4ee
+size 627

multi-prompt/onechar/checkpoint-150/trainer_state.json ADDED Viewed

	@@ -0,0 +1,975 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.4423076923076923,
+  "eval_steps": 20,
+  "global_step": 150,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 6.5e-06,
+      "loss": 1.977,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.3e-05,
+      "loss": 2.1076,
+      "step": 2
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.9499999999999996e-05,
+      "loss": 1.9238,
+      "step": 3
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.6e-05,
+      "loss": 2.2224,
+      "step": 4
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 3.25e-05,
+      "loss": 2.198,
+      "step": 5
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3.899999999999999e-05,
+      "loss": 2.1477,
+      "step": 6
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.5499999999999995e-05,
+      "loss": 2.0655,
+      "step": 7
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 5.2e-05,
+      "loss": 2.1448,
+      "step": 8
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 5.85e-05,
+      "loss": 2.1936,
+      "step": 9
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 6.5e-05,
+      "loss": 2.201,
+      "step": 10
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 6.499590914940094e-05,
+      "loss": 2.169,
+      "step": 11
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 6.49836376274535e-05,
+      "loss": 2.0327,
+      "step": 12
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 6.496318852344776e-05,
+      "loss": 2.2921,
+      "step": 13
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 6.493456698533623e-05,
+      "loss": 2.0172,
+      "step": 14
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 6.489778021843813e-05,
+      "loss": 2.232,
+      "step": 15
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 6.485283748362525e-05,
+      "loss": 1.9163,
+      "step": 16
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 6.479975009499076e-05,
+      "loss": 2.0446,
+      "step": 17
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 6.473853141700085e-05,
+      "loss": 2.005,
+      "step": 18
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 6.466919686113032e-05,
+      "loss": 2.1004,
+      "step": 19
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 6.45917638819828e-05,
+      "loss": 2.308,
+      "step": 20
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.1830556392669678,
+      "eval_runtime": 2.6888,
+      "eval_samples_per_second": 4.091,
+      "eval_steps_per_second": 0.744,
+      "step": 20
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 6.450625197289675e-05,
+      "loss": 2.119,
+      "step": 21
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 6.441268266103796e-05,
+      "loss": 2.1047,
+      "step": 22
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 6.43110795019803e-05,
+      "loss": 2.0454,
+      "step": 23
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 6.420146807377572e-05,
+      "loss": 2.0439,
+      "step": 24
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 6.408387597051511e-05,
+      "loss": 2.0833,
+      "step": 25
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 6.395833279538157e-05,
+      "loss": 1.9844,
+      "step": 26
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 6.382487015319812e-05,
+      "loss": 2.1317,
+      "step": 27
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 6.368352164247117e-05,
+      "loss": 2.2273,
+      "step": 28
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 6.35343228469324e-05,
+      "loss": 2.1833,
+      "step": 29
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 6.337731132658071e-05,
+      "loss": 2.0888,
+      "step": 30
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 6.321252660822672e-05,
+      "loss": 2.0598,
+      "step": 31
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 6.304001017554202e-05,
+      "loss": 2.0894,
+      "step": 32
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 6.285980545861596e-05,
+      "loss": 2.0645,
+      "step": 33
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 6.267195782302235e-05,
+      "loss": 2.123,
+      "step": 34
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 6.247651455839889e-05,
+      "loss": 2.1683,
+      "step": 35
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 6.227352486654226e-05,
+      "loss": 2.2418,
+      "step": 36
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 6.206303984902185e-05,
+      "loss": 2.0361,
+      "step": 37
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 6.184511249431519e-05,
+      "loss": 1.9246,
+      "step": 38
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 6.16197976644684e-05,
+      "loss": 1.9607,
+      "step": 39
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 6.138715208128501e-05,
+      "loss": 2.1105,
+      "step": 40
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 2.1629483699798584,
+      "eval_runtime": 2.6976,
+      "eval_samples_per_second": 4.078,
+      "eval_steps_per_second": 0.741,
+      "step": 40
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 6.114723431204641e-05,
+      "loss": 2.1141,
+      "step": 41
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 6.090010475476801e-05,
+      "loss": 2.1362,
+      "step": 42
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 6.0645825622994254e-05,
+      "loss": 1.9861,
+      "step": 43
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 6.038446093013675e-05,
+      "loss": 2.0427,
+      "step": 44
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 6.011607647335922e-05,
+      "loss": 2.0936,
+      "step": 45
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 5.9840739817013386e-05,
+      "loss": 2.1971,
+      "step": 46
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 5.955852027563006e-05,
+      "loss": 2.033,
+      "step": 47
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 5.9269488896469564e-05,
+      "loss": 2.1994,
+      "step": 48
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 5.897371844163591e-05,
+      "loss": 2.0339,
+      "step": 49
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 5.86712833697594e-05,
+      "loss": 2.0523,
+      "step": 50
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 5.8362259817252044e-05,
+      "loss": 2.0054,
+      "step": 51
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 5.8046725579140586e-05,
+      "loss": 2.0617,
+      "step": 52
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 5.772476008948209e-05,
+      "loss": 2.0812,
+      "step": 53
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 5.739644440136678e-05,
+      "loss": 1.993,
+      "step": 54
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 5.706186116651339e-05,
+      "loss": 2.0843,
+      "step": 55
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 5.6721094614462025e-05,
+      "loss": 2.2769,
+      "step": 56
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 5.637423053136982e-05,
+      "loss": 2.0877,
+      "step": 57
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 5.6021356238414775e-05,
+      "loss": 1.995,
+      "step": 58
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 5.5662560569813045e-05,
+      "loss": 2.0595,
+      "step": 59
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 5.5297933850455436e-05,
+      "loss": 2.0496,
+      "step": 60
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 2.146815299987793,
+      "eval_runtime": 2.6998,
+      "eval_samples_per_second": 4.074,
+      "eval_steps_per_second": 0.741,
+      "step": 60
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 5.492756787316864e-05,
+      "loss": 2.0805,
+      "step": 61
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 5.455155587560679e-05,
+      "loss": 2.055,
+      "step": 62
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 5.416999251677947e-05,
+      "loss": 2.1191,
+      "step": 63
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 5.3782973853221766e-05,
+      "loss": 2.0373,
+      "step": 64
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 5.339059731481252e-05,
+      "loss": 1.9465,
+      "step": 65
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 5.2992961680246975e-05,
+      "loss": 2.0444,
+      "step": 66
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 5.259016705216966e-05,
+      "loss": 2.1411,
+      "step": 67
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 5.218231483197416e-05,
+      "loss": 2.0416,
+      "step": 68
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 5.176950769427582e-05,
+      "loss": 1.9937,
+      "step": 69
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 5.135184956106394e-05,
+      "loss": 2.0153,
+      "step": 70
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 5.092944557554004e-05,
+      "loss": 1.9772,
+      "step": 71
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 5.0502402075648585e-05,
+      "loss": 2.0616,
+      "step": 72
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 5.007082656730692e-05,
+      "loss": 2.0015,
+      "step": 73
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.963482769734132e-05,
+      "loss": 1.951,
+      "step": 74
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 4.9194515226135705e-05,
+      "loss": 2.0443,
+      "step": 75
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 4.874999999999999e-05,
+      "loss": 2.0238,
+      "step": 76
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 4.830139392326523e-05,
+      "loss": 1.9664,
+      "step": 77
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 4.784880993011219e-05,
+      "loss": 2.0828,
+      "step": 78
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 4.739236195614084e-05,
+      "loss": 2.0008,
+      "step": 79
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 4.6932164909687655e-05,
+      "loss": 2.0787,
+      "step": 80
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 2.13932204246521,
+      "eval_runtime": 2.7011,
+      "eval_samples_per_second": 4.072,
+      "eval_steps_per_second": 0.74,
+      "step": 80
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.646833464289808e-05,
+      "loss": 2.0961,
+      "step": 81
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 4.600098792256131e-05,
+      "loss": 1.986,
+      "step": 82
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 4.5530242400714944e-05,
+      "loss": 2.1558,
+      "step": 83
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.505621658502667e-05,
+      "loss": 1.9636,
+      "step": 84
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.457902980896064e-05,
+      "loss": 2.0659,
+      "step": 85
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.409880220173583e-05,
+      "loss": 2.0239,
+      "step": 86
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.3615654658084234e-05,
+      "loss": 2.0932,
+      "step": 87
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 4.3129708807816206e-05,
+      "loss": 1.8754,
+      "step": 88
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4.264108698520082e-05,
+      "loss": 2.0868,
+      "step": 89
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 4.2149912198168935e-05,
+      "loss": 2.0433,
+      "step": 90
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 4.1656308097346466e-05,
+      "loss": 2.1271,
+      "step": 91
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 4.116039894492613e-05,
+      "loss": 2.1713,
+      "step": 92
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 4.066230958338507e-05,
+      "loss": 2.021,
+      "step": 93
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.0162165404056384e-05,
+      "loss": 2.021,
+      "step": 94
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 3.9660092315562566e-05,
+      "loss": 2.0075,
+      "step": 95
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.91562167121187e-05,
+      "loss": 2.0444,
+      "step": 96
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.8650665441713327e-05,
+      "loss": 1.9967,
+      "step": 97
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.814356577417524e-05,
+      "loss": 2.2019,
+      "step": 98
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.763504536913387e-05,
+      "loss": 1.936,
+      "step": 99
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 3.712523224388177e-05,
+      "loss": 1.9272,
+      "step": 100
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 2.134587287902832,
+      "eval_runtime": 2.7065,
+      "eval_samples_per_second": 4.064,
+      "eval_steps_per_second": 0.739,
+      "step": 100
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 3.661425474114685e-05,
+      "loss": 1.9903,
+      "step": 101
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 3.610224149678286e-05,
+      "loss": 2.1719,
+      "step": 102
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.558932140738593e-05,
+      "loss": 1.9709,
+      "step": 103
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 3.507562359784562e-05,
+      "loss": 2.098,
+      "step": 104
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 3.456127738883834e-05,
+      "loss": 2.21,
+      "step": 105
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 3.404641226427163e-05,
+      "loss": 2.0854,
+      "step": 106
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.3531157838687204e-05,
+      "loss": 2.0356,
+      "step": 107
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 3.301564382463126e-05,
+      "loss": 2.0967,
+      "step": 108
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 3.25e-05,
+      "loss": 1.9079,
+      "step": 109
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 3.198435617536874e-05,
+      "loss": 1.9948,
+      "step": 110
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 3.1468842161312804e-05,
+      "loss": 2.0195,
+      "step": 111
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 3.095358773572837e-05,
+      "loss": 2.0118,
+      "step": 112
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 3.043872261116165e-05,
+      "loss": 1.981,
+      "step": 113
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 2.992437640215437e-05,
+      "loss": 2.0501,
+      "step": 114
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 2.9410678592614068e-05,
+      "loss": 2.001,
+      "step": 115
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 2.8897758503217142e-05,
+      "loss": 2.0048,
+      "step": 116
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 2.838574525885314e-05,
+      "loss": 2.0039,
+      "step": 117
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 2.7874767756118234e-05,
+      "loss": 2.0204,
+      "step": 118
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 2.7364954630866125e-05,
+      "loss": 2.1493,
+      "step": 119
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 2.6856434225824763e-05,
+      "loss": 2.0527,
+      "step": 120
+    },
+    {
+      "epoch": 1.15,
+      "eval_loss": 2.132925271987915,
+      "eval_runtime": 2.7003,
+      "eval_samples_per_second": 4.074,
+      "eval_steps_per_second": 0.741,
+      "step": 120
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 2.6349334558286678e-05,
+      "loss": 2.0877,
+      "step": 121
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 2.5843783287881306e-05,
+      "loss": 2.0201,
+      "step": 122
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 2.5339907684437425e-05,
+      "loss": 2.0471,
+      "step": 123
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 2.4837834595943607e-05,
+      "loss": 1.94,
+      "step": 124
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 2.4337690416614925e-05,
+      "loss": 1.9542,
+      "step": 125
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 2.3839601055073866e-05,
+      "loss": 2.0596,
+      "step": 126
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 2.3343691902653532e-05,
+      "loss": 1.9224,
+      "step": 127
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 2.2850087801831076e-05,
+      "loss": 2.0356,
+      "step": 128
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 2.235891301479917e-05,
+      "loss": 1.9185,
+      "step": 129
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 2.1870291192183795e-05,
+      "loss": 1.9719,
+      "step": 130
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 2.1384345341915767e-05,
+      "loss": 2.0634,
+      "step": 131
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 2.0901197798264166e-05,
+      "loss": 2.0109,
+      "step": 132
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 2.0420970191039358e-05,
+      "loss": 1.9339,
+      "step": 133
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1.9943783414973313e-05,
+      "loss": 1.941,
+      "step": 134
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.946975759928506e-05,
+      "loss": 2.0228,
+      "step": 135
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.899901207743869e-05,
+      "loss": 2.0524,
+      "step": 136
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1.853166535710192e-05,
+      "loss": 2.0208,
+      "step": 137
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1.806783509031234e-05,
+      "loss": 1.951,
+      "step": 138
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.760763804385916e-05,
+      "loss": 2.031,
+      "step": 139
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1.7151190069887813e-05,
+      "loss": 1.9507,
+      "step": 140
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 2.131213903427124,
+      "eval_runtime": 2.7,
+      "eval_samples_per_second": 4.074,
+      "eval_steps_per_second": 0.741,
+      "step": 140
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.669860607673477e-05,
+      "loss": 2.1314,
+      "step": 141
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.6250000000000005e-05,
+      "loss": 2.0099,
+      "step": 142
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.5805484773864303e-05,
+      "loss": 1.9891,
+      "step": 143
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.536517230265867e-05,
+      "loss": 2.0866,
+      "step": 144
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.4929173432693088e-05,
+      "loss": 2.0756,
+      "step": 145
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.4497597924351416e-05,
+      "loss": 2.02,
+      "step": 146
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 1.4070554424459953e-05,
+      "loss": 1.9735,
+      "step": 147
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.3648150438936062e-05,
+      "loss": 1.9393,
+      "step": 148
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.3230492305724189e-05,
+      "loss": 1.996,
+      "step": 149
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1.2817685168025838e-05,
+      "loss": 2.0682,
+      "step": 150
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 208,
+  "num_train_epochs": 2,
+  "save_steps": 50,
+  "total_flos": 1.222374797040681e+17,
+  "trial_name": null,
+  "trial_params": null
+}

multi-prompt/onechar/checkpoint-150/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:deca3b521b13630aa127a677d66c86cecd19f6ba8eb8e593ac9a0d31193246e9
+size 4475

multi-prompt/onechar/checkpoint-200/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

multi-prompt/onechar/checkpoint-200/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-13b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.01,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "up_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj",
+    "v_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

multi-prompt/onechar/checkpoint-200/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e0dc335ec1113796038af12e416902af682cd1d2d6bcf511a7731a5f0fb7e24
+size 125374989

multi-prompt/onechar/checkpoint-200/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

multi-prompt/onechar/checkpoint-200/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-13b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.01,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "up_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj",
+    "v_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

multi-prompt/onechar/checkpoint-200/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e0dc335ec1113796038af12e416902af682cd1d2d6bcf511a7731a5f0fb7e24
+size 125374989

multi-prompt/onechar/checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a6452765ece252eca8ff0c0b9c9668b4fd8cb7950fc74aa92cd351428ac8d26
+size 250681597

multi-prompt/onechar/checkpoint-200/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37101134cb18b14dcc0a89605f1ebcad5f5f724a7829ef0ab8c2375c1a35ab9b
+size 21687

multi-prompt/onechar/checkpoint-200/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9784f91de71853ebcbcec54e9436f2446c8d5f3503d1908fe1f3de175026941b
+size 21687

multi-prompt/onechar/checkpoint-200/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:886d5962d4b3ed49287bfec878352ac1771f41077883d9bad61da741a1264646
+size 21687