lmg-anon commited on Jan 27, 2024

Commit

fe6945d

verified ·

1 Parent(s): 404fbba

Upload folder using huggingface_hub

Browse files

Files changed (48) hide show

checkpoint-100/README.md +204 -0
checkpoint-100/adapter_config.json +31 -0
checkpoint-100/adapter_model.safetensors +3 -0
checkpoint-100/optimizer.pt +3 -0
checkpoint-100/rng_state.pth +3 -0
checkpoint-100/scheduler.pt +3 -0
checkpoint-100/trainer_state.json +621 -0
checkpoint-100/training_args.bin +3 -0
checkpoint-150/README.md +204 -0
checkpoint-150/adapter_config.json +31 -0
checkpoint-150/adapter_model.safetensors +3 -0
checkpoint-150/optimizer.pt +3 -0
checkpoint-150/rng_state.pth +3 -0
checkpoint-150/scheduler.pt +3 -0
checkpoint-150/trainer_state.json +921 -0
checkpoint-150/training_args.bin +3 -0
checkpoint-200/README.md +204 -0
checkpoint-200/adapter_config.json +31 -0
checkpoint-200/adapter_model.safetensors +3 -0
checkpoint-200/optimizer.pt +3 -0
checkpoint-200/rng_state.pth +3 -0
checkpoint-200/scheduler.pt +3 -0
checkpoint-200/trainer_state.json +1221 -0
checkpoint-200/training_args.bin +3 -0
checkpoint-250/README.md +204 -0
checkpoint-250/adapter_config.json +31 -0
checkpoint-250/adapter_model.safetensors +3 -0
checkpoint-250/optimizer.pt +3 -0
checkpoint-250/rng_state.pth +3 -0
checkpoint-250/scheduler.pt +3 -0
checkpoint-250/trainer_state.json +1521 -0
checkpoint-250/training_args.bin +3 -0
checkpoint-300/README.md +204 -0
checkpoint-300/adapter_config.json +31 -0
checkpoint-300/adapter_model.safetensors +3 -0
checkpoint-300/optimizer.pt +3 -0
checkpoint-300/rng_state.pth +3 -0
checkpoint-300/scheduler.pt +3 -0
checkpoint-300/trainer_state.json +1821 -0
checkpoint-300/training_args.bin +3 -0
checkpoint-50/README.md +204 -0
checkpoint-50/adapter_config.json +31 -0
checkpoint-50/adapter_model.safetensors +3 -0
checkpoint-50/optimizer.pt +3 -0
checkpoint-50/rng_state.pth +3 -0
checkpoint-50/scheduler.pt +3 -0
checkpoint-50/trainer_state.json +321 -0
checkpoint-50/training_args.bin +3 -0

checkpoint-100/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: unsloth/llama-2-7b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.7.1

checkpoint-100/adapter_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/llama-2-7b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": "unsloth",
+  "target_modules": [
+    "up_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-100/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd1c2f62963986e49e3753e28056cb583e0cd17d25ad32940dea6a227b54c2d8
+size 1279323952

checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a815144a130af4bda100da4423da605db5afdb8d75410221314ebc6cdb5ddace
+size 641407572

checkpoint-100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe2e145b09b2faab2c45440a9233e2700f8dca5428319c1eb306332f174e4af7
+size 14244

checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:689f72113fdf41ea464c64f4bb4febd9d2183acf7aaaf679f0ca1b31cda595bd
+size 1064

checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,621 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.297441998810232,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.285714285714285e-05,
+      "loss": 2.4427,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0001857142857142857,
+      "loss": 2.3973,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00027857142857142854,
+      "loss": 2.341,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0003714285714285714,
+      "loss": 2.1281,
+      "step": 4
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004642857142857143,
+      "loss": 1.4346,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0005571428571428571,
+      "loss": 1.1715,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00065,
+      "loss": 1.086,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0006499851830773117,
+      "loss": 0.9921,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00064994073366027,
+      "loss": 0.9231,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006498666558018197,
+      "loss": 0.9343,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006497629562564588,
+      "loss": 0.9191,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006496296444796219,
+      "loss": 0.8791,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006494667326268186,
+      "loss": 0.8632,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006492742355525248,
+      "loss": 0.9267,
+      "step": 14
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006490521708088281,
+      "loss": 0.8644,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.000648800558643828,
+      "loss": 0.8353,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006485194219997891,
+      "loss": 0.8482,
+      "step": 17
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006482087865110493,
+      "loss": 0.8587,
+      "step": 18
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006478686805016826,
+      "loss": 0.9134,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006474991349829163,
+      "loss": 0.8238,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006471001836503035,
+      "loss": 0.8329,
+      "step": 21
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006466718628806508,
+      "loss": 0.7995,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006462142117287011,
+      "loss": 0.8363,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006457272719235728,
+      "loss": 0.7942,
+      "step": 24
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006452110878649547,
+      "loss": 0.858,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006446657066190579,
+      "loss": 0.8474,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000644091177914324,
+      "loss": 0.8175,
+      "step": 27
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006434875541368907,
+      "loss": 0.7821,
+      "step": 28
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006428548903258156,
+      "loss": 0.8583,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006421932441680574,
+      "loss": 0.8071,
+      "step": 30
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006415026759932158,
+      "loss": 0.805,
+      "step": 31
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006407832487680309,
+      "loss": 0.881,
+      "step": 32
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006400350280906415,
+      "loss": 0.8302,
+      "step": 33
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006392580821846041,
+      "loss": 0.8456,
+      "step": 34
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006384524818926723,
+      "loss": 0.8067,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006376183006703367,
+      "loss": 0.8307,
+      "step": 36
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006367556145791275,
+      "loss": 0.8347,
+      "step": 37
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006358645022796795,
+      "loss": 0.8086,
+      "step": 38
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006349450450245589,
+      "loss": 0.8726,
+      "step": 39
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006339973266508556,
+      "loss": 0.78,
+      "step": 40
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006330214335725379,
+      "loss": 0.7902,
+      "step": 41
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006320174547725736,
+      "loss": 0.7823,
+      "step": 42
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006309854817948169,
+      "loss": 0.8211,
+      "step": 43
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006299256087356603,
+      "loss": 0.8656,
+      "step": 44
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.000628837932235456,
+      "loss": 0.7767,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006277225514697028,
+      "loss": 0.7542,
+      "step": 46
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006265795681400046,
+      "loss": 0.8254,
+      "step": 47
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006254090864647957,
+      "loss": 0.8099,
+      "step": 48
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006242112131698394,
+      "loss": 0.7786,
+      "step": 49
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006229860574784954,
+      "loss": 0.7895,
+      "step": 50
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006217337311017619,
+      "loss": 0.8092,
+      "step": 51
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006204543482280886,
+      "loss": 0.7998,
+      "step": 52
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006191480255129656,
+      "loss": 0.802,
+      "step": 53
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006178148820682862,
+      "loss": 0.7691,
+      "step": 54
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006164550394514865,
+      "loss": 0.8572,
+      "step": 55
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006150686216544614,
+      "loss": 0.7915,
+      "step": 56
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006136557550922589,
+      "loss": 0.759,
+      "step": 57
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006122165685915537,
+      "loss": 0.7282,
+      "step": 58
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006107511933789002,
+      "loss": 0.768,
+      "step": 59
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006092597630687677,
+      "loss": 0.7868,
+      "step": 60
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006077424136513567,
+      "loss": 0.7827,
+      "step": 61
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006061992834801996,
+      "loss": 0.7755,
+      "step": 62
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006046305132595453,
+      "loss": 0.8332,
+      "step": 63
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006030362460315296,
+      "loss": 0.7241,
+      "step": 64
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006014166271631326,
+      "loss": 0.8074,
+      "step": 65
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000599771804332924,
+      "loss": 0.7491,
+      "step": 66
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0005981019275175972,
+      "loss": 0.8004,
+      "step": 67
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000596407148978295,
+      "loss": 0.7442,
+      "step": 68
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005946876232467254,
+      "loss": 0.6956,
+      "step": 69
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005929435071110721,
+      "loss": 0.7472,
+      "step": 70
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005911749596016978,
+      "loss": 0.8097,
+      "step": 71
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005893821419766438,
+      "loss": 0.8002,
+      "step": 72
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005875652177069265,
+      "loss": 0.8203,
+      "step": 73
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005857243524616315,
+      "loss": 0.7339,
+      "step": 74
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005838597140928082,
+      "loss": 0.6844,
+      "step": 75
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005819714726201646,
+      "loss": 0.7211,
+      "step": 76
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005800598002155648,
+      "loss": 0.8289,
+      "step": 77
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005781248711873302,
+      "loss": 0.7686,
+      "step": 78
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005761668619643458,
+      "loss": 0.7618,
+      "step": 79
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005741859510799734,
+      "loss": 0.779,
+      "step": 80
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005721823191557725,
+      "loss": 0.7599,
+      "step": 81
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005701561488850312,
+      "loss": 0.7495,
+      "step": 82
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000568107625016108,
+      "loss": 0.6977,
+      "step": 83
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005660369343355862,
+      "loss": 0.757,
+      "step": 84
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005639442656512426,
+      "loss": 0.8295,
+      "step": 85
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005618298097748316,
+      "loss": 0.7394,
+      "step": 86
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005596937595046872,
+      "loss": 0.7728,
+      "step": 87
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005575363096081429,
+      "loss": 0.7721,
+      "step": 88
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005553576568037731,
+      "loss": 0.7191,
+      "step": 89
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005531579997434555,
+      "loss": 0.7594,
+      "step": 90
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005509375389942588,
+      "loss": 0.7511,
+      "step": 91
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005486964770201533,
+      "loss": 0.7644,
+      "step": 92
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005464350181635519,
+      "loss": 0.7403,
+      "step": 93
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.000544153368626676,
+      "loss": 0.7204,
+      "step": 94
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005418517364527552,
+      "loss": 0.7358,
+      "step": 95
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005395303315070571,
+      "loss": 0.7607,
+      "step": 96
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005371893654577517,
+      "loss": 0.7505,
+      "step": 97
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005348290517566107,
+      "loss": 0.7274,
+      "step": 98
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005324496056195461,
+      "loss": 0.8161,
+      "step": 99
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005300512440069852,
+      "loss": 0.7043,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 336,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "total_flos": 1.2671181951152947e+17,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a720d2daf4afe192195297ee83d1a8834602d7e8eda493eaba5ee762dd57a90
+size 4664

checkpoint-150/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: unsloth/llama-2-7b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.7.1

checkpoint-150/adapter_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/llama-2-7b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": "unsloth",
+  "target_modules": [
+    "up_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-150/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d45bae02d193daabeb44e22b77d1346b6f457fe789898c014d8ad00f3c677d6
+size 1279323952

checkpoint-150/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f113362ee9123eab45f48c8db9430dabf38a3a68f64c5d67075959f49674ee3d
+size 641407572

checkpoint-150/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe2e145b09b2faab2c45440a9233e2700f8dca5428319c1eb306332f174e4af7
+size 14244

checkpoint-150/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b554875db3ba717349f139de3f598f899689f5944f5f578487a979cb70ca3e3
+size 1064

checkpoint-150/trainer_state.json ADDED Viewed

	@@ -0,0 +1,921 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.446162998215348,
+  "eval_steps": 500,
+  "global_step": 150,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.285714285714285e-05,
+      "loss": 2.4427,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0001857142857142857,
+      "loss": 2.3973,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00027857142857142854,
+      "loss": 2.341,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0003714285714285714,
+      "loss": 2.1281,
+      "step": 4
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004642857142857143,
+      "loss": 1.4346,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0005571428571428571,
+      "loss": 1.1715,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00065,
+      "loss": 1.086,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0006499851830773117,
+      "loss": 0.9921,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00064994073366027,
+      "loss": 0.9231,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006498666558018197,
+      "loss": 0.9343,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006497629562564588,
+      "loss": 0.9191,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006496296444796219,
+      "loss": 0.8791,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006494667326268186,
+      "loss": 0.8632,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006492742355525248,
+      "loss": 0.9267,
+      "step": 14
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006490521708088281,
+      "loss": 0.8644,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.000648800558643828,
+      "loss": 0.8353,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006485194219997891,
+      "loss": 0.8482,
+      "step": 17
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006482087865110493,
+      "loss": 0.8587,
+      "step": 18
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006478686805016826,
+      "loss": 0.9134,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006474991349829163,
+      "loss": 0.8238,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006471001836503035,
+      "loss": 0.8329,
+      "step": 21
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006466718628806508,
+      "loss": 0.7995,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006462142117287011,
+      "loss": 0.8363,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006457272719235728,
+      "loss": 0.7942,
+      "step": 24
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006452110878649547,
+      "loss": 0.858,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006446657066190579,
+      "loss": 0.8474,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000644091177914324,
+      "loss": 0.8175,
+      "step": 27
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006434875541368907,
+      "loss": 0.7821,
+      "step": 28
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006428548903258156,
+      "loss": 0.8583,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006421932441680574,
+      "loss": 0.8071,
+      "step": 30
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006415026759932158,
+      "loss": 0.805,
+      "step": 31
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006407832487680309,
+      "loss": 0.881,
+      "step": 32
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006400350280906415,
+      "loss": 0.8302,
+      "step": 33
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006392580821846041,
+      "loss": 0.8456,
+      "step": 34
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006384524818926723,
+      "loss": 0.8067,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006376183006703367,
+      "loss": 0.8307,
+      "step": 36
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006367556145791275,
+      "loss": 0.8347,
+      "step": 37
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006358645022796795,
+      "loss": 0.8086,
+      "step": 38
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006349450450245589,
+      "loss": 0.8726,
+      "step": 39
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006339973266508556,
+      "loss": 0.78,
+      "step": 40
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006330214335725379,
+      "loss": 0.7902,
+      "step": 41
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006320174547725736,
+      "loss": 0.7823,
+      "step": 42
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006309854817948169,
+      "loss": 0.8211,
+      "step": 43
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006299256087356603,
+      "loss": 0.8656,
+      "step": 44
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.000628837932235456,
+      "loss": 0.7767,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006277225514697028,
+      "loss": 0.7542,
+      "step": 46
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006265795681400046,
+      "loss": 0.8254,
+      "step": 47
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006254090864647957,
+      "loss": 0.8099,
+      "step": 48
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006242112131698394,
+      "loss": 0.7786,
+      "step": 49
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006229860574784954,
+      "loss": 0.7895,
+      "step": 50
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006217337311017619,
+      "loss": 0.8092,
+      "step": 51
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006204543482280886,
+      "loss": 0.7998,
+      "step": 52
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006191480255129656,
+      "loss": 0.802,
+      "step": 53
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006178148820682862,
+      "loss": 0.7691,
+      "step": 54
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006164550394514865,
+      "loss": 0.8572,
+      "step": 55
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006150686216544614,
+      "loss": 0.7915,
+      "step": 56
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006136557550922589,
+      "loss": 0.759,
+      "step": 57
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006122165685915537,
+      "loss": 0.7282,
+      "step": 58
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006107511933789002,
+      "loss": 0.768,
+      "step": 59
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006092597630687677,
+      "loss": 0.7868,
+      "step": 60
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006077424136513567,
+      "loss": 0.7827,
+      "step": 61
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006061992834801996,
+      "loss": 0.7755,
+      "step": 62
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006046305132595453,
+      "loss": 0.8332,
+      "step": 63
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006030362460315296,
+      "loss": 0.7241,
+      "step": 64
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006014166271631326,
+      "loss": 0.8074,
+      "step": 65
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000599771804332924,
+      "loss": 0.7491,
+      "step": 66
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0005981019275175972,
+      "loss": 0.8004,
+      "step": 67
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000596407148978295,
+      "loss": 0.7442,
+      "step": 68
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005946876232467254,
+      "loss": 0.6956,
+      "step": 69
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005929435071110721,
+      "loss": 0.7472,
+      "step": 70
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005911749596016978,
+      "loss": 0.8097,
+      "step": 71
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005893821419766438,
+      "loss": 0.8002,
+      "step": 72
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005875652177069265,
+      "loss": 0.8203,
+      "step": 73
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005857243524616315,
+      "loss": 0.7339,
+      "step": 74
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005838597140928082,
+      "loss": 0.6844,
+      "step": 75
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005819714726201646,
+      "loss": 0.7211,
+      "step": 76
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005800598002155648,
+      "loss": 0.8289,
+      "step": 77
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005781248711873302,
+      "loss": 0.7686,
+      "step": 78
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005761668619643458,
+      "loss": 0.7618,
+      "step": 79
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005741859510799734,
+      "loss": 0.779,
+      "step": 80
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005721823191557725,
+      "loss": 0.7599,
+      "step": 81
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005701561488850312,
+      "loss": 0.7495,
+      "step": 82
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000568107625016108,
+      "loss": 0.6977,
+      "step": 83
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005660369343355862,
+      "loss": 0.757,
+      "step": 84
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005639442656512426,
+      "loss": 0.8295,
+      "step": 85
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005618298097748316,
+      "loss": 0.7394,
+      "step": 86
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005596937595046872,
+      "loss": 0.7728,
+      "step": 87
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005575363096081429,
+      "loss": 0.7721,
+      "step": 88
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005553576568037731,
+      "loss": 0.7191,
+      "step": 89
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005531579997434555,
+      "loss": 0.7594,
+      "step": 90
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005509375389942588,
+      "loss": 0.7511,
+      "step": 91
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005486964770201533,
+      "loss": 0.7644,
+      "step": 92
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005464350181635519,
+      "loss": 0.7403,
+      "step": 93
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.000544153368626676,
+      "loss": 0.7204,
+      "step": 94
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005418517364527552,
+      "loss": 0.7358,
+      "step": 95
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005395303315070571,
+      "loss": 0.7607,
+      "step": 96
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005371893654577517,
+      "loss": 0.7505,
+      "step": 97
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005348290517566107,
+      "loss": 0.7274,
+      "step": 98
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005324496056195461,
+      "loss": 0.8161,
+      "step": 99
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005300512440069852,
+      "loss": 0.7043,
+      "step": 100
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005276341856040884,
+      "loss": 0.7921,
+      "step": 101
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005251986508008097,
+      "loss": 0.6852,
+      "step": 102
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005227448616718004,
+      "loss": 0.6996,
+      "step": 103
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005202730419561611,
+      "loss": 0.6323,
+      "step": 104
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005177834170370404,
+      "loss": 0.7601,
+      "step": 105
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005152762139210839,
+      "loss": 0.7499,
+      "step": 106
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005127516612177365,
+      "loss": 0.73,
+      "step": 107
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005102099891183958,
+      "loss": 0.7438,
+      "step": 108
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005076514293754255,
+      "loss": 0.6614,
+      "step": 109
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005050762152810218,
+      "loss": 0.7599,
+      "step": 110
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005024845816459423,
+      "loss": 0.7471,
+      "step": 111
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0004998767647780961,
+      "loss": 0.7569,
+      "step": 112
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004972530024609966,
+      "loss": 0.6561,
+      "step": 113
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004946135339320798,
+      "loss": 0.7369,
+      "step": 114
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004919585998608917,
+      "loss": 0.755,
+      "step": 115
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004892884423271417,
+      "loss": 0.7307,
+      "step": 116
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004866033047986317,
+      "loss": 0.7321,
+      "step": 117
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00048390343210905486,
+      "loss": 0.772,
+      "step": 118
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004811890704356722,
+      "loss": 0.6707,
+      "step": 119
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004784604672768657,
+      "loss": 0.695,
+      "step": 120
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004757178714295709,
+      "loss": 0.6372,
+      "step": 121
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004729615329665918,
+      "loss": 0.7303,
+      "step": 122
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004701917032137987,
+      "loss": 0.7313,
+      "step": 123
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00046740863472721176,
+      "loss": 0.6939,
+      "step": 124
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004646125812699734,
+      "loss": 0.711,
+      "step": 125
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004618037977892089,
+      "loss": 0.7238,
+      "step": 126
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00045898254039278106,
+      "loss": 0.7508,
+      "step": 127
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0004561490663259375,
+      "loss": 0.7817,
+      "step": 128
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00045330363394785467,
+      "loss": 0.7149,
+      "step": 129
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0004504465027080806,
+      "loss": 0.7987,
+      "step": 130
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00044757793312287807,
+      "loss": 0.7047,
+      "step": 131
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00044469818675147024,
+      "loss": 0.7322,
+      "step": 132
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004418075261721916,
+      "loss": 0.71,
+      "step": 133
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004389062149585456,
+      "loss": 0.7306,
+      "step": 134
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004359945176551721,
+      "loss": 0.6989,
+      "step": 135
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00043307269975372513,
+      "loss": 0.6898,
+      "step": 136
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0004301410276686663,
+      "loss": 0.7431,
+      "step": 137
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00042719976871297155,
+      "loss": 0.7236,
+      "step": 138
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0004242491910737582,
+      "loss": 0.7704,
+      "step": 139
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0004212895637878311,
+      "loss": 0.7125,
+      "step": 140
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00041832115671715107,
+      "loss": 0.7869,
+      "step": 141
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00041534424052422966,
+      "loss": 0.714,
+      "step": 142
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00041235908664744866,
+      "loss": 0.6927,
+      "step": 143
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00040936596727631104,
+      "loss": 0.7168,
+      "step": 144
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0004063651553266216,
+      "loss": 0.7199,
+      "step": 145
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00040335692441560304,
+      "loss": 0.7084,
+      "step": 146
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00040034154883694667,
+      "loss": 0.728,
+      "step": 147
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00039731930353580216,
+      "loss": 0.7368,
+      "step": 148
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0003942904640837078,
+      "loss": 0.7298,
+      "step": 149
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00039125530665346355,
+      "loss": 0.73,
+      "step": 150
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 336,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "total_flos": 1.9009765459545293e+17,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-150/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a720d2daf4afe192195297ee83d1a8834602d7e8eda493eaba5ee762dd57a90
+size 4664

checkpoint-200/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: unsloth/llama-2-7b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.7.1

checkpoint-200/adapter_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/llama-2-7b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": "unsloth",
+  "target_modules": [
+    "up_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-200/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c40072580cdb8847f7a68a14591a12c2d91034b32c5d97da71747393a75f991
+size 1279323952

checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc5288e60674d03b908711f5a166d44c8c8f9f28367078f7f5ff64dbd2c8d70a
+size 641407572

checkpoint-200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe2e145b09b2faab2c45440a9233e2700f8dca5428319c1eb306332f174e4af7
+size 14244

checkpoint-200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:118b4261b2696d1526156bb53cdfd49d3c03c38b24d5da5974eb026da0f48d98
+size 1064

checkpoint-200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1221 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.594883997620464,
+  "eval_steps": 500,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.285714285714285e-05,
+      "loss": 2.4427,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0001857142857142857,
+      "loss": 2.3973,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00027857142857142854,
+      "loss": 2.341,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0003714285714285714,
+      "loss": 2.1281,
+      "step": 4
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004642857142857143,
+      "loss": 1.4346,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0005571428571428571,
+      "loss": 1.1715,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00065,
+      "loss": 1.086,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0006499851830773117,
+      "loss": 0.9921,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00064994073366027,
+      "loss": 0.9231,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006498666558018197,
+      "loss": 0.9343,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006497629562564588,
+      "loss": 0.9191,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006496296444796219,
+      "loss": 0.8791,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006494667326268186,
+      "loss": 0.8632,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006492742355525248,
+      "loss": 0.9267,
+      "step": 14
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006490521708088281,
+      "loss": 0.8644,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.000648800558643828,
+      "loss": 0.8353,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006485194219997891,
+      "loss": 0.8482,
+      "step": 17
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006482087865110493,
+      "loss": 0.8587,
+      "step": 18
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006478686805016826,
+      "loss": 0.9134,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006474991349829163,
+      "loss": 0.8238,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006471001836503035,
+      "loss": 0.8329,
+      "step": 21
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006466718628806508,
+      "loss": 0.7995,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006462142117287011,
+      "loss": 0.8363,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006457272719235728,
+      "loss": 0.7942,
+      "step": 24
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006452110878649547,
+      "loss": 0.858,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006446657066190579,
+      "loss": 0.8474,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000644091177914324,
+      "loss": 0.8175,
+      "step": 27
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006434875541368907,
+      "loss": 0.7821,
+      "step": 28
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006428548903258156,
+      "loss": 0.8583,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006421932441680574,
+      "loss": 0.8071,
+      "step": 30
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006415026759932158,
+      "loss": 0.805,
+      "step": 31
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006407832487680309,
+      "loss": 0.881,
+      "step": 32
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006400350280906415,
+      "loss": 0.8302,
+      "step": 33
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006392580821846041,
+      "loss": 0.8456,
+      "step": 34
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006384524818926723,
+      "loss": 0.8067,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006376183006703367,
+      "loss": 0.8307,
+      "step": 36
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006367556145791275,
+      "loss": 0.8347,
+      "step": 37
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006358645022796795,
+      "loss": 0.8086,
+      "step": 38
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006349450450245589,
+      "loss": 0.8726,
+      "step": 39
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006339973266508556,
+      "loss": 0.78,
+      "step": 40
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006330214335725379,
+      "loss": 0.7902,
+      "step": 41
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006320174547725736,
+      "loss": 0.7823,
+      "step": 42
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006309854817948169,
+      "loss": 0.8211,
+      "step": 43
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006299256087356603,
+      "loss": 0.8656,
+      "step": 44
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.000628837932235456,
+      "loss": 0.7767,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006277225514697028,
+      "loss": 0.7542,
+      "step": 46
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006265795681400046,
+      "loss": 0.8254,
+      "step": 47
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006254090864647957,
+      "loss": 0.8099,
+      "step": 48
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006242112131698394,
+      "loss": 0.7786,
+      "step": 49
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006229860574784954,
+      "loss": 0.7895,
+      "step": 50
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006217337311017619,
+      "loss": 0.8092,
+      "step": 51
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006204543482280886,
+      "loss": 0.7998,
+      "step": 52
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006191480255129656,
+      "loss": 0.802,
+      "step": 53
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006178148820682862,
+      "loss": 0.7691,
+      "step": 54
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006164550394514865,
+      "loss": 0.8572,
+      "step": 55
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006150686216544614,
+      "loss": 0.7915,
+      "step": 56
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006136557550922589,
+      "loss": 0.759,
+      "step": 57
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006122165685915537,
+      "loss": 0.7282,
+      "step": 58
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006107511933789002,
+      "loss": 0.768,
+      "step": 59
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006092597630687677,
+      "loss": 0.7868,
+      "step": 60
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006077424136513567,
+      "loss": 0.7827,
+      "step": 61
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006061992834801996,
+      "loss": 0.7755,
+      "step": 62
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006046305132595453,
+      "loss": 0.8332,
+      "step": 63
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006030362460315296,
+      "loss": 0.7241,
+      "step": 64
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006014166271631326,
+      "loss": 0.8074,
+      "step": 65
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000599771804332924,
+      "loss": 0.7491,
+      "step": 66
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0005981019275175972,
+      "loss": 0.8004,
+      "step": 67
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000596407148978295,
+      "loss": 0.7442,
+      "step": 68
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005946876232467254,
+      "loss": 0.6956,
+      "step": 69
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005929435071110721,
+      "loss": 0.7472,
+      "step": 70
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005911749596016978,
+      "loss": 0.8097,
+      "step": 71
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005893821419766438,
+      "loss": 0.8002,
+      "step": 72
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005875652177069265,
+      "loss": 0.8203,
+      "step": 73
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005857243524616315,
+      "loss": 0.7339,
+      "step": 74
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005838597140928082,
+      "loss": 0.6844,
+      "step": 75
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005819714726201646,
+      "loss": 0.7211,
+      "step": 76
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005800598002155648,
+      "loss": 0.8289,
+      "step": 77
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005781248711873302,
+      "loss": 0.7686,
+      "step": 78
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005761668619643458,
+      "loss": 0.7618,
+      "step": 79
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005741859510799734,
+      "loss": 0.779,
+      "step": 80
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005721823191557725,
+      "loss": 0.7599,
+      "step": 81
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005701561488850312,
+      "loss": 0.7495,
+      "step": 82
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000568107625016108,
+      "loss": 0.6977,
+      "step": 83
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005660369343355862,
+      "loss": 0.757,
+      "step": 84
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005639442656512426,
+      "loss": 0.8295,
+      "step": 85
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005618298097748316,
+      "loss": 0.7394,
+      "step": 86
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005596937595046872,
+      "loss": 0.7728,
+      "step": 87
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005575363096081429,
+      "loss": 0.7721,
+      "step": 88
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005553576568037731,
+      "loss": 0.7191,
+      "step": 89
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005531579997434555,
+      "loss": 0.7594,
+      "step": 90
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005509375389942588,
+      "loss": 0.7511,
+      "step": 91
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005486964770201533,
+      "loss": 0.7644,
+      "step": 92
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005464350181635519,
+      "loss": 0.7403,
+      "step": 93
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.000544153368626676,
+      "loss": 0.7204,
+      "step": 94
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005418517364527552,
+      "loss": 0.7358,
+      "step": 95
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005395303315070571,
+      "loss": 0.7607,
+      "step": 96
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005371893654577517,
+      "loss": 0.7505,
+      "step": 97
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005348290517566107,
+      "loss": 0.7274,
+      "step": 98
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005324496056195461,
+      "loss": 0.8161,
+      "step": 99
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005300512440069852,
+      "loss": 0.7043,
+      "step": 100
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005276341856040884,
+      "loss": 0.7921,
+      "step": 101
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005251986508008097,
+      "loss": 0.6852,
+      "step": 102
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005227448616718004,
+      "loss": 0.6996,
+      "step": 103
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005202730419561611,
+      "loss": 0.6323,
+      "step": 104
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005177834170370404,
+      "loss": 0.7601,
+      "step": 105
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005152762139210839,
+      "loss": 0.7499,
+      "step": 106
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005127516612177365,
+      "loss": 0.73,
+      "step": 107
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005102099891183958,
+      "loss": 0.7438,
+      "step": 108
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005076514293754255,
+      "loss": 0.6614,
+      "step": 109
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005050762152810218,
+      "loss": 0.7599,
+      "step": 110
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005024845816459423,
+      "loss": 0.7471,
+      "step": 111
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0004998767647780961,
+      "loss": 0.7569,
+      "step": 112
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004972530024609966,
+      "loss": 0.6561,
+      "step": 113
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004946135339320798,
+      "loss": 0.7369,
+      "step": 114
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004919585998608917,
+      "loss": 0.755,
+      "step": 115
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004892884423271417,
+      "loss": 0.7307,
+      "step": 116
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004866033047986317,
+      "loss": 0.7321,
+      "step": 117
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00048390343210905486,
+      "loss": 0.772,
+      "step": 118
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004811890704356722,
+      "loss": 0.6707,
+      "step": 119
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004784604672768657,
+      "loss": 0.695,
+      "step": 120
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004757178714295709,
+      "loss": 0.6372,
+      "step": 121
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004729615329665918,
+      "loss": 0.7303,
+      "step": 122
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004701917032137987,
+      "loss": 0.7313,
+      "step": 123
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00046740863472721176,
+      "loss": 0.6939,
+      "step": 124
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004646125812699734,
+      "loss": 0.711,
+      "step": 125
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004618037977892089,
+      "loss": 0.7238,
+      "step": 126
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00045898254039278106,
+      "loss": 0.7508,
+      "step": 127
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0004561490663259375,
+      "loss": 0.7817,
+      "step": 128
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00045330363394785467,
+      "loss": 0.7149,
+      "step": 129
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0004504465027080806,
+      "loss": 0.7987,
+      "step": 130
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00044757793312287807,
+      "loss": 0.7047,
+      "step": 131
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00044469818675147024,
+      "loss": 0.7322,
+      "step": 132
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004418075261721916,
+      "loss": 0.71,
+      "step": 133
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004389062149585456,
+      "loss": 0.7306,
+      "step": 134
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004359945176551721,
+      "loss": 0.6989,
+      "step": 135
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00043307269975372513,
+      "loss": 0.6898,
+      "step": 136
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0004301410276686663,
+      "loss": 0.7431,
+      "step": 137
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00042719976871297155,
+      "loss": 0.7236,
+      "step": 138
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0004242491910737582,
+      "loss": 0.7704,
+      "step": 139
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0004212895637878311,
+      "loss": 0.7125,
+      "step": 140
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00041832115671715107,
+      "loss": 0.7869,
+      "step": 141
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00041534424052422966,
+      "loss": 0.714,
+      "step": 142
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00041235908664744866,
+      "loss": 0.6927,
+      "step": 143
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00040936596727631104,
+      "loss": 0.7168,
+      "step": 144
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0004063651553266216,
+      "loss": 0.7199,
+      "step": 145
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00040335692441560304,
+      "loss": 0.7084,
+      "step": 146
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00040034154883694667,
+      "loss": 0.728,
+      "step": 147
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00039731930353580216,
+      "loss": 0.7368,
+      "step": 148
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0003942904640837078,
+      "loss": 0.7298,
+      "step": 149
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00039125530665346355,
+      "loss": 0.73,
+      "step": 150
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00038821410799394935,
+      "loss": 0.6635,
+      "step": 151
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0003851671454048909,
+      "loss": 0.7228,
+      "step": 152
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00038211469671157496,
+      "loss": 0.7276,
+      "step": 153
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00037905704023951726,
+      "loss": 0.7386,
+      "step": 154
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0003759944547890843,
+      "loss": 0.7577,
+      "step": 155
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0003729272196100721,
+      "loss": 0.6462,
+      "step": 156
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0003698556143762437,
+      "loss": 0.7328,
+      "step": 157
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0003667799191598287,
+      "loss": 0.7096,
+      "step": 158
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00036370041440598517,
+      "loss": 0.6856,
+      "step": 159
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0003606173809072294,
+      "loss": 0.7114,
+      "step": 160
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.000357531099777832,
+      "loss": 0.694,
+      "step": 161
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00035444185242818624,
+      "loss": 0.7436,
+      "step": 162
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0003513499205391482,
+      "loss": 0.727,
+      "step": 163
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00034825558603635346,
+      "loss": 0.6991,
+      "step": 164
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0003451591310645103,
+      "loss": 0.6891,
+      "step": 165
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0003420608379616738,
+      "loss": 0.6636,
+      "step": 166
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0003389609892335013,
+      "loss": 0.6759,
+      "step": 167
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0003358598675274942,
+      "loss": 0.7353,
+      "step": 168
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00033275775560722527,
+      "loss": 0.6926,
+      "step": 169
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003296549363265559,
+      "loss": 0.7334,
+      "step": 170
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003265516926038455,
+      "loss": 0.6609,
+      "step": 171
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003234483073961544,
+      "loss": 0.6996,
+      "step": 172
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003203450636734441,
+      "loss": 0.6515,
+      "step": 173
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00031724224439277476,
+      "loss": 0.7299,
+      "step": 174
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00031414013247250586,
+      "loss": 0.7283,
+      "step": 175
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0003110390107664987,
+      "loss": 0.6697,
+      "step": 176
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00030793916203832625,
+      "loss": 0.6834,
+      "step": 177
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00030484086893548966,
+      "loss": 0.7315,
+      "step": 178
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0003017444139636465,
+      "loss": 0.721,
+      "step": 179
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002986500794608518,
+      "loss": 0.6572,
+      "step": 180
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002955581475718138,
+      "loss": 0.7086,
+      "step": 181
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.000292468900222168,
+      "loss": 0.7413,
+      "step": 182
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002893826190927707,
+      "loss": 0.7398,
+      "step": 183
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002862995855940148,
+      "loss": 0.6878,
+      "step": 184
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00028322008084017135,
+      "loss": 0.7316,
+      "step": 185
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002801443856237563,
+      "loss": 0.7612,
+      "step": 186
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.000277072780389928,
+      "loss": 0.7012,
+      "step": 187
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002740055452109156,
+      "loss": 0.7154,
+      "step": 188
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002709429597604827,
+      "loss": 0.707,
+      "step": 189
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002678853032884251,
+      "loss": 0.6693,
+      "step": 190
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002648328545951092,
+      "loss": 0.7198,
+      "step": 191
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002617858920060506,
+      "loss": 0.6859,
+      "step": 192
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002587446933465364,
+      "loss": 0.7213,
+      "step": 193
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00025570953591629226,
+      "loss": 0.7649,
+      "step": 194
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002526806964641978,
+      "loss": 0.6622,
+      "step": 195
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002496584511630533,
+      "loss": 0.6788,
+      "step": 196
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.000246643075584397,
+      "loss": 0.7441,
+      "step": 197
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00024363484467337842,
+      "loss": 0.6831,
+      "step": 198
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002406340327236891,
+      "loss": 0.721,
+      "step": 199
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00023764091335255131,
+      "loss": 0.6427,
+      "step": 200
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 336,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "total_flos": 2.5342363902305894e+17,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a720d2daf4afe192195297ee83d1a8834602d7e8eda493eaba5ee762dd57a90
+size 4664

checkpoint-250/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: unsloth/llama-2-7b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.7.1

checkpoint-250/adapter_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/llama-2-7b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": "unsloth",
+  "target_modules": [
+    "up_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-250/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dff8d1846aad40946115b3b7bc1e50fe2871d849b26744fc38ed90be276bdaca
+size 1279323952

checkpoint-250/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1298ae808b5260196e5657e0bfca74f2d200068b27ca6b22314761c30e4e6b36
+size 641407572

checkpoint-250/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe2e145b09b2faab2c45440a9233e2700f8dca5428319c1eb306332f174e4af7
+size 14244

checkpoint-250/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b598d421de3bc1e44e2c9a9831d1f24e3f8a3c2ab34584d610f9b65f7d130369
+size 1064

checkpoint-250/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1521 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.74360499702558,
+  "eval_steps": 500,
+  "global_step": 250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.285714285714285e-05,
+      "loss": 2.4427,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0001857142857142857,
+      "loss": 2.3973,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00027857142857142854,
+      "loss": 2.341,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0003714285714285714,
+      "loss": 2.1281,
+      "step": 4
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004642857142857143,
+      "loss": 1.4346,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0005571428571428571,
+      "loss": 1.1715,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00065,
+      "loss": 1.086,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0006499851830773117,
+      "loss": 0.9921,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00064994073366027,
+      "loss": 0.9231,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006498666558018197,
+      "loss": 0.9343,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006497629562564588,
+      "loss": 0.9191,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006496296444796219,
+      "loss": 0.8791,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006494667326268186,
+      "loss": 0.8632,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006492742355525248,
+      "loss": 0.9267,
+      "step": 14
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006490521708088281,
+      "loss": 0.8644,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.000648800558643828,
+      "loss": 0.8353,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006485194219997891,
+      "loss": 0.8482,
+      "step": 17
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006482087865110493,
+      "loss": 0.8587,
+      "step": 18
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006478686805016826,
+      "loss": 0.9134,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006474991349829163,
+      "loss": 0.8238,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006471001836503035,
+      "loss": 0.8329,
+      "step": 21
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006466718628806508,
+      "loss": 0.7995,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006462142117287011,
+      "loss": 0.8363,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006457272719235728,
+      "loss": 0.7942,
+      "step": 24
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006452110878649547,
+      "loss": 0.858,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006446657066190579,
+      "loss": 0.8474,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000644091177914324,
+      "loss": 0.8175,
+      "step": 27
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006434875541368907,
+      "loss": 0.7821,
+      "step": 28
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006428548903258156,
+      "loss": 0.8583,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006421932441680574,
+      "loss": 0.8071,
+      "step": 30
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006415026759932158,
+      "loss": 0.805,
+      "step": 31
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006407832487680309,
+      "loss": 0.881,
+      "step": 32
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006400350280906415,
+      "loss": 0.8302,
+      "step": 33
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006392580821846041,
+      "loss": 0.8456,
+      "step": 34
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006384524818926723,
+      "loss": 0.8067,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006376183006703367,
+      "loss": 0.8307,
+      "step": 36
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006367556145791275,
+      "loss": 0.8347,
+      "step": 37
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006358645022796795,
+      "loss": 0.8086,
+      "step": 38
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006349450450245589,
+      "loss": 0.8726,
+      "step": 39
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006339973266508556,
+      "loss": 0.78,
+      "step": 40
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006330214335725379,
+      "loss": 0.7902,
+      "step": 41
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006320174547725736,
+      "loss": 0.7823,
+      "step": 42
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006309854817948169,
+      "loss": 0.8211,
+      "step": 43
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006299256087356603,
+      "loss": 0.8656,
+      "step": 44
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.000628837932235456,
+      "loss": 0.7767,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006277225514697028,
+      "loss": 0.7542,
+      "step": 46
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006265795681400046,
+      "loss": 0.8254,
+      "step": 47
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006254090864647957,
+      "loss": 0.8099,
+      "step": 48
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006242112131698394,
+      "loss": 0.7786,
+      "step": 49
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006229860574784954,
+      "loss": 0.7895,
+      "step": 50
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006217337311017619,
+      "loss": 0.8092,
+      "step": 51
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006204543482280886,
+      "loss": 0.7998,
+      "step": 52
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006191480255129656,
+      "loss": 0.802,
+      "step": 53
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006178148820682862,
+      "loss": 0.7691,
+      "step": 54
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006164550394514865,
+      "loss": 0.8572,
+      "step": 55
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006150686216544614,
+      "loss": 0.7915,
+      "step": 56
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006136557550922589,
+      "loss": 0.759,
+      "step": 57
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006122165685915537,
+      "loss": 0.7282,
+      "step": 58
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006107511933789002,
+      "loss": 0.768,
+      "step": 59
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006092597630687677,
+      "loss": 0.7868,
+      "step": 60
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006077424136513567,
+      "loss": 0.7827,
+      "step": 61
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006061992834801996,
+      "loss": 0.7755,
+      "step": 62
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006046305132595453,
+      "loss": 0.8332,
+      "step": 63
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006030362460315296,
+      "loss": 0.7241,
+      "step": 64
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006014166271631326,
+      "loss": 0.8074,
+      "step": 65
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000599771804332924,
+      "loss": 0.7491,
+      "step": 66
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0005981019275175972,
+      "loss": 0.8004,
+      "step": 67
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000596407148978295,
+      "loss": 0.7442,
+      "step": 68
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005946876232467254,
+      "loss": 0.6956,
+      "step": 69
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005929435071110721,
+      "loss": 0.7472,
+      "step": 70
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005911749596016978,
+      "loss": 0.8097,
+      "step": 71
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005893821419766438,
+      "loss": 0.8002,
+      "step": 72
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005875652177069265,
+      "loss": 0.8203,
+      "step": 73
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005857243524616315,
+      "loss": 0.7339,
+      "step": 74
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005838597140928082,
+      "loss": 0.6844,
+      "step": 75
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005819714726201646,
+      "loss": 0.7211,
+      "step": 76
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005800598002155648,
+      "loss": 0.8289,
+      "step": 77
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005781248711873302,
+      "loss": 0.7686,
+      "step": 78
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005761668619643458,
+      "loss": 0.7618,
+      "step": 79
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005741859510799734,
+      "loss": 0.779,
+      "step": 80
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005721823191557725,
+      "loss": 0.7599,
+      "step": 81
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005701561488850312,
+      "loss": 0.7495,
+      "step": 82
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000568107625016108,
+      "loss": 0.6977,
+      "step": 83
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005660369343355862,
+      "loss": 0.757,
+      "step": 84
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005639442656512426,
+      "loss": 0.8295,
+      "step": 85
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005618298097748316,
+      "loss": 0.7394,
+      "step": 86
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005596937595046872,
+      "loss": 0.7728,
+      "step": 87
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005575363096081429,
+      "loss": 0.7721,
+      "step": 88
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005553576568037731,
+      "loss": 0.7191,
+      "step": 89
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005531579997434555,
+      "loss": 0.7594,
+      "step": 90
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005509375389942588,
+      "loss": 0.7511,
+      "step": 91
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005486964770201533,
+      "loss": 0.7644,
+      "step": 92
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005464350181635519,
+      "loss": 0.7403,
+      "step": 93
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.000544153368626676,
+      "loss": 0.7204,
+      "step": 94
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005418517364527552,
+      "loss": 0.7358,
+      "step": 95
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005395303315070571,
+      "loss": 0.7607,
+      "step": 96
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005371893654577517,
+      "loss": 0.7505,
+      "step": 97
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005348290517566107,
+      "loss": 0.7274,
+      "step": 98
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005324496056195461,
+      "loss": 0.8161,
+      "step": 99
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005300512440069852,
+      "loss": 0.7043,
+      "step": 100
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005276341856040884,
+      "loss": 0.7921,
+      "step": 101
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005251986508008097,
+      "loss": 0.6852,
+      "step": 102
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005227448616718004,
+      "loss": 0.6996,
+      "step": 103
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005202730419561611,
+      "loss": 0.6323,
+      "step": 104
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005177834170370404,
+      "loss": 0.7601,
+      "step": 105
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005152762139210839,
+      "loss": 0.7499,
+      "step": 106
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005127516612177365,
+      "loss": 0.73,
+      "step": 107
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005102099891183958,
+      "loss": 0.7438,
+      "step": 108
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005076514293754255,
+      "loss": 0.6614,
+      "step": 109
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005050762152810218,
+      "loss": 0.7599,
+      "step": 110
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005024845816459423,
+      "loss": 0.7471,
+      "step": 111
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0004998767647780961,
+      "loss": 0.7569,
+      "step": 112
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004972530024609966,
+      "loss": 0.6561,
+      "step": 113
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004946135339320798,
+      "loss": 0.7369,
+      "step": 114
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004919585998608917,
+      "loss": 0.755,
+      "step": 115
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004892884423271417,
+      "loss": 0.7307,
+      "step": 116
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004866033047986317,
+      "loss": 0.7321,
+      "step": 117
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00048390343210905486,
+      "loss": 0.772,
+      "step": 118
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004811890704356722,
+      "loss": 0.6707,
+      "step": 119
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004784604672768657,
+      "loss": 0.695,
+      "step": 120
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004757178714295709,
+      "loss": 0.6372,
+      "step": 121
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004729615329665918,
+      "loss": 0.7303,
+      "step": 122
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004701917032137987,
+      "loss": 0.7313,
+      "step": 123
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00046740863472721176,
+      "loss": 0.6939,
+      "step": 124
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004646125812699734,
+      "loss": 0.711,
+      "step": 125
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004618037977892089,
+      "loss": 0.7238,
+      "step": 126
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00045898254039278106,
+      "loss": 0.7508,
+      "step": 127
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0004561490663259375,
+      "loss": 0.7817,
+      "step": 128
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00045330363394785467,
+      "loss": 0.7149,
+      "step": 129
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0004504465027080806,
+      "loss": 0.7987,
+      "step": 130
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00044757793312287807,
+      "loss": 0.7047,
+      "step": 131
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00044469818675147024,
+      "loss": 0.7322,
+      "step": 132
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004418075261721916,
+      "loss": 0.71,
+      "step": 133
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004389062149585456,
+      "loss": 0.7306,
+      "step": 134
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004359945176551721,
+      "loss": 0.6989,
+      "step": 135
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00043307269975372513,
+      "loss": 0.6898,
+      "step": 136
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0004301410276686663,
+      "loss": 0.7431,
+      "step": 137
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00042719976871297155,
+      "loss": 0.7236,
+      "step": 138
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0004242491910737582,
+      "loss": 0.7704,
+      "step": 139
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0004212895637878311,
+      "loss": 0.7125,
+      "step": 140
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00041832115671715107,
+      "loss": 0.7869,
+      "step": 141
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00041534424052422966,
+      "loss": 0.714,
+      "step": 142
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00041235908664744866,
+      "loss": 0.6927,
+      "step": 143
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00040936596727631104,
+      "loss": 0.7168,
+      "step": 144
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0004063651553266216,
+      "loss": 0.7199,
+      "step": 145
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00040335692441560304,
+      "loss": 0.7084,
+      "step": 146
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00040034154883694667,
+      "loss": 0.728,
+      "step": 147
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00039731930353580216,
+      "loss": 0.7368,
+      "step": 148
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0003942904640837078,
+      "loss": 0.7298,
+      "step": 149
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00039125530665346355,
+      "loss": 0.73,
+      "step": 150
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00038821410799394935,
+      "loss": 0.6635,
+      "step": 151
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0003851671454048909,
+      "loss": 0.7228,
+      "step": 152
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00038211469671157496,
+      "loss": 0.7276,
+      "step": 153
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00037905704023951726,
+      "loss": 0.7386,
+      "step": 154
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0003759944547890843,
+      "loss": 0.7577,
+      "step": 155
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0003729272196100721,
+      "loss": 0.6462,
+      "step": 156
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0003698556143762437,
+      "loss": 0.7328,
+      "step": 157
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0003667799191598287,
+      "loss": 0.7096,
+      "step": 158
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00036370041440598517,
+      "loss": 0.6856,
+      "step": 159
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0003606173809072294,
+      "loss": 0.7114,
+      "step": 160
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.000357531099777832,
+      "loss": 0.694,
+      "step": 161
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00035444185242818624,
+      "loss": 0.7436,
+      "step": 162
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0003513499205391482,
+      "loss": 0.727,
+      "step": 163
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00034825558603635346,
+      "loss": 0.6991,
+      "step": 164
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0003451591310645103,
+      "loss": 0.6891,
+      "step": 165
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0003420608379616738,
+      "loss": 0.6636,
+      "step": 166
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0003389609892335013,
+      "loss": 0.6759,
+      "step": 167
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0003358598675274942,
+      "loss": 0.7353,
+      "step": 168
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00033275775560722527,
+      "loss": 0.6926,
+      "step": 169
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003296549363265559,
+      "loss": 0.7334,
+      "step": 170
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003265516926038455,
+      "loss": 0.6609,
+      "step": 171
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003234483073961544,
+      "loss": 0.6996,
+      "step": 172
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003203450636734441,
+      "loss": 0.6515,
+      "step": 173
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00031724224439277476,
+      "loss": 0.7299,
+      "step": 174
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00031414013247250586,
+      "loss": 0.7283,
+      "step": 175
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0003110390107664987,
+      "loss": 0.6697,
+      "step": 176
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00030793916203832625,
+      "loss": 0.6834,
+      "step": 177
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00030484086893548966,
+      "loss": 0.7315,
+      "step": 178
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0003017444139636465,
+      "loss": 0.721,
+      "step": 179
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002986500794608518,
+      "loss": 0.6572,
+      "step": 180
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002955581475718138,
+      "loss": 0.7086,
+      "step": 181
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.000292468900222168,
+      "loss": 0.7413,
+      "step": 182
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002893826190927707,
+      "loss": 0.7398,
+      "step": 183
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002862995855940148,
+      "loss": 0.6878,
+      "step": 184
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00028322008084017135,
+      "loss": 0.7316,
+      "step": 185
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002801443856237563,
+      "loss": 0.7612,
+      "step": 186
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.000277072780389928,
+      "loss": 0.7012,
+      "step": 187
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002740055452109156,
+      "loss": 0.7154,
+      "step": 188
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002709429597604827,
+      "loss": 0.707,
+      "step": 189
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002678853032884251,
+      "loss": 0.6693,
+      "step": 190
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002648328545951092,
+      "loss": 0.7198,
+      "step": 191
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002617858920060506,
+      "loss": 0.6859,
+      "step": 192
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002587446933465364,
+      "loss": 0.7213,
+      "step": 193
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00025570953591629226,
+      "loss": 0.7649,
+      "step": 194
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002526806964641978,
+      "loss": 0.6622,
+      "step": 195
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002496584511630533,
+      "loss": 0.6788,
+      "step": 196
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.000246643075584397,
+      "loss": 0.7441,
+      "step": 197
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00024363484467337842,
+      "loss": 0.6831,
+      "step": 198
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002406340327236891,
+      "loss": 0.721,
+      "step": 199
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00023764091335255131,
+      "loss": 0.6427,
+      "step": 200
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00023465575947577034,
+      "loss": 0.6415,
+      "step": 201
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002316788432828489,
+      "loss": 0.6217,
+      "step": 202
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00022871043621216898,
+      "loss": 0.7135,
+      "step": 203
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002257508089262417,
+      "loss": 0.6396,
+      "step": 204
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002228002312870284,
+      "loss": 0.6426,
+      "step": 205
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002198589723313337,
+      "loss": 0.7122,
+      "step": 206
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00021692730024627484,
+      "loss": 0.6733,
+      "step": 207
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.000214005482344828,
+      "loss": 0.6623,
+      "step": 208
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00021109378504145427,
+      "loss": 0.6955,
+      "step": 209
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00020819247382780837,
+      "loss": 0.7119,
+      "step": 210
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0002053018132485298,
+      "loss": 0.7348,
+      "step": 211
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00020242206687712196,
+      "loss": 0.6481,
+      "step": 212
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019955349729191941,
+      "loss": 0.7042,
+      "step": 213
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00019669636605214536,
+      "loss": 0.6279,
+      "step": 214
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00019385093367406254,
+      "loss": 0.7328,
+      "step": 215
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00019101745960721896,
+      "loss": 0.6726,
+      "step": 216
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00018819620221079117,
+      "loss": 0.6294,
+      "step": 217
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00018538741873002672,
+      "loss": 0.7579,
+      "step": 218
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001825913652727883,
+      "loss": 0.6927,
+      "step": 219
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001798082967862013,
+      "loss": 0.7399,
+      "step": 220
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017703846703340817,
+      "loss": 0.7435,
+      "step": 221
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.000174282128570429,
+      "loss": 0.6239,
+      "step": 222
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001715395327231343,
+      "loss": 0.6879,
+      "step": 223
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016881092956432775,
+      "loss": 0.6886,
+      "step": 224
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016609656789094506,
+      "loss": 0.7171,
+      "step": 225
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016339669520136827,
+      "loss": 0.673,
+      "step": 226
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016071155767285826,
+      "loss": 0.6988,
+      "step": 227
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001580414001391084,
+      "loss": 0.7076,
+      "step": 228
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00015538646606792005,
+      "loss": 0.7,
+      "step": 229
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00015274699753900343,
+      "loss": 0.7011,
+      "step": 230
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015012323522190388,
+      "loss": 0.68,
+      "step": 231
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00014751541835405772,
+      "loss": 0.6937,
+      "step": 232
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00014492378471897817,
+      "loss": 0.6418,
+      "step": 233
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001423485706245744,
+      "loss": 0.7231,
+      "step": 234
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00013979001088160417,
+      "loss": 0.6351,
+      "step": 235
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001372483387822637,
+      "loss": 0.7035,
+      "step": 236
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00013472378607891597,
+      "loss": 0.6478,
+      "step": 237
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00013221658296295956,
+      "loss": 0.7228,
+      "step": 238
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00012972695804383885,
+      "loss": 0.7148,
+      "step": 239
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00012725513832819964,
+      "loss": 0.7167,
+      "step": 240
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00012480134919919038,
+      "loss": 0.7208,
+      "step": 241
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00012236581439591161,
+      "loss": 0.6406,
+      "step": 242
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00011994875599301488,
+      "loss": 0.6974,
+      "step": 243
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00011755039438045392,
+      "loss": 0.6357,
+      "step": 244
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001151709482433892,
+      "loss": 0.7179,
+      "step": 245
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00011281063454224838,
+      "loss": 0.7553,
+      "step": 246
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00011046966849294289,
+      "loss": 0.7019,
+      "step": 247
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00010814826354724483,
+      "loss": 0.6608,
+      "step": 248
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00010584663137332396,
+      "loss": 0.6674,
+      "step": 249
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00010356498183644816,
+      "loss": 0.7079,
+      "step": 250
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 336,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "total_flos": 3.167057329693655e+17,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-250/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a720d2daf4afe192195297ee83d1a8834602d7e8eda493eaba5ee762dd57a90
+size 4664

checkpoint-300/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: unsloth/llama-2-7b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.7.1

checkpoint-300/adapter_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/llama-2-7b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": "unsloth",
+  "target_modules": [
+    "up_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-300/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c809fe604c5ae97d974767dda335f3ea372fdca58c12366f2769e816310a113
+size 1279323952

checkpoint-300/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27c86489d96393a70bef702e90ec9dee84e0e5d92112addd5a166db9288c77e5
+size 641408020

checkpoint-300/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe2e145b09b2faab2c45440a9233e2700f8dca5428319c1eb306332f174e4af7
+size 14244

checkpoint-300/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbca4e04e25e9d7a2781746d7dc3ce8ea70de6a415db28047f24c4620852475c
+size 1064

checkpoint-300/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1821 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.892325996430696,
+  "eval_steps": 500,
+  "global_step": 300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.285714285714285e-05,
+      "loss": 2.4427,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0001857142857142857,
+      "loss": 2.3973,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00027857142857142854,
+      "loss": 2.341,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0003714285714285714,
+      "loss": 2.1281,
+      "step": 4
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004642857142857143,
+      "loss": 1.4346,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0005571428571428571,
+      "loss": 1.1715,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00065,
+      "loss": 1.086,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0006499851830773117,
+      "loss": 0.9921,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00064994073366027,
+      "loss": 0.9231,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006498666558018197,
+      "loss": 0.9343,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006497629562564588,
+      "loss": 0.9191,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006496296444796219,
+      "loss": 0.8791,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006494667326268186,
+      "loss": 0.8632,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006492742355525248,
+      "loss": 0.9267,
+      "step": 14
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006490521708088281,
+      "loss": 0.8644,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.000648800558643828,
+      "loss": 0.8353,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006485194219997891,
+      "loss": 0.8482,
+      "step": 17
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006482087865110493,
+      "loss": 0.8587,
+      "step": 18
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006478686805016826,
+      "loss": 0.9134,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006474991349829163,
+      "loss": 0.8238,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006471001836503035,
+      "loss": 0.8329,
+      "step": 21
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006466718628806508,
+      "loss": 0.7995,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006462142117287011,
+      "loss": 0.8363,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006457272719235728,
+      "loss": 0.7942,
+      "step": 24
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006452110878649547,
+      "loss": 0.858,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006446657066190579,
+      "loss": 0.8474,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000644091177914324,
+      "loss": 0.8175,
+      "step": 27
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006434875541368907,
+      "loss": 0.7821,
+      "step": 28
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006428548903258156,
+      "loss": 0.8583,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006421932441680574,
+      "loss": 0.8071,
+      "step": 30
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006415026759932158,
+      "loss": 0.805,
+      "step": 31
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006407832487680309,
+      "loss": 0.881,
+      "step": 32
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006400350280906415,
+      "loss": 0.8302,
+      "step": 33
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006392580821846041,
+      "loss": 0.8456,
+      "step": 34
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006384524818926723,
+      "loss": 0.8067,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006376183006703367,
+      "loss": 0.8307,
+      "step": 36
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006367556145791275,
+      "loss": 0.8347,
+      "step": 37
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006358645022796795,
+      "loss": 0.8086,
+      "step": 38
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006349450450245589,
+      "loss": 0.8726,
+      "step": 39
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006339973266508556,
+      "loss": 0.78,
+      "step": 40
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006330214335725379,
+      "loss": 0.7902,
+      "step": 41
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006320174547725736,
+      "loss": 0.7823,
+      "step": 42
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006309854817948169,
+      "loss": 0.8211,
+      "step": 43
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006299256087356603,
+      "loss": 0.8656,
+      "step": 44
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.000628837932235456,
+      "loss": 0.7767,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006277225514697028,
+      "loss": 0.7542,
+      "step": 46
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006265795681400046,
+      "loss": 0.8254,
+      "step": 47
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006254090864647957,
+      "loss": 0.8099,
+      "step": 48
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006242112131698394,
+      "loss": 0.7786,
+      "step": 49
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006229860574784954,
+      "loss": 0.7895,
+      "step": 50
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006217337311017619,
+      "loss": 0.8092,
+      "step": 51
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006204543482280886,
+      "loss": 0.7998,
+      "step": 52
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006191480255129656,
+      "loss": 0.802,
+      "step": 53
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006178148820682862,
+      "loss": 0.7691,
+      "step": 54
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0006164550394514865,
+      "loss": 0.8572,
+      "step": 55
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006150686216544614,
+      "loss": 0.7915,
+      "step": 56
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006136557550922589,
+      "loss": 0.759,
+      "step": 57
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0006122165685915537,
+      "loss": 0.7282,
+      "step": 58
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006107511933789002,
+      "loss": 0.768,
+      "step": 59
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006092597630687677,
+      "loss": 0.7868,
+      "step": 60
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006077424136513567,
+      "loss": 0.7827,
+      "step": 61
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0006061992834801996,
+      "loss": 0.7755,
+      "step": 62
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006046305132595453,
+      "loss": 0.8332,
+      "step": 63
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006030362460315296,
+      "loss": 0.7241,
+      "step": 64
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006014166271631326,
+      "loss": 0.8074,
+      "step": 65
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000599771804332924,
+      "loss": 0.7491,
+      "step": 66
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0005981019275175972,
+      "loss": 0.8004,
+      "step": 67
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000596407148978295,
+      "loss": 0.7442,
+      "step": 68
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005946876232467254,
+      "loss": 0.6956,
+      "step": 69
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005929435071110721,
+      "loss": 0.7472,
+      "step": 70
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005911749596016978,
+      "loss": 0.8097,
+      "step": 71
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0005893821419766438,
+      "loss": 0.8002,
+      "step": 72
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005875652177069265,
+      "loss": 0.8203,
+      "step": 73
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005857243524616315,
+      "loss": 0.7339,
+      "step": 74
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0005838597140928082,
+      "loss": 0.6844,
+      "step": 75
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005819714726201646,
+      "loss": 0.7211,
+      "step": 76
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005800598002155648,
+      "loss": 0.8289,
+      "step": 77
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005781248711873302,
+      "loss": 0.7686,
+      "step": 78
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0005761668619643458,
+      "loss": 0.7618,
+      "step": 79
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005741859510799734,
+      "loss": 0.779,
+      "step": 80
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005721823191557725,
+      "loss": 0.7599,
+      "step": 81
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0005701561488850312,
+      "loss": 0.7495,
+      "step": 82
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000568107625016108,
+      "loss": 0.6977,
+      "step": 83
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005660369343355862,
+      "loss": 0.757,
+      "step": 84
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0005639442656512426,
+      "loss": 0.8295,
+      "step": 85
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005618298097748316,
+      "loss": 0.7394,
+      "step": 86
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005596937595046872,
+      "loss": 0.7728,
+      "step": 87
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005575363096081429,
+      "loss": 0.7721,
+      "step": 88
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0005553576568037731,
+      "loss": 0.7191,
+      "step": 89
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005531579997434555,
+      "loss": 0.7594,
+      "step": 90
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005509375389942588,
+      "loss": 0.7511,
+      "step": 91
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0005486964770201533,
+      "loss": 0.7644,
+      "step": 92
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005464350181635519,
+      "loss": 0.7403,
+      "step": 93
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.000544153368626676,
+      "loss": 0.7204,
+      "step": 94
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0005418517364527552,
+      "loss": 0.7358,
+      "step": 95
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005395303315070571,
+      "loss": 0.7607,
+      "step": 96
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005371893654577517,
+      "loss": 0.7505,
+      "step": 97
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005348290517566107,
+      "loss": 0.7274,
+      "step": 98
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0005324496056195461,
+      "loss": 0.8161,
+      "step": 99
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005300512440069852,
+      "loss": 0.7043,
+      "step": 100
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005276341856040884,
+      "loss": 0.7921,
+      "step": 101
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0005251986508008097,
+      "loss": 0.6852,
+      "step": 102
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005227448616718004,
+      "loss": 0.6996,
+      "step": 103
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005202730419561611,
+      "loss": 0.6323,
+      "step": 104
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0005177834170370404,
+      "loss": 0.7601,
+      "step": 105
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005152762139210839,
+      "loss": 0.7499,
+      "step": 106
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005127516612177365,
+      "loss": 0.73,
+      "step": 107
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005102099891183958,
+      "loss": 0.7438,
+      "step": 108
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0005076514293754255,
+      "loss": 0.6614,
+      "step": 109
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005050762152810218,
+      "loss": 0.7599,
+      "step": 110
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0005024845816459423,
+      "loss": 0.7471,
+      "step": 111
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0004998767647780961,
+      "loss": 0.7569,
+      "step": 112
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004972530024609966,
+      "loss": 0.6561,
+      "step": 113
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004946135339320798,
+      "loss": 0.7369,
+      "step": 114
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0004919585998608917,
+      "loss": 0.755,
+      "step": 115
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004892884423271417,
+      "loss": 0.7307,
+      "step": 116
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004866033047986317,
+      "loss": 0.7321,
+      "step": 117
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00048390343210905486,
+      "loss": 0.772,
+      "step": 118
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0004811890704356722,
+      "loss": 0.6707,
+      "step": 119
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004784604672768657,
+      "loss": 0.695,
+      "step": 120
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004757178714295709,
+      "loss": 0.6372,
+      "step": 121
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0004729615329665918,
+      "loss": 0.7303,
+      "step": 122
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004701917032137987,
+      "loss": 0.7313,
+      "step": 123
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00046740863472721176,
+      "loss": 0.6939,
+      "step": 124
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004646125812699734,
+      "loss": 0.711,
+      "step": 125
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0004618037977892089,
+      "loss": 0.7238,
+      "step": 126
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00045898254039278106,
+      "loss": 0.7508,
+      "step": 127
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0004561490663259375,
+      "loss": 0.7817,
+      "step": 128
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00045330363394785467,
+      "loss": 0.7149,
+      "step": 129
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0004504465027080806,
+      "loss": 0.7987,
+      "step": 130
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00044757793312287807,
+      "loss": 0.7047,
+      "step": 131
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00044469818675147024,
+      "loss": 0.7322,
+      "step": 132
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004418075261721916,
+      "loss": 0.71,
+      "step": 133
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004389062149585456,
+      "loss": 0.7306,
+      "step": 134
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0004359945176551721,
+      "loss": 0.6989,
+      "step": 135
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00043307269975372513,
+      "loss": 0.6898,
+      "step": 136
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0004301410276686663,
+      "loss": 0.7431,
+      "step": 137
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00042719976871297155,
+      "loss": 0.7236,
+      "step": 138
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0004242491910737582,
+      "loss": 0.7704,
+      "step": 139
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0004212895637878311,
+      "loss": 0.7125,
+      "step": 140
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00041832115671715107,
+      "loss": 0.7869,
+      "step": 141
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00041534424052422966,
+      "loss": 0.714,
+      "step": 142
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00041235908664744866,
+      "loss": 0.6927,
+      "step": 143
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00040936596727631104,
+      "loss": 0.7168,
+      "step": 144
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0004063651553266216,
+      "loss": 0.7199,
+      "step": 145
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00040335692441560304,
+      "loss": 0.7084,
+      "step": 146
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00040034154883694667,
+      "loss": 0.728,
+      "step": 147
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00039731930353580216,
+      "loss": 0.7368,
+      "step": 148
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0003942904640837078,
+      "loss": 0.7298,
+      "step": 149
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00039125530665346355,
+      "loss": 0.73,
+      "step": 150
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00038821410799394935,
+      "loss": 0.6635,
+      "step": 151
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0003851671454048909,
+      "loss": 0.7228,
+      "step": 152
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00038211469671157496,
+      "loss": 0.7276,
+      "step": 153
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00037905704023951726,
+      "loss": 0.7386,
+      "step": 154
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0003759944547890843,
+      "loss": 0.7577,
+      "step": 155
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0003729272196100721,
+      "loss": 0.6462,
+      "step": 156
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0003698556143762437,
+      "loss": 0.7328,
+      "step": 157
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0003667799191598287,
+      "loss": 0.7096,
+      "step": 158
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00036370041440598517,
+      "loss": 0.6856,
+      "step": 159
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0003606173809072294,
+      "loss": 0.7114,
+      "step": 160
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.000357531099777832,
+      "loss": 0.694,
+      "step": 161
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00035444185242818624,
+      "loss": 0.7436,
+      "step": 162
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0003513499205391482,
+      "loss": 0.727,
+      "step": 163
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00034825558603635346,
+      "loss": 0.6991,
+      "step": 164
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0003451591310645103,
+      "loss": 0.6891,
+      "step": 165
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0003420608379616738,
+      "loss": 0.6636,
+      "step": 166
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0003389609892335013,
+      "loss": 0.6759,
+      "step": 167
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0003358598675274942,
+      "loss": 0.7353,
+      "step": 168
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00033275775560722527,
+      "loss": 0.6926,
+      "step": 169
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003296549363265559,
+      "loss": 0.7334,
+      "step": 170
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003265516926038455,
+      "loss": 0.6609,
+      "step": 171
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003234483073961544,
+      "loss": 0.6996,
+      "step": 172
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0003203450636734441,
+      "loss": 0.6515,
+      "step": 173
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00031724224439277476,
+      "loss": 0.7299,
+      "step": 174
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00031414013247250586,
+      "loss": 0.7283,
+      "step": 175
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0003110390107664987,
+      "loss": 0.6697,
+      "step": 176
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00030793916203832625,
+      "loss": 0.6834,
+      "step": 177
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00030484086893548966,
+      "loss": 0.7315,
+      "step": 178
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0003017444139636465,
+      "loss": 0.721,
+      "step": 179
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002986500794608518,
+      "loss": 0.6572,
+      "step": 180
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002955581475718138,
+      "loss": 0.7086,
+      "step": 181
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.000292468900222168,
+      "loss": 0.7413,
+      "step": 182
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002893826190927707,
+      "loss": 0.7398,
+      "step": 183
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002862995855940148,
+      "loss": 0.6878,
+      "step": 184
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00028322008084017135,
+      "loss": 0.7316,
+      "step": 185
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002801443856237563,
+      "loss": 0.7612,
+      "step": 186
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.000277072780389928,
+      "loss": 0.7012,
+      "step": 187
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002740055452109156,
+      "loss": 0.7154,
+      "step": 188
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002709429597604827,
+      "loss": 0.707,
+      "step": 189
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002678853032884251,
+      "loss": 0.6693,
+      "step": 190
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002648328545951092,
+      "loss": 0.7198,
+      "step": 191
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002617858920060506,
+      "loss": 0.6859,
+      "step": 192
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002587446933465364,
+      "loss": 0.7213,
+      "step": 193
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00025570953591629226,
+      "loss": 0.7649,
+      "step": 194
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002526806964641978,
+      "loss": 0.6622,
+      "step": 195
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002496584511630533,
+      "loss": 0.6788,
+      "step": 196
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.000246643075584397,
+      "loss": 0.7441,
+      "step": 197
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00024363484467337842,
+      "loss": 0.6831,
+      "step": 198
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002406340327236891,
+      "loss": 0.721,
+      "step": 199
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00023764091335255131,
+      "loss": 0.6427,
+      "step": 200
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00023465575947577034,
+      "loss": 0.6415,
+      "step": 201
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002316788432828489,
+      "loss": 0.6217,
+      "step": 202
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00022871043621216898,
+      "loss": 0.7135,
+      "step": 203
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002257508089262417,
+      "loss": 0.6396,
+      "step": 204
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002228002312870284,
+      "loss": 0.6426,
+      "step": 205
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002198589723313337,
+      "loss": 0.7122,
+      "step": 206
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00021692730024627484,
+      "loss": 0.6733,
+      "step": 207
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.000214005482344828,
+      "loss": 0.6623,
+      "step": 208
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00021109378504145427,
+      "loss": 0.6955,
+      "step": 209
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00020819247382780837,
+      "loss": 0.7119,
+      "step": 210
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0002053018132485298,
+      "loss": 0.7348,
+      "step": 211
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00020242206687712196,
+      "loss": 0.6481,
+      "step": 212
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019955349729191941,
+      "loss": 0.7042,
+      "step": 213
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00019669636605214536,
+      "loss": 0.6279,
+      "step": 214
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00019385093367406254,
+      "loss": 0.7328,
+      "step": 215
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00019101745960721896,
+      "loss": 0.6726,
+      "step": 216
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00018819620221079117,
+      "loss": 0.6294,
+      "step": 217
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00018538741873002672,
+      "loss": 0.7579,
+      "step": 218
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001825913652727883,
+      "loss": 0.6927,
+      "step": 219
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001798082967862013,
+      "loss": 0.7399,
+      "step": 220
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017703846703340817,
+      "loss": 0.7435,
+      "step": 221
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.000174282128570429,
+      "loss": 0.6239,
+      "step": 222
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001715395327231343,
+      "loss": 0.6879,
+      "step": 223
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016881092956432775,
+      "loss": 0.6886,
+      "step": 224
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016609656789094506,
+      "loss": 0.7171,
+      "step": 225
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016339669520136827,
+      "loss": 0.673,
+      "step": 226
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016071155767285826,
+      "loss": 0.6988,
+      "step": 227
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001580414001391084,
+      "loss": 0.7076,
+      "step": 228
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00015538646606792005,
+      "loss": 0.7,
+      "step": 229
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00015274699753900343,
+      "loss": 0.7011,
+      "step": 230
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015012323522190388,
+      "loss": 0.68,
+      "step": 231
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00014751541835405772,
+      "loss": 0.6937,
+      "step": 232
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00014492378471897817,
+      "loss": 0.6418,
+      "step": 233
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001423485706245744,
+      "loss": 0.7231,
+      "step": 234
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00013979001088160417,
+      "loss": 0.6351,
+      "step": 235
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001372483387822637,
+      "loss": 0.7035,
+      "step": 236
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00013472378607891597,
+      "loss": 0.6478,
+      "step": 237
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00013221658296295956,
+      "loss": 0.7228,
+      "step": 238
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00012972695804383885,
+      "loss": 0.7148,
+      "step": 239
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00012725513832819964,
+      "loss": 0.7167,
+      "step": 240
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00012480134919919038,
+      "loss": 0.7208,
+      "step": 241
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00012236581439591161,
+      "loss": 0.6406,
+      "step": 242
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00011994875599301488,
+      "loss": 0.6974,
+      "step": 243
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00011755039438045392,
+      "loss": 0.6357,
+      "step": 244
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001151709482433892,
+      "loss": 0.7179,
+      "step": 245
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00011281063454224838,
+      "loss": 0.7553,
+      "step": 246
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00011046966849294289,
+      "loss": 0.7019,
+      "step": 247
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00010814826354724483,
+      "loss": 0.6608,
+      "step": 248
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00010584663137332396,
+      "loss": 0.6674,
+      "step": 249
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00010356498183644816,
+      "loss": 0.7079,
+      "step": 250
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00010130352297984669,
+      "loss": 0.6843,
+      "step": 251
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.906246100574125e-05,
+      "loss": 0.6661,
+      "step": 252
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.684200025654447e-05,
+      "loss": 0.7155,
+      "step": 253
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 9.4642343196227e-05,
+      "loss": 0.6449,
+      "step": 254
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 9.246369039185703e-05,
+      "loss": 0.6856,
+      "step": 255
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 9.030624049531278e-05,
+      "loss": 0.7033,
+      "step": 256
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.817019022516829e-05,
+      "loss": 0.629,
+      "step": 257
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 8.605573434875741e-05,
+      "loss": 0.7189,
+      "step": 258
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 8.396306566441378e-05,
+      "loss": 0.6984,
+      "step": 259
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 8.189237498389201e-05,
+      "loss": 0.6973,
+      "step": 260
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.984385111496869e-05,
+      "loss": 0.682,
+      "step": 261
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.781768084422741e-05,
+      "loss": 0.6976,
+      "step": 262
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.581404892002655e-05,
+      "loss": 0.656,
+      "step": 263
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 7.383313803565418e-05,
+      "loss": 0.6696,
+      "step": 264
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 7.187512881266974e-05,
+      "loss": 0.687,
+      "step": 265
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.994019978443517e-05,
+      "loss": 0.6505,
+      "step": 266
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.802852737983543e-05,
+      "loss": 0.6628,
+      "step": 267
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.614028590719186e-05,
+      "loss": 0.6724,
+      "step": 268
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.427564753836846e-05,
+      "loss": 0.6737,
+      "step": 269
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.243478229307349e-05,
+      "loss": 0.6688,
+      "step": 270
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 6.061785802335616e-05,
+      "loss": 0.69,
+      "step": 271
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.8825040398302217e-05,
+      "loss": 0.713,
+      "step": 272
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.705649288892797e-05,
+      "loss": 0.7063,
+      "step": 273
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.531237675327462e-05,
+      "loss": 0.6675,
+      "step": 274
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 5.35928510217051e-05,
+      "loss": 0.6759,
+      "step": 275
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 5.189807248240284e-05,
+      "loss": 0.7002,
+      "step": 276
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 5.0228195667076076e-05,
+      "loss": 0.6508,
+      "step": 277
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.858337283686736e-05,
+      "loss": 0.6123,
+      "step": 278
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.696375396847039e-05,
+      "loss": 0.6391,
+      "step": 279
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.536948674045477e-05,
+      "loss": 0.7003,
+      "step": 280
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.380071651980048e-05,
+      "loss": 0.6792,
+      "step": 281
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.2257586348643344e-05,
+      "loss": 0.6191,
+      "step": 282
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.074023693123235e-05,
+      "loss": 0.7055,
+      "step": 283
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.924880662109986e-05,
+      "loss": 0.6713,
+      "step": 284
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.778343140844634e-05,
+      "loss": 0.6718,
+      "step": 285
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.634424490774111e-05,
+      "loss": 0.6732,
+      "step": 286
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.4931378345538636e-05,
+      "loss": 0.6792,
+      "step": 287
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.354496054851349e-05,
+      "loss": 0.6245,
+      "step": 288
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.218511793171381e-05,
+      "loss": 0.7335,
+      "step": 289
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.0851974487034374e-05,
+      "loss": 0.6994,
+      "step": 290
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.9545651771911387e-05,
+      "loss": 0.6036,
+      "step": 291
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.8266268898238098e-05,
+      "loss": 0.6887,
+      "step": 292
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.70139425215046e-05,
+      "loss": 0.6458,
+      "step": 293
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.578878683016061e-05,
+      "loss": 0.662,
+      "step": 294
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.4590913535204267e-05,
+      "loss": 0.6584,
+      "step": 295
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.3420431859995406e-05,
+      "loss": 0.6985,
+      "step": 296
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.227744853029714e-05,
+      "loss": 0.6331,
+      "step": 297
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 2.1162067764543974e-05,
+      "loss": 0.6036,
+      "step": 298
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 2.007439126433962e-05,
+      "loss": 0.6444,
+      "step": 299
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.9014518205183142e-05,
+      "loss": 0.7185,
+      "step": 300
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 336,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "total_flos": 3.800476775719895e+17,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-300/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a720d2daf4afe192195297ee83d1a8834602d7e8eda493eaba5ee762dd57a90
+size 4664

checkpoint-50/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: unsloth/llama-2-7b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.7.1

checkpoint-50/adapter_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/llama-2-7b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": "unsloth",
+  "target_modules": [
+    "up_proj",
+    "k_proj",
+    "v_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-50/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29f6075899ff428d745025d721d5150fc5b677ae119c479974ab1b9312db3bd6
+size 1279323952

checkpoint-50/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c6c5c285e853e5988709fbeb6db6f8d8e6db8b9c52e9f310135086a0b87768c
+size 641407572

checkpoint-50/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe2e145b09b2faab2c45440a9233e2700f8dca5428319c1eb306332f174e4af7
+size 14244

checkpoint-50/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90aed7a0fe2e312a9d0bcd1d5272104980cb392470311479e119f6325d970464
+size 1064

checkpoint-50/trainer_state.json ADDED Viewed

	@@ -0,0 +1,321 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.148720999405116,
+  "eval_steps": 500,
+  "global_step": 50,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.285714285714285e-05,
+      "loss": 2.4427,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0001857142857142857,
+      "loss": 2.3973,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00027857142857142854,
+      "loss": 2.341,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0003714285714285714,
+      "loss": 2.1281,
+      "step": 4
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004642857142857143,
+      "loss": 1.4346,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0005571428571428571,
+      "loss": 1.1715,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00065,
+      "loss": 1.086,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0006499851830773117,
+      "loss": 0.9921,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00064994073366027,
+      "loss": 0.9231,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006498666558018197,
+      "loss": 0.9343,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006497629562564588,
+      "loss": 0.9191,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006496296444796219,
+      "loss": 0.8791,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006494667326268186,
+      "loss": 0.8632,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006492742355525248,
+      "loss": 0.9267,
+      "step": 14
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0006490521708088281,
+      "loss": 0.8644,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.000648800558643828,
+      "loss": 0.8353,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006485194219997891,
+      "loss": 0.8482,
+      "step": 17
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0006482087865110493,
+      "loss": 0.8587,
+      "step": 18
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006478686805016826,
+      "loss": 0.9134,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006474991349829163,
+      "loss": 0.8238,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0006471001836503035,
+      "loss": 0.8329,
+      "step": 21
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006466718628806508,
+      "loss": 0.7995,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006462142117287011,
+      "loss": 0.8363,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006457272719235728,
+      "loss": 0.7942,
+      "step": 24
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0006452110878649547,
+      "loss": 0.858,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006446657066190579,
+      "loss": 0.8474,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000644091177914324,
+      "loss": 0.8175,
+      "step": 27
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0006434875541368907,
+      "loss": 0.7821,
+      "step": 28
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006428548903258156,
+      "loss": 0.8583,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006421932441680574,
+      "loss": 0.8071,
+      "step": 30
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006415026759932158,
+      "loss": 0.805,
+      "step": 31
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006407832487680309,
+      "loss": 0.881,
+      "step": 32
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006400350280906415,
+      "loss": 0.8302,
+      "step": 33
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006392580821846041,
+      "loss": 0.8456,
+      "step": 34
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0006384524818926723,
+      "loss": 0.8067,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006376183006703367,
+      "loss": 0.8307,
+      "step": 36
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006367556145791275,
+      "loss": 0.8347,
+      "step": 37
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0006358645022796795,
+      "loss": 0.8086,
+      "step": 38
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006349450450245589,
+      "loss": 0.8726,
+      "step": 39
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006339973266508556,
+      "loss": 0.78,
+      "step": 40
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006330214335725379,
+      "loss": 0.7902,
+      "step": 41
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0006320174547725736,
+      "loss": 0.7823,
+      "step": 42
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006309854817948169,
+      "loss": 0.8211,
+      "step": 43
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0006299256087356603,
+      "loss": 0.8656,
+      "step": 44
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.000628837932235456,
+      "loss": 0.7767,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006277225514697028,
+      "loss": 0.7542,
+      "step": 46
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006265795681400046,
+      "loss": 0.8254,
+      "step": 47
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0006254090864647957,
+      "loss": 0.8099,
+      "step": 48
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006242112131698394,
+      "loss": 0.7786,
+      "step": 49
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0006229860574784954,
+      "loss": 0.7895,
+      "step": 50
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 336,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "total_flos": 6.338982512767795e+16,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-50/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a720d2daf4afe192195297ee83d1a8834602d7e8eda493eaba5ee762dd57a90
+size 4664