neph1
/

Mistral-Nemo-Instruct-bellman-12b

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

neph1 commited on Oct 31, 2024

Commit

e74ee85

·

verified ·

1 Parent(s): c3ab79f

Update README.md

Files changed (1) hide show

README.md +21 -21

README.md CHANGED Viewed

@@ -42,27 +42,6 @@ The base model is pretty good at Swedish already, but my 'vibe check' says this
 Bellman is trained on fairly short answers and tends to be less verbose.
-### Training Parameters
-  per_device_train_batch_size = 2,<br>
-  gradient_accumulation_steps = 64,<br>
-  num_train_epochs=3,<br>
-  warmup_steps = 5,<br>
-  learning_rate = 1e-4,<br>
-  logging_steps = 15,<br>
-  optim = "adamw_8bit",<br>
-  weight_decay = 0.01,<br>
-  lr_scheduler_type = "linear",<br>
-  seed = 3407,<br>
-  per_device_eval_batch_size = 2,<br>
-  evaluation_strategy="steps",<br>
-  eval_accumulation_steps = 64,<br>
-  eval_steps = 15,<br>
-  eval_delay = 0,<br>
-  save_strategy="steps",<br>
-  save_steps=50,<br>
-### Model Description
 Output example (Mistral-Nemo-Instruct-bellman-12b.i1-Q4_K_M.gguf):
   User: Hej!
@@ -85,6 +64,27 @@ Output example (Mistral-Nemo-Instruct-bellman-12b.i1-Q4_K_M.gguf):
   Bellman: Gustav Vasa levde från år 1496 till 1560.
 - **Developed by:** Me
 - **Funded by:** Me

 Bellman is trained on fairly short answers and tends to be less verbose.
 Output example (Mistral-Nemo-Instruct-bellman-12b.i1-Q4_K_M.gguf):
   User: Hej!
   Bellman: Gustav Vasa levde från år 1496 till 1560.
+### Training Parameters
+  per_device_train_batch_size = 2,<br>
+  gradient_accumulation_steps = 64,<br>
+  num_train_epochs=3,<br>
+  warmup_steps = 5,<br>
+  learning_rate = 1e-4,<br>
+  logging_steps = 15,<br>
+  optim = "adamw_8bit",<br>
+  weight_decay = 0.01,<br>
+  lr_scheduler_type = "linear",<br>
+  seed = 3407,<br>
+  per_device_eval_batch_size = 2,<br>
+  evaluation_strategy="steps",<br>
+  eval_accumulation_steps = 64,<br>
+  eval_steps = 15,<br>
+  eval_delay = 0,<br>
+  save_strategy="steps",<br>
+  save_steps=50,<br>
+### Model Description
 - **Developed by:** Me
 - **Funded by:** Me