IlyaGusev
/

saiga_llama3_8b

@@ -15,6 +15,8 @@ Based on [Llama-3 8B Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B
 Llama.cpp version: [link](https://huggingface.co/IlyaGusev/saiga_llama3_8b_gguf)
 **ОСТОРОЖНО! WARNING! LET OP!**
 I've changed the prompt format from ChatML to **the original Llama-3 format in v4**. Don't forget to switch formats!
@@ -47,7 +49,52 @@ I've changed the prompt format from ChatML to **the original Llama-3 format in v
 <|im_start|>assistant
 ```
-Examples:
 ```
 User: Почему трава зеленая?
 Saiga: Зеленый цвет травы обусловлен наличием хлорофилла, пигмента, который поглощает свет и передает энергию для фотосинтеза. Хлорофилл содержится в клетках листьев растений и играет ключевую роль в процессе фотосинтеза, когда растения используют солнечный свет для превращения воды и углекислого газа в органические вещества, такие как глюкоза и олигоэфиры.
@@ -65,6 +112,8 @@ Saiga: Однажды в солнечную погоду на поле для и
 Мяч летел высоко вверх, и друзья смотрели, как он пролетает над полем. Но мяч неожиданно повернул и стал лететь обратно к Тане. Она успела поймать его и продолжила играть, используя все свои навыки и умения.
 ```
 v5:
 - [d947b00c56683cd4b2f7ce707edef89318027be4](https://huggingface.co/IlyaGusev/saiga_llama3_8b/commit/d947b00c56683cd4b2f7ce707edef89318027be4)
 - KTO-tune over v4, dataset: [lmsys_clean_ru_preferences](https://huggingface.co/datasets/IlyaGusev/lmsys_clean_ru_preferences)
@@ -88,7 +137,7 @@ v2:
 - Datasets merging script: [create_short_chat_set.py](https://github.com/IlyaGusev/rulm/blob/d0d123dd221e10bb2a3383bcb1c6e4efe1b4a28a/self_instruct/src/data_processing/create_short_chat_set.py)
-# Evaluation
 * Dataset: https://github.com/IlyaGusev/rulm/blob/master/self_instruct/data/tasks.jsonl
 * Framework: https://github.com/tatsu-lab/alpaca_eval

 Llama.cpp version: [link](https://huggingface.co/IlyaGusev/saiga_llama3_8b_gguf)
+## Prompt format
 **ОСТОРОЖНО! WARNING! LET OP!**
 I've changed the prompt format from ChatML to **the original Llama-3 format in v4**. Don't forget to switch formats!
 <|im_start|>assistant
 ```
+## Code example
+```python
+# Исключительно ознакомительный пример.
+# НЕ НАДО ТАК ИНФЕРИТЬ МОДЕЛЬ В ПРОДЕ.
+# См. https://github.com/vllm-project/vllm или https://github.com/huggingface/text-generation-inference
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
+MODEL_NAME = "IlyaGusev/saiga_llama3_8b"
+DEFAULT_SYSTEM_PROMPT = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_NAME,
+    load_in_8bit=True,
+    torch_dtype=torch.bfloat16,
+    device_map="auto"
+)
+model.eval()
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+generation_config = GenerationConfig.from_pretrained(MODEL_NAME)
+print(generation_config)
+inputs = ["Почему трава зеленая?", "Сочини длинный рассказ, обязательно упоминая следующие объекты. Дано: Таня, мяч"]
+for query in inputs:
+    prompt = tokenizer.apply_chat_template([{
+        "role": "system",
+        "content": DEFAULT_SYSTEM_PROMPT
+    }, {
+        "role": "user",
+        "content": query
+    }]
+    data = tokenizer(prompt, return_tensors="pt")
+    data = {k: v.to(model.device) for k, v in data.items()}
+    output_ids = model.generate(**data, generation_config=generation_config)[0]
+    output_ids = output_ids[len(data["input_ids"][0]):]
+    output = tokenizer.decode(output_ids, skip_special_tokens=True).strip()
+    print(inp)
+    print(output)
+    print()
+    print("==============================")
+    print()
+```
+## Output examples
 ```
 User: Почему трава зеленая?
 Saiga: Зеленый цвет травы обусловлен наличием хлорофилла, пигмента, который поглощает свет и передает энергию для фотосинтеза. Хлорофилл содержится в клетках листьев растений и играет ключевую роль в процессе фотосинтеза, когда растения используют солнечный свет для превращения воды и углекислого газа в органические вещества, такие как глюкоза и олигоэфиры.
 Мяч летел высоко вверх, и друзья смотрели, как он пролетает над полем. Но мяч неожиданно повернул и стал лететь обратно к Тане. Она успела поймать его и продолжила играть, используя все свои навыки и умения.
 ```
+## Versions
 v5:
 - [d947b00c56683cd4b2f7ce707edef89318027be4](https://huggingface.co/IlyaGusev/saiga_llama3_8b/commit/d947b00c56683cd4b2f7ce707edef89318027be4)
 - KTO-tune over v4, dataset: [lmsys_clean_ru_preferences](https://huggingface.co/datasets/IlyaGusev/lmsys_clean_ru_preferences)
 - Datasets merging script: [create_short_chat_set.py](https://github.com/IlyaGusev/rulm/blob/d0d123dd221e10bb2a3383bcb1c6e4efe1b4a28a/self_instruct/src/data_processing/create_short_chat_set.py)
+## Evaluation
 * Dataset: https://github.com/IlyaGusev/rulm/blob/master/self_instruct/data/tasks.jsonl
 * Framework: https://github.com/tatsu-lab/alpaca_eval