---
license: apache-2.0
datasets:
- pomelk1n/RuadaptQwen-Quantization-Dataset
language:
- ru
base_model:
- msu-rcc-lair/RuadaptQwen2.5-32B-instruct
pipeline_tag: text-generation
tags:
- AWQ
- GEMM
---

# RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GEMM

## Описание

Эта модель является квантизированной версией [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненной с использованием метода **Activation-aware Weight Quantization (AWQ)** и с помощью ядра **GEMM**.

## Конфигурация квантизации

```json
{
  "bits": 4,
  "group_size": 128,
  "modules_to_not_convert": null,
  "quant_method": "awq",
  "version": "gemm",
  "zero_point": true
}
```

Для квантизации использовался датасет, состоящий из 4096 семплов длиной 512 токенов.

## Как использовать

Для использования модели установите необходимые библиотеки: `autoawq transformers tokenizers`

Пример кода:
```python
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer, TextStreamer

quant_path = "pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GEMM"
model = AutoAWQForCausalLM.from_quantized(quant_path, fuse_layers=True)
tokenizer = AutoTokenizer.from_pretrained(quant_path, trust_remote_code=True)

streamer = TextStreamer(tokenizer)

prompt = """
Дай мотивацию на работу, как будто ты Арсен Маркарян: 
"""
messages = [
    {"role": "system", "content": "Ты Qwen, супер умный ассистент"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.model.device)

generation_output = model.generate(
    **model_inputs, 
    streamer=streamer,
    max_new_tokens=512,
    eos_token_id=[tokenizer.eos_token_id, tokenizer.eos_token_id]
)
```