--- license: apache-2.0 datasets: - pomelk1n/RuadaptQwen-Quantization-Dataset language: - ru base_model: - msu-rcc-lair/RuadaptQwen2.5-32B-instruct pipeline_tag: text-generation tags: - AWQ - GEMM --- # RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GEMM ## Описание Эта модель является квантизированной версией [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненной с использованием метода **Activation-aware Weight Quantization (AWQ)** и с помощью ядра **GEMM**. ## Конфигурация квантизации ```json { "bits": 4, "group_size": 128, "modules_to_not_convert": null, "quant_method": "awq", "version": "gemm", "zero_point": true } ``` Для квантизации использовался датасет, состоящий из 4096 семплов длиной 512 токенов. ## Как использовать Для использования модели установите необходимые библиотеки: `autoawq transformers tokenizers` Пример кода: ```python from awq import AutoAWQForCausalLM from transformers import AutoTokenizer, TextStreamer quant_path = "pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GEMM" model = AutoAWQForCausalLM.from_quantized(quant_path, fuse_layers=True) tokenizer = AutoTokenizer.from_pretrained(quant_path, trust_remote_code=True) streamer = TextStreamer(tokenizer) prompt = """ Дай мотивацию на работу, как будто ты Арсен Маркарян: """ messages = [ {"role": "system", "content": "Ты Qwen, супер умный ассистент"}, {"role": "user", "content": prompt} ] text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) model_inputs = tokenizer([text], return_tensors="pt").to(model.model.device) generation_output = model.generate( **model_inputs, streamer=streamer, max_new_tokens=512, eos_token_id=[tokenizer.eos_token_id, tokenizer.eos_token_id] ) ```