--- license: apache-2.0 datasets: - pomelk1n/RuadaptQwen-Quantization-Dataset language: - ru base_model: - msu-rcc-lair/RuadaptQwen2.5-32B-instruct pipeline_tag: text-generation tags: - AWQ - GGUF - GEMM --- # RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF ## Описание Эта модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием **Activation-aware Weight Quantization (AWQ)** с 6-битной точностью, а затем экспортированную в формат **GGUF**. ## Конфигурация квантизации ```json { "zero_point": true, "q_group_size": 128, "w_bit": 6, "version": "GEMM" } ``` ## Шаги для экспорта в GGUF: 1. AWQ квантизация: Вычисляются масштабы (scales) и применяются к модели. 2. Сохранение модели в формате FP16: Весовые параметры сохраняются без полной квантизации. 3. Преобразование в GGUF: Используется convert.py для преобразования весов из формата HuggingFace FP16 в GGUF FP16. 4. Квантизация GGUF: Применяется финальная квантизация в формате GGUF (например, 4-битная) для достижения реального сжатия.