Quantization made by Richard Erkhov.

Qwen2-7B-SFT-Step-DPO - GGUF

Model creator: https://huggingface.co/xinlai/
Original model: https://huggingface.co/xinlai/Qwen2-7B-SFT-Step-DPO/

Name	Quant method	Size
Qwen2-7B-SFT-Step-DPO.Q2_K.gguf	Q2_K	2.81GB
Qwen2-7B-SFT-Step-DPO.IQ3_XS.gguf	IQ3_XS	3.12GB
Qwen2-7B-SFT-Step-DPO.IQ3_S.gguf	IQ3_S	3.26GB
Qwen2-7B-SFT-Step-DPO.Q3_K_S.gguf	Q3_K_S	3.25GB
Qwen2-7B-SFT-Step-DPO.IQ3_M.gguf	IQ3_M	3.33GB
Qwen2-7B-SFT-Step-DPO.Q3_K.gguf	Q3_K	3.55GB
Qwen2-7B-SFT-Step-DPO.Q3_K_M.gguf	Q3_K_M	3.55GB
Qwen2-7B-SFT-Step-DPO.Q3_K_L.gguf	Q3_K_L	3.81GB
Qwen2-7B-SFT-Step-DPO.IQ4_XS.gguf	IQ4_XS	3.96GB
Qwen2-7B-SFT-Step-DPO.Q4_0.gguf	Q4_0	4.13GB
Qwen2-7B-SFT-Step-DPO.IQ4_NL.gguf	IQ4_NL	4.16GB
Qwen2-7B-SFT-Step-DPO.Q4_K_S.gguf	Q4_K_S	4.15GB
Qwen2-7B-SFT-Step-DPO.Q4_K.gguf	Q4_K	4.36GB
Qwen2-7B-SFT-Step-DPO.Q4_K_M.gguf	Q4_K_M	4.36GB
Qwen2-7B-SFT-Step-DPO.Q4_1.gguf	Q4_1	4.54GB
Qwen2-7B-SFT-Step-DPO.Q5_0.gguf	Q5_0	4.95GB
Qwen2-7B-SFT-Step-DPO.Q5_K_S.gguf	Q5_K_S	4.95GB
Qwen2-7B-SFT-Step-DPO.Q5_K.gguf	Q5_K	5.07GB
Qwen2-7B-SFT-Step-DPO.Q5_K_M.gguf	Q5_K_M	5.07GB
Qwen2-7B-SFT-Step-DPO.Q5_1.gguf	Q5_1	5.36GB
Qwen2-7B-SFT-Step-DPO.Q6_K.gguf	Q6_K	5.82GB
Qwen2-7B-SFT-Step-DPO.Q8_0.gguf	Q8_0	7.54GB

Original model description:

license: apache-2.0

Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

🖥️Code | 🤗Data | 📄Paper

This repo contains the Qwen2-7B-SFT-Step-DPO model. It is obtained by performing Step-DPO on Qwen2-7B-SFT.

Step-DPO is a simple, effective, and data-efficient method for boosting the mathematical reasoning ability of LLMs. Notably, Step-DPO, when applied to Qwen2-72B-Instruct, achieves scores of 70.8% and 94.0% on the test sets of MATH and GSM8K without bells and wistles, respectively, surpassing a series of closed-source models, including GPT-4-1106, Claude-3-Opus, and Gemini-1.5-Pro.

Contact

Please submit an issue here or send me an email here.