fp8转bf16的脚本在A100上无法执行

#32
by duanyu - opened
This comment has been hidden
duanyu changed discussion title from convert.py里后两个参数怎么填? to fp8转bf16的脚本在A100上无法执行

转换过程也会用到fp8的算力?

DeepSeek org

n-experts 跟模型的专家数一样,对于 V3 模型是 256,model-parallel 是部署用的总卡数

n-experts 跟模型的专家数一样,对于 V3 模型是 256,model-parallel 是部署用的总卡数

这里为什么需要根据总卡数来转换权重呢?转换后的模型在权重和config上会不一样嘛 目前默认值是8卡?

This comment has been hidden

Sign up or log in to comment