Spaces:

yusufs
/

vllm-inference

Paused

yusufs commited on Nov 29, 2024

Commit

0345d26

1 Parent(s): 38d356a

feat(quantization): T4 not support bfloat16

Files changed (2) hide show

run-llama.sh CHANGED Viewed

@@ -25,7 +25,6 @@ python -u /app/openai_compatible_api_server.py \
     --port 7860 \
     --max-num-batched-tokens 32768 \
     --max-model-len 32768 \
-    --dtype bfloat16 \
-    --kv-cache-dtype fp8 \
     --enforce-eager \
     --gpu-memory-utilization 0.85

     --port 7860 \
     --max-num-batched-tokens 32768 \
     --max-model-len 32768 \
+    --dtype float16 \
     --enforce-eager \
     --gpu-memory-utilization 0.85

run-sailor.sh CHANGED Viewed

@@ -25,7 +25,6 @@ python -u /app/openai_compatible_api_server.py \
     --port 7860 \
     --max-num-batched-tokens 32768 \
     --max-model-len 32768 \
-    --dtype bfloat16 \
-    --kv-cache-dtype fp8 \
     --enforce-eager \
     --gpu-memory-utilization 0.9

     --port 7860 \
     --max-num-batched-tokens 32768 \
     --max-model-len 32768 \
+    --dtype float16 \
     --enforce-eager \
     --gpu-memory-utilization 0.9