Smart_LLM

Running on Zero

vilarin commited on Dec 10, 2024

Commit

781f439

verified ·

1 Parent(s): 85dc104

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import os
 import time
 import spaces
 import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, BitsAndBytesConfig
 import gradio as gr
 from threading import Thread
@@ -32,19 +32,12 @@ h3 {
 device = "cuda" # for GPU usage or "cpu" for CPU usage
-quantization_config = BitsAndBytesConfig(
-    load_in_4bit=True,
-    bnb_4bit_compute_dtype=torch.bfloat16,
-    bnb_4bit_use_double_quant=True,
-    bnb_4bit_quant_type= "nf4")
 tokenizer = AutoTokenizer.from_pretrained(MODEL)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL,
     torch_dtype=torch.bfloat16,
     device_map="auto",
-    trust_remote_code=True,
-    quantization_config=quantization_config)
 @spaces.GPU()
 def stream_chat(
@@ -83,7 +76,6 @@ def stream_chat(
         top_k = top_k,
         temperature = temperature,
         repetition_penalty=penalty,
-        eos_token_id=tokenizer.eos_token_id,
         streamer=streamer,
     )

 import time
 import spaces
 import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import gradio as gr
 from threading import Thread
 device = "cuda" # for GPU usage or "cpu" for CPU usage
 tokenizer = AutoTokenizer.from_pretrained(MODEL)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL,
     torch_dtype=torch.bfloat16,
     device_map="auto",
+    trust_remote_code=True)
 @spaces.GPU()
 def stream_chat(
         top_k = top_k,
         temperature = temperature,
         repetition_penalty=penalty,
         streamer=streamer,
     )