Spaces:

nroggendorff
/

dolphin

Paused

nroggendorff commited on Oct 26, 2024

Commit

482f6f1

verified ·

1 Parent(s): 699a605

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,8 +1,6 @@
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 import torch
-import spaces
-import torch
 torch.set_default_device("cuda")
@@ -18,7 +16,6 @@ model_id = "cognitivecomputations/dolphin-2.9.3-mistral-7B-32k"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb_config)
-@spaces.GPU(duration=120)
 def predict(input_text, history):
     chat = []
     for item in history:
@@ -26,12 +23,12 @@ def predict(input_text, history):
         if item[1] is not None:
             chat.append({"role": "assistant", "content": item[1]})
     chat.append({"role": "user", "content": input_text})
-    conv = tokenizer.apply_chat_template(chat, tokenize=False)
     inputs = tokenizer(conv, return_tensors="pt").to("cuda")
     outputs = model.generate(**inputs, max_new_tokens=512)
-    generated_text = tokenizer.batch_decode(outputs)[0]
     return generated_text.split("<|assistant|>")[-1]
 gr.ChatInterface(predict, theme="soft").launch()

 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 import torch
 torch.set_default_device("cuda")
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb_config)
 def predict(input_text, history):
     chat = []
     for item in history:
         if item[1] is not None:
             chat.append({"role": "assistant", "content": item[1]})
     chat.append({"role": "user", "content": input_text})
+    conv = tokenizer.apply_chat_template(chat, tokenize=False)
     inputs = tokenizer(conv, return_tensors="pt").to("cuda")
     outputs = model.generate(**inputs, max_new_tokens=512)
+    generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]
     return generated_text.split("<|assistant|>")[-1]
 gr.ChatInterface(predict, theme="soft").launch()