Spaces:

Kr08
/

Llama

Sleeping

Kr08 commited on Sep 3, 2024

Commit

ce4b75d

verified ·

1 Parent(s): 498e38f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,10 +1,13 @@
 import spaces
 import torch
 import transformers
 import gradio as gr
-# from airllm import HuggingFaceModelLoader, AutoModelForCausalLM
 model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
 pipeline = transformers.pipeline(
@@ -12,6 +15,7 @@ pipeline = transformers.pipeline(
     model=model_id,
     model_kwargs={"torch_dtype": torch.bfloat16},
     device_map="auto",
 )
 @spaces.GPU
@@ -21,19 +25,6 @@ def generate_text(input_text):
     output = pipeline(prompt,
                       max_new_tokens=256,
                      )
-    # input_tokens = model.tokenizer(input_text,
-    #                                return_tensors="np",
-    #                                return_attention_mask=False,
-    #                                truncation=True,
-    #                                max_length=MAX_LENGTH,
-    #                                padding=False)
-    # output = model.generate(mx.array(input_tokens['input_ids']),
-    #                                    max_new_tokens=20,
-    #                                    use_cache=True,
-    #                                    return_dict_in_generate=True)
     return output

+import os
 import spaces
 import torch
 import transformers
 import gradio as gr
+from dotenv import load_dotenv
+load_dotenv()
+access_token = os.("HF_ACCESS_TOKEN")
 model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
 pipeline = transformers.pipeline(
     model=model_id,
     model_kwargs={"torch_dtype": torch.bfloat16},
     device_map="auto",
+    token=HF_ACCESS_TOKEN
 )
 @spaces.GPU
     output = pipeline(prompt,
                       max_new_tokens=256,
                      )
     return output