Spaces:

CamiloVega
/

NewsIA

Sleeping

CamiloVega commited on Nov 3, 2024

Commit

29cdba6

verified ·

1 Parent(s): efa868e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -56,12 +56,12 @@ class ModelManager:
             logger.info("Starting model initialization...")
             model_name = "meta-llama/Llama-2-7b-chat-hf"
-            # Configure 4-bit quantization
             bnb_config = BitsAndBytesConfig(
-                load_in_4bit=True,
-                bnb_4bit_use_double_quant=True,
-                bnb_4bit_quant_type="nf4",
-                bnb_4bit_compute_dtype=torch.bfloat16
             )
             # Load tokenizer with optimized settings
@@ -82,9 +82,6 @@ class ModelManager:
                 device_map="auto",
                 torch_dtype=torch.float16,
                 quantization_config=bnb_config,
-                use_flash_attention_2=True,
-                use_cache=True,
-                attn_implementation="flash_attention_2",
                 low_cpu_mem_usage=True,
             )

             logger.info("Starting model initialization...")
             model_name = "meta-llama/Llama-2-7b-chat-hf"
+            # Configure 8-bit quantization instead of 4-bit
             bnb_config = BitsAndBytesConfig(
+                load_in_8bit=True,
+                bnb_8bit_use_double_quant=True,
+                bnb_8bit_quant_type="nf8",
+                bnb_8bit_compute_dtype=torch.float16
             )
             # Load tokenizer with optimized settings
                 device_map="auto",
                 torch_dtype=torch.float16,
                 quantization_config=bnb_config,
                 low_cpu_mem_usage=True,
             )