Spaces:

bstraehle
/

sft

Running

bstraehle commited on Aug 3, 2024

Commit

3d77c48

verified ·

1 Parent(s): 87a35cb

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -26,11 +26,6 @@ def process(action, base_model_id, dataset, system_prompt, user_prompt, schema):
         result = prompt_model(fine_tuned_model_id, system_prompt, user_prompt, schema)
     return result
-# Preprocess the dataset
-def preprocess(examples):
-    model_inputs = tokenizer(examples["text"], text_target=examples["sql"], max_length=512, truncation=True)
-    return model_inputs
 def fine_tune_model(base_model_id, dataset):
 #    tokenizer = download_model(base_model_id)
 #    fine_tuned_model_id = upload_model(base_model_id, tokenizer)
@@ -42,6 +37,11 @@ def fine_tune_model(base_model_id, dataset):
     model_name = "meta-llama/Meta-Llama-3.1-8B-Instruct"
     model = AutoModelForCausalLM.from_pretrained(model_name)
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     dataset = dataset.map(preprocess, batched=True)

         result = prompt_model(fine_tuned_model_id, system_prompt, user_prompt, schema)
     return result
 def fine_tune_model(base_model_id, dataset):
 #    tokenizer = download_model(base_model_id)
 #    fine_tuned_model_id = upload_model(base_model_id, tokenizer)
     model_name = "meta-llama/Meta-Llama-3.1-8B-Instruct"
     model = AutoModelForCausalLM.from_pretrained(model_name)
     tokenizer = AutoTokenizer.from_pretrained(model_name)
+    # Preprocess the dataset
+    def preprocess(examples):
+        model_inputs = tokenizer(examples["text"], text_target=examples["sql"], max_length=512, truncation=True)
+        return model_inputs
     dataset = dataset.map(preprocess, batched=True)