Spaces:

bstraehle
/

sft

Running

App Files Files Community

bstraehle commited on Aug 3, 2024

Commit

0db656a

verified ·

1 Parent(s): 5eedbaa

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -34

app.py CHANGED Viewed

@@ -29,23 +29,23 @@ def process(action, base_model_name, ft_model_name, dataset_name, system_prompt,
 def fine_tune_model(base_model_name, dataset_name):
     # Load dataset
-    dataset = load_dataset(dataset_name)
-    print("### Dataset")
-    print(dataset)
-    print("### Example")
-    print(dataset["train"][:1])
-    print("###")
     # Load model
-    model, tokenizer = load_model(base_model_name)
-    print("### Model")
-    print(model)
-    print("### Tokenizer")
-    print(tokenizer)
-    print("###")
     # Pre-process dataset
@@ -53,26 +53,26 @@ def fine_tune_model(base_model_name, dataset_name):
         model_inputs = tokenizer(examples["sql_prompt"], text_target=examples["sql"], max_length=512, padding="max_length", truncation=True)
         return model_inputs
-    dataset = dataset.map(preprocess, batched=True)
-    print("### Pre-processed dataset")
-    print(dataset)
-    print("### Example")
-    print(dataset["train"][:1])
-    print("###")
     # Split dataset into training and validation sets
-    #train_dataset = dataset["train"]
-    #test_dataset = dataset["test"]
-    train_dataset = dataset["train"].shuffle(seed=42).select(range(1000))
-    test_dataset = dataset["test"].shuffle(seed=42).select(range(100))
-    print("### Training dataset")
-    print(train_dataset)
-    print("### Validation dataset")
-    print(test_dataset)
-    print("###")
     # Configure training arguments
@@ -102,13 +102,13 @@ def fine_tune_model(base_model_name, dataset_name):
     # Create trainer
-    trainer = Seq2SeqTrainer(
-        model=model,
-        args=training_args,
-        train_dataset=train_dataset,
-        eval_dataset=test_dataset,
-        #compute_metrics=lambda pred: {"accuracy": torch.sum(pred.label_ids == pred.predictions.argmax(-1))},
-    )
     # Train model

 def fine_tune_model(base_model_name, dataset_name):
     # Load dataset
+    #dataset = load_dataset(dataset_name)
+    #print("### Dataset")
+    #print(dataset)
+    #print("### Example")
+    #print(dataset["train"][:1])
+    #print("###")
     # Load model
+    #model, tokenizer = load_model(base_model_name)
+    #print("### Model")
+    #print(model)
+    #print("### Tokenizer")
+    #print(tokenizer)
+    #print("###")
     # Pre-process dataset
         model_inputs = tokenizer(examples["sql_prompt"], text_target=examples["sql"], max_length=512, padding="max_length", truncation=True)
         return model_inputs
+    #dataset = dataset.map(preprocess, batched=True)
+    #print("### Pre-processed dataset")
+    #print(dataset)
+    #print("### Example")
+    #print(dataset["train"][:1])
+    #print("###")
     # Split dataset into training and validation sets
+    ##train_dataset = dataset["train"]
+    ##test_dataset = dataset["test"]
+    #train_dataset = dataset["train"].shuffle(seed=42).select(range(1000))
+    #test_dataset = dataset["test"].shuffle(seed=42).select(range(100))
+    #print("### Training dataset")
+    #print(train_dataset)
+    #print("### Validation dataset")
+    #print(test_dataset)
+    #print("###")
     # Configure training arguments
     # Create trainer
+    #trainer = Seq2SeqTrainer(
+    #    model=model,
+    #    args=training_args,
+    #    train_dataset=train_dataset,
+    #    eval_dataset=test_dataset,
+    #    #compute_metrics=lambda pred: {"accuracy": torch.sum(pred.label_ids == pred.predictions.argmax(-1))},
+    #)
     # Train model