bigcodebench-evaluator

Paused

terryyz commited on 28 days ago

Commit

b54d74f

verified ·

1 Parent(s): 385c874

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -106,6 +106,7 @@ def evaluate(
     max_as_limit: int = 30 * 1024,
     max_data_limit: int = 30 * 1024,
     max_stack_limit: int = 10,
     check_gt_only: bool = False,
     no_gt: bool = False,
 ):
@@ -156,7 +157,7 @@ def evaluate(
                     if "solution" in sample
                     else problems[task_id]["complete_prompt"] + sample["completion"]
                 )
-                if "sanitized_calibrated" in samples:
                     solution = problems[task_id]["code_prompt"] + "\n    pass\n" + solution
                 remainings.add(sample["_identifier"])
                 args = (
@@ -223,7 +224,7 @@ def evaluate(
     pass_at_k["model"] = os.path.basename(samples).split("--bigcodebench-")[0]
     pass_at_k["split"] = split
     pass_at_k["subset"] = subset
-    pass_at_k["calibrated"] = "sanitized_calibrated" in samples
     pass_at_k["gt_pass_rate"] = gt_pass_rate
     pass_at_k["failed_tasks"] = failed_tasks

     max_as_limit: int = 30 * 1024,
     max_data_limit: int = 30 * 1024,
     max_stack_limit: int = 10,
+    calibrated: bool = True,
     check_gt_only: bool = False,
     no_gt: bool = False,
 ):
                     if "solution" in sample
                     else problems[task_id]["complete_prompt"] + sample["completion"]
                 )
+                if calibrated:
                     solution = problems[task_id]["code_prompt"] + "\n    pass\n" + solution
                 remainings.add(sample["_identifier"])
                 args = (
     pass_at_k["model"] = os.path.basename(samples).split("--bigcodebench-")[0]
     pass_at_k["split"] = split
     pass_at_k["subset"] = subset
+    pass_at_k["calibrated"] = calibrated
     pass_at_k["gt_pass_rate"] = gt_pass_rate
     pass_at_k["failed_tasks"] = failed_tasks