Tasks-Explorer

Running

App Files Files Community

hynky HF staff commited on Oct 3, 2024

Commit

e2f5761

1 Parent(s): b355b72

support new format of lighteval output

Browse files

Files changed (1) hide show

app.py +9 -7

app.py CHANGED Viewed

@@ -90,8 +90,9 @@ def fetch_available_tasks(results_uri, runs_to_fetch, checkpoint) -> dict[str, d
     for run in runs_to_fetch:
         try:
-            files = data_folder.list_files(f"details/{run}/{checkpoint}", recursive=False)
-            parquet_files = [f.split("/")[-1] for f in files if f.endswith('.parquet')]
             for full_filename in parquet_files:
                 task_name, date_str = full_filename.replace('.parquet', '').rsplit('_', 1)
@@ -102,7 +103,6 @@ def fetch_available_tasks(results_uri, runs_to_fetch, checkpoint) -> dict[str, d
         except FileNotFoundError:
             print(f"Checkpoint not found for run: {run}")
-    print(all_tasks)
     available_tasks = {
         task: {run: info['filename'] for run, info in runs.items()}
@@ -177,10 +177,8 @@ def load_task_data(results_uri, runs_to_fetch, checkpoint, task_name, tasks_file
         return None, None, None
-    print(runs_to_fetch)
     data_folder = DataFolder(f"filecache::{results_uri}", token=token, cache_storage="./results-cache")
-    print(tasks_files)
     def fetch_run_file(run_to_fetch):
         file_path = f"details/{run_to_fetch}/{checkpoint}/{tasks_files[task_name][run_to_fetch]}"
@@ -233,8 +231,12 @@ def load_task_data(results_uri, runs_to_fetch, checkpoint, task_name, tasks_file
         # For some reason some metrics are stored as strings
         metrics = df['metrics']
         # Assume all metrics are the same
-        for metric_key in metrics[0].keys():
-            prepared_df[f'metric_{metric_key}_{run_name}'] = [metric[metric_key] for metric in metrics]
         return prepared_df.set_index('full_prompt')
     def get_gold_label(df, task_type):

     for run in runs_to_fetch:
         try:
+            details_folder = f"details/{run}/{checkpoint}"
+            files = data_folder.list_files(details_folder, recursive=True)
+            parquet_files = [f.removeprefix(details_folder + "/") for f in files if f.endswith('.parquet')]
             for full_filename in parquet_files:
                 task_name, date_str = full_filename.replace('.parquet', '').rsplit('_', 1)
         except FileNotFoundError:
             print(f"Checkpoint not found for run: {run}")
     available_tasks = {
         task: {run: info['filename'] for run, info in runs.items()}
         return None, None, None
     data_folder = DataFolder(f"filecache::{results_uri}", token=token, cache_storage="./results-cache")
     def fetch_run_file(run_to_fetch):
         file_path = f"details/{run_to_fetch}/{checkpoint}/{tasks_files[task_name][run_to_fetch]}"
         # For some reason some metrics are stored as strings
         metrics = df['metrics']
         # Assume all metrics are the same
+        available_metrics = set(metric for row_metrics in metrics for metric in row_metrics)
+        for metric_key in available_metrics:
+            prepared_df[f'metric_{metric_key}_{run_name}'] = [metric.get(metric_key, None) for metric in metrics]
+        # Merge rows with the same full_prompt
+        prepared_df = prepared_df.groupby('full_prompt').agg(lambda x: next((item for item in x if item is not None), None)).reset_index()
         return prepared_df.set_index('full_prompt')
     def get_gold_label(df, task_type):