Spaces:

Aiera
/

aiera-finance-leaderboard

Running

App Files Files Community

Jacqueline Garrahan commited on Dec 4, 2024

Commit

3091513

unverified ·

1 Parent(s): 7798bdc

Check in updates

Browse files

Files changed (3) hide show

app.py +6 -5
src/display/utils.py +25 -20
src/populate.py +5 -1

app.py CHANGED Viewed

@@ -60,6 +60,7 @@ LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS,
 def init_leaderboard(dataframe):
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
@@ -68,15 +69,15 @@ def init_leaderboard(dataframe):
         value=dataframe,
         datatype=[c.type for c in fields(AutoEvalColumn)],
         select_columns=SelectColumns(
-            default_selection=[c.name for c in fields(AutoEvalColumn) if c.displayed_by_default],
-            cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
             label="Select Columns to Display:",
         ),
-        search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
-        hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
         filter_columns=[
             ColumnFilter(
-                AutoEvalColumn.still_on_hub.name, type="boolean", label="External Providers", default=False
             ),
         ],
         bool_checkboxgroup_label="Hide models",

 def init_leaderboard(dataframe):
+    eval_col_instance = AutoEvalColumn()
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
         value=dataframe,
         datatype=[c.type for c in fields(AutoEvalColumn)],
         select_columns=SelectColumns(
+            default_selection=[c.name for c in fields(eval_col_instance) if c.displayed_by_default],
+            cant_deselect=[c.name for c in fields(eval_col_instance) if c.never_hidden],
             label="Select Columns to Display:",
         ),
+        search_columns=[eval_col_instance.model.name, eval_col_instance.license.name],
+        hide_columns=[c.name for c in fields(eval_col_instance) if c.hidden],
         filter_columns=[
             ColumnFilter(
+                eval_col_instance.still_on_hub.name, type="boolean", label="External Providers", default=False
             ),
         ],
         bool_checkboxgroup_label="Hide models",

src/display/utils.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from dataclasses import dataclass, make_dataclass
 from enum import Enum
 import pandas as pd
@@ -8,10 +8,7 @@ from src.about import Tasks
 def fields(raw_class):
     return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__"]
-# These classes are for user facing column names,
-# to avoid having to change them all around the code
-# when a modif is needed
 @dataclass
 class ColumnContent:
     name: str
@@ -20,23 +17,30 @@ class ColumnContent:
     hidden: bool = False
     never_hidden: bool = False
-## Leaderboard columns
-auto_eval_column_dict = []
-# Init
-auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
-auto_eval_column_dict.append(["org", ColumnContent, ColumnContent("Organization", "str", True)])
-#Scores
-auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Aiera Score ⬆️", "number", True)])
-for task in Tasks:
-    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
-auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
-auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
-auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("License", "str", False)])
-# We use make dataclass to dynamically fill the scores from Tasks
-AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)
 ## For the queue columns in the submission tab
 @dataclass(frozen=True)
@@ -60,7 +64,8 @@ class ModelDetails:
     symbol: str = "" # emoji
 # Column selection
-COLS = [c.name for c in fields(AutoEvalColumn) if not c.hidden]
 EVAL_COLS = [c.name for c in fields(EvalQueueColumn)]
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]

+from dataclasses import dataclass, make_dataclass, field
 from enum import Enum
 import pandas as pd
 def fields(raw_class):
     return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__"]
+# Define ColumnContent class
 @dataclass
 class ColumnContent:
     name: str
     hidden: bool = False
     never_hidden: bool = False
+# Define auto_eval_column_dict with correct structure
+auto_eval_column_dict = [
+    ("model", ColumnContent, field(default_factory=lambda: ColumnContent("Model", "markdown", True, never_hidden=True))),
+    ("org", ColumnContent, field(default_factory=lambda: ColumnContent("Organization", "str", True))),
+    ("average", ColumnContent, field(default_factory=lambda: ColumnContent("Aiera Score ⬆️", "number", True))),
+]
+# Add task-specific columns
+for task in Tasks:
+    auto_eval_column_dict.append(
+        (task.value.benchmark, ColumnContent, field(default_factory=lambda task=task: ColumnContent(task.value.col_name, "number", True)))
+    )
+# Add remaining columns
+auto_eval_column_dict.extend([
+    ("params", ColumnContent, field(default_factory=lambda: ColumnContent("#Params (B)", "number", False))),
+    ("still_on_hub", ColumnContent, field(default_factory=lambda: ColumnContent("Available on the hub", "bool", False))),
+    ("license", ColumnContent, field(default_factory=lambda: ColumnContent("License", "str", False))),
+])
+# Dynamically create the AutoEvalColumn dataclass
+AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)
 ## For the queue columns in the submission tab
 @dataclass(frozen=True)
     symbol: str = "" # emoji
 # Column selection
+eval_col_instance = AutoEvalColumn()
+COLS = [c.name for c in fields(eval_col_instance) if not c.hidden]
 EVAL_COLS = [c.name for c in fields(EvalQueueColumn)]
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]

src/populate.py CHANGED Viewed

@@ -10,13 +10,17 @@ from src.leaderboard.read_evals import get_raw_eval_results
 def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
     raw_data = get_raw_eval_results(results_path, requests_path)
     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
-    df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]
     return df

 def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
+    auto_eval_instance = AutoEvalColumn()
     raw_data = get_raw_eval_results(results_path, requests_path)
     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
+    df = df.sort_values(by=[auto_eval_instance.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]
     return df