Spaces:

Vikhrmodels
/

DOoM-lb

Running

App Files Files Community

Anonumous commited on 10 days ago

Commit

2d440ee

1 Parent(s): 592be3d

Update code base and add ruff format

Browse files

Files changed (22) hide show

README.md +2 -17
app.py +92 -95
generate_initial_leaderboard.py +70 -65
leaderboard.json +9 -36
pyproject.toml +2 -2
temp_leaderboard/model_data/external/Claude_3.5_Sonnet.json +0 -9
temp_leaderboard/model_data/external/Claude_3.7_Sonnet.json +0 -9
temp_leaderboard/model_data/external/DeepSeek_V3_0324.json +0 -9
temp_leaderboard/model_data/external/Gemini_2.0_Flash.json +0 -9
temp_leaderboard/model_data/external/Gemini_2.5_Pro_Preview.json +0 -9
temp_leaderboard/model_data/external/Gemma_3_12B.json +0 -9
temp_leaderboard/model_data/external/Gemma_3_27B.json +0 -9
temp_leaderboard/model_data/external/Gemma_3_4B.json +0 -9
temp_leaderboard/model_data/external/GigaChat-2-Max.json +0 -9
temp_leaderboard/model_data/external/GigaChat-2-Pro.json +0 -9
temp_leaderboard/model_data/external/GigaChat-2.json +0 -9
temp_leaderboard/model_data/external/GigaChat-Max.json +0 -9
temp_leaderboard/model_data/external/Qwen2.5_72B_Instruct.json +0 -9
temp_leaderboard/model_data/external/gpt-4.1.json +0 -9
temp_leaderboard/model_data/external/gpt-4o.json +0 -9
temp_leaderboard/model_data/external/o3-mini-high.json +0 -9
temp_leaderboard/model_data/external/o4-mini-high.json +0 -9

README.md CHANGED Viewed

@@ -1,25 +1,14 @@
----
-title: DeathMath Leaderboard
-emoji: 🔢
-colorFrom: indigo
-colorTo: purple
-sdk: gradio
-sdk_version: "4.20.0"
-app_file: app.py
-pinned: false
-hf_oauth: true
----
-app_file: app.py
 # DeathMath Leaderboard
 DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.
 ## Текущий лидерборд
-Последнее обновление: 2025-04-20 16:33:11
 | Модель | Общий балл | Математика | Физика | Токены | Время оценки |
 |--------|------------|------------|---------|---------|--------------|
 | o3-mini-high | 0.601 | 0.847 | 0.355 | 2,455,126 | 4015.4s |
 | o4-mini-high | 0.591 | 0.863 | 0.318 | 1,898,964 | 4623.6s |
 | Gemini 2.5 Pro Preview | 0.586 | 0.800 | 0.373 | 1,394,299 | 4533.2s |
@@ -31,12 +20,8 @@ DeathMath - это бенчмарк для оценки способности
 | Gemma 3 12B | 0.298 | 0.442 | 0.155 | 441,055 | 3916.3s |
 | Qwen2.5 72B Instruct | 0.278 | 0.384 | 0.173 | 366,729 | 2460.1s |
 | gpt-4o | 0.262 | 0.405 | 0.118 | 468,809 | 1078.4s |
-| GigaChat-2-Max | 0.250 | 0.326 | 0.173 | 220,487 | 1006.2s |
-| GigaChat-2-Pro | 0.209 | 0.326 | 0.091 | 212,196 | 1002.6s |
-| GigaChat-Max | 0.139 | 0.179 | 0.100 | 201,090 | 978.8s |
 | DeepSeek V3 0324 | 0.132 | 0.174 | 0.091 | 359,162 | 4257.7s |
 | Gemma 3 4B | 0.124 | 0.221 | 0.027 | 572,095 | 1682.7s |
-| GigaChat-2 | 0.094 | 0.142 | 0.045 | 299,747 | 834.7s |
 ## Как принять участие в бенчмарке

 # DeathMath Leaderboard
 DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.
 ## Текущий лидерборд
+Последнее обновление: 2025-04-20 20:46:25
 | Модель | Общий балл | Математика | Физика | Токены | Время оценки |
 |--------|------------|------------|---------|---------|--------------|
+| o3 | 0.621 | 0.868 | 0.373 | 1,251,746 | 4609.1s |
 | o3-mini-high | 0.601 | 0.847 | 0.355 | 2,455,126 | 4015.4s |
 | o4-mini-high | 0.591 | 0.863 | 0.318 | 1,898,964 | 4623.6s |
 | Gemini 2.5 Pro Preview | 0.586 | 0.800 | 0.373 | 1,394,299 | 4533.2s |
 | Gemma 3 12B | 0.298 | 0.442 | 0.155 | 441,055 | 3916.3s |
 | Qwen2.5 72B Instruct | 0.278 | 0.384 | 0.173 | 366,729 | 2460.1s |
 | gpt-4o | 0.262 | 0.405 | 0.118 | 468,809 | 1078.4s |
 | DeepSeek V3 0324 | 0.132 | 0.174 | 0.091 | 359,162 | 4257.7s |
 | Gemma 3 4B | 0.124 | 0.221 | 0.027 | 572,095 | 1682.7s |
 ## Как принять участие в бенчмарке

app.py CHANGED Viewed

@@ -1,7 +1,8 @@
 import logging
 import os
 os.makedirs("tmp", exist_ok=True)
-os.environ['TMP_DIR'] = "tmp"
 import subprocess
 import shutil
 import glob
@@ -14,6 +15,7 @@ from gradio_space_ci import enable_space_ci
 import json
 from io import BytesIO
 def handle_file_upload(file):
     file_path = file.name.split("/")[-1] if "/" in file.name else file.name
     logging.info("File uploaded: %s", file_path)
@@ -21,29 +23,30 @@ def handle_file_upload(file):
         v = json.load(f)
     return v, file_path
 def submit_file(v, file_path, mn, profile: gr.OAuthProfile | None):
     """
     Обрабатывает загрузку файлов с результатами пользовательских моделей
     Args:
         v: Загруженные данные результатов из JSON
         file_path: Путь к загруженному файлу
         mn: Имя модели, указанное пользователем
         profile: Профиль пользователя HuggingFace
     Returns:
         str: Сообщение об успехе или ошибке
     """
     if profile is None:
         return "Hub Login Required: Войдите в HuggingFace, чтобы загрузить результаты"
     try:
         # Проверяем наличие обязательных полей
         required_fields = ["score", "math_score", "physics_score"]
         for field in required_fields:
             if field not in v:
                 return f"Error: Отсутствует обязательное поле '{field}' в JSON файле"
         # Создаем новый объект для сохранения в базе данных
         new_file = {
             "model_name": profile.username + "/" + mn,
@@ -52,22 +55,24 @@ def submit_file(v, file_path, mn, profile: gr.OAuthProfile | None):
             "physics_score": float(v["physics_score"]),
             "total_tokens": int(v.get("total_tokens", 0)),
             "evaluation_time": float(v.get("evaluation_time", 0.0)),
-            "system_prompt": v.get("system_prompt", "Вы - полезный помощник по математике и физике. Ответьте на русском языке.")
         }
         # Проверка значений на корректность
-        if not (0 <= new_file["score"] <= 1 and
-                0 <= new_file["math_score"] <= 1 and
-                0 <= new_file["physics_score"] <= 1):
             return "Error: Все значения оценок должны быть в диапазоне от 0 до 1"
         # Создаем уникальное имя файла на основе username и имени модели
         safe_filename = profile.username + "_" + mn.replace("/", "_").replace(" ", "_") + ".json"
         # Создаем JSON в памяти и загружаем его в репозиторий
         buf = BytesIO()
-        buf.write(json.dumps(new_file, ensure_ascii=False).encode('utf-8'))
         # Загружаем файл в репозиторий
         API.upload_file(
             path_or_fileobj=buf,
@@ -75,24 +80,21 @@ def submit_file(v, file_path, mn, profile: gr.OAuthProfile | None):
             repo_id="Vikhrmodels/DeathMath-leaderboard-data",
             repo_type="dataset",
         )
         # Устанавливаем флаг для обновления лидерборда
         os.environ[RESET_JUDGEMENT_ENV] = "1"
         # Логируем успешную загрузку
         logging.info(f"Successfully uploaded model results: {new_file['model_name']}")
         return f"Success! Результаты модели '{mn}' успешно отправлены в лидерборд DeathMath."
     except Exception as e:
         logging.error(f"Error submitting file: {e}")
         return f"Error: Произошла ошибка при отправке файла: {str(e)}"
-from src.display.about import (
-    INTRODUCTION_TEXT,
-    TITLE,
-LLM_BENCHMARKS_TEXT
-)
 from src.display.css_html_js import custom_css
 from src.display.utils import (
     AutoEvalColumn,
@@ -113,33 +115,36 @@ enable_space_ci()
 # download_openbench()
 def restart_space():
     API.restart_space(repo_id=REPO_ID)
     download_openbench()
 def update_plot(selected_models):
     return create_plot(selected_models)
 def build_demo():
     """
     Строит интерфейс лидерборда DeathMath
     """
     # Загружаем данные для лидерборда
     download_openbench()
     # Создаем интерфейс с настройками темы
     demo = gr.Blocks(
-        title="DeathMath Leaderboard",
         css=custom_css,
         theme=gr.themes.Default(
             primary_hue="indigo",
             secondary_hue="purple",
-        )
     )
     # Получаем данные для лидерборда
     leaderboard_df = build_leadearboard_df()
     # Строим интерфейс
     with demo:
         # Заголовок и введение
@@ -151,7 +156,7 @@ def build_demo():
             # Вкладка лидерборда
             with gr.TabItem("🏅 Лидерборд", elem_id="llm-benchmark-tab-table", id=0):
                 gr.Markdown("### Таблица результатов моделей DeathMath")
                 # Таблица с результатами
                 Leaderboard(
                     value=leaderboard_df,
@@ -170,33 +175,25 @@ def build_demo():
             with gr.TabItem("🚀 Отправить результаты", elem_id="submit-tab", id=1):
                 with gr.Row():
                     gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
                 with gr.Column():
                     model_name_textbox = gr.Textbox(label="Название модели")
                     file_output = gr.File(label="Перетащите JSON файл с результатами сюда", type="filepath")
                     uploaded_file = gr.State()
                     file_path = gr.State()
                     with gr.Row():
                         with gr.Column():
                             out = gr.Textbox("Здесь будет показан статус отправки")
                         with gr.Column():
                             login_button = gr.LoginButton(elem_id="oauth-button")
-                    submit_button = gr.Button("Отправить результаты", elem_id="submit_button", variant='primary')
                     # Обработчики событий
-                    file_output.upload(
-                        handle_file_upload,
-                        file_output,
-                        [uploaded_file, file_path]
-                    )
-                    submit_button.click(
-                        submit_file,
-                        [uploaded_file, file_path, model_name_textbox],
-                        [out]
-                    )
             # Вкладка с аналитикой
             with gr.TabItem("📊 Аналитика", elem_id="analytics-tab", id=2):
@@ -205,9 +202,11 @@ def build_demo():
                         model_dropdown = gr.Dropdown(
                             choices=leaderboard_df["model"].tolist(),
                             label="Модели",
-                            value=leaderboard_df["model"].tolist()[:5] if len(leaderboard_df) >= 5 else leaderboard_df["model"].tolist(),
                             multiselect=True,
-                            info="Выберите модели для сравнения"
                         )
                     else:
                         model_dropdown = gr.Dropdown(
@@ -215,31 +214,24 @@ def build_demo():
                             label="Модели",
                             value=["example/model-1", "example/model-2"],
                             multiselect=True,
-                            info="Выберите модели для сравнения"
                         )
                     # Вкладки для разных типов визуализации
                     with gr.Tabs():
                         with gr.TabItem("Столбчатая диаграмма"):
                             bar_plot = gr.Plot(create_plot(model_dropdown.value))
                         with gr.TabItem("Радарная диаграмма"):
                             from src.radial.radial import create_radar_plot
                             radar_plot = gr.Plot(create_radar_plot(model_dropdown.value))
                     # Обновление графиков при изменении выбранных моделей
-                    model_dropdown.change(
-                        fn=create_plot,
-                        inputs=[model_dropdown],
-                        outputs=[bar_plot]
-                    )
-                    model_dropdown.change(
-                        fn=create_radar_plot,
-                        inputs=[model_dropdown],
-                        outputs=[radar_plot]
-                    )
     return demo
@@ -252,58 +244,62 @@ def update_board():
     logging.info("Updating the leaderboard: %s", need_reset)
     if need_reset != "1":
         return
     os.environ[RESET_JUDGEMENT_ENV] = "0"
     try:
         # Загружаем актуальные данные из репозитория
         download_dataset("Vikhrmodels/DeathMath-leaderboard-data", "m_data")
         logging.info("Successfully downloaded model evaluation data")
         # Собираем данные из всех файлов моделей
         data_list = []
         seen_models = set()  # Для отслеживания дубликатов
         for file in glob.glob("./m_data/model_data/external/*.json"):
             try:
                 with open(file) as f:
                     data = json.load(f)
                     # Проверяем наличие необходимых полей
                     model_name = data.get("model_name", "")
                     if not model_name:
                         logging.error(f"Failed to parse {file}: 'model_name' not found")
                         continue
                     # Предотвращаем дублирование моделей
                     model_base_name = model_name.split("/")[-1].split("_v")[0]
                     if model_base_name in seen_models:
                         logging.info(f"Skipping duplicate model: {model_name}")
                         continue
                     seen_models.add(model_base_name)
                     # Добавляем модель в список
-                    data_list.append({
-                        "model_name": model_name,
-                        "score": float(data.get("score", 0.0)),
-                        "math_score": float(data.get("math_score", 0.0)),
-                        "physics_score": float(data.get("physics_score", 0.0)),
-                        "total_tokens": int(data.get("total_tokens", 0)),
-                        "evaluation_time": float(data.get("evaluation_time", 0.0)),
-                        "system_prompt": data.get("system_prompt",
-                            "Вы - полезный помощник по математике и физике. Ответьте на русском языке.")
-                    })
             except Exception as e:
                 logging.error(f"Failed to process file {file}: {e}")
                 continue
         # Если есть данные, сортируем их по общему баллу и сохраняем
         if data_list:
             # Сортируем по общему баллу
             data_list.sort(key=lambda x: x["score"], reverse=True)
             # Сохраняем обновленный лидерборд
             with open("genned.json", "w", encoding="utf-8") as f:
                 json.dump(data_list, f, ensure_ascii=False, indent=2)
@@ -316,10 +312,10 @@ def update_board():
                 repo_type="dataset",
             )
             logging.info(f"Updated leaderboard with {len(data_list)} models")
             # Генерируем README с таблицей лидерборда
             update_readme(data_list)
     except Exception as e:
         logging.error(f"Error updating leaderboard: {e}")
@@ -331,24 +327,24 @@ def update_readme(data_list):
     try:
         import pandas as pd
         from datetime import datetime
         # Создаем DataFrame для удобного форматирования таблицы
         df = pd.DataFrame(data_list)
         # Форматируем числовые колонки
         for col in ["score", "math_score", "physics_score"]:
             if col in df.columns:
                 df[col] = df[col].apply(lambda x: f"{x:.3f}")
         if "total_tokens" in df.columns:
             df["total_tokens"] = df["total_tokens"].apply(lambda x: f"{int(x):,}")
         if "evaluation_time" in df.columns:
             df["evaluation_time"] = df["evaluation_time"].apply(lambda x: f"{x:.1f}s")
         # Создаем содержимое README
         current_date = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
         readme_content = f"""---
 title: DeathMath Leaderboard
 emoji: 🔢
@@ -416,9 +412,9 @@ DeathMath - это бенчмарк для оценки способности
             repo_id="Vikhrmodels/DeathMath-leaderboard-metainfo",
             repo_type="dataset",
         )
         logging.info("Updated README with leaderboard table")
     except Exception as e:
         logging.error(f"Failed to update README: {e}")
@@ -438,13 +434,14 @@ def update_board_():
                     logging.info(f"Removed old file: {old_file}")
                 except Exception as e:
                     logging.error(f"Error removing old file {old_file}: {e}")
         # Вызываем основную функцию обновления
         update_board()
     except Exception as e:
         logging.error(f"Error in update_board_(): {e}")
 if __name__ == "__main__":
     os.environ[RESET_JUDGEMENT_ENV] = "1"

 import logging
 import os
 os.makedirs("tmp", exist_ok=True)
+os.environ["TMP_DIR"] = "tmp"
 import subprocess
 import shutil
 import glob
 import json
 from io import BytesIO
 def handle_file_upload(file):
     file_path = file.name.split("/")[-1] if "/" in file.name else file.name
     logging.info("File uploaded: %s", file_path)
         v = json.load(f)
     return v, file_path
 def submit_file(v, file_path, mn, profile: gr.OAuthProfile | None):
     """
     Обрабатывает загрузку файлов с результатами пользовательских моделей
     Args:
         v: Загруженные данные результатов из JSON
         file_path: Путь к загруженному файлу
         mn: Имя модели, указанное пользователем
         profile: Профиль пользователя HuggingFace
     Returns:
         str: Сообщение об успехе или ошибке
     """
     if profile is None:
         return "Hub Login Required: Войдите в HuggingFace, чтобы загрузить результаты"
     try:
         # Проверяем наличие обязательных полей
         required_fields = ["score", "math_score", "physics_score"]
         for field in required_fields:
             if field not in v:
                 return f"Error: Отсутствует обязательное поле '{field}' в JSON файле"
         # Создаем новый объект для сохранения в базе данных
         new_file = {
             "model_name": profile.username + "/" + mn,
             "physics_score": float(v["physics_score"]),
             "total_tokens": int(v.get("total_tokens", 0)),
             "evaluation_time": float(v.get("evaluation_time", 0.0)),
+            "system_prompt": v.get(
+                "system_prompt", "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
+            ),
         }
         # Проверка значений на корректность
+        if not (
+            0 <= new_file["score"] <= 1 and 0 <= new_file["math_score"] <= 1 and 0 <= new_file["physics_score"] <= 1
+        ):
             return "Error: Все значения оценок должны быть в диапазоне от 0 до 1"
         # Создаем уникальное имя файла на основе username и имени модели
         safe_filename = profile.username + "_" + mn.replace("/", "_").replace(" ", "_") + ".json"
         # Создаем JSON в памяти и загружаем его в репозиторий
         buf = BytesIO()
+        buf.write(json.dumps(new_file, ensure_ascii=False).encode("utf-8"))
         # Загружаем файл в репозиторий
         API.upload_file(
             path_or_fileobj=buf,
             repo_id="Vikhrmodels/DeathMath-leaderboard-data",
             repo_type="dataset",
         )
         # Устанавливаем флаг для обновления лидерборда
         os.environ[RESET_JUDGEMENT_ENV] = "1"
         # Логируем успешную загрузку
         logging.info(f"Successfully uploaded model results: {new_file['model_name']}")
         return f"Success! Результаты модели '{mn}' успешно отправлены в лидерборд DeathMath."
     except Exception as e:
         logging.error(f"Error submitting file: {e}")
         return f"Error: Произошла ошибка при отправке файла: {str(e)}"
+from src.display.about import INTRODUCTION_TEXT, TITLE, LLM_BENCHMARKS_TEXT
 from src.display.css_html_js import custom_css
 from src.display.utils import (
     AutoEvalColumn,
 # download_openbench()
 def restart_space():
     API.restart_space(repo_id=REPO_ID)
     download_openbench()
 def update_plot(selected_models):
     return create_plot(selected_models)
 def build_demo():
     """
     Строит интерфейс лидерборда DeathMath
     """
     # Загружаем данные для лидерборда
     download_openbench()
     # Создаем интерфейс с настройками темы
     demo = gr.Blocks(
+        title="DeathMath Leaderboard",
         css=custom_css,
         theme=gr.themes.Default(
             primary_hue="indigo",
             secondary_hue="purple",
+        ),
     )
     # Получаем данные для лидерборда
     leaderboard_df = build_leadearboard_df()
     # Строим интерфейс
     with demo:
         # Заголовок и введение
             # Вкладка лидерборда
             with gr.TabItem("🏅 Лидерборд", elem_id="llm-benchmark-tab-table", id=0):
                 gr.Markdown("### Таблица результатов моделей DeathMath")
                 # Таблица с результатами
                 Leaderboard(
                     value=leaderboard_df,
             with gr.TabItem("🚀 Отправить результаты", elem_id="submit-tab", id=1):
                 with gr.Row():
                     gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
                 with gr.Column():
                     model_name_textbox = gr.Textbox(label="Название модели")
                     file_output = gr.File(label="Перетащите JSON файл с результатами сюда", type="filepath")
                     uploaded_file = gr.State()
                     file_path = gr.State()
                     with gr.Row():
                         with gr.Column():
                             out = gr.Textbox("Здесь будет показан статус отправки")
                         with gr.Column():
                             login_button = gr.LoginButton(elem_id="oauth-button")
+                    submit_button = gr.Button("Отправить результаты", elem_id="submit_button", variant="primary")
                     # Обработчики событий
+                    file_output.upload(handle_file_upload, file_output, [uploaded_file, file_path])
+                    submit_button.click(submit_file, [uploaded_file, file_path, model_name_textbox], [out])
             # Вкладка с аналитикой
             with gr.TabItem("📊 Аналитика", elem_id="analytics-tab", id=2):
                         model_dropdown = gr.Dropdown(
                             choices=leaderboard_df["model"].tolist(),
                             label="Модели",
+                            value=leaderboard_df["model"].tolist()[:5]
+                            if len(leaderboard_df) >= 5
+                            else leaderboard_df["model"].tolist(),
                             multiselect=True,
+                            info="Выберите модели для сравнения",
                         )
                     else:
                         model_dropdown = gr.Dropdown(
                             label="Модели",
                             value=["example/model-1", "example/model-2"],
                             multiselect=True,
+                            info="Выберите модели для сравнения",
                         )
                     # Вкладки для разных типов визуализации
                     with gr.Tabs():
                         with gr.TabItem("Столбчатая диаграмма"):
                             bar_plot = gr.Plot(create_plot(model_dropdown.value))
                         with gr.TabItem("Радарная диаграмма"):
                             from src.radial.radial import create_radar_plot
                             radar_plot = gr.Plot(create_radar_plot(model_dropdown.value))
                     # Обновление графиков при изменении выбранных моделей
+                    model_dropdown.change(fn=create_plot, inputs=[model_dropdown], outputs=[bar_plot])
+                    model_dropdown.change(fn=create_radar_plot, inputs=[model_dropdown], outputs=[radar_plot])
     return demo
     logging.info("Updating the leaderboard: %s", need_reset)
     if need_reset != "1":
         return
     os.environ[RESET_JUDGEMENT_ENV] = "0"
     try:
         # Загружаем актуальные данные из репозитория
         download_dataset("Vikhrmodels/DeathMath-leaderboard-data", "m_data")
         logging.info("Successfully downloaded model evaluation data")
         # Собираем данные из всех файлов моделей
         data_list = []
         seen_models = set()  # Для отслеживания дубликатов
         for file in glob.glob("./m_data/model_data/external/*.json"):
             try:
                 with open(file) as f:
                     data = json.load(f)
                     # Проверяем наличие необходимых полей
                     model_name = data.get("model_name", "")
                     if not model_name:
                         logging.error(f"Failed to parse {file}: 'model_name' not found")
                         continue
                     # Предотвращаем дублирование моделей
                     model_base_name = model_name.split("/")[-1].split("_v")[0]
                     if model_base_name in seen_models:
                         logging.info(f"Skipping duplicate model: {model_name}")
                         continue
                     seen_models.add(model_base_name)
                     # Добавляем модель в список
+                    data_list.append(
+                        {
+                            "model_name": model_name,
+                            "score": float(data.get("score", 0.0)),
+                            "math_score": float(data.get("math_score", 0.0)),
+                            "physics_score": float(data.get("physics_score", 0.0)),
+                            "total_tokens": int(data.get("total_tokens", 0)),
+                            "evaluation_time": float(data.get("evaluation_time", 0.0)),
+                            "system_prompt": data.get(
+                                "system_prompt",
+                                "Вы - полезный помощник по математике и физике. Ответьте на русском языке.",
+                            ),
+                        }
+                    )
             except Exception as e:
                 logging.error(f"Failed to process file {file}: {e}")
                 continue
         # Если есть данные, сортируем их по общему баллу и сохраняем
         if data_list:
             # Сортируем по общему баллу
             data_list.sort(key=lambda x: x["score"], reverse=True)
             # Сохраняем обновленный лидерборд
             with open("genned.json", "w", encoding="utf-8") as f:
                 json.dump(data_list, f, ensure_ascii=False, indent=2)
                 repo_type="dataset",
             )
             logging.info(f"Updated leaderboard with {len(data_list)} models")
             # Генерируем README с таблицей лидерборда
             update_readme(data_list)
     except Exception as e:
         logging.error(f"Error updating leaderboard: {e}")
     try:
         import pandas as pd
         from datetime import datetime
         # Создаем DataFrame для удобного форматирования таблицы
         df = pd.DataFrame(data_list)
         # Форматируем числовые колонки
         for col in ["score", "math_score", "physics_score"]:
             if col in df.columns:
                 df[col] = df[col].apply(lambda x: f"{x:.3f}")
         if "total_tokens" in df.columns:
             df["total_tokens"] = df["total_tokens"].apply(lambda x: f"{int(x):,}")
         if "evaluation_time" in df.columns:
             df["evaluation_time"] = df["evaluation_time"].apply(lambda x: f"{x:.1f}s")
         # Создаем содержимое README
         current_date = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
         readme_content = f"""---
 title: DeathMath Leaderboard
 emoji: 🔢
             repo_id="Vikhrmodels/DeathMath-leaderboard-metainfo",
             repo_type="dataset",
         )
         logging.info("Updated README with leaderboard table")
     except Exception as e:
         logging.error(f"Failed to update README: {e}")
                     logging.info(f"Removed old file: {old_file}")
                 except Exception as e:
                     logging.error(f"Error removing old file {old_file}: {e}")
         # Вызываем основную функцию обновления
         update_board()
     except Exception as e:
         logging.error(f"Error in update_board_(): {e}")
 if __name__ == "__main__":
     os.environ[RESET_JUDGEMENT_ENV] = "1"

generate_initial_leaderboard.py CHANGED Viewed

@@ -18,10 +18,7 @@ from datetime import datetime
 logging.basicConfig(
     level=logging.INFO,
     format="%(asctime)s - %(levelname)s - %(message)s",
-    handlers=[
-        logging.FileHandler("leaderboard_generation.log"),
-        logging.StreamHandler()
-    ]
 )
 logger = logging.getLogger(__name__)
@@ -29,15 +26,16 @@ logger = logging.getLogger(__name__)
 REPO_ID = "Vikhrmodels/DeathMath-leaderboard-data"
 METAINFO_REPO_ID = "Vikhrmodels/DeathMath-leaderboard-metainfo"
 def setup_repositories(token):
     """
     Создает необходимые репозитории на HuggingFace Hub, если они еще не существуют.
     Args:
         token (str): Токен для доступа к HuggingFace Hub
     """
     api = HfApi(token=token)
     try:
         # Проверка и создание репозитория для данных лидерборда
         try:
@@ -46,7 +44,7 @@ def setup_repositories(token):
         except Exception:
             logger.info(f"Создание репозитория для данных лидерборда: {REPO_ID}")
             create_repo(repo_id=REPO_ID, repo_type="dataset", token=token)
         # Проверка и создание репозитория для метаданных лидерборда
         try:
             api.repo_info(repo_id=METAINFO_REPO_ID, repo_type="dataset")
@@ -54,41 +52,42 @@ def setup_repositories(token):
         except Exception:
             logger.info(f"Создание репозитория для метаданных лидерборда: {METAINFO_REPO_ID}")
             create_repo(repo_id=METAINFO_REPO_ID, repo_type="dataset", token=token)
         return api
     except Exception as e:
         logger.error(f"Ошибка при создании репозиториев: {e}")
         raise
 def load_results(results_file):
     """
     Загружает результаты из JSON файла и удаляет дубликаты.
     Args:
         results_file (str): Путь к файлу с результатами
     Returns:
         list: Список записей для лидерборда без дубликатов
     """
     try:
         with open(results_file, "r", encoding="utf-8") as f:
             data = json.load(f)
         leaderboard_entries = []
         seen_models = set()  # Множество для отслеживания уже обработанных моделей
         for key, value in data.items():
             if "_Combined_" in key:  # берем только комбинированные результаты
                 model_name = value["model_name"]
                 # Пропускаем модель, если она уже была добавлена
                 if model_name in seen_models:
                     logger.info(f"Пропускаем дублирующуюся модель: {model_name}")
                     continue
                 # Добавляем модель во множество обработанных
                 seen_models.add(model_name)
                 leaderboard_entry = {
                     "model_name": model_name,
                     "score": value["score"],
@@ -96,113 +95,119 @@ def load_results(results_file):
                     "physics_score": value["physics_score"],
                     "total_tokens": value["total_tokens"],
                     "evaluation_time": value["evaluation_time"],
-                    "system_prompt": value.get("system_prompt",
-                        "Вы - полезный помощник по математике и физике. Ответьте на русском языке.")
                 }
                 leaderboard_entries.append(leaderboard_entry)
         # Сортировка по общему баллу
         leaderboard_entries.sort(key=lambda x: x["score"], reverse=True)
         logger.info(f"Загружено {len(leaderboard_entries)} уникальных моделей после удаления дубликатов")
         return leaderboard_entries
     except Exception as e:
         logger.error(f"Ошибка при загрузке результатов: {e}")
         raise
 def prepare_directory_structure():
     """
     Создает необходимую структуру директорий для внешних моделей.
     Returns:
         str: Путь к временной директории с подготовленной структурой
     """
     temp_dir = Path("./temp_leaderboard")
     model_data_dir = temp_dir / "model_data" / "external"
     # Очистка и создание директорий
     if temp_dir.exists():
         import shutil
         shutil.rmtree(temp_dir)
     model_data_dir.mkdir(parents=True, exist_ok=True)
     return str(temp_dir)
 def upload_model_files(api, leaderboard_entries, temp_dir):
     """
     Загружает файлы моделей в репозиторий данных лидерборда.
     Args:
         api (HfApi): Экземпляр API для взаимодействия с HuggingFace
         leaderboard_entries (list): Список записей для лидерборда
         temp_dir (str): Путь к временной директории
     """
     model_data_dir = os.path.join(temp_dir, "model_data", "external")
     for entry in leaderboard_entries:
         model_name = entry["model_name"]
         safe_filename = model_name.replace("/", "_").replace(" ", "_")
         file_path = os.path.join(model_data_dir, f"{safe_filename}.json")
         with open(file_path, "w", encoding="utf-8") as f:
             json.dump(entry, f, ensure_ascii=False, indent=2)
         # Загрузка файла модели в репозиторий
         api.upload_file(
             path_or_fileobj=file_path,
             path_in_repo=f"model_data/external/{safe_filename}.json",
             repo_id=REPO_ID,
-            repo_type="dataset"
         )
         logger.info(f"Загружен файл модели: {safe_filename}.json")
 def generate_leaderboard_json(leaderboard_entries):
     """
     Создает JSON файл с данными лидерборда.
     Args:
         leaderboard_entries (list): Список записей для лидерборда
     Returns:
         str: Путь к созданному JSON файлу
     """
     leaderboard_file = "leaderboard.json"
     with open(leaderboard_file, "w", encoding="utf-8") as f:
         json.dump(leaderboard_entries, f, ensure_ascii=False, indent=2)
     return leaderboard_file
 def generate_readme(leaderboard_entries):
     """
     Генерирует README.md с информацией о лидерборде.
     Args:
         leaderboard_entries (list): Список записей для лидерборда
     Returns:
         str: Путь к созданному README файлу
     """
     readme_file = "README.md"
     # Создаем DataFrame для удобного форматирования таблицы
     df = pd.DataFrame(leaderboard_entries)
     # Форматируем числовые колонки
     for col in ["score", "math_score", "physics_score"]:
         if col in df.columns:
             df[col] = df[col].apply(lambda x: f"{x:.3f}")
     if "total_tokens" in df.columns:
         df["total_tokens"] = df["total_tokens"].apply(lambda x: f"{int(x):,}")
     if "evaluation_time" in df.columns:
         df["evaluation_time"] = df["evaluation_time"].apply(lambda x: f"{x:.1f}s")
     # Создаем содержимое README
     current_date = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
     readme_content = f"""# DeathMath Leaderboard
 DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.
@@ -249,13 +254,14 @@ DeathMath - это бенчмарк для оценки способности
     with open(readme_file, "w", encoding="utf-8") as f:
         f.write(readme_content)
     return readme_file
 def upload_leaderboard_files(api, leaderboard_file, readme_file):
     """
     Загружает файлы лидерборда в репозиторий метаданных.
     Args:
         api (HfApi): Экземпляр API для взаимодействия с HuggingFace
         leaderboard_file (str): Путь к JSON файлу лидерборда
@@ -263,67 +269,66 @@ def upload_leaderboard_files(api, leaderboard_file, readme_file):
     """
     # Загрузка JSON лидерборда
     api.upload_file(
-        path_or_fileobj=leaderboard_file,
-        path_in_repo="leaderboard.json",
-        repo_id=METAINFO_REPO_ID,
-        repo_type="dataset"
     )
     logger.info(f"Загружен файл лидерборда: leaderboard.json в {METAINFO_REPO_ID}")
     # Загрузка README
     api.upload_file(
-        path_or_fileobj=readme_file,
-        path_in_repo="README.md",
-        repo_id=METAINFO_REPO_ID,
-        repo_type="dataset"
     )
     logger.info(f"Загружен README: README.md в {METAINFO_REPO_ID}")
 def main():
     # Парсинг аргументов командной строки
     parser = argparse.ArgumentParser(description="Генерация первоначального лидерборда DeathMath")
-    parser.add_argument("--results", default="../results/leaderboard_results.json",
-                        help="Путь к файлу с результатами (по умолчанию: ../results/leaderboard_results.json)")
     parser.add_argument("--token", required=True, help="Токен для доступа к HuggingFace Hub")
     args = parser.parse_args()
     try:
         logger.info("Начинаем генерацию лидерборда DeathMath")
         # Настраиваем репозитории
         api = setup_repositories(args.token)
         logger.info("Репозитории успешно настроены")
         # Загружаем результаты
         leaderboard_entries = load_results(args.results)
         logger.info(f"Загружено {len(leaderboard_entries)} записей для лидерборда")
         # Подготавливаем структуру директорий
         temp_dir = prepare_directory_structure()
         logger.info(f"Создана временная директория: {temp_dir}")
         # Загружаем файлы моделей
         upload_model_files(api, leaderboard_entries, temp_dir)
         logger.info("Файлы моделей успешно загружены")
         # Генерируем JSON лидерборда
         leaderboard_file = generate_leaderboard_json(leaderboard_entries)
         logger.info(f"Создан файл лидерборда: {leaderboard_file}")
         # Генерируем README
         readme_file = generate_readme(leaderboard_entries)
         logger.info(f"Создан README: {readme_file}")
         # Загружаем файлы лидерборда
         upload_leaderboard_files(api, leaderboard_file, readme_file)
         logger.info("Файлы лидерборда успешно загружены")
         logger.info("Генерация лидерборда успешно завершена!")
     except Exception as e:
         logger.error(f"Ошибка при генерации лидерборда: {e}")
         raise
 if __name__ == "__main__":
-    main()

 logging.basicConfig(
     level=logging.INFO,
     format="%(asctime)s - %(levelname)s - %(message)s",
+    handlers=[logging.FileHandler("leaderboard_generation.log"), logging.StreamHandler()],
 )
 logger = logging.getLogger(__name__)
 REPO_ID = "Vikhrmodels/DeathMath-leaderboard-data"
 METAINFO_REPO_ID = "Vikhrmodels/DeathMath-leaderboard-metainfo"
 def setup_repositories(token):
     """
     Создает необходимые репозитории на HuggingFace Hub, если они еще не существуют.
     Args:
         token (str): Токен для доступа к HuggingFace Hub
     """
     api = HfApi(token=token)
     try:
         # Проверка и создание репозитория для данных лидерборда
         try:
         except Exception:
             logger.info(f"Создание репозитория для данных лидерборда: {REPO_ID}")
             create_repo(repo_id=REPO_ID, repo_type="dataset", token=token)
         # Проверка и создание репозитория для метаданных лидерборда
         try:
             api.repo_info(repo_id=METAINFO_REPO_ID, repo_type="dataset")
         except Exception:
             logger.info(f"Создание репозитория для метаданных лидерборда: {METAINFO_REPO_ID}")
             create_repo(repo_id=METAINFO_REPO_ID, repo_type="dataset", token=token)
         return api
     except Exception as e:
         logger.error(f"Ошибка при создании репозиториев: {e}")
         raise
 def load_results(results_file):
     """
     Загружает результаты из JSON файла и удаляет дубликаты.
     Args:
         results_file (str): Путь к файлу с результатами
     Returns:
         list: Список записей для лидерборда без дубликатов
     """
     try:
         with open(results_file, "r", encoding="utf-8") as f:
             data = json.load(f)
         leaderboard_entries = []
         seen_models = set()  # Множество для отслеживания уже обработанных моделей
         for key, value in data.items():
             if "_Combined_" in key:  # берем только комбинированные результаты
                 model_name = value["model_name"]
                 # Пропускаем модель, если она уже была добавлена
                 if model_name in seen_models:
                     logger.info(f"Пропускаем дублирующуюся модель: {model_name}")
                     continue
                 # Добавляем модель во множество обработанных
                 seen_models.add(model_name)
                 leaderboard_entry = {
                     "model_name": model_name,
                     "score": value["score"],
                     "physics_score": value["physics_score"],
                     "total_tokens": value["total_tokens"],
                     "evaluation_time": value["evaluation_time"],
+                    "system_prompt": value.get(
+                        "system_prompt", "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
+                    ),
                 }
                 leaderboard_entries.append(leaderboard_entry)
         # Сортировка по общему баллу
         leaderboard_entries.sort(key=lambda x: x["score"], reverse=True)
         logger.info(f"Загружено {len(leaderboard_entries)} уникальных моделей после удаления дубликатов")
         return leaderboard_entries
     except Exception as e:
         logger.error(f"Ошибка при загрузке результатов: {e}")
         raise
 def prepare_directory_structure():
     """
     Создает необходимую структуру директорий для внешних моделей.
     Returns:
         str: Путь к временной директории с подготовленной структурой
     """
     temp_dir = Path("./temp_leaderboard")
     model_data_dir = temp_dir / "model_data" / "external"
     # Очистка и создание директорий
     if temp_dir.exists():
         import shutil
         shutil.rmtree(temp_dir)
     model_data_dir.mkdir(parents=True, exist_ok=True)
     return str(temp_dir)
 def upload_model_files(api, leaderboard_entries, temp_dir):
     """
     Загружает файлы моделей в репозиторий данных лидерборда.
     Args:
         api (HfApi): Экземпляр API для взаимодействия с HuggingFace
         leaderboard_entries (list): Список записей для лидерборда
         temp_dir (str): Путь к временной директории
     """
     model_data_dir = os.path.join(temp_dir, "model_data", "external")
     for entry in leaderboard_entries:
         model_name = entry["model_name"]
         safe_filename = model_name.replace("/", "_").replace(" ", "_")
         file_path = os.path.join(model_data_dir, f"{safe_filename}.json")
         with open(file_path, "w", encoding="utf-8") as f:
             json.dump(entry, f, ensure_ascii=False, indent=2)
         # Загрузка файла модели в репозиторий
         api.upload_file(
             path_or_fileobj=file_path,
             path_in_repo=f"model_data/external/{safe_filename}.json",
             repo_id=REPO_ID,
+            repo_type="dataset",
         )
         logger.info(f"Загружен файл модели: {safe_filename}.json")
 def generate_leaderboard_json(leaderboard_entries):
     """
     Создает JSON файл с данными лидерборда.
     Args:
         leaderboard_entries (list): Список записей для лидерборда
     Returns:
         str: Путь к созданному JSON файлу
     """
     leaderboard_file = "leaderboard.json"
     with open(leaderboard_file, "w", encoding="utf-8") as f:
         json.dump(leaderboard_entries, f, ensure_ascii=False, indent=2)
     return leaderboard_file
 def generate_readme(leaderboard_entries):
     """
     Генерирует README.md с информацией о лидерборде.
     Args:
         leaderboard_entries (list): Список записей для лидерборда
     Returns:
         str: Путь к созданному README файлу
     """
     readme_file = "README.md"
     # Создаем DataFrame для удобного форматирования таблицы
     df = pd.DataFrame(leaderboard_entries)
     # Форматируем числовые колонки
     for col in ["score", "math_score", "physics_score"]:
         if col in df.columns:
             df[col] = df[col].apply(lambda x: f"{x:.3f}")
     if "total_tokens" in df.columns:
         df["total_tokens"] = df["total_tokens"].apply(lambda x: f"{int(x):,}")
     if "evaluation_time" in df.columns:
         df["evaluation_time"] = df["evaluation_time"].apply(lambda x: f"{x:.1f}s")
     # Создаем содержимое README
     current_date = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
     readme_content = f"""# DeathMath Leaderboard
 DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.
     with open(readme_file, "w", encoding="utf-8") as f:
         f.write(readme_content)
     return readme_file
 def upload_leaderboard_files(api, leaderboard_file, readme_file):
     """
     Загружает файлы лидерборда в репозиторий метаданных.
     Args:
         api (HfApi): Экземпляр API для взаимодействия с HuggingFace
         leaderboard_file (str): Путь к JSON файлу лидерборда
     """
     # Загрузка JSON лидерборда
     api.upload_file(
+        path_or_fileobj=leaderboard_file, path_in_repo="leaderboard.json", repo_id=METAINFO_REPO_ID, repo_type="dataset"
     )
     logger.info(f"Загружен файл лидерборда: leaderboard.json в {METAINFO_REPO_ID}")
     # Загрузка README
     api.upload_file(
+        path_or_fileobj=readme_file, path_in_repo="README.md", repo_id=METAINFO_REPO_ID, repo_type="dataset"
     )
     logger.info(f"Загружен README: README.md в {METAINFO_REPO_ID}")
 def main():
     # Парсинг аргументов командной строки
     parser = argparse.ArgumentParser(description="Генерация первоначального лидерборда DeathMath")
+    parser.add_argument(
+        "--results",
+        default="../results/leaderboard_results.json",
+        help="Путь к файлу с результатами (по умолчанию: ../results/leaderboard_results.json)",
+    )
     parser.add_argument("--token", required=True, help="Токен для доступа к HuggingFace Hub")
     args = parser.parse_args()
     try:
         logger.info("Начинаем генерацию лидерборда DeathMath")
         # Настраиваем репозитории
         api = setup_repositories(args.token)
         logger.info("Репозитории успешно настроены")
         # Загружаем результаты
         leaderboard_entries = load_results(args.results)
         logger.info(f"Загружено {len(leaderboard_entries)} записей для лидерборда")
         # Подготавливаем структуру директорий
         temp_dir = prepare_directory_structure()
         logger.info(f"Создана временная директория: {temp_dir}")
         # Загружаем файлы моделей
         upload_model_files(api, leaderboard_entries, temp_dir)
         logger.info("Файлы моделей успешно загружены")
         # Генерируем JSON лидерборда
         leaderboard_file = generate_leaderboard_json(leaderboard_entries)
         logger.info(f"Создан файл лидерборда: {leaderboard_file}")
         # Генерируем README
         readme_file = generate_readme(leaderboard_entries)
         logger.info(f"Создан README: {readme_file}")
         # Загружаем файлы лидерборда
         upload_leaderboard_files(api, leaderboard_file, readme_file)
         logger.info("Файлы лидерборда успешно загружены")
         logger.info("Генерация лидерборда успешно завершена!")
     except Exception as e:
         logger.error(f"Ошибка при генерации лидерборда: {e}")
         raise
 if __name__ == "__main__":
+    main()

leaderboard.json CHANGED Viewed

@@ -1,4 +1,13 @@
 [
   {
     "model_name": "o3-mini-high",
     "score": 0.600956937799043,
@@ -98,33 +107,6 @@
     "evaluation_time": 1078.4077816009521,
     "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
   },
-  {
-    "model_name": "GigaChat-2-Max",
-    "score": 0.24952153110047848,
-    "math_score": 0.3263157894736842,
-    "physics_score": 0.17272727272727273,
-    "total_tokens": 220487,
-    "evaluation_time": 1006.1656014919281,
-    "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-  },
-  {
-    "model_name": "GigaChat-2-Pro",
-    "score": 0.20861244019138758,
-    "math_score": 0.3263157894736842,
-    "physics_score": 0.09090909090909091,
-    "total_tokens": 212196,
-    "evaluation_time": 1002.5515208244324,
-    "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-  },
-  {
-    "model_name": "GigaChat-Max",
-    "score": 0.1394736842105263,
-    "math_score": 0.17894736842105263,
-    "physics_score": 0.1,
-    "total_tokens": 201090,
-    "evaluation_time": 978.7567253112793,
-    "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-  },
   {
     "model_name": "DeepSeek V3 0324",
     "score": 0.13229665071770336,
@@ -142,14 +124,5 @@
     "total_tokens": 572095,
     "evaluation_time": 1682.6655840873718,
     "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-  },
-  {
-    "model_name": "GigaChat-2",
-    "score": 0.0937799043062201,
-    "math_score": 0.14210526315789473,
-    "physics_score": 0.045454545454545456,
-    "total_tokens": 299747,
-    "evaluation_time": 834.6775443553925,
-    "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
   }
 ]

 [
+  {
+    "model_name": "o3",
+    "score": 0.6205741626794259,
+    "math_score": 0.868421052631579,
+    "physics_score": 0.37272727272727274,
+    "total_tokens": 1251746,
+    "evaluation_time": 4609.068037748337,
+    "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
+  },
   {
     "model_name": "o3-mini-high",
     "score": 0.600956937799043,
     "evaluation_time": 1078.4077816009521,
     "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
   },
   {
     "model_name": "DeepSeek V3 0324",
     "score": 0.13229665071770336,
     "total_tokens": 572095,
     "evaluation_time": 1682.6655840873718,
     "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
   }
 ]

pyproject.toml CHANGED Viewed

@@ -1,6 +1,6 @@
 [tool.ruff]
 line-length = 120
-target-version = "py312"
 include = ["*.py", "*.pyi", "**/pyproject.toml", "*.ipynb"]
 ignore=["I","EM","FBT","TRY003","S101","D101","D102","D103","D104","D105","G004","D107","FA102"]
 fixable=["ALL"]
@@ -27,7 +27,7 @@ authors = []
 readme = "README.md"
 [tool.poetry.dependencies]
-python = "3.12.1"
 apscheduler = "3.10.1"
 black = "23.11.0"
 click = "8.1.3"

 [tool.ruff]
 line-length = 120
+target-version = "py313"
 include = ["*.py", "*.pyi", "**/pyproject.toml", "*.ipynb"]
 ignore=["I","EM","FBT","TRY003","S101","D101","D102","D103","D104","D105","G004","D107","FA102"]
 fixable=["ALL"]
 readme = "README.md"
 [tool.poetry.dependencies]
+python = "3.13.3"
 apscheduler = "3.10.1"
 black = "23.11.0"
 click = "8.1.3"

temp_leaderboard/model_data/external/Claude_3.5_Sonnet.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "Claude 3.5 Sonnet",
-  "score": 0.33851674641148327,
-  "math_score": 0.43157894736842106,
-  "physics_score": 0.24545454545454545,
-  "total_tokens": 222241,
-  "evaluation_time": 670.5163931846619,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/Claude_3.7_Sonnet.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "Claude 3.7 Sonnet",
-  "score": 0.36770334928229664,
-  "math_score": 0.5263157894736842,
-  "physics_score": 0.20909090909090908,
-  "total_tokens": 398016,
-  "evaluation_time": 1095.7695870399475,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/DeepSeek_V3_0324.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "DeepSeek V3 0324",
-  "score": 0.13229665071770336,
-  "math_score": 0.1736842105263158,
-  "physics_score": 0.09090909090909091,
-  "total_tokens": 359162,
-  "evaluation_time": 4257.714092254639,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/Gemini_2.0_Flash.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "Gemini 2.0 Flash",
-  "score": 0.4217703349282297,
-  "math_score": 0.5526315789473685,
-  "physics_score": 0.2909090909090909,
-  "total_tokens": 731337,
-  "evaluation_time": 857.6413371562958,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/Gemini_2.5_Pro_Preview.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "Gemini 2.5 Pro Preview",
-  "score": 0.5863636363636364,
-  "math_score": 0.8,
-  "physics_score": 0.37272727272727274,
-  "total_tokens": 1394299,
-  "evaluation_time": 4533.155055761337,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/Gemma_3_12B.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "Gemma 3 12B",
-  "score": 0.29832535885167466,
-  "math_score": 0.4421052631578947,
-  "physics_score": 0.15454545454545454,
-  "total_tokens": 441055,
-  "evaluation_time": 3916.2552330493927,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/Gemma_3_27B.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "Gemma 3 27B",
-  "score": 0.32057416267942584,
-  "math_score": 0.46842105263157896,
-  "physics_score": 0.17272727272727273,
-  "total_tokens": 357617,
-  "evaluation_time": 2030.33176279068,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/Gemma_3_4B.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "Gemma 3 4B",
-  "score": 0.12416267942583732,
-  "math_score": 0.22105263157894736,
-  "physics_score": 0.02727272727272727,
-  "total_tokens": 572095,
-  "evaluation_time": 1682.6655840873718,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/GigaChat-2-Max.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "GigaChat-2-Max",
-  "score": 0.24952153110047848,
-  "math_score": 0.3263157894736842,
-  "physics_score": 0.17272727272727273,
-  "total_tokens": 220487,
-  "evaluation_time": 1006.1656014919281,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/GigaChat-2-Pro.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "GigaChat-2-Pro",
-  "score": 0.20861244019138758,
-  "math_score": 0.3263157894736842,
-  "physics_score": 0.09090909090909091,
-  "total_tokens": 212196,
-  "evaluation_time": 1002.5515208244324,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/GigaChat-2.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "GigaChat-2",
-  "score": 0.0937799043062201,
-  "math_score": 0.14210526315789473,
-  "physics_score": 0.045454545454545456,
-  "total_tokens": 299747,
-  "evaluation_time": 834.6775443553925,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/GigaChat-Max.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "GigaChat-Max",
-  "score": 0.1394736842105263,
-  "math_score": 0.17894736842105263,
-  "physics_score": 0.1,
-  "total_tokens": 201090,
-  "evaluation_time": 978.7567253112793,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/Qwen2.5_72B_Instruct.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "Qwen2.5 72B Instruct",
-  "score": 0.2784688995215311,
-  "math_score": 0.38421052631578945,
-  "physics_score": 0.17272727272727273,
-  "total_tokens": 366729,
-  "evaluation_time": 2460.056980371475,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/gpt-4.1.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "gpt-4.1",
-  "score": 0.3861244019138756,
-  "math_score": 0.5631578947368421,
-  "physics_score": 0.20909090909090908,
-  "total_tokens": 405803,
-  "evaluation_time": 1918.7988040447235,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/gpt-4o.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "gpt-4o",
-  "score": 0.2617224880382775,
-  "math_score": 0.4052631578947368,
-  "physics_score": 0.11818181818181818,
-  "total_tokens": 468809,
-  "evaluation_time": 1078.4077816009521,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/o3-mini-high.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "o3-mini-high",
-  "score": 0.600956937799043,
-  "math_score": 0.8473684210526315,
-  "physics_score": 0.35454545454545455,
-  "total_tokens": 2455126,
-  "evaluation_time": 4015.4359402656555,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}

temp_leaderboard/model_data/external/o4-mini-high.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "model_name": "o4-mini-high",
-  "score": 0.5906698564593301,
-  "math_score": 0.8631578947368421,
-  "physics_score": 0.3181818181818182,
-  "total_tokens": 1898964,
-  "evaluation_time": 4623.6044108867645,
-  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
-}