Spaces:
Running
Running
A newer version of the Gradio SDK is available:
5.28.0
metadata
title: DOoM Leaderboard
emoji: 🔢
colorFrom: indigo
colorTo: purple
sdk: gradio
sdk_version: 4.20.0
app_file: app.py
pinned: false
hf_oauth: true
app_file: app.py
DeathMath Leaderboard
DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.
Текущий лидерборд
Последнее обновление: 2025-04-20 20:46:25
Модель | Общий балл | Математика | Физика | Токены | Время оценки |
---|---|---|---|---|---|
o3 | 0.621 | 0.868 | 0.373 | 1,251,746 | 4609.1s |
o3-mini-high | 0.601 | 0.847 | 0.355 | 2,455,126 | 4015.4s |
o4-mini-high | 0.591 | 0.863 | 0.318 | 1,898,964 | 4623.6s |
Gemini 2.5 Pro Preview | 0.586 | 0.800 | 0.373 | 1,394,299 | 4533.2s |
Gemini 2.0 Flash | 0.422 | 0.553 | 0.291 | 731,337 | 857.6s |
gpt-4.1 | 0.386 | 0.563 | 0.209 | 405,803 | 1918.8s |
Claude 3.7 Sonnet | 0.368 | 0.526 | 0.209 | 398,016 | 1095.8s |
Claude 3.5 Sonnet | 0.339 | 0.432 | 0.245 | 222,241 | 670.5s |
Gemma 3 27B | 0.321 | 0.468 | 0.173 | 357,617 | 2030.3s |
Gemma 3 12B | 0.298 | 0.442 | 0.155 | 441,055 | 3916.3s |
Qwen2.5 72B Instruct | 0.278 | 0.384 | 0.173 | 366,729 | 2460.1s |
gpt-4o | 0.262 | 0.405 | 0.118 | 468,809 | 1078.4s |
DeepSeek V3 0324 | 0.132 | 0.174 | 0.091 | 359,162 | 4257.7s |
Gemma 3 4B | 0.124 | 0.221 | 0.027 | 572,095 | 1682.7s |
Как принять участие в бенчмарке
Для участия в бенчмарке DeathMath:
- Клонируйте репозиторий и запустите тесты вашей модели
- Загрузите результаты через HuggingFace Space
- Дождитесь проверки и добавления результатов в лидерборд
Формат результатов
Результаты должны быть в формате JSON со следующей структурой:
{
"score": 0.586,
"math_score": 0.8,
"physics_score": 0.373,
"total_tokens": 1394299,
"evaluation_time": 4533.2,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
}
Лицензия
Бенчмарк распространяется под лицензией Apache 2.0