DOoM-lb / README.md
Anonumous's picture
Update README metadata for consistency and clarity
6043b47

A newer version of the Gradio SDK is available: 5.28.0

Upgrade
metadata
title: DOoM Leaderboard
emoji: 🔢
colorFrom: indigo
colorTo: purple
sdk: gradio
sdk_version: 4.20.0
app_file: app.py
pinned: false
hf_oauth: true

app_file: app.py

DeathMath Leaderboard

DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.

Текущий лидерборд

Последнее обновление: 2025-04-20 20:46:25

Модель Общий балл Математика Физика Токены Время оценки
o3 0.621 0.868 0.373 1,251,746 4609.1s
o3-mini-high 0.601 0.847 0.355 2,455,126 4015.4s
o4-mini-high 0.591 0.863 0.318 1,898,964 4623.6s
Gemini 2.5 Pro Preview 0.586 0.800 0.373 1,394,299 4533.2s
Gemini 2.0 Flash 0.422 0.553 0.291 731,337 857.6s
gpt-4.1 0.386 0.563 0.209 405,803 1918.8s
Claude 3.7 Sonnet 0.368 0.526 0.209 398,016 1095.8s
Claude 3.5 Sonnet 0.339 0.432 0.245 222,241 670.5s
Gemma 3 27B 0.321 0.468 0.173 357,617 2030.3s
Gemma 3 12B 0.298 0.442 0.155 441,055 3916.3s
Qwen2.5 72B Instruct 0.278 0.384 0.173 366,729 2460.1s
gpt-4o 0.262 0.405 0.118 468,809 1078.4s
DeepSeek V3 0324 0.132 0.174 0.091 359,162 4257.7s
Gemma 3 4B 0.124 0.221 0.027 572,095 1682.7s

Как принять участие в бенчмарке

Для участия в бенчмарке DeathMath:

  1. Клонируйте репозиторий и запустите тесты вашей модели
  2. Загрузите результаты через HuggingFace Space
  3. Дождитесь проверки и добавления результатов в лидерборд

Формат результатов

Результаты должны быть в формате JSON со следующей структурой:

{
  "score": 0.586,
  "math_score": 0.8,
  "physics_score": 0.373,
  "total_tokens": 1394299,
  "evaluation_time": 4533.2,
  "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
}

Лицензия

Бенчмарк распространяется под лицензией Apache 2.0