📋 Eval Logs - a twinkle-ai Collection

twinkle-ai 's Collections

🏎️ Formosa-1 Series

🧠 Traditional Chinese Reasoning Datasets

📋 Eval Logs

updated 4 days ago

Benchmark log generated with Twinkle Eval, recording the model's outputs for each prompt.

twinkle-ai/llama-4-eval-logs-and-scores

Viewer • Updated 25 days ago • 750 • 133 • 2