Vikhr-Nemo-12B-Instruct-R-21-09-24
ΠΠΏΠΈΡΠ°Π½ΠΈΠ΅
Vikhr-Nemo - ΡΡΠΎ Π½Π°ΡΠ° ΡΠ»Π°Π³ΠΌΠ°Π½ΡΠΊΠ°Ρ ΡΠ½ΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½Π°Ρ LLM (Large Language Model) ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΡΡΠ°Ρ ΠΈΠ· ΡΠ΅Π±Ρ ΡΠ»ΡΡΡΠ΅Π½Π½ΡΡ Π²Π΅ΡΡΠΈΡ mistralai/Mistral-Nemo-Instruct-2407 ΠΊΠΎΠΌΠ°Π½Π΄ΠΎΠΉ VikhrModels, Π°Π΄Π°ΠΏΡΠΈΡΠΎΠ²Π°Π½Π½ΡΡ ΠΏΡΠ΅ΠΈΠΌΡΡΠ΅ΡΡΠ²Π΅Π½Π½ΠΎ Π΄Π»Ρ ΡΡΡΡΠΊΠΎΠ³ΠΎ ΠΈ Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΎΠ³ΠΎ ΡΠ·ΡΠΊΠΎΠ². ΠΠ»Ρ Π΅Π΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΌΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΡΠ°ΠΏΠΎΠ² Π²ΠΊΠ»ΡΡΠ°ΡΡΠΈΡ Π² ΡΠ΅Π±Ρ SFT ΠΈ SMPO - Π½Π°ΡΡ ΡΠΎΠ±ΡΡΠ²Π΅Π½Π½ΡΡ Π²Π°ΡΠΈΠ°ΡΠΈΡ DPO, ΠΏΠΎΠ΄ΡΠΎΠ±Π½Π΅Π΅ ΡΠΈΡΠ°ΠΉΡΠ΅ Π² ΡΠ΅ΠΊΡΠΈΠΈ "ΠΠ°ΠΊ ΡΡΠ° ΠΌΠΎΠ΄Π΅Π»Ρ ΡΠΎΠ·Π΄Π°Π²Π°Π»Π°ΡΡ".
ΠΠΎΠ΄Π΅Π»Ρ ΠΎΠΏΡΠΈΠΌΠΈΠ·ΠΈΡΠΎΠ²Π°Π½Π½Π° Π΄Π»Ρ ΡΠ°Π·Π»ΠΈΡΠ½ΡΡ Π²Π°ΡΠΈΠ°Π½ΡΠΎΠ² ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ, Π²ΠΊΠ»ΡΡΠ°Ρ ΡΠΈΠ·ΠΎΠ½ΠΈΠ½Π³, ΡΡΠΌΠΌΠ°ΡΠΈΠ·Π°ΡΠΈΡ, ΠΊΠΎΠ΄, roleplay, ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠ°Π½ΠΈΠ΅ Π΄ΠΈΠ°Π»ΠΎΠ³Π°. Vikhr-Nemo ΠΎΠ±Π»Π°Π΄Π°Π΅Ρ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΡΡ ΠΌΠ½ΠΎΠ³ΠΎΡΠ·ΡΡΠ½ΠΎΠΉ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ, ΠΈ Π²ΡΡΠΎΠΊΠΎΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΡΠΌΠΈ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΡΠΌΠΈ RAG. ΠΠΎΠ΄Π΅Π»Ρ ΠΈΠΌΠΌΠ΅Ρ Π»ΡΡΡΠΈΠ΅ ΠΎΡΠ΅Π½ΠΊΠΈ ΡΡΠ΅Π΄ΠΈ ΠΏΡΠΎΡΠΈΡ Π½Π° Π½Π°ΡΠΈΡ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠ²Π½ΡΡ ΠΈ RAG Π±Π΅Π½ΡΠ°ΡΠΊΠ°Ρ ΠΈ, ΠΏΠΎΡΡΠΎΠΌΡ, ΠΌΡ Π²Π΅ΡΠΈΠΌ, ΡΡΠΎ Π² Π½Π΅ΠΊΠΎΡΠΎΡΡΡ Π·Π°Π΄Π°ΡΠ°Ρ (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, RAG) ΠΌΠΎΠΆΠ΅Ρ Π±ΡΡΡ Π½Π΅ Ρ ΡΠΆΠ΅ gpt-4o-mini ΠΎΡ OpenAI.
ΠΠ΅ΡΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½Π½ΡΠΉ ΠΊΠΎΠ΄ Π΄Π»Ρ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ Π΄ΠΎΡΡΡΠΏΠ΅Π½ Π² Π½Π°ΡΠ΅ΠΌ ΡΠ΅ΠΏΠΎΠ·ΠΈΡΠΎΡΠΈΠΈ effective_llm_alignment Π½Π° GitHub, Π° ΠΎΡΠ½ΠΎΠ²Π½ΡΠ΅ Π΄Π°ΡΠ°ΡΠ΅ΡΡ Π΄ΠΎΡΡΡΠΏΠ½Ρ Π² Π½Π°ΡΠ΅ΠΌ ΠΏΡΠΎΡΠΈΠ»Π΅ Π½Π° HF.
ΠΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠΈ
- ΠΡΡΠΎΠΊΠΎΠ΅ ΠΊΠ°ΡΠ΅ΡΡΠ²ΠΎ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΉ Π½Π° ΡΡΡΡΠΊΠΎΠΌ ΠΈ Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΎΠΌ ΡΠ·ΡΠΊΠ°Ρ , Π° ΡΠ°ΠΊΠΆΠ΅ Π½Π΅ΠΊΠΎΡΠΎΡΡΡ Π΄ΡΡΠ³ΠΈΡ ΡΠ·ΡΠΊΠ°Ρ , Π±Π»Π°Π³ΠΎΠ΄Π°ΡΡ Π΄Π°ΡΠ°ΡΠ΅ΡΡ Grandmaster-PRO-MAX ΠΈ ΠΈΡΡ ΠΎΠ΄Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ
- ΠΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° ΡΠΈΡΡΠ΅ΠΌΠ½ΡΡ ΠΏΡΠΎΠΌΠΏΡΠΎΠ² Π΄Π»Ρ ΡΠ΅Π³ΡΠ»ΡΠΈΠΎΠ²Π°Π½ΠΈΡ ΡΡΠΈΠ»Ρ ΠΎΡΠ²Π΅ΡΠΎΠ²
- ΠΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° Π΄ΠΎ 128k ΡΠΎΠΊΠ΅Π½ΠΎΠ² ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ° Π±Π»Π°Π³ΠΎΠ΄Π°ΡΡ ΠΈΡΡ ΠΎΠ΄Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ
- Grounded RAG ΡΠ΅ΠΆΠΈΠΌ - ΠΌΠΎΠ΄Π΅Π»Ρ ΠΈΠΌΠ΅Π΅Ρ ΡΠΏΠ΅ΡΠΈΠ°Π»ΡΠ½ΡΡ ΡΠΎΠ»Ρ documents ΠΈ ΡΠΏΠ΅ΡΠΈΠ°Π»ΡΠ½ΡΠΉ ΡΠ΅ΠΆΠΈΠΌ ΡΠ°Π±ΠΎΡΡ Π΄Π»Ρ ΠΏΠΎΠΈΡΠΊΠ° ΠΈΠ΄Π΅Π½ΡΠΈΡΠΈΠΊΠ°ΡΠΎΡΠΎΠ² ΡΠ΅Π»Π΅Π²Π°Π½ΡΠ½ΡΡ Π²ΠΎΠΏΡΠΎΡΡ ΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΠ΅Π»Ρ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ² ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ ΠΈΡ Π΄Π»Ρ ΠΎΡΠ²Π΅ΡΠ° Π½Π° Π²ΠΎΠΏΡΠΎΡ, Π²Π΄ΠΎΡ Π½ΠΎΠ²Π»Π΅Π½ΠΎ Π°Π½Π°Π»ΠΎΠ³ΠΈΡΠ½ΠΎΠΉ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ Command-R
ΠΠ΅ΡΡΠΈΠΊΠΈ ΠΈ ΠΎΡΠ΅Π½ΠΊΠ° ΠΊΠ°ΡΠ΅ΡΡΠ²Π°
ΠΠΎΠ΄Π΅Π»Ρ ΠΎΡΠ΅Π½ΠΈΠ²Π°Π»Π°ΡΡ Π½Π° Π½Π°ΡΠ΅ΠΌ ΡΡΡΡΠΊΠΎΡΠ·ΡΡΠ½ΠΎΠΌ open-source SbS Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ΅ ru-arena-general (50 ΡΠΎΠΏΠΈΠΊΠΎΠ² ΠΏΠΎ 10 Π²ΠΎΠΏΡΠΎΡΠΎΠ²), Π³Π΄Π΅ ΡΡΠ΄ΡΠ΅ΠΉ Π²ΡΡΡΡΠΏΠ°Π΅Ρ gpt-4-1106-preview ΠΈ Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ΅ Π΄Π»Ρ RAG Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΡΠ΅ΡΡΠΎΠ²ΠΎΠ³ΠΎ ΡΠ΅ΡΠ° Grounded-RAG-v2, Π³Π΄Π΅ ΡΡΠ΄Π΅ΠΉ Π²ΡΡΡΡΠΏΠ° gpt-4o.
Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ Π½Π° Ru-Arena-General
Π ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΡΠ΅ΡΠ΅ΡΠ΅Π½ΡΡΡ ΠΎΡΠ²Π΅ΡΠΎΠ², Ρ ΠΊΠΎΡΠΎΡΡΠΌΠΈ ΡΡΠ°Π²Π½ΠΈΠ²Π°ΡΡΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²ΡΡΡΡΠΏΠ°ΡΡ ΠΎΡΠ²Π΅ΡΡ ΠΎΡ gpt-3.5-turbo-0125, ΠΏΠΎΡΡΠΎΠΌΡ ΠΎΠ½Π° ΠΈΠΌΠ΅Π΅Ρ Π²ΠΈΠ½ΡΠ΅ΠΉΡ 50%.
ΠΠ΄Π΅ΡΡ ΠΏΡΠΈΠ²Π΅Π΄Π΅Π½Π° Π»ΠΈΡΡ ΡΠ°ΡΡΡ Π»ΠΈΠ΄Π΅ΡΠ±ΠΎΡΠ΄Π°, ΠΏΠΎΠ΄ΡΠΎΠ±Π½Π΅Π΅ ΡΠΌΠΎΡΡΠΈΡΠ΅ Π² ΡΠ΅ΠΏΠΎΠ·ΠΈΡΠΎΡΠΈΠΈ Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ°.
180 ΡΡΠΌΠΏΠ»ΠΎΠ² ΠΈΠ· Π°ΡΠ΅Π½Ρ ΡΡΠ΅ΠΊΠ»ΠΎ Π² ΡΡΠ΅ΠΉΠ½, ΡΠΏΠ°ΡΠΈΠ±ΠΎ ΠΠ»ΡΠ΅ Π·Π° ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ!
Model Name | Winrate | 95% CI | Average # Tokens |
---|---|---|---|
gpt-4-1106-preview | 90.9 | (-1.3, 1.0) | 541 |
gpt-4o-mini | 83.9 | (-1.8, 1.1) | 448 |
vikhr-nemo-12b-instruct-r-21-09-24(180 leaked) | 79.8 | (-2.2, 1.9) | 627 |
gemma-2-9b-it-sppo-iter3 | 73.6 | (-1.6, 2.2) | 509 |
gemma-2-9b-it | 69.2 | (-2.5, 1.9) | 459 |
t-lite-instruct-0.1 | 64.7 | (-2.1, 1.7) | 810 |
vikhr-llama3.1-8b-instruct-r-21-09-24 | 63.4 | (-2.1, 2.5) | 618 |
suzume-llama-3-8B-multilingual-orpo-borda-half | 57.1 | (-1.9, 2.2) | 682 |
mistral-nemo-instruct-2407 | 50.5 | (-2.7, 2.6) | 403 |
gpt-3.5-turbo-0125 | 50.0 | (0.0, 0.0) | 220 |
c4ai-command-r-v01 | 49.0 | (-1.7, 2.2) | 529 |
meta-llama-3.1-8b-instruct | 43.1 | (-2.8, 2.3) | 628 |
Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ Π½Π° Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ΅ RAG
ΠΠ±ΡΠΈΠΉ ΡΠ°Π·ΠΌΠ΅Ρ ΡΠ΅ΡΡΠΎΠ²ΠΎΠ³ΠΎ ΡΠ΅ΡΠ° - 200 ΠΏΡΠΈΠΌΠ΅ΡΠΎΠ², 100 Π΄Π»Ρ in_domain Π²ΠΎΠΏΡΠΎΡΠΎΠ² ΠΈ 100 Π΄Π»Ρ out_of_domain.
Π’ΡΡ Π΄Π»Ρ ΠΎΡΠ΅Π½ΠΊΠΈ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° ΠΌΠΎΠ΄Π΅Π»Ρ-ΡΡΠ΄ΡΡ gpt-4o Π±ΡΠ»Π° ΠΏΡΠΎΠΈΠ½ΡΡΡΡΠΊΡΠΈΡΠΎΠ²Π°Π½Π° ΡΡΠΈΡΡΠ²Π°ΡΡ ΡΠ΅Π»Π΅Π²Π°ΡΠ½ΠΎΡΡΡ ΠΈ ΡΠ°ΠΊΡΠΎΠ»ΠΎΠ³ΠΈΡΠΊΡΠΊΡΡ ΠΏΠΎΠ»Π½ΠΎΡΡ ΠΎΡΠ²Π΅ΡΠΎΠ² ΠΈΡΡ ΠΎΠ΄Ρ ΠΈΠ· Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ² ΠΈ ΡΠ΅ΡΠ΅ΡΡΠ½ΠΎΠ³ΠΎ ΠΎΡΠ²Π΅ΡΠ° ΠΎΡ gpt-4-1106-preview.
ΠΠΎΠ΄ΡΠΎΠ±Π½ΠΎΡΡΠΈ ΠΏΡΠΎΠΌΠΏΡΠΎΠ² ΠΈ ΠΎΡΠ΅Π½ΠΎΠΊ ΡΠΌΠΎΡΡΠΈΡΠ΅ Π² ΠΊΠΎΠ΄Π΅ Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ° Π½Π° ΠΊΠΎΠ»Π»Π°Π±Π΅
in_domain - Π²ΠΎΠΏΡΠΎΡΡ ΠΊΠΎΡΠΎΡΡΠ΅ ΡΠ²ΡΠ·Π°Π½Ρ Ρ ΡΠΎΠ΄Π΅ΡΠΆΠ°Π½ΠΈΠ΅ΠΌ ΠΏΡΠ΅Π΄ΠΎΡΡΠ°Π²Π»Π΅Π½Π½ΡΡ
Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ² Π² ΡΠΎΠΉ ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠΉ ΡΡΠ΅ΠΏΠ΅Π½ΠΈ
out_of_domain - Π²ΠΎΠΏΡΠΎΡΡ ΠΊΠΎΡΠΎΡΡΠ΅ ΡΠΏΠ΅ΡΠΈΠ°Π»ΡΠ½ΠΎ Π½ΠΈΠΊΠ°ΠΊ Π½Π΅ ΡΠ²ΡΠ·Π°Π½Ρ Ρ ΡΠΎΠ΄Π΅ΡΠΆΠ°Π½ΠΈΠ΅ΠΌ ΠΏΡΠ΅Π΄ΠΎΡΡΠ°Π²Π»Π΅Π½Π½ΡΡ
Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ²
question_type | gpt-4o | ||
---|---|---|---|
judge_correct_percent | avg_answer_match_rougeL | avg_abs_indexes_diff | |
in_domain | 73% | 0.34 | NaN |
out_of_domain | 81% | 0.20 | NaN |
Vikhr-Nemo-12B-Instruct-R-21-09-24 | |||
---|---|---|---|
in_domain | 68% | 0.41 | 0 |
out_of_domain | 92% | 0.52 | 0 |
gpt-4o-mini | |||
---|---|---|---|
in_domain | 65% | 0.33 | NaN |
out_of_domain | 73% | 0.18 | NaN |
gpt-3.5-turbo-0125 | |||
---|---|---|---|
in_domain | 49% | 0.28 | NaN |
out_of_domain | 76% | 0.20 | NaN |
ΠΠ°ΠΊ ΡΡΠ° ΠΌΠΎΠ΄Π΅Π»Ρ ΡΠΎΠ·Π΄Π°Π²Π°Π»Π°ΡΡ
ΠΠ½ΡΡΡΡΠΊΡΠΈΠ²Π½Π°Ρ SFT ΡΠ°ΡΡΡ
ΠΠ»Ρ SFT ΡΡΠ°ΠΏΠ° ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΡ ΠΏΠΎΠ΄Π³ΠΎΡΠΎΠ²ΠΈΠ»ΠΈ Π±ΠΎΠ»ΡΡΠΎΠΉ (150ΠΊ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠΉ) ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠ²Π½ΡΠΉ ΡΠΈΠ½ΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΈΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ Vikhrmodels/GrandMaster-PRO-MAX. ΠΠ³ΠΎ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΡΡ ΡΠ²Π»ΡΠ΅ΡΡΡ Π²ΡΡΡΠΎΠ΅Π½ΡΠΉ CoT (Chain-Of-Thought), Π΄Π»Ρ ΡΠ±ΠΎΡΠ° ΠΊΠΎΡΠΎΡΠΎΠ³ΠΎ ΠΌΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈ ΠΌΠΎΠ΄ΠΈΡΠΈΡΠΈΡΠΎΠ²Π°Π½Π½ΡΠΉ ΠΏΡΠΎΠΌΠ΅Ρ Π΄Π»Ρ gpt-4-turbo, ΠΏΠΎΠ΄ΡΠΎΠ±Π½ΠΎΡΡΠΈ Π² ΠΊΠ°ΡΡΠΎΡΠΊΠ΅ Π΄Π°ΡΠ°ΡΠ΅ΡΠ°.
ΠΡΠΎΠΌΠ΅ ΡΠΎΠ³ΠΎ, Π΄Π»Ρ ΡΠΎΠ³ΠΎ ΡΡΠΎΠ±Ρ ΡΠ΄Π΅Π»Π°ΡΡ RAG Grounding, ΠΌΡ ΠΏΠΎΠ΄Π³ΠΎΡΠΎΠ²ΠΈΠ»ΠΈ Π΄ΡΡΠ³ΠΎΠΉ ΡΠΈΠ½ΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΈΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ - Vikhrmodels/Grounded-RAG-RU-v2 (50k Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ²), Π΅Π³ΠΎ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ ΡΠ±ΠΎΡΠΊΠΈ Π΄ΠΎΡΡΠ°ΡΠΎΡΠ½ΠΎ ΡΠ»ΠΎΠΆΠ½ΡΠΉ Π΄Π»Ρ ΠΊΠΎΡΠΎΡΠΊΠΎΠ³ΠΎ ΠΎΠΏΠΈΡΠ°Π½ΠΈΡ ΠΈ ΠΏΠΎΠ»ΡΠΎΠ±Π½Π΅Π΅ ΠΎΠ± ΡΡΠΎΠΌ Π²Ρ ΠΌΠΎΠΆΠ΅ΡΠ΅ ΠΏΡΠΎΡΠΈΡΠ°ΡΡ Π² Π΅Π³ΠΎ ΠΊΠ°ΡΡΠΎΡΠΊΠ΅.
ΠΡΠ°ΠΏ Π°Π»Π°ΠΉΠ½ΠΌΠ΅Π½ΡΠ° Ρ SMPO
ΠΠ»Ρ Π΄Π°Π»ΡΠ½Π΅ΠΉΡΠ΅Π³ΠΎ ΡΠ»ΡΡΡΠ΅Π½ΠΈΡ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° ΠΎΡΠ²Π΅ΡΠΎΠ² ΠΌΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈ ΡΠ»Π΅Π΄ΡΡΠΈΠΉ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½:
- ΠΠ±ΡΡΠΈΠ»ΠΈ ΠΊΠ°ΡΡΠΎΠΌΠ½ΡΡ Reward ΠΌΠΎΠ΄Π΅Π»Ρ (ΠΎΠ½Π° ΠΏΠΎΠΊΠ° Π½Π΅ Π±ΡΠ΄Π΅Ρ Π²ΡΠΊΠ»Π°Π΄ΡΠ²Π°ΡΡΡΡ Π² ΠΎΡΠΊΡΡΡΡΠΉ Π΄ΠΎΡΡΡΠΏ)
- ΠΠ΅Π΄ΡΠΏΠ»ΠΈΡΠΈΡΠΎΠ²Π°Π»ΠΈ ΠΈ ΠΎΡΡΠΈΠ»ΡΡΠΎΠ²Π°Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ RM ΠΌΠΎΠ΄Π΅Π»Ρ ΠΎΡΠΈΠ³ΠΈΠ½Π°Π»ΡΠ½ΡΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ Vikhrmodels/GrandMaster-PRO-MAX, ΠΏΠΎΠ»ΡΡΠΈΠ² ΠΏΠΎΡΡΠ΄ΠΊΠ° 10ΠΊ ΡΠ°ΠΌΡΡ Π²ΡΡΠΎΠΊΠΎΠΊΠ°ΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΡ ΠΈ ΡΠ°Π·Π½ΠΎΠΎΠ±ΡΠ°Π·Π½ΡΡ Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ².
- Π‘Π΄Π΅Π»Π°Π»ΠΈ Rejection Sampling Ρ SFT ΡΠ΅ΠΊΠΏΠΎΠΈΠ½ΡΠΎΠΌ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ ΠΈ Reward ΠΌΠΎΠ΄Π΅Π»Ρ. (ΠΠ΅Π½Π΅ΡΠΈΡΠΎΠ²Π°Π»ΠΈ 7 Π³ΠΈΠΏΠΎΡΠ΅Π· ΠΈ Π±ΡΠ°Π»ΠΈ ΡΠΎΠ»ΡΠΊΠΎ 2 ΡΠ°ΠΌΡΠ΅ Ρ ΡΠ΄ΡΠΈΠ΅ ΠΊΠ°ΠΊ rejected)
- ΠΠΎΠΎΠ±ΡΡΠΈΠ»ΠΈ SFT ΡΠ΅ΠΊΠΏΠΎΠΈΠ½Ρ Ρ ΠΏΠΎΠΌΠΎΡΡΡ Π½Π°ΡΠ΅Π³ΠΎ ΠΌΠ΅ΡΠΎΠ΄Π° SMPO ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ ΠΈΠ· ΡΡΠ°ΠΏΠ° 3. SMPO Π±ΡΠ» ΡΠΏΡΠΎΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ ΠΈ Π²ΡΠ±ΡΠ°Π½ ΠΊΠ°ΠΊ ΠΌΠ΅ΡΠΎΠ΄ Π΄Π»Ρ ΠΏΠΎΠ²ΡΡΠ΅Π½ΠΈΡ ΡΡΠ°Π±ΠΈΠ»ΡΠ½ΠΎΡΡΠΈ ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠΈ ΠΏΡΠ΅ΡΠ΅ΡΠ΅Π½ΡΠΎΠ² Π² ΡΡΠ»ΠΎΠ²ΠΈΡΡ Rejection Sampling ΠΈ Π΄ΠΎΡΡΠΈΠΆΠ΅Π½ΠΈΡ Π½ΡΠΆΠ½ΠΎΠ³ΠΎ margin.
Π Π΅Π°Π»ΠΈΠ·Π°ΡΠΈΡ SMPO, rejection sampling ΠΈ ΡΠ΄ ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡΠΈ Π² Π½Π°ΡΠ΅ΠΉ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ΅ effective_llm_alignment Π½Π° GitHub
ΠΠ΄Π΅Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ ΠΈΠΌΠ΅Π½Π½ΠΎ SMPO, Π° Π½Π΅ Π΄ΡΡΠ³ΠΎΠ³ΠΎ PO ΠΌΠ΅ΡΠΎΠ΄Π°, Π²ΠΎΠ·Π½ΠΈΠΊΠ»Π° Π² ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ΅ ΠΏΡΠΎΠ²Π΅Π΄Π΅Π½ΠΈΡ Π±ΠΎΠ»ΡΡΠΎΠ³ΠΎ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π° ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ² Ρ ΠΊΠ»Π°ΡΡΠΈΡΠ΅ΡΠΊΠΈΠΌΠΈ ΠΌΠ΅ΡΠΎΠ΄Π°ΠΌΠΈ, ΠΏΡΠΈ Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΠΎΡΡΠΈ Π»ΡΡΡΠ΅Π³ΠΎ ΠΊΠΎΠ½ΡΡΠΎΠ»Ρ ΠΏΡΠΎΡΠ΅ΡΡΠ° ΡΡ ΠΎΠ΄ΠΈΠΌΠΎΡΡΠΈ. ΠΡΠΈ ΡΡΠ°ΡΠ΅Π»ΡΠ½ΠΎΠΉ Π½Π°ΡΡΡΠΎΠΉΠΊΠ΅ Π΄ΡΡΠ³ΠΈΡ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠ² (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ SimPO), ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΠ±ΠΈΡΡΡ ΠΏΠΎΡ ΠΎΠΆΠ΅Π³ΠΎ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ°, ΠΎΠ΄Π½Π°ΠΊΠΎ ΠΌΡ ΠΏΠΎΡΡΠ°ΡΠ°Π»ΠΈΡΡ ΡΡΠ°Π±Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°ΡΡ ΡΡΠΎΡ ΠΏΡΠΎΡΠ΅ΡΡ ΠΈ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΠΈΡΡ Π»ΡΡΡΠΈΠ΅ ΠΏΡΠ°ΠΊΡΠΈΠΊΠΈ ΠΈΠ· Π΄ΡΡΠ³ΠΈΡ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠ².
ΠΠ°ΠΊ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ RAG
Π ΠΎΠ»Ρ documents ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΠ΅Ρ ΠΈΠ· ΡΠ΅Π±Ρ ΡΠΏΠΈΡΠΎΠΊ ΡΠ»ΠΎΠ²Π°ΡΠ΅ΠΉ Ρ ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ΠΌ ΠΊΠΎΠ½ΡΠ΅Π½ΡΠ° Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ², Ρ ΠΏΡΠΈΠΌΠ½Π΅Π½ΠΈΠ΅ΠΌ json.dumps(array, ensure_ascii=False)
(ΡΠΌ. ΠΏΡΠΈΠΌΠ΅Ρ Π½ΠΈΠΆΠ΅).
ΠΠΎΠ½ΡΠ΅Π½Ρ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ² ΠΌΠΎΠΆΠ΅Ρ Π±ΡΡΡ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ Π² 3 ΡΠ°Π·Π»ΠΈΡΠ½ΡΡ
ΡΠΎΡΠΌΠ°ΡΠ°Ρ
: Markdown, HTML, Plain Text. ΠΠΎΠ½ΡΠ΅Π½Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ° - ΠΌΠΎΠΆΠ΅Ρ Π±ΡΡΡ ΡΠ°Π½ΠΊΠΎΠΌ ΡΠ΅ΠΊΡΡΠ° Π΄Π»ΠΈΠ½ΠΎΠΉ Π΄ΠΎ 4ΠΊ ΡΠΈΠΌΠ²ΠΎΠ»ΠΎΠ².
[
{
"doc_id": (0..5),
"title": "(null or str)",
"content": "(html or markdown or plain text)"
}
]
ΠΡΠΈΠΌΠ΅Ρ ΠΏΡΠ°Π²ΠΈΠ»ΡΠ½ΠΎΠ³ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ Ρ OpenAI-like API
ΠΠ°ΠΏΡΡΠΊ vLLM ΡΠ΅ΡΠ²Π΅ΡΠ°: vllm serve --dtype half --max-model-len 32000 -tp 1 Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24 --api-key token-abc123
GROUNDED_SYSTEM_PROMPT = "Your task is to answer the user's questions using only the information from the provided documents. Give two answers to each question: one with a list of relevant document identifiers and the second with the answer to the question itself, using documents with these identifiers."
documents = [
{
"doc_id": 0,
"title": "ΠΠ»ΠΎΠ±Π°Π»ΡΠ½ΠΎΠ΅ ΠΏΠΎΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅: Π»Π΅Π΄Π½ΠΈΠΊΠΈ",
"content": "ΠΠ° ΠΏΠΎΡΠ»Π΅Π΄Π½ΠΈΠ΅ 50 Π»Π΅Ρ ΠΎΠ±ΡΠ΅ΠΌ Π»Π΅Π΄Π½ΠΈΠΊΠΎΠ² Π² ΠΌΠΈΡΠ΅ ΡΠΌΠ΅Π½ΡΡΠΈΠ»ΡΡ Π½Π° 30%"
},
{
"doc_id": 1,
"title": "ΠΠ»ΠΎΠ±Π°Π»ΡΠ½ΠΎΠ΅ ΠΏΠΎΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅: Π£ΡΠΎΠ²Π΅Π½Ρ ΠΌΠΎΡΡ",
"content": "Π£ΡΠΎΠ²Π΅Π½Ρ ΠΌΠΈΡΠΎΠ²ΠΎΠ³ΠΎ ΠΎΠΊΠ΅Π°Π½Π° ΠΏΠΎΠ²ΡΡΠΈΠ»ΡΡ Π½Π° 20 ΡΠΌ Ρ 1880 Π³ΠΎΠ΄Π° ΠΈ ΠΏΡΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅Ρ ΡΠ°ΡΡΠΈ Π½Π° 3,3 ΠΌΠΌ Π² Π³ΠΎΠ΄"
}
]
sample_history = [
{'role': 'system', 'content': GROUNDED_SYSTEM_PROMPT},
{'role': 'documents', 'content': json.dumps(documents, ensure_ascii=False)},
{'role': 'user', 'content': 'ΠΠ»ΠΎΠ°Π±Π»ΡΠ½ΠΎΠ΅ ΠΏΠΎΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅'}
]
relevant_indexes = llm_client.chat.completions.create(
model=llm_model,
messages=sample_history,
temperature=0.0,
max_tokens=2048
).choices[0].message.content
print('Using documents: ' + relevant_indexes + '\n----')
final_answer = llm_client.chat.completions.create(
model=llm_model,
messages=sample_history + [{'role': 'assistant', 'content': relevant_indexes}],
temperature=0.3,
max_tokens=2048
).choices[0].message.content
print(final_answer)
ΠΡΠ²Π΅Ρ ΠΏΠΎΡΠ»Π΅ Π²ΡΠΏΠΎΠ»Π½Π΅Π½ΠΈΡ ΠΊΠΎΠ΄Π° Π±ΡΠ΄Π΅Ρ Π²ΡΠ³Π»ΡΠ΄Π΅ΡΡ ΠΏΡΠΈΠΌΠ΅ΡΠ½ΠΎ ΡΠ°ΠΊ:
Using documents: {"relevant_doc_ids": [0, 1]}
----
ΠΠ»ΠΎΠ±Π°Π»ΡΠ½ΠΎΠ΅ ΠΏΠΎΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅ β ΡΡΠΎ Π΄ΠΎΠ»Π³ΠΎΡΡΠΎΡΠ½ΠΎΠ΅ ΠΏΠΎΠ²ΡΡΠ΅Π½ΠΈΠ΅ ΡΡΠ΅Π΄Π½Π΅ΠΉ ΡΠ΅ΠΌΠΏΠ΅ΡΠ°ΡΡΡΡ Π°ΡΠΌΠΎΡΡΠ΅ΡΡ ΠΈ ΠΎΠΊΠ΅Π°Π½ΠΎΠ² ΠΠ΅ΠΌΠ»ΠΈ. ΠΡΠΎ ΡΠ²Π»Π΅Π½ΠΈΠ΅ ΠΈΠΌΠ΅Π΅Ρ ΠΌΠ½ΠΎΠΆΠ΅ΡΡΠ²ΠΎ ΠΏΠΎΡΠ»Π΅Π΄ΡΡΠ²ΠΈΠΉ Π΄Π»Ρ Π½Π°ΡΠ΅ΠΉ ΠΏΠ»Π°Π½Π΅ΡΡ, ΠΈ ΡΡΠ΅Π΄ΠΈ Π½ΠΈΡ
ΠΌΠΎΠΆΠ½ΠΎ Π²ΡΠ΄Π΅Π»ΠΈΡΡ Π΄Π²Π° ΠΊΠ»ΡΡΠ΅Π²ΡΡ
Π°ΡΠΏΠ΅ΠΊΡΠ°, ΠΎΡΠ½ΠΎΠ²Π°Π½Π½ΡΡ
Π½Π° Π΄ΠΎΡΡΡΠΏΠ½ΡΡ
ΠΌΠ½Π΅ Π΄Π°Π½Π½ΡΡ
:
1. **Π£ΠΌΠ΅Π½ΡΡΠ΅Π½ΠΈΠ΅ ΠΎΠ±ΡΠ΅ΠΌΠ° Π»Π΅Π΄Π½ΠΈΠΊΠΎΠ²**: ΠΠ° ΠΏΠΎΡΠ»Π΅Π΄Π½ΠΈΠ΅ 50 Π»Π΅Ρ Π½Π°Π±Π»ΡΠ΄Π°Π΅ΡΡΡ Π·Π½Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎΠ΅ ΡΠΎΠΊΡΠ°ΡΠ΅Π½ΠΈΠ΅ ΠΎΠ±ΡΠ΅ΠΌΠ° Π»Π΅Π΄Π½ΠΈΠΊΠΎΠ² ΠΏΠΎ Π²ΡΠ΅ΠΌΡ ΠΌΠΈΡΡ. Π‘ΠΎΠ³Π»Π°ΡΠ½ΠΎ Π΄Π°Π½Π½ΡΠΌ, ΠΎΠ±ΡΠ΅ΠΌ Π»Π΅Π΄Π½ΠΈΠΊΠΎΠ² ΡΠΌΠ΅Π½ΡΡΠΈΠ»ΡΡ Π½Π° 30%. ΠΡΠΎ ΠΌΠΎΠΆΠ΅Ρ Π±ΡΡΡ ΡΠ²ΡΠ·Π°Π½ΠΎ Ρ ΡΠ°ΡΠ½ΠΈΠ΅ΠΌ Π»Π΅Π΄Π½ΠΈΠΊΠΎΠ² ΠΈΠ·-Π·Π° ΠΏΠΎΠ²ΡΡΠ΅Π½ΠΈΡ ΡΠ΅ΠΌΠΏΠ΅ΡΠ°ΡΡΡ, ΡΡΠΎ ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Π³Π»ΠΎΠ±Π°Π»ΡΠ½ΠΎΠ³ΠΎ ΠΏΠΎΡΠ΅ΠΏΠ»Π΅Π½ΠΈΡ.
2. **ΠΠΎΠ²ΡΡΠ΅Π½ΠΈΠ΅ ΡΡΠΎΠ²Π½Ρ ΠΌΠΎΡΡ**: Π£ΡΠΎΠ²Π΅Π½Ρ ΠΌΠΈΡΠΎΠ²ΠΎΠ³ΠΎ ΠΎΠΊΠ΅Π°Π½Π° ΡΠ°ΠΊΠΆΠ΅ ΡΠ²Π΅Π»ΠΈΡΠΈΠ²Π°Π΅ΡΡΡ, ΡΡΠΎ ΡΠ²ΡΠ·Π°Π½ΠΎ Ρ ΡΠ°ΡΠ½ΠΈΠ΅ΠΌ Π»Π΅Π΄Π½ΠΈΠΊΠΎΠ² ΠΈ Π»Π΅Π΄ΡΠ½ΡΡ
ΠΏΠΎΠΊΡΠΎΠ²ΠΎΠ², Π° ΡΠ°ΠΊΠΆΠ΅ Ρ ΡΠ°ΡΡΠΈΡΠ΅Π½ΠΈΠ΅ΠΌ Π²ΠΎΠ΄Ρ ΠΏΡΠΈ ΠΏΠΎΠ²ΡΡΠ΅Π½ΠΈΠΈ ΡΠ΅ΠΌΠΏΠ΅ΡΠ°ΡΡΡΡ. Π‘ 1880 Π³ΠΎΠ΄Π° ΡΡΠΎΠ²Π΅Π½Ρ ΠΌΠΎΡΡ ΠΏΠΎΠ²ΡΡΠΈΠ»ΡΡ Π½Π° 20 ΡΠ°Π½ΡΠΈΠΌΠ΅ΡΡΠΎΠ², ΠΈ ΡΡΠΎΡ ΠΏΡΠΎΡΠ΅ΡΡ ΠΏΡΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅ΡΡΡ, Ρ Π΅ΠΆΠ΅Π³ΠΎΠ΄Π½ΡΠΌ ΡΠ²Π΅Π»ΠΈΡΠ΅Π½ΠΈΠ΅ΠΌ Π½Π° 3,3 ΠΌΠΈΠ»Π»ΠΈΠΌΠ΅ΡΡΠ°.
ΠΡΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΡ ΠΈΠΌΠ΅ΡΡ ΡΠ΅ΡΡΠ΅Π·Π½ΡΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΡΡΠ²ΠΈΡ Π΄Π»Ρ ΡΠΊΠΎΡΠΈΡΡΠ΅ΠΌ, ΠΊΠ»ΠΈΠΌΠ°ΡΠ° ΠΈ ΡΠ΅Π»ΠΎΠ²Π΅ΡΠ΅ΡΠΊΠΎΠ³ΠΎ ΠΎΠ±ΡΠ΅ΡΡΠ²Π°. Π’Π°ΡΠ½ΠΈΠ΅ Π»Π΅Π΄Π½ΠΈΠΊΠΎΠ² ΠΏΡΠΈΠ²ΠΎΠ΄ΠΈΡ ΠΊ ΠΏΠΎΠ²ΡΡΠ΅Π½ΠΈΡ ΡΡΠΎΠ²Π½Ρ ΠΌΠΎΡΡ, ΡΡΠΎ ΠΌΠΎΠΆΠ΅Ρ ΠΏΡΠΈΠ²Π΅ΡΡΠΈ ΠΊ Π·Π°ΡΠΎΠΏΠ»Π΅Π½ΠΈΡ ΠΏΡΠΈΠ±ΡΠ΅ΠΆΠ½ΡΡ
ΡΠ΅ΡΡΠΈΡΠΎΡΠΈΠΉ ΠΈ ΠΎΡΡΡΠΎΠ²ΠΎΠ², Π° ΡΠ°ΠΊΠΆΠ΅ ΠΊ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΡ Π²ΠΎΠ΄Π½ΡΡ
ΡΠ΅ΡΡΡΡΠΎΠ² ΠΈ ΠΊΠ»ΠΈΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΈΡ
ΠΏΠ°ΡΡΠ΅ΡΠ½ΠΎΠ².
ΠΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΏΠ΅ΡΠ²ΡΠΉ ΠΎΡΠ²Π΅Ρ ΠΌΠΎΠ΄Π΅Π»ΠΈ relevant_indexes
(JSON), ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ½ΡΡΡ Π½Π°ΡΠ»Π° Π»ΠΈ ΠΌΠΎΠ΄Π΅Π»Ρ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ Π² Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ°Ρ
ΠΈΠ»ΠΈ Π½Π΅Ρ, ΠΎΠ½Π° ΠΎΠ±ΡΡΠ΅Π½Π° Π²ΠΎΠ·Π²ΡΠ°ΡΠ°ΡΡ ΠΏΡΡΡΠΎΠΉ ΠΌΠ°ΡΡΠΈΠ² Π΅ΡΠ»ΠΈ Π΅Π΅ Π½Π΅Ρ ΠΈ Π² ΡΠ°ΠΊΠΎΠΌ ΡΠ»ΡΡΠ°Π΅ ΠΎΠ½Π° Π±ΡΠ΄Π΅Ρ ΠΎΡΠ²Π΅ΡΠ°ΡΡ, ΡΡΠΎ Π½Π΅ ΡΠΌΠΎΠ³Π»Π° Π½Π°ΠΉΡΠΈ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ Π² Π±Π°Π·Π΅ Π·Π½Π°Π½ΠΈΠΉ (ΠΏΡΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ Π²ΡΠΎΡΠΎΠ³ΠΎ ΠΎΡΠ²Π΅ΡΠ°).
ΠΡΠ°Π½ΡΡ ΠΈ ΠΎΠ³ΡΠ°Π½ΠΈΡΠ΅Π½ΠΈΡ
- ΠΠΎΠ΄Π΅Π»Ρ ΠΈΠΌΠ΅Π΅Ρ Π½ΠΈΠ·ΠΊΠΈΠΉ ΡΡΠΎΠ²Π΅Π½Ρ Π±Π΅Π·ΠΎΠΏΠ°ΡΠ½ΠΎΡΡΠΈ ΠΎΡΠ²Π΅ΡΠΎΠ² ΠΈ Π½Π°ΡΠ΅Π»Π΅Π½Π° Π½Π° ΠΏΡΠ°Π²ΠΈΠ»ΡΠ½ΠΎΠ΅ ΠΈ ΠΏΠΎΠ»Π½ΠΎΠ΅ Π²ΡΠΏΠΎΠ»Π΅Π½Π½ΠΈΠ΅ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠΉ, ΠΈΠΌΠ΅ΠΉΡΠ΅ ΡΡΠΎ Π²Π²ΠΈΠ΄Ρ ΠΏΡΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠΈ ΠΈ ΡΠ΅ΡΡΠΈΡΡΠΉΡΠ΅ ΡΠ°ΠΌΠΎΡΡΠΎΡΡΠ΅Π»ΡΠ½ΠΎ. Π§Π°ΡΡΠΈΡΠ½ΠΎ ΡΡΠΎ ΠΈΡΠΏΡΠ°Π²Π»ΡΠ΅ΡΡΡ ΡΠΈΡΡΠ΅ΠΌΠ½ΡΠΌΠΈ ΠΏΡΠΎΠΌΠΏΡΠ°ΠΌΠΈ ΠΈ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΡΠΌΠΈ ΡΠΊΠ°Π·Π°Π½ΠΈΡΠΌΠΈ ΠΎ Π²Π°ΠΆΠ½ΠΎΡΡΠΈ Π±Π΅Π·ΠΎΠΏΠ°ΡΠ½ΠΎΡΡΠΈ Π² ΠΏΡΠΎΠΌΠΏΡΠ΅ ΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΠ΅Π»Ρ.
- Π‘ΠΈΡΡΠ΅ΠΌΠ½ΡΠ΅ ΠΏΡΠΎΠΌΠΏΡΡ Π½Π΅ ΠΏΡΠ΅Π΄Π½Π°Π·Π½Π°ΡΠ΅Π½Ρ Π΄Π»Ρ ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΠΏΠ΅ΡΡΠΎΠ½Π°ΠΆΠ΅ΠΉ, ΠΌΡ ΡΠ΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡΠ΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ ΠΈΡ Π΄Π»Ρ ΡΠΏΠ΅ΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ ΡΡΠΈΠ»Ρ ΠΎΡΠ²Π΅ΡΠ° (Π²ΡΠΎΠ΄Π΅ "answer only in json format"). ΠΡΠΎΠΌΠ΅ ΡΠΎΠ³ΠΎ, ΠΆΠ΅Π»Π°ΡΠ΅Π»ΡΠ½ΠΎ, ΠΏΠΈΡΠ°ΡΡ ΠΈΡ Π½Π° Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΎΠΌ ΡΠ·ΡΠΊΠ΅, ΡΠ°ΠΊ ΠΊΠ°ΠΊ ΡΠ°ΠΊ Π±ΡΠ»ΠΎ Π² Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅, ΠΎΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΎΠ³ΠΎ Π² ΡΠΈΡΡΠ΅ΠΌΠ½ΡΡ ΠΏΡΠΎΠΌΡΠΏΠ°Ρ Π½Π΅ Π·Π°Π²ΠΈΡΠΈΡ ΡΠ·ΡΠΊ ΠΎΡΠ²Π΅ΡΠ°.
- RAG ΡΠ΅ΠΆΠΈΠΌ ΡΡΠ΅Π±ΡΠ΅Ρ ΠΎΠ±ΡΠ·Π°ΡΠ΅Π»ΡΠ½ΠΎΠ³ΠΎ Π½Π°Π»ΠΈΡΠΈΡ ΡΠΈΡΡΠ΅ΠΌΠ½ΠΎΠ³ΠΎ ΠΏΡΠΎΠΌΠΏΡΠ°
GROUNDED_SYSTEM_PROMPT
ΠΎΠΏΠΈΡΠ°Π½ΠΎΠ³ΠΎ Π² ΡΠ΅ΠΊΡΠΈΠΈ ΠΠ°ΠΊ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ RAG. Π’Π°ΠΊ ΠΆΠ΅ ΠΈΠ½ΠΎΠ³Π΄Π° ΠΌΠΎΠ΄Π΅Π»Ρ ΠΌΠΎΠΆΠ΅Ρ Π΄ΠΎΠ±Π°Π²Π»ΡΡΡ ΠΎΠ±ΡΡΡ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΠΈΠ· ΡΠ²ΠΎΠΈΡ Π·Π½Π°Π½ΠΈΠΉ Π² ΠΎΡΠ²Π΅Ρ ΠΊ ΡΠΎΠΉ, ΡΡΠΎ Π΅ΡΡΡ Π² Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ°Ρ . - ΠΠΎΠ΄Π΅Π»Ρ Π»ΡΡΡΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ Ρ Π½ΠΈΠ·ΠΊΠΎΠΉ ΡΠ΅ΠΌΠΏΡΠ΅ΡΠ°ΡΡΡΠΎΠΉ (0.1-0.5), Π° ΡΠ°ΠΆΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ top_k (30-50), ΠΏΡΠΈ ΡΠ΅ΠΌΠΏΠ΅ΡΠ°ΡΡΡΠ΅ 1.0 Π±ΡΠ»ΠΈ Π·Π°ΠΌΠ΅ΡΠ΅Π½Ρ ΡΠ»ΡΡΠ°ΠΉΠ½ΡΠ΅ Π΄Π΅ΡΠ΅ΠΊΡΡ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ.
ΠΠ²ΡΠΎΡΡ
- Sergei Bratchikov, NLP Wanderer, Vikhr Team
- Konstantin Korolev, Vikhr Team
- Aleksandr Nikolich, Vikhr Team
Cite
@inproceedings{nikolich2024vikhr,
title={Vikhr: Constructing a State-of-the-art Bilingual Open-Source Instruction-Following Large Language Model for {Russian}},
author={Aleksandr Nikolich and Konstantin Korolev and Sergei Bratchikov and Igor Kiselev and Artem Shelmanov },
booktitle = {Proceedings of the 4rd Workshop on Multilingual Representation Learning (MRL) @ EMNLP-2024}
year={2024},
publisher = {Association for Computational Linguistics},
url={https://arxiv.org/pdf/2405.13929}
}
- Downloads last month
- 6,700
Model tree for Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24
Base model
mistralai/Mistral-Nemo-Base-2407