
Spoločnosť DeepSeek AI, známa svojimi pokrokmi v oblasti veľkých jazykových modelov (LLM), nedávno zverejnila výskumnú prácu, ktorá predstavuje nový prístup k zlepšeniu škálovateľnosti generálnych modelov odmeňovania (GRM) počas fázy inferencie. Zároveň naznačila príchod svojho ďalšieho modelu R2, čo vyvolalo očakávania v AI komunite.Synced | AI Technology & Industry Review
Nový prístup: Self-Principled Critique Tuning (SPCT)
V práci s názvom „Inference-Time Scaling for Generalist Reward Modeling“ DeepSeek predstavuje metódu SPCT, ktorá umožňuje GRM dynamicky generovať princípy a kritiky počas inferencie. Tento prístup využíva:arXiv+2Synced | AI Technology & Industry Review+2Wikipedia+2
- Rejection Fine-Tuning: Počiatočné doladenie modelu na správne generovanie princípov a kritík.
- Pravidlovo založené online posilňovacie učenie: Ďalšia optimalizácia generovania princípov a kritík.
Cieľom SPCT je zlepšiť škálovateľnosť GRM počas inferencie, čo je kľúčové pre efektívne fungovanie LLM v reálnom čase.Synced | AI Technology & Industry Review
Posilňovacie učenie a jeho význam pre LLM
Tradičné LLM sa spoliehajú na predikciu nasledujúceho tokenu, čo im umožňuje generovať text. Avšak tento prístup môže viesť k krátkozrakým rozhodnutiam bez hlbšieho plánovania. Posilňovacie učenie (RL) poskytuje LLM „vnútorný svetový model“, ktorý im umožňuje simulovať možné výsledky rôznych postupov uvažovania a vybrať najlepšie riešenia.
Wu Yi, odborný asistent na Inštitúte interdisciplinárnych informačných vied na Tsinghua University, prirovnal vzťah medzi LLM a RL k „multiplikatívnemu vzťahu“. Zatiaľ čo RL vyniká v rozhodovaní, chýba mu porozumenie, ktoré je budované počas predtrénovania LLM. Tento vzťah naznačuje, že len silný základ porozumenia, pamäte a logického uvažovania umožňuje RL plne využiť svoj potenciál pri vytváraní inteligentného agenta.Synced | AI Technology & Industry Review
Proces tréningu LLM s posilňovacím učením
Podľa prieskumnej práce „Reinforcement Learning Enhanced LLMs: A Survey“ zahŕňa tréning LLM s RL tri hlavné kroky:Synced | AI Technology & Industry Review+1arXiv+1
- Tréning modelu odmeňovania: Pred doladením sa trénuje model odmeňovania na aproximáciu ľudských preferencií a hodnotenie rôznych výstupov LLM.
- Doladenie na základe preferencií: LLM generuje viacero odpovedí na daný pokyn, ktoré sú hodnotené trénovaným modelom odmeňovania.
- Optimalizácia politiky: Používajú sa techniky RL na aktualizáciu váh modelu na základe skóre preferencií s cieľom zlepšiť generovanie odpovedí.
Integrácia RL umožňuje LLM dynamicky sa prispôsobovať rôznym skóre preferencií, čím sa prekonávajú obmedzenia jediného, vopred určeného odpovedného modelu.
Výzvy a riešenia pri škálovaní RL pre LLM
Napriek úspechom RL v post-tréningovej fáze existujú výzvy pri jeho škálovaní, najmä kvôli riedkosti odmien. Presné generovanie odmeňovacích signálov je kľúčové. DeepSeek a výskumníci z Tsinghua University sa zamerali na škálovateľnosť a generalizáciu modelov odmeňovania počas inferencie. Ich prístup SPCT zahŕňa:Synced | AI Technology & Industry Review
- Paralelné vzorkovanie: Maximalizácia využitia výpočtových zdrojov generovaním viacerých sád princípov a kritík a výberom konečnej odmeny prostredníctvom hlasovania.
- Meta model odmeňovania (Meta RM): Trénovaný na usmerňovanie procesu hlasovania a zlepšenie výkonu škálovania.
Experimentálne výsledky ukázali, že SPCT výrazne zlepšuje kvalitu a škálovateľnosť GRM, prekonávajúc existujúce metódy a modely na viacerých benchmarkoch bez výraznej doménovej zaujatosti.
Očakávania od modelu DeepSeek R2
Hoci výskumná práca sa zameriava na pokroky v modelovaní odmien a škálovaní počas inferencie, spomenutie série R1 a implicitný pokrok naznačujú, že spoločnosť aktívne vyvíja svoj ďalší model R2. Vzhľadom na dôraz DeepSeek na čisté posilňovacie učenie pri zlepšovaní uvažovania sa očakáva, že R2 bude zahŕňať a stavať na poznatkoch získaných z najnovšieho výskumu o škálovateľných modeloch odmien.Synced | AI Technology & Industry Review
