DeepSeek predstavuje nový model R2 a prelomový prístup SPCT pre škálovanie inferencie

Spoločnosť DeepSeek AI, známa svojimi pokrokmi v oblasti veľkých jazykových modelov (LLM), nedávno zverejnila výskumnú prácu, ktorá predstavuje nový prístup k zlepšeniu škálovateľnosti generálnych modelov odmeňovania (GRM) počas fázy inferencie. Zároveň naznačila príchod svojho ďalšieho modelu R2, čo vyvolalo očakávania v AI komunite.​Synced | AI Technology & Industry Review

V práci s názvom „Inference-Time Scaling for Generalist Reward Modeling“ DeepSeek predstavuje metódu SPCT, ktorá umožňuje GRM dynamicky generovať princípy a kritiky počas inferencie. Tento prístup využíva:​arXiv+2Synced | AI Technology & Industry Review+2Wikipedia+2

  • Rejection Fine-Tuning: Počiatočné doladenie modelu na správne generovanie princípov a kritík.​
  • Pravidlovo založené online posilňovacie učenie: Ďalšia optimalizácia generovania princípov a kritík.​

Cieľom SPCT je zlepšiť škálovateľnosť GRM počas inferencie, čo je kľúčové pre efektívne fungovanie LLM v reálnom čase.​Synced | AI Technology & Industry Review

Tradičné LLM sa spoliehajú na predikciu nasledujúceho tokenu, čo im umožňuje generovať text. Avšak tento prístup môže viesť k krátkozrakým rozhodnutiam bez hlbšieho plánovania. Posilňovacie učenie (RL) poskytuje LLM „vnútorný svetový model“, ktorý im umožňuje simulovať možné výsledky rôznych postupov uvažovania a vybrať najlepšie riešenia.​

Wu Yi, odborný asistent na Inštitúte interdisciplinárnych informačných vied na Tsinghua University, prirovnal vzťah medzi LLM a RL k „multiplikatívnemu vzťahu“. Zatiaľ čo RL vyniká v rozhodovaní, chýba mu porozumenie, ktoré je budované počas predtrénovania LLM. Tento vzťah naznačuje, že len silný základ porozumenia, pamäte a logického uvažovania umožňuje RL plne využiť svoj potenciál pri vytváraní inteligentného agenta.​Synced | AI Technology & Industry Review

Podľa prieskumnej práce „Reinforcement Learning Enhanced LLMs: A Survey“ zahŕňa tréning LLM s RL tri hlavné kroky:​Synced | AI Technology & Industry Review+1arXiv+1

  1. Tréning modelu odmeňovania: Pred doladením sa trénuje model odmeňovania na aproximáciu ľudských preferencií a hodnotenie rôznych výstupov LLM.​
  2. Doladenie na základe preferencií: LLM generuje viacero odpovedí na daný pokyn, ktoré sú hodnotené trénovaným modelom odmeňovania.​
  3. Optimalizácia politiky: Používajú sa techniky RL na aktualizáciu váh modelu na základe skóre preferencií s cieľom zlepšiť generovanie odpovedí.​

Integrácia RL umožňuje LLM dynamicky sa prispôsobovať rôznym skóre preferencií, čím sa prekonávajú obmedzenia jediného, vopred určeného odpovedného modelu.​

Napriek úspechom RL v post-tréningovej fáze existujú výzvy pri jeho škálovaní, najmä kvôli riedkosti odmien. Presné generovanie odmeňovacích signálov je kľúčové. DeepSeek a výskumníci z Tsinghua University sa zamerali na škálovateľnosť a generalizáciu modelov odmeňovania počas inferencie. Ich prístup SPCT zahŕňa:​Synced | AI Technology & Industry Review

  • Paralelné vzorkovanie: Maximalizácia využitia výpočtových zdrojov generovaním viacerých sád princípov a kritík a výberom konečnej odmeny prostredníctvom hlasovania.​
  • Meta model odmeňovania (Meta RM): Trénovaný na usmerňovanie procesu hlasovania a zlepšenie výkonu škálovania.​

Experimentálne výsledky ukázali, že SPCT výrazne zlepšuje kvalitu a škálovateľnosť GRM, prekonávajúc existujúce metódy a modely na viacerých benchmarkoch bez výraznej doménovej zaujatosti.​

Hoci výskumná práca sa zameriava na pokroky v modelovaní odmien a škálovaní počas inferencie, spomenutie série R1 a implicitný pokrok naznačujú, že spoločnosť aktívne vyvíja svoj ďalší model R2. Vzhľadom na dôraz DeepSeek na čisté posilňovacie učenie pri zlepšovaní uvažovania sa očakáva, že R2 bude zahŕňať a stavať na poznatkoch získaných z najnovšieho výskumu o škálovateľných modeloch odmien.​Synced | AI Technology & Industry Review

Najnovšie články

spot_imgspot_img

Naposledy pridané články

Leave a reply

Please enter your comment!
Please enter your name here

spot_imgspot_img