DeepSeek predstavuje nový prístup k škálovaniu AI modelov a pripravuje model R2

DeepSeek AI, významný hráč v oblasti veľkých jazykových modelov (LLM), nedávno publikoval novú výskumnú prácu, v ktorej opisuje inovatívnu techniku zameranú na zlepšenie škálovateľnosti všeobecných modelov odmien (GRMs) počas fázy inferencie. Zároveň spoločnosť naznačila príchod svojej ďalšej generácie modelu R2, čo vyvolalo veľké očakávania v rámci AI komunity.

Štúdia s názvom „Inference-Time Scaling for Generalist Reward Modeling“ predstavuje novú metódu, ktorá umožňuje GRM modelom dynamicky generovať princípy a kritiky počas inferencie. Táto technika kombinuje:

  • Rejection Fine-Tuning: Na adaptáciu modelu na správne generovanie princípov.
  • Rule-Based Online Reinforcement Learning: Na ďalšie zlepšenie kvality výstupov.

Cieľom je umožniť efektívne škálovanie inferencie bez potreby tradičného masívneho pretrénovania.

Technika Self-Principled Critique Tuning (SPCT) využíva paralelné samplovanie a hlasovanie medzi viacerými sadami vygenerovaných princípov a kritík. Výsledný výber podporuje tzv. Meta Reward Model (Meta RM), ktorý posudzuje kvalitu výstupov.

Experimenty ukázali, že SPCT výrazne zlepšuje:

  • Kvalitu generovaných odmien,
  • Škálovateľnosť modelov počas inferencie,
  • Výkon na viacerých benchmarkoch bez výrazného zaujatia voči konkrétnemu doménovému prostrediu.

Aj keď súčasná práca sa primárne sústreďuje na škálovanie a optimalizáciu inferencie, zmienky o sérii R1 a aktuálny výskum naznačujú, že DeepSeek R2 je už vo vývoji.

Očakáva sa, že nový model:

  • Bude ešte výraznejšie využívať reinforcement learning,
  • Integruje poznatky z oblasti dynamického generovania odmien,
  • Prinesie pokročilé schopnosti sebahodnotenia a plánovania.

Komunita AI s napätím očakáva ďalšie informácie, keďže DeepSeek ukazuje cestu k inteligentnejším a sebazdokonaľujúcim sa modelom.

DeepSeek AI opäť potvrdzuje svoju vedúcu pozíciu v oblasti inovácií veľkých jazykových modelov. Technika SPCT a blížiaci sa model R2 naznačujú novú éru škálovania AI systémov, kde bude dôležitá nielen veľkosť modelov, ale aj ich schopnosť efektívne a inteligentne spracovávať informácie v reálnom čase.

Chcete byť informovaní o najnovších AI trendoch a novinkách? Sledujte AIportal.sk a nepremeškajte žiadnu technologickú revolúciu!

Najnovšie články

spot_imgspot_img

Naposledy pridané články

Leave a reply

Please enter your comment!
Please enter your name here

spot_imgspot_img