Umelá inteligencia napreduje míľovými krokmi – a teraz sa učí vnímať svet podobne ako ľudia: kombináciou sluchu a zraku. Výskumníci z MIT, Goethe University a IBM Research predstavili model CAV-MAE Sync, ktorý dokáže automaticky spárovať obrazové a zvukové dáta z videí – bez toho, aby potreboval akékoľvek ľudské označenia. Výsledok? Presnejšie vyhľadávanie videí, lepšie rozpoznávanie scén a krok bližšie k AI, ktorá rozumie svetu ako človek.
Ako sa učí AI prepájať obraz a zvuk?
Ľudia dokážu prirodzene spojiť vizuálne a akustické informácie. Keď napríklad sledujeme hudobníka pri hre na čelo, vieme intuitívne priradiť pohyb ruky k zvuku nástroja. Presne o to sa snaží aj nový model CAV-MAE Sync – strojové učenie, ktoré sa inšpiruje ľudským vnímaním.
Model sa trénuje na neoznačených videozáznamoch – bez akýchkoľvek manuálnych vstupov. Vďaka jemne upravenému tréningovému postupu dokáže nájsť jemné súvislosti medzi konkrétnym snímkom videa a práve prebiehajúcim zvukom.
Kľúčové inovácie modelu CAV-MAE Sync
Na rozdiel od predchádzajúceho modelu CAV-MAE, ktorý spracovával audio a video ako jeden celok (napr. celých 10 sekúnd), nová verzia rozdeľuje zvuk na menšie časové úseky a k nim priraďuje konkrétne video snímky.
🔹 Finer-grained synchronizácia: Každý snímok je spojený len so zvukom, ktorý sa v tom čase prehráva – čím vzniká presnejšie zladenie.
🔹 Dva nové typy tokenov:
- Globálne tokeny pomáhajú pri kontrastívnom učení (hľadanie podobností)
- Register tokeny slúžia na rekonštrukciu dát a zameranie na dôležité detaily
🔹 Dvojitý cieľ učenia: Model sa učí nielen rozpoznávať podobnosti medzi zvukom a obrazom, ale aj rekonštruovať dáta z užívateľských dopytov – v praxi to vedie k presnejším výsledkom.
Výsledky, ktoré hovoria za všetko
CAV-MAE Sync dosiahol vyššiu presnosť pri vyhľadávaní videí podľa zvuku a rozpoznávaní audiovizuálnych scén (napr. štekanie psa, hranie na nástroj) ako predchádzajúce modely. Navyše porazil aj komplexnejšie modely, ktoré potrebujú viac trénovacích dát.
👉 Príklad z praxe: Model dokáže automaticky priradiť zvuk zatvárajúcich sa dverí k presnému momentu vo videu, kde sa dvere zavrú – bez potreby akéhokoľvek ľudského zásahu.
Budúcnosť: Od médií po robotiku
Táto technológia má široký potenciál využitia:
🎬 Kurátorstvo obsahu – Automatizované párovanie audio a video klipov pre žurnalistiku, filmy alebo tvorbu archívov
🤖 Robotika – Pomoc robotom lepšie rozumieť svojmu okoliu na základe zvuku aj obrazu
🎧 Multimodálne vyhľadávanie – Hľadanie videí podľa zvukového záznamu alebo naopak
A to je len začiatok. Tím plánuje rozšíriť model o prácu s textom – čo by mohlo viesť k multimodálnemu veľkému jazykovému modelu, ktorý kombinuje zvuk, obraz a slovo do jedného AI systému.
Model CAV-MAE Sync je dôkazom, že aj jednoduché vylepšenia v architektúre a tréningu môžu výrazne zlepšiť výsledky. Jeho schopnosť prepájať zvuk a obraz bez ľudskej pomoci nás posúva o krok bližšie k AI, ktorá „vníma“ svet podobne ako človek.
🗣️ Ako to zhrnul výskumník Andrew Rouditchenko z MIT:
„Budujeme AI systémy, ktoré spracúvajú svet ako ľudia – zrakom a sluchom zároveň.“
Chceš, aby sa o tomto pokroku dozvedeli aj tvoji kolegovia alebo priatelia?
📩 Zdieľaj tento článok a sleduj ďalšie AI novinky s nami!

Zdroj: https://news.mit.edu



