Umelá inteligencia sa učí prepájať zrak a sluch - bez zásahu človeka

Umelá inteligencia napreduje míľovými krokmi – a teraz sa učí vnímať svet podobne ako ľudia: kombináciou sluchu a zraku. Výskumníci z MIT, Goethe University a IBM Research predstavili model CAV-MAE Sync, ktorý dokáže automaticky spárovať obrazové a zvukové dáta z videí – bez toho, aby potreboval akékoľvek ľudské označenia. Výsledok? Presnejšie vyhľadávanie videí, lepšie rozpoznávanie scén a krok bližšie k AI, ktorá rozumie svetu ako človek.

Ako sa učí AI prepájať obraz a zvuk?

Ľudia dokážu prirodzene spojiť vizuálne a akustické informácie. Keď napríklad sledujeme hudobníka pri hre na čelo, vieme intuitívne priradiť pohyb ruky k zvuku nástroja. Presne o to sa snaží aj nový model CAV-MAE Sync – strojové učenie, ktoré sa inšpiruje ľudským vnímaním.

Model sa trénuje na neoznačených videozáznamoch – bez akýchkoľvek manuálnych vstupov. Vďaka jemne upravenému tréningovému postupu dokáže nájsť jemné súvislosti medzi konkrétnym snímkom videa a práve prebiehajúcim zvukom.

Kľúčové inovácie modelu CAV-MAE Sync

Na rozdiel od predchádzajúceho modelu CAV-MAE, ktorý spracovával audio a video ako jeden celok (napr. celých 10 sekúnd), nová verzia rozdeľuje zvuk na menšie časové úseky a k nim priraďuje konkrétne video snímky.

🔹 Finer-grained synchronizácia: Každý snímok je spojený len so zvukom, ktorý sa v tom čase prehráva – čím vzniká presnejšie zladenie.

🔹 Dva nové typy tokenov:

Globálne tokeny pomáhajú pri kontrastívnom učení (hľadanie podobností)
Register tokeny slúžia na rekonštrukciu dát a zameranie na dôležité detaily

🔹 Dvojitý cieľ učenia: Model sa učí nielen rozpoznávať podobnosti medzi zvukom a obrazom, ale aj rekonštruovať dáta z užívateľských dopytov – v praxi to vedie k presnejším výsledkom.

Výsledky, ktoré hovoria za všetko

CAV-MAE Sync dosiahol vyššiu presnosť pri vyhľadávaní videí podľa zvuku a rozpoznávaní audiovizuálnych scén (napr. štekanie psa, hranie na nástroj) ako predchádzajúce modely. Navyše porazil aj komplexnejšie modely, ktoré potrebujú viac trénovacích dát.

👉 Príklad z praxe: Model dokáže automaticky priradiť zvuk zatvárajúcich sa dverí k presnému momentu vo videu, kde sa dvere zavrú – bez potreby akéhokoľvek ľudského zásahu.

Budúcnosť: Od médií po robotiku

Táto technológia má široký potenciál využitia:

🎬 Kurátorstvo obsahu – Automatizované párovanie audio a video klipov pre žurnalistiku, filmy alebo tvorbu archívov
🤖 Robotika – Pomoc robotom lepšie rozumieť svojmu okoliu na základe zvuku aj obrazu
🎧 Multimodálne vyhľadávanie – Hľadanie videí podľa zvukového záznamu alebo naopak

A to je len začiatok. Tím plánuje rozšíriť model o prácu s textom – čo by mohlo viesť k multimodálnemu veľkému jazykovému modelu, ktorý kombinuje zvuk, obraz a slovo do jedného AI systému.

Model CAV-MAE Sync je dôkazom, že aj jednoduché vylepšenia v architektúre a tréningu môžu výrazne zlepšiť výsledky. Jeho schopnosť prepájať zvuk a obraz bez ľudskej pomoci nás posúva o krok bližšie k AI, ktorá „vníma“ svet podobne ako človek.

🗣️ Ako to zhrnul výskumník Andrew Rouditchenko z MIT:
„Budujeme AI systémy, ktoré spracúvajú svet ako ľudia – zrakom a sluchom zároveň.“

Chceš, aby sa o tomto pokroku dozvedeli aj tvoji kolegovia alebo priatelia?
📩 Zdieľaj tento článok a sleduj ďalšie AI novinky s nami!