Naše vnímání světa je velmi komplexní proces, při němž naše mozky nepřetržitě interpretují vnímají a interpretují smyslové signály. Díky tomu jsme schopní přeměnit tlakové vlny na zvuk, který slyšíme a elektromagnetické vlny (ne všechny) na obraz, který vidíme. A ačkoli nám svět může připadat plynulý a srozumitelný, procesy, díky nimž mozky převádějí neustálý proud informací na srozumitelné obrazy, jsou stále ve fázi výzkumu a vědeckého bádání.
V technologickém sektoru však neustále přichází nové objevy, které nám pomáhají lépe rozumět těmto komplexním mechanismům. Posledním významným krokem v tomto směru je oznámení od firmy Meta.
S využitím magnetencefalografie (MEG) – neinvazivní techniky měřící mozkovou aktivitu tisíckrát za sekundu – se Meta pustila do vývoje AI. Pro ty, kdo s tímto pojmem nejsou seznámeni, magnetencefalografie detekuje magnetická pole vytvořená elektrickou aktivitou mozkových buněk. V praxi jsme tak schopní detekovat mozkovou aktivitu, která se projevuje elektrickou aktivitou. Díky této elektrice, a tedy vzniklým elektrickým přenosům se tvoří magnetické pole. To pak lze pomocí MEG snímat a získávat z něj informace. A právě díky tomuto přístupu je nyní možné analyzovat proces, jímž mozek tvoří vizuální obrazy, s nevídanou přesností a rychlostí.
Obrázek 1 – Záznamy MEG jsou průběžně vyrovnávány s hlubokou reprezentací obrazů, která pak může v každém okamžiku podmiňovat generování obrazů. Zdroj: Meta blog
Spásné řešení pro hendikepované
Tento průlom by mohl odkrýt nové možnosti v oblasti umělé inteligence a neurověd. Je však třeba zdůraznit, že ačkoli se bezpochyby jedná o významný pokrok, stále zde zbývá mnoho otázek ohledně fungování našeho mozku.
AI systém, o kterém je řeč, má schopnost rekonstruovat obrázky v reálném čase, jak jsou vnímány a zpracovány mozkem. Tento pokrok nabízí vědecké komunitě vzácný vhled do toho, jak jsou obrázky v mozku zakódovány a jak tvoří základy lidského vnímání a inteligence. V dlouhodobém výhledu by tento systém mohl položit základy pro vývoj neinvazivních mozkových rozhraní v klinickém kontextu, jež by mohly přinést řešení pro ty, kteří ztratili komunikační schopnosti v důsledku mozkového poškození.
Uplatnění modelu v praxi
Jde o aplikaci nedávno vyvinuté architektury pro dekódování vnímání řeči z MEG signálů. Systém se skládá ze tří částí: kódovače obrazu, kódovače mozku a dekodéru obrazu. Kodér obrazu má za úkol vytvářet komplexní reprezentace obrázku nezávisle na mozkových signálech. Následně kodér mozku vytváří propojení mezi MEG signály a těmito reprezentacemi obrazů. A konečně, dekodér obrazu rekonstruuje pravděpodobný výstupní obraz na základě mozkových reprezentací.
MEG záznamy jsou průběžně koordinovány s detailními reprezentacemi obrázků, což umožňuje generování obrazů v reálném čase.
Tuto architektonickou strukturu je vytvářena na základě veřejně dostupného datasetu MEG, který byl získán od zdravých lidských subjektů. Tento dataset byl zveřejněn společností Things, což je mezinárodní konsorcium akademických vědců, kteří sdílejí experimentální data vycházející z jednotné databáze obrázků.
Podobnost lidskému oku
V úvodní fázi studie byla zkoumána efektivita dekódování s využitím různých předtrénovaných modulů pro obrazové zpracování. Zjistilo se, že mozkové signály nejvíce korespondují s vyspělými AI modely určenými pro počítačové vidění, například s DINOv2. Tento model představuje novou samo-supervizní architekturu, která má schopnost osvojovat si komplexní vizuální struktury bez nutnosti jakýchkoli anotací od lidí. Tyto poznatky implikují, že samo-supervizní metody vedení AI k vytváření obrazových reprezentací, které se podobají těm lidským. Jinak řečeno, umělé neurony v těchto modelech reagují na vizuální informace způsobem srovnatelným s biologickými neurony v našem mozku.
Na obrazech můžeme vidět rozdíl mezi tím, co dobrovolní účastníci skutečně vnímají (zobrazeno vlevo) a vizuálními reprezentacemi dekódovanými z MEG aktivity (zobrazeno vpravo). Každý obrázek je účastníkovi prezentován v intervalu přibližně 1,5 sekundy.
Zajímavým aspektem je schopnost těchto AI systémů vytvářet obrazy, které odpovídají tomu, co subjekty skutečně vnímají v průběhu měření. Ačkoliv analýza ukazuje, že kvalita obrazu je lepší, když je dekódován s využitím funkční magnetické rezonance (fMRI), MEG dekodér nám nabízí možnost kontinuálního sledování, tedy nepřetržitého toku obrazů, vytvořených z mozkové aktivity.
Problém s nízkoúrovňovými detaily
I když vizuální reprezentace generované tímto AI systémem nejsou bezchybné, názorně demonstrují, že rekonstruované obrazy obsahují informace na vyšší úrovni, jako jsou kategorie objektů. Avšak systém občas vykazuje nepřesnosti v detailních, nízkoúrovňových informacích, což se projevuje například ve špatném umístění nebo orientaci objektů v těchto reprezentacích. Po prozkoumání datasetu Natural Scene bylo zjištěno, že obrazy vytvořené dekódováním pomocí MEG nejsou tak přesné jako ty získané prostřednictvím fMRI. Ačkoliv je fMRI pomalejší metoda, nabízí mnohem jemnější prostorové rozlišení, což ji činí v oblasti neuroobrazování přesnější.
Celkově výsledky společnosti Meta ukazují, že MEG může být použito k rozluštění složitých reprezentací generovaných v mozku s milisekundovou přesností. Obecněji tento výzkum posiluje dlouhodobou výzkumnou iniciativu společnosti Meta k pochopení základů lidské inteligence, identifikaci jejích podobností i rozdílů ve srovnání s aktuálními algoritmy strojového učení a konečně k navádění vývoje AI systémů navržených k učení a uvažování jako lidé.
V širším kontextu tato práce představuje další krok v dlouhodobé výzkumné iniciativě společnosti Meta zaměřené na prozkoumávání základů lidského myšlení a vnímání. Je zajímavé pozorovat, jak se lidská inteligence srovnává s moderními algoritmy strojového učení. Zjištění z tohoto výzkumu mohou pomoci identifikovat klíčové podobnosti a rozdíly mezi lidským myšlením a algoritmickým zpracováním. Pakliže vás téma zajímá více do hloubky, doporučuji se podívat na zveřejněnou dokumentaci: image-decoding (meta.com)
Shrnutí
- Firma Meta vyvíjí technologii pomocí magnetencefalografie (MEG) k dekódování vizuálního vnímání z mozkové aktivity.
- Nový AI systém umožňuje rekonstrukci obrázků v reálném čase, jak jsou vnímány mozkem, což nabízí vzácný vhled do zakódování obrazů v mozku.
- Systém však má potíže s detailním a nízkoúrovňovým dekódováním v porovnání s technologií fMRI.
- Výsledky podporují Meta ve výzkumu lidské inteligence a hledání podobností a rozdílů mezi lidským vnímáním a AI.