Výzkumníci z Penn State vyvinuli nový velmi efektivní přístup k tréninku systémů umělé inteligence (AI), inspirovaný způsobem, jakým děti vnímají svět. Tento inovativní přístup využívá poznatků z vývojové psychologie a prostorových informací k efektivnějšímu trénování vizuálních systémů AI. Výsledky ukazují, že AI modely trénované tímto způsobem dosahují výrazně lepších výkonů a mohou připravit cestu pro vývoj pokročilých AI schopných prozkoumávat extrémní a neznámá prostředí.
Inspirace z vývojové psychologie vedla k 15% zlepšení!
V prvních dvou letech života se děti setkávají s omezeným množstvím objektů a tváří. Na druhou stranu tyto objekty a tváře děti dokáží pozorovat z mnoha různých úhlů a za různých světelných podmínek. Tento poznatek inspiroval vědce k vytvoření nového přístupu v oblasti strojového učení, který využívá informace o prostorové poloze k efektivnějšímu trénování vizuálních systémů AI. Zjistili, že modely AI trénované tímto novým způsobem překonaly základní modely až o 14,99 %. Svá zjištění zveřejnili v květnovém čísle časopisu Patterns.
„Současné přístupy v umělé inteligenci využívají k tréninku obrovské množství náhodně promíchaných fotografií z internetu. Naše strategie je naopak informována vývojovou psychologií, která studuje, jak děti vnímají svět,“ uvedla Lizhen Zhu, hlavní autorka studie a doktorandka na College of Information Sciences and Technology v Penn State.
Obrázek 1 – DALL-E 3: Malý robot uprostřed světa hraček
Využití algoritmu kontrastního učení
Vědci tak vyvinuli nový algoritmus kontrastního učení, typ metody samořízeného učení, při kterém se systém AI učí detekovat vizuální vzory a identifikovat, kdy jsou dva obrázky deriváty stejného základního obrázku (tzn. dva obrázky stejného objektu jen z jiných úhlů), čímž vzniká pozitivní pár. Tyto algoritmy však často považují obrázky stejného objektu pořízené z různých úhlů za samostatné entity místo pozitivních párů. V praxi se tak dva obrázky stejného stolu vyfoceného z dvou různých úhlů jeví algoritmu jako 2 odlišné stoly. Zohlednění environmentálních dat, včetně polohy, umožňuje systému AI překonat tyto výzvy a detekovat pozitivní páry bez ohledu na změny v pozici nebo rotaci kamery, úhlu osvětlení nebo ohniskové vzdálenosti.
„Předpokládáme, že vizuální učení kojenců závisí na vnímání polohy. Abychom vytvořili egocentrický dataset s prostorově-časovými informacemi, vytvořili jsme virtuální prostředí na platformě ThreeDWorld, což je interaktivní 3D fyzikální simulační prostředí s vysokou věrností. To nám umožnilo manipulovat a měřit polohu kamer tak, jako by dítě procházelo domem,“ dodala Zhu.
Obrázek 2 – DALL-E 3: Malé dítě uprostřed světa hraček
Simulační prostředí a experimenty vedly k 99,35% úspěšnosti!
Vědci vytvořili tři simulační prostředí – House14K, House100K a Apartment14K, přičemž ’14K‘ a ‚100K‘ označují přibližný počet vzorových obrázků pořízených v každém prostředí. Písmeno „K“ zde znamená tisíc. Poté vědci spustili základní modely kontrastního učení a modely s novým algoritmem třikrát v těchto simulacích, aby zjistili, jak dobře klasifikují obrázky. Tým zjistil, že modely trénované jejich algoritmem překonaly základní modely v různých úlohách. Například v úloze rozpoznání místnosti ve virtuálním bytě dosáhl vylepšený model průměrně 99,35% úspěšnosti, což znamená zlepšení o 14,99 % oproti základnímu modelu. Tyto nové datasety jsou k dispozici pro trénink ostatních vědců na webu http://www.child-view.com./.
„Pro modely je vždy obtížné učit se v novém prostředí s malým množstvím dat. Naše práce představuje jeden z prvních pokusů o energeticky efektivnější a flexibilnější trénink AI pomocí vizuálního obsahu,“ uvedl James Wang, významný profesor informačních věd a technologií a poradce Zhu.
Jaké jsou výhledy do budoucna?
Výzkum má podle vědců důsledky pro budoucí vývoj pokročilých AI systémů, které budou schopny navigovat a učit se z nových prostředí. „Tento přístup by byl zvláště užitečný v situacích, kdy tým autonomních robotů s omezenými zdroji potřebuje naučit se navigovat v naprosto neznámém prostředí,“ řekl Wang. „Abychom připravili cestu pro budoucí aplikace, plánujeme zdokonalit náš model, aby lépe využíval prostorové informace a zahrnoval rozmanitější prostředí.“
Na studii se podíleli také spolupracovníci z katedry psychologie a katedry informatiky a inženýrství Penn State. Tato práce byla podpořena Národní vědeckou nadací USA a Institutem pro výpočetní a datové vědy v Penn State.
Shrnutí
- Výzkum z Penn State navrhl nový přístup k tréninku AI inspirovaný vizuálním vjemem dětí.
- AI modely trénované na tomto přístupu překonaly základní modely až o 14,99 %.
- Tým vyvinul nový algoritmus kontrastního učení využívající prostorová data.
- Výzkum má významné důsledky pro budoucí vývoj pokročilých AI systémů schopných učit se a navigovat v nových prostředích.
Zdroj:
- ScienceDaily. (2024, May 31). Children’s visual experience may hold key to better computer vision training. ScienceDaily. https://www.sciencedaily.com/releases/2024/05/240531145021.htm







