Ainovinky.cz
Váš přístup k informacím o umělé inteligenci...
  • Hlavní stránka
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
Výsledek nenalezen
Zobrazit všechny výsledky
AI Nástroje
Ainovinky.cz
  • Hlavní stránka
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
Výsledek nenalezen
Zobrazit všechny výsledky
Ainovinky.cz
Výsledek nenalezen
Zobrazit všechny výsledky

Revoluční využití velkých jazykových modelů pro navigaci robotů bez potřeby vizuálních dat

Od David Kovář
22 června, 2024
Kategorie: Novinky
DALL-E 3: malý robot

Představte si, že váš domácí robot jednou bude moci snést hromadu špinavého prádla do pračky umístěné v rohu sklepa. Nebo mu jednoduše zavoláte, aby vám doma zametl a zalil kytky, když budete na dovolené. Jednoduché to samozřejmě není, robot musí zkombinovat vaše pokyny s vizuálními pozorováními, aby určil jednotlivé kroky potřebné k dokončení tohoto úkolu. 

Tj. v našem případě by nejprve musel rozeznat kropáček, který by musel jemně uchopit, nalít do něj vodu z kohoutku, kterou by opětovně zavřel, a poté by v mírném náklonu zalil orchidej na okně bez jakéhokoli přelití. Pro nás je to denní chleba, ale pro často nemotorného robota, to je vskutku obtížný úkol.

Tyto dnešní přístupy řešení problému často využívají několik ručně vytvořených modelů strojového učení, které se zaměřují na různé části úkolu, což vyžaduje velké množství lidského úsilí a odborných znalostí. Tyto metody, které používají vizuální reprezentace k přímému rozhodování o navigaci, potřebují obrovské množství vizuálních dat pro trénink, která často nejsou snadno dostupná.

Aby překonali tyto výzvy, výzkumníci z MIT a MIT-IBM Watson AI Lab vyvinuli navigační metodu, která převádí vizuální reprezentace do jazykových prvků, které jsou následně zpracovány velkým jazykovým modelem, jenž zvládá všechny části navigačního úkolu.

Jazykové popisy místo vizuálních dat

Namísto kódování vizuálních prvků z obrazů okolí robota jako vizuálních reprezentací, což je výpočetně náročné, jejich metoda vytváří textové popisy, které popisují pohled robota. Velký jazykový model používá tyto popisy k předpovědi akcí, které by měl robot podniknout, aby splnil uživatelské pokyny. Tedy zalít orchidej.

Protože jejich metoda využívá čistě jazykové reprezentace, mohou použít velký jazykový model k efektivnímu generování obrovského množství syntetických tréninkových dat.

Ačkoli tento přístup neporáží techniky, které používají vizuální prvky, vykazuje dobré výsledky v situacích, kde není k dispozici dostatek vizuálních dat pro trénink. Výzkumníci zjistili, že kombinace jejich jazykových vstupů s vizuálními signály vede k lepší navigační výkonnosti.

„Použitím čistě jazykových reprezentací je náš přístup přímější. Vzhledem k tomu, že všechny vstupy mohou být kódovány jako jazyk, můžeme generovat trajektorie srozumitelné pro člověka,“ říká Bowen Pan, doktorand elektrotechniky a informatiky (EECS) a hlavní autor studie.

A robot holding a broom in a living room

Description automatically generated

Obrázek 1 – DALL-E 3: Robot zametá

Řešení vizuálního problému pomocí lidského jazyka

Jelikož jsou velké jazykové modely nejsilnějšími modely strojového učení, výzkumníci se rozhodli je zapojit do složitého úkolu známého jako navigace pomocí vizuálních a jazykových údajů. Tyto modely však přijímají textové vstupy a nemohou zpracovávat vizuální data z kamery robota. Tým tedy potřeboval najít způsob, jak využít jazyk.

Při hledání tak vyvinuli techniku, která využívá jednoduchý model popisování. Ten získává textové popisy vizuálních pozorování robota. Tyto popisy jsou kombinovány s jazykovými pokyny a zpracovány velkým jazykovým modelem, který rozhoduje o dalším navigačním kroku robota.

Velký jazykový model vytvoří popis scény, kterou by měl robot vidět po dokončení tohoto kroku. Tento popis se používá k aktualizaci historie trajektorie, takže robot může sledovat, kde se nachází. Model opakuje tyto procesy a vytváří trajektorii, která vede robota k cíli, krok za krokem. Aby proces zefektivnili, výzkumníci navrhli šablony, aby byly informace o pozorování předkládány modelu ve standardní formě – jako série možností, které může robot udělat na základě svého okolí.

Například popis může znít: „na vašem 30stupňovém levém boku jsou dveře s květináčem vedle nich, za vámi je malá kancelář s pracovním stolem a počítačem,“ atd. Model rozhoduje, zda by se robot měl přesunout k dveřím nebo ke kanceláři. „Jednou z největších výzev bylo zjistit, jak správně zakódovat tento typ informací do jazyka, aby agent pochopil, jaký je úkol a jak by měl reagovat,“ říká Pan.

A robot cooking in a kitchen

Description automatically generated

Obrázek 2 – DALL-E 3: Robot v kuchyni

Proč je využití jazyk pro navigaci tak efektivní?

Při testování tohoto přístupu, i když nemohl překonat techniky založené na vizuálních prvcích, zjistili, že nabízí hned několik výhod. Za prvé, jelikož text vyžaduje méně výpočetních zdrojů než komplexní obrazová data, jejich metoda může být použita k rychlému generování syntetických tréninkových dat. V jednom testu vygenerovali 10 000 syntetických trajektorií na základě 10 reálných vizuálních trajektorií.

Tato technika může také překlenout propast, která brání agentům trénovaným v simulovaném prostředí dosáhnout dobrých výkonů ve skutečném světě. Tato propast často vzniká, protože počítačově generované obrazy se mohou výrazně lišit od reálných scén kvůli prvkům jako osvětlení nebo barva. Na rozdíl od toho jsou textové popisy syntetických a reálných obrazů mnohem podobnější, což usnadňuje jejich využití, vysvětluje Pan. Také reprezentace, které jejich model používá, jsou pro člověka srozumitelnější, protože jsou napsány v přirozeném jazyce. 

„Pokud agent nedosáhne svého cíle, můžeme snadněji určit, kde selhal a proč selhal. Možná nejsou dostatečně jasné informace o historii nebo při pozorování se ignorují nějaké důležité detaily,“ říká Pan. Navíc jejich metoda může být snadněji aplikována na různé úkoly a prostředí, protože používá pouze jeden typ vstupu. Pokud mohou být data zakódována jako jazyk, mohou použít stejný model bez jakýchkoli úprav.

Ne vše je tak růžové, jak se zdá…

Jednou nevýhodou je, že jejich metoda přirozeně ztrácí některé informace, které by byly zachyceny modely založenými na vizuálních prvcích, jako například informace o prostorové hloubce. Výzkumníci však byli překvapeni, když zjistili, že kombinace jazykových reprezentací s vizuálními metodami zlepšuje schopnost navigace agenta.

„Možná to znamená, že jazyk může zachytit nějaké vyšší úrovně informací, které nelze zachytit pomocí čistých vizuálních prvků,“ říká.

Toto je oblast, kterou chtějí výzkumníci dále zkoumat. Také chtějí vyvinout navigačně orientovaného popisovatele, který by mohl zvýšit výkon metody. Kromě toho chtějí prozkoumat schopnost velkých jazykových modelů projevovat prostorové povědomí a zjistit, jak by to mohlo pomoci při navigaci založené na jazyce.

Shrnutí:

  1. Nová metoda využívá jazykové popisy místo vizuálních dat pro navigaci robotů.
  2. Tento přístup umožňuje rychle generovat syntetická tréninková data s menšími nároky na výpočetní zdroje.
  3. Kombinace jazykových a vizuálních vstupů zlepšuje navigační výkon robotů.
  4. Výzkumníci chtějí dále zkoumat prostorové povědomí jazykových modelů pro navigaci.

Zdroj:

  • ScienceDaily. (2024, June 14). Researchers use large language models to help robots navigate. ScienceDaily. https://www.sciencedaily.com/releases/2024/06/240614141929.htm 
Tagy: AIrobot
SdíletTweetOdeslat

Mohlo by Vás zajímat

ChatGPT testuje další novinku: Skupinové chaty!
Novinky

ChatGPT testuje další novinku: Skupinové chaty!

OpenAI spustila v některých regionech pilotní program skupinových chatů v ChatGPT, který umožňuje až dvaceti uživatelům spolupracovat v jedné konverzaci...

Od ainovinky
14 listopadu, 2025
Elon Musk Grokipedia
chatboti

Elon Musk rozjíždí konkurenci pro Wikipedii – Je tu Grokipedie 0.1!

Spuštění úvodní verze AI encyklopedie Grokipedia od Elona Muska rozvířilo debatu o hranicích umělé inteligence a budoucnosti znalostních platforem. Nový...

Od ainovinky
28 října, 2025
ChatGPT osobní problémy
chatboti

OpenAI: Lidé se s ChatGPT velmi často baví i o sebevraždě

Otevřená data o duševním zdraví uživatelů ChatGPT ukazují, že umělá inteligence denně řeší ty nejcitlivější lidské otázky.Společnost OpenAI zveřejnila průlomové...

Od ainovinky
28 října, 2025
Chatgpt Konektory
chatboti

ChatGPT posiluje týmovou práci: Představuje sdílené projekty a inteligentní konektory

OpenAI představuje nové nástroje pro ChatGPT, které usnadňují týmovou spolupráci a zvyšují firemní bezpečnost. Spolupráce na projektech v reálném čase...

Od ainovinky
29 září, 2025
Gemini zrychluje
chatboti

Google zrychluje a zefektivňuje AI modely Gemini!

Společnost Google představila vylepšené verze svých modelů umělé inteligence Gemini 2.5 Flash a Flash-Lite. Výrazně úspornější a inteligentnější modely Technologický...

Od ainovinky
29 září, 2025
Meta ukázala AI brýle Ray-Ban s displejem
Novinky

Meta představila inteligentní AI brýle s displejem za 799 dolarů

Společnost Meta odhalila nové brýle Ray-Ban s displejem, které se ovládají futuristickým náramkem. Revoluce na zápěstí i před očima Generální...

Od ainovinky
18 září, 2025
  • Ovládejte Claude Cowork z telefonu pomocí funkce Dispatch

    Ovládejte Claude Cowork z telefonu pomocí funkce Dispatch

    33 sdílení
    Sdílet 13 Tweet 8
  • Claude kreslí grafy a diagramy přímo v chatu. A zdarma!

    18 sdílení
    Sdílet 7 Tweet 5
  • Perplexity chce nahradit váš počítač umělou inteligencí

    17 sdílení
    Sdílet 7 Tweet 4
  • Muž vytvořil vakcínu proti rakovině pro svého psa – pomohl mu ChatGPT

    13 sdílení
    Sdílet 5 Tweet 3
  • AI agent Perplexity Computer je nově dostupný i pro předplatitele Pro

    21 sdílení
    Sdílet 8 Tweet 5

Oblíbené kategorie

  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní

O nás

  • Kontakt
AI nástroje
Umělá inteligence (AI) pro mnohé představuje budoucnost informatiky, byznysu i každodenního života.Pojďme se společně podívat, jaké jsou současné trendy ve využívání umělé inteligence a co nám může nabídnout do budoucna.
Copyright © 2026 Ainovinky.cz. Všechna práva vyhrazena.
Pod správou Tobynet.cz
  • Hlavní stránka
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
AI Nástroje

Copyright © 2024 Ainovinky.cz. Všechna práva vyhrazena.
Pod správou Tobynet.cz