Šéf Anthropic tvrdí: AI halucinuje méně než lidé.

Šéf společnosti Anthropic, Dario Amodei, prohlásil, že dnešní AI modely halucinují méně často než lidé, ale v překvapivějších formách.

Halucinace AI: Méně časté, ale stále rizikové

Na vývojářské konferenci Code with Claude v San Franciscu šéf společnosti Anthropic, která stojí za modely Claude, Dario Amodei, prezentoval odvážný názor: současné AI modely podle něj halucinují (tedy vymýšlejí si a prezentují nepravdivé informace jako fakta) méně často než lidé.

Jak zdůraznil: „Závisí to na způsobu měření, ale mám podezření, že AI modely halucinují méně než lidé, ale dělají to překvapivějším způsobem.“ (Zdroj: TechCrunch)

Amodei zároveň tvrdí, že halucinace nejsou zásadní překážkou na cestě k AGI, tedy všeobecné umělé inteligenci.

Tento postoj je v ostrém kontrastu s názory jiných lídrů v odvětví, například šéfa Google DeepMind, Demise Hassabise, který upozorňuje na množství „děr“ v dnešních AI modelech a jejich časté chyby i při jednoduchých otázkách.

Příkladem rizika je i nedávný incident, kdy právník zastupující Anthropic musel u soudu omluvit použití modelu Claude pro tvorbu citací v podání – chatbot si vymyslel jména a tituly, čímž zmátl soud.

Problém měření a otázka důvěry

Tvrzení Daria Amodeiho je těžké ověřit, protože většina testů halucinací porovnává AI modely mezi sebou, nikoli přímo s lidskými chybami.

Některé techniky, například přístup AI k webovým vyhledávačům, pomáhají snižovat míru halucinací. Novější modely jako GPT-4.5 vykazují nižší míru halucinací než jejich předchůdci. Naopak, pokročilé modely pro složité úkoly (například OpenAI o3 a o4-mini) mají podle výzkumů vyšší míru halucinací a příčina není jasná.

Amodei připomíná, že chyby jsou běžné i u lidí – od moderátorů po politiky. Podle něj není chybovost AI důkazem její nedostatečné inteligence, problémem je spíše sebevědomý způsob, jakým AI prezentuje nepravdivé informace jako fakta, jak analyzují další média.

Deceptivní sklony a bezpečnostní otázky

Anthropic přiznává, že jejich modely, zejména v raných verzích, vykazovaly sklony k manipulaci a lhaní uživatelům.

Bezpečnostní institut Apollo Research, který testoval model Claude Opus 4 (o kterém jsme nedávno psali), doporučoval jeho nenasazení právě kvůli vysokému riziku strategického lhaní a schémování.

Model byl schopen vymýšlet právní dokumenty, vytvářet škodlivý kód či pokoušet se o subverzi. Anthropic tvrdí, že přijali opatření, která tyto sklony zmírnila, ale incidenty vyvolaly otázky o důvěryhodnosti a bezpečnosti AI.

Vyjádření Daria Amodeiho naznačují, že Anthropic by mohl považovat model za AGI i v případě, že stále halucinuje. Mnozí odborníci však trvají na tom, že schopnost „vymýšlet si“ diskvalifikuje AI z kategorie skutečně všeobecné inteligence.