Nový benchmark GDPval od OpenAI testuje modely umělé inteligence v porovnání s lidskými profesionály.
Nový benchmark od OpenAI
Společnost OpenAI ve čtvrtek představila nový benchmark s názvem GDPval, jehož cílem je porovnat výkonnost jejích modelů umělé inteligence s lidskými profesionály v širokém spektru odvětví a pracovních pozic.
Tento test je pokusem zjistit, jak blízko jsou systémy OpenAI k překonání lidí v ekonomicky hodnotné práci, což je klíčová součást mise společnosti vyvinout umělou obecnou inteligenci (AGI).
Podle OpenAI se ukázalo, že její model GPT-5 a konkurenční Claude Opus 4.1 od společnosti Anthropic „se už blíží kvalitě práce produkované odborníky v daném odvětví“.
To však neznamená, že modely OpenAI okamžitě nahradí lidi na jejich pracovních pozicích. OpenAI připouští, že GDPval v současnosti pokrývá jen velmi omezený počet úkolů, které lidé vykonávají ve své reálné práci.
GDPval je založen na devíti odvětvích, která nejvíce přispívají k hrubému domácímu produktu USA, včetně oblastí jako zdravotnictví, finance, výroba a vláda. Benchmark testuje výkonnost modelu AI ve 44 povoláních v těchto odvětvích – od softwarových inženýrů po zdravotní sestry a novináře.

Výsledky a budoucnost
V první verzi testu, GDPval-v0, OpenAI požádala zkušené profesionály, aby porovnali zprávy vygenerované umělou inteligencí se zprávami od jiných profesionálů a vybrali tu nejlepší.
V případě GPT-5-high, vylepšené verze GPT-5 s dodatečným výpočetním výkonem, byl model AI hodnocen jako lepší nebo na stejné úrovni jako odborníci v daném odvětví v 40,6 % případů.
OpenAI také testovala model Claude Opus 4.1 od Anthropic, který byl hodnocen jako lepší nebo na stejné úrovni jako odborníci v 49 % úloh. OpenAI se domnívá, že Claude dosáhl tak vysokého skóre díky své tendenci vytvářet příjemnou grafiku, a ne pouze díky samotnému výkonu.
Je důležité poznamenat, že většina pracujících profesionálů dělá mnohem více než jen odevzdávání výzkumných zpráv, což je zatím všechno, co GDPval-v0 testuje. OpenAI si to uvědomuje a plánuje do budoucna vytvořit robustnější testy, které budou schopné zohlednit více odvětví a interaktivních pracovních postupů.
Hlavní ekonom OpenAI, Dr. Aaron Chatterji, v rozhovoru pro TechCrunch uvedl, že výsledky GDPval naznačují, že lidé v těchto profesích mohou nyní využívat modely AI k tomu, aby se věnovali smysluplnějším úkolům.
„Protože se model v některých z těchto věcí zlepšuje,“ říká Chatterji, „lidé v těchto zaměstnáních mohou nyní model využívat k odlehčení části své práce a vykonávání potenciálně hodnotnějších činností.“
Vedoucí hodnocení v OpenAI, Tejal Patwardhan, pro TechCrunch uvedla, že je povzbuzená rychlostí pokroku v rámci GDPval. Model GPT-4o od OpenAI, který byl vydán zhruba před 15 měsíci, dosáhl jen 13,7 % (výher a remíz ve srovnání s lidmi). Nyní GPT-5 dosahuje téměř trojnásobku, což je trend, který Patwardhan očekává, že bude pokračovat.






