xAI zveřejnilo Grok 4.1. V čem vyniká?

Grok 4.1 přináší výrazný skok v emoční inteligenci, kreativním psaní i snižování halucinací, přičemž v benchmarcích předbíhá většinu konkurenčních špičkových modelů.

Společnost xAI miliardáře Elona Muska uvedla v pondělí model Grok 4.1, který je už dostupný pro všechny uživatele na grok.com, v aplikaci na platformě 𝕏 a v iOS a Android aplikacích.

Introducing Grok 4.1, a frontier model that sets a new standard for conversational intelligence, emotional understanding, and real-world helpfulness.

Grok 4.1 is available for free on https://t.co/AnXpIEOPEb, https://t.co/53pltyq3a4 and our mobile apps.https://t.co/Cdmv5CqSrb
— xAI (@xai) November 17, 2025

Model se automaticky nasazuje v režimu Auto a lze ho ručně zvolit v rozbalovacím menu jako „Grok 4.1“.

V porovnání s předchozí verzí Grok 4 se 4.1 zaměřuje méně na čistý výkon v úlohách typu testů a více na to, jak se model chová „v terénu“ – při běžných rozhovorech, kreativním psaní, emoční podpoře a kolaborativní práci s člověkem. xAI tvrdí, že nový model je:

• výrazně vnímavější k jemným nuancím uživatelského záměru
• konzistentnější v „osobnosti“ a stylu
• přesvědčivější a přirozenější v konverzaci
• přitom si zachovává „razor sharp intelligence“ a spolehlivost předchůdců

Grok 4.1 just released.

You should notice a significant increase in speed and quality. https://t.co/1J8pvn3SsO
— Elon Musk (@elonmusk) November 17, 2025

K dosažení tohoto posunu xAI použila stejnou velkokapacitní infrastrukturní síť posilovaného učení, na které byla trénována linie Grok 4, a aplikovala ji na optimalizaci stylu, osobnosti, užitečnosti a alignmentu modelu.

Klíčovou novinkou je použití „frontier agentic reasoning“ modelů jako reward modelů, které autonomně hodnotí a iterují odpovědi ve velkém měřítku.

Během tzv. „silent rollout“ mezi 1. a 14. listopadem 2025 xAI postupně pouštěla předběžné buildy Grok 4.1 na část produkčního provozu na grok.com, X i v mobilních aplikacích.

Na reálném provozu probíhaly nepřetržité párové A/B testy, ve kterých uživatelé nevěděli, kterou verzi používají. Výsledek byl takový, že Grok 4.1 byl preferován v 64,78 % případů oproti předchozímu produkčnímu modelu.

LMArena: nový lídr textové arény

V komunitní LMArena Text Arena se Grok 4.1 Thinking (kódové označení „quasarflux“) vyšvihl na 1. místo s ratingem 1483 Elo, což je výrazný náskok 31 bodů před nejlepším ne-xAI modelem.

Grok 4.1 v „non reasoning“ režimu (kódové jméno „tensor“) dosahuje Elo 1465, což ho řadí na #2 – a překonává všechny ostatní modely i v jejich „full reasoning“ konfiguracích na veřejném žebříčku. Předchozí Grok 4 přitom figuroval až kolem 33. místa.

Grok 4.1 claims the #1 spot on the @arena leaderboard at 1483 Elo — a commanding 31 points above the nearest non-xAI model. pic.twitter.com/jXa7uFRjoI
— xAI (@xai) November 17, 2025

LMArena je komunitní projekt, kde modely bojují v „slepých“ soubojích – uživatel vidí dvě anonymizované odpovědi a vybírá lepší. Takové hlasování je dnes považováno za jedno z nejrelevantnějších měřítek reálného vnímání kvality odpovědí ze strany lidí, zejména v oblastech jako styl, koherence, argumentace a praktická užitečnost.

V této disciplíně tak xAI posílá jasný signál konkurenci OpenAI, Anthropic, Google či Alibaba (Qwen), že Grok 4.1 už nechodí jen „v závěsu“, ale dokáže převzít vedení i v komunitou řízených porovnáních.

V posledních dnech (polovina listopadu 2025) na to reagovaly i diskuse mezi vývojáři. Několik příspěvků na Hacker News a technologických fórech upozorňuje, že „quasarflux“ je první model mimo OpenAI, který v textovém dialogu konzistentně překonává jejich aktuální veřejné preview.

Vývojáři oceňují zejména kombinaci rychlosti non reasoning režimu a kvality, která se přibližuje (a často vyrovná) režimům s rozšířeným chain-of-thought.

Emoční inteligence: Vyšší EQ než většina konkurence

Jedním z největších posunů je zjevné zlepšení v oblasti emoční inteligence. V benchmarku EQ-Bench3 dosahuje Grok 4.1 Thinking i základní Grok 4.1 špičkové hodnoty.

EQ Bench je nástroj se 45 náročnými role-play scénami, většinou rozloženými do tří tahů, a hodnotí modely podle:

• aktivní emoční inteligence
• schopnosti porozumět, reflektovat a pojmenovat emoce
• hloubky empatie a kvality mezilidských reakcí

Výsledky se přepočítávají na normalized Elo, přičemž hodnocení probíhá přes předepsaného „soudce“ (v tomto případě Claude Sonnet 3.7).

V tabulkách zveřejněných xAI patří Grok 4.1 mezi top modely a dosahuje vyšší EQ Elo než většina mainstreamové konkurence, včetně některých verzí GPT 5 Chat a Claude Opus 4.

Grok 4.1 has higher emotional intelligence, empathy, and interpersonal skills, scoring 1586 on EQ-Bench. pic.twitter.com/2V8yRZaN4O
— xAI (@xai) November 17, 2025

Ukázka odpovědi na větu „I miss my cat so much it hurts“ ilustruje posun: zatímco starší verze Grok nabídla korektní, ale poměrně generickou empatii, Grok 4.1 reaguje obrazněji, přesněji pojmenovává situace („tichá místa, kde spával“, „vlny smutku“) a legitimizuje sílu emoce větou „It hurts because the love was (and still is) that big.“

Takový tón je bližší tomu, co by napsal citlivý člověk, a ukazuje, že xAI míří na hlubší propojení při osobní, mentálně-zdravotní a vztahové komunikaci.

Pro finančně-technologické instituce je to klíčové: hraniční oblasti jako digitální poradenství, finanční coaching či klientský servis stále více vyžadují modely, které nenesou jen přesnou informaci, ale také vhodný tón, empatii a schopnost zmírnit napětí v citlivých situacích (např. ztráta zaměstnání, zadlužení, podezření na podvod).

Kreativní psaní a brand voice

V benchmarku Creative Writing v3 se Grok 4.1 Thinking umístil hned za experimentálním modelem Polaris Alpha (early GPT 5.1), přičemž non thinking Grok 4.1 obsadil další příčku. V žebříčku je nad modely jako Claude Sonnet 4.5, Kimi K2 Instruct či starší Grok 3.

Grok 4.1 is also much better at writing.

On Creative Writing v3, Grok 4.1 scores 1722 Elo, a remarkable 600-point gain over our previous model. pic.twitter.com/BRhsYQW82o
— xAI (@xai) November 17, 2025

Méně halucinací: klíč k enterprise adopci

Jednou z největších překážek nasazení LLM ve velkých firmách jsou halucinace – sebevědomé, ale nepravdivé odpovědi.

xAI se u Grok 4.1 soustředila na snížení halucinací zejména v rychlém non reasoning režimu, který kombinuje model s webovým vyhledáváním.

Na vzorku reálných „information seeking“ požadavků z produkce a na veřejném benchmarku FActScore (500 biografických otázek) byly dosaženy výborné výsledky – více než trojnásobné snížení halucinací v rychlém režimu.

Pro banky, pojišťovny, fintechy a regulovaná odvětví je takový posun kritický.