AI překonala lékaře v klinickém uvažování, je zde ale jeden háček…

Program umělé inteligence ChatGPT-4, navržený k porozumění a generování textu podobnému lidskému, překonal ve zpracování lékařských dat a projevu klinického uvažování lékaře interní medicíny a lékaře hned na dvou akademických lékařských centrech. Ve výzkumném dopise publikovaném v JAMA Internal Medicine srovnávali lékaři-vědci z Beth Israel Deaconess Medical Center (BIDMC) schopnosti úvah velkého jazykového modelu (LLM) přímo s lidským výkonem, použitím standardů vyvinutých pro hodnocení lékařů.

Diagnóza zdaleka není všechno

„Záhy bylo jasné, že LLMs dokážou diagnostikovat, ale každý, kdo praktikuje medicínu, ví, že v medicíně jde o mnohem více než to,“ uvedl Adam Rodman, MD, lékař interní medicíny a výzkumník na oddělení medicíny v BIDMC. „Existuje mnoho kroků za diagnózou, a proto jsme chtěli vyhodnotit, zda jsou LLMs stejně dobré jako lékaři v tomto druhu klinického uvažování. Je překvapující, že tyto systémy jsou schopné ukázat ekvivalentní nebo lepší uvažování než lidé během vývoje klinického případu.“

Rodman a jeho kolegové použili dříve ověřený nástroj vyvinutý pro hodnocení klinického uvažování lékařů nazvaný revidovaný IDEA (r-IDEA) skóre. Výzkumníci rekrutovali 21 lékařů a 18 rezidentů, kde každý pracoval na jednom ze 20 vybraných klinických případů, které obsahovaly čtyři sekvenční fáze diagnostického uvažování. Lékařům bylo zadáno, aby v každé fázi napsali a odůvodnili své diferenciální diagnózy. Chatbotu GPT-4 byl dán příkaz s identickými pokyny na zpracování všech 20 klinických případů. Jejich odpovědi byly poté ohodnoceny za klinické uvažování (r-IDEA skóre) a několik dalších měřítek.

Obsah obrázku umění, Tanec, Fraktální umění, snímek obrazovky

Popis byl vytvořen automaticky

Obrázek 1 – DALL-E 3: Papouškovitý cadaceus

I přes excelentní výsledky AI její výsledky ještě nejsou zdaleka tak dobré

Pro rychlé upřesnění pojmem „rezident“ odkazujeme na lékaře, který absolvoval lékařskou fakultu a nyní je v procesu specializačního vzdělávání v určitém lékařském oboru, často v rámci nemocnice nebo jiného zdravotnického zařízení. Tito lékaři, známí také jako rezidenční lékaři, jsou v postgraduálním stádiu svého vzdělávání a pracují pod dohledem zkušenějších lékařů, zatímco se učí a praktikují specifické aspekty medicíny v jejich vybrané specializaci.

Rodman, Cabral a jejich kolegové zjistili, že chatbot dosáhl nejvyššího r-IDEA skóre, s mediánovým skóre 10 z 10 pro LLM, 9 pro lékaře a 8 pro rezidenty. Byla to spíše remíza mezi lidmi a botem, pokud jde o diagnostickou přesnost – jak vysoko byla správná diagnóza na seznamu diagnóz, které poskytli – a správné klinické uvažování. Avšak výsledek botů ještě zdaleka nebyla taková výhra – především měli v jejich odpovědích výrazně více případů nesprávného uvažování než rezidenti. Což podtrhuje názor, že AI bude zatím pravděpodobně nejvíce užitečná jako nástroj pro rozšíření, nikoli nahrazení, lidského uvažovacího procesu.

AI lékaře nenahradí, ale stane se spíše kontrolním bodem

„Další studie jsou potřebné k určení, jak nejlépe integrovat LLM do klinické praxe, ale i nyní by mohly být užitečné jako kontrolní bod. Mohou být totiž velmi prospěšné jako kontrolní mechanismus stojící za rozhodnutími lékařů,“ řekla Cabral. „Mým konečným cílem je, aby AI vylepšila interakci mezi pacientem a lékařem tím, že sníží některé neefektivní metody, které nyní máme, a umožní nám soustředit se více na rozhovor, který vedeme s našimi pacienty.

„Cílem studie bylo ukázat, že AI demonstruje skutečné uvažování – možná lepší uvažování než lidé ve více krocích procesu. Máme jedinečnou šanci zlepšit kvalitu a zážitek ze zdravotní péče pro pacienty,“ dodal Rodman.

Chatbot by mohl podat svou ruku obzvláště během náročných pracovních relací, kdy lékaři či další nemocniční pracovníci musí být v zápřahu abnormální dobu. Pochopitelně spolu s nárůstem pracovních hodin prolínajících se s nedostatkem spánku výkonnost a schopnost racionálně uvažovat klesá. Právě v těchto chvílích bývají lékaři nejvíce náhlí na pochybení, což může uškodit pacientovi. AI by tak mohla v těchto náročných chvílích pomoci automatizací některých procesů, díky čemuž by pracovníci měli možnost si na chvíli odpočinout a v konečném důsledku i zlepšit nejenom svou efektivitu, ale i zdraví.

Shrnutí

ChatGPT-4 překonal lékaře v klinickém uvažování ve studii, ale byl také častěji „zjevně špatný“.
Chatbot dosáhl nejvyššího skóre v klinickém uvažování ve srovnání s lékaři a rezidenty.
Studie poukazuje na potenciál AI jako nástroje pro rozšíření, nikoli nahrazení lidského uvažování.
Další výzkum je potřebný k integraci AI do klinické praxe, která by mohla zlepšit interakci mezi pacientem a lékařem.

Zdroj

ScienceDaily. (2024, April 1). Chatbot outperformed physicians in clinical reasoning in head-to-head study. ScienceDaily. https://www.sciencedaily.com/releases/2024/04/240401142448.htm?utm_source=aibreakfast.beehiiv.com&utm_medium=newsletter&utm_campaign=openai-no-longer-requires-an-account