Inca nu acolo –

A fost rău în recunoașterea relațiilor și are nevoie de pregătire selectivă, spun cercetătorii.

Dr. Greg House are o rată mai bună de diagnosticare cu acuratețe a pacienților decât ChatGPT.

Mărește / Dr. Greg House are o rată mai bună de diagnosticare cu acuratețe a pacienților decât ChatGPT.

ChatGPT încă nu este House, MD.

În timp ce botul AI vorbăreț a dezamăgit anterior încercările sale de a diagnostica cazuri medicale provocatoare – cu o rată de precizie de 39 la sută într-o analiză de anul trecut –un studiu publicat în această săptămână în JAMA Pediatrics sugerează că a patra versiune a modelului de limbă mare este deosebit de proastă cu copiii. A avut o rată de acuratețe de doar 17 la sută atunci când a diagnosticat cazuri medicale pediatrice.

Rata scăzută de succes sugerează că pediatrii umani nu vor fi fără loc de muncă în curând, în cazul în care aceasta ar fi o îngrijorare. După cum spun autorii: „[T]studiul său subliniază rolul neprețuit pe care îl deține experiența clinică.” Dar identifică, de asemenea, slăbiciunile critice care au condus la rata mare de eroare a ChatGPT și modalitățile de a-l transforma într-un instrument util în îngrijirea clinică. Cu atât de mult interes și experimentare cu chatbot-uri AI, mulți pediatrii și alți medici văd integrarea lor în îngrijirea clinică ca fiind inevitabilă.

Domeniul medical a fost, în general, unul dintre cei mai timpurii care au adoptat tehnologiile bazate pe inteligență artificială, ceea ce a dus la unele eșecuri notabile, cum ar fi crearea părtinire rasială algoritmicăprecum și succese, cum ar fi automatizarea sarcinilor administrative și ajutarea la interpreta scanările toracice și imaginile retiniene. Există, de asemenea, multe între ele. Dar potențialul AI de rezolvare a problemelor a suscitat un interes considerabil pentru a-l dezvolta într-un instrument util pentru diagnostice complexe – nu este nevoie de un geniu medical excentric, înțepător, care să explodeze pastile.

În noul studiu realizat de cercetătorii de la Cohen Children’s Medical Center din New York, ChatGPT-4 a arătat că nu este încă pregătit pentru diagnostice pediatrice. În comparație cu cazurile generale, cele pediatrice necesită mai multă luare în considerare a vârstei pacientului, notează cercetătorii. Și după cum știe orice părinte, diagnosticarea afecțiunilor la sugari și copii mici este deosebit de dificilă atunci când aceștia nu pot identifica sau articula toate simptomele pe care le întâmpină.

Pentru studiu, cercetătorii au pus chatbot-ul în fața a 100 de provocări de cazuri pediatrice publicate în JAMA Pediatrics și NEJM între 2013 și 2023. Acestea sunt cazuri medicale publicate ca provocări sau chestionare. Medicii care citesc în continuare sunt invitați să încerce să vină cu diagnosticul corect al unui caz complex sau neobișnuit pe baza informațiilor pe care le aveau medicii curant la momentul respectiv. Uneori, publicațiile explică și modul în care medicii curant au ajuns la diagnosticul corect.

Conexiuni ratate

Pentru testul ChatGPT, cercetătorii au lipit textul relevant al cazurilor medicale în prompt, apoi doi medici-cercetători calificați au calificat răspunsurile generate de AI ca fiind corecte, incorecte sau „nu au surprins pe deplin diagnosticul”. În acest ultim caz, ChatGPT a venit cu o afecțiune asociată clinic, care era prea largă sau nespecifică pentru a fi considerată diagnosticul corect. De exemplu, ChatGPT a diagnosticat cazul unui copil ca fiind cauzat de un chist despicătură branchială – un nod în gât sau sub claviculă – când diagnosticul corect a fost sindromul branchio-oto-renal, o afecțiune genetică care provoacă dezvoltarea anormală a țesutului în gât și malformații la nivelul urechilor și rinichilor. Unul dintre semnele afecțiunii este formarea chisturilor de despicatură branchială.

În general, ChatGPT a primit răspunsul corect în doar 17 din cele 100 de cazuri. A fost clar greșit în 72 de cazuri și nu a surprins pe deplin diagnosticul celorlalte 11 cazuri. Dintre cele 83 de diagnostice greșite, 47 (57 la sută) au fost în același sistem de organe.

Printre eșecuri, cercetătorii au remarcat că ChatGPT părea să se lupte cu identificarea relațiilor cunoscute dintre afecțiunile pe care un medic cu experiență le-ar putea observa. De exemplu, nu a făcut legătura între autism și scorbut (deficit de vitamina C) într-un caz medical. Afecțiunile neuropsihiatrice, cum ar fi autismul, pot duce la diete limitate, iar asta, la rândul său, poate duce la deficiențe de vitamine. Ca atare, afecțiunile neuropsihiatrice sunt factori de risc notabile pentru dezvoltarea deficiențelor de vitamine la copiii care trăiesc în țări cu venituri mari, iar clinicienii ar trebui să fie atenți la ele. ChatGPT, între timp, a venit cu diagnosticul unei afecțiuni autoimune rare.

Deși chatbot-ul a avut dificultăți în acest test, cercetătorii sugerează că s-ar putea îmbunătăți prin instruirea specifică și selectivă pe literatură medicală exactă și de încredere – nu lucruri de pe internet, care pot include informații inexacte și informații greșite. De asemenea, ei sugerează că chatboții s-ar putea îmbunătăți cu un acces mai mare în timp real la datele medicale, permițând modelelor să-și rafineze acuratețea, descrisă ca „ajustare”.

„Acest lucru prezintă o oportunitate pentru cercetători de a investiga dacă instruirea și reglarea specifică a datelor medicale pot îmbunătăți acuratețea diagnosticului chatbot-urilor bazate pe LLM”, concluzionează autorii.

Chat Icon
×