
Diagnosticele medicale ale ChatGPT sunt precise mai puțin de jumătate din timp, arată un nou studiu.
Oamenii de știință au întrebat inteligenţă artificială (AI) chatbot pentru a evalua 150 de studii de caz de pe site-ul medical Medscape și a constatat că GPT 3.5 (care a alimentat ChatGPT când a fost lansat în 2022) a dat un diagnostic corect doar în 49% din timp.
Cercetările anterioare au arătat că chatbot-ul ar putea răzuiește o trecere la examenul de licență medicală din Statele Unite (USMLE) – o constatare salutată de autorii săi drept „o piatră de hotar notabilă în maturizarea AI”.
Dar în noul studiu, publicat pe 31 iulie în jurnal PLOS ONEoamenii de știință au avertizat să nu se bazeze pe chatbot pentru cazuri medicale complexe care necesită discernământ uman.
„Dacă oamenii sunt speriați, confuzi sau pur și simplu nu au acces la îngrijire, se pot baza pe un instrument care pare să ofere sfaturi medicale „create” pentru ei”, autorul principal al studiului. Dr. Amrit Kirpalaniun doctor în nefrologie pediatrică la Şcoala de Medicină şi Stomatologie Schulich de la Universitatea Western, Ontario, a declarat pentru Live Science. „Cred că, ca comunitate medicală (și în rândul comunității științifice mai mari), trebuie să fim proactivi în educarea populației generale cu privire la limitările acestor instrumente în acest sens. Ele nu ar trebui să vă înlocuiască încă medicul.”
Capacitatea ChatGPT de a distribui informații se bazează pe datele sale de antrenament. Razuit din depozit Common Crawlcei 570 de gigaocteți de date text introduse în modelul 2022 se ridică la aproximativ 300 de miliarde de cuvinte, care au fost preluate din cărți, articole online, Wikipedia și alte pagini web.
Înrudit: AI părtinitoare poate face diagnosticele medicilor mai puțin precise
Sistemele AI identifică modele în cuvintele pe care au fost instruiți pentru a prezice ceea ce le poate urma, permițându-le să ofere un răspuns la o solicitare sau o întrebare. În teorie, acest lucru le face utile atât studenților la medicină, cât și pacienților care caută răspunsuri simplificate la întrebări medicale complexe, dar tendința roboților de a „halucina” –alcătuind răspunsuri în întregime — limitează utilitatea lor în diagnosticele medicale.
Pentru a evalua acuratețea sfatului medical al ChatGPT, cercetătorii au prezentat modelul cu 150 de studii de caz variate – inclusiv istoricul pacientului, constatările examenelor fizice și imaginile luate din laborator – care au fost menite să provoace abilitățile de diagnostic ale medicilor stagiari. Chatbot-ul a ales unul dintre cele patru rezultate cu alegere multiplă înainte de a răspunde cu diagnosticul și un plan de tratament pe care cercetătorii l-au evaluat pentru acuratețe și claritate.
Rezultatele au fost slabe, ChatGPT primind mai multe răspunsuri greșite decât corecte cu privire la acuratețea medicală, în timp ce a dat rezultate complete și relevante în 52% din timp. Cu toate acestea, acuratețea generală a chatbot-ului a fost mult mai mare, la 74%, ceea ce înseamnă că ar putea identifica și elimina răspunsurile greșite cu variante multiple mult mai fiabile.
Cercetătorii au spus că unul dintre motivele acestei performanțe slabe ar putea fi faptul că AI nu a fost antrenat pe un set de date clinice suficient de mare, ceea ce îl face incapabil să jongleze cu rezultatele din mai multe teste și să evite tratarea cu absolute la fel de eficient ca medicii umani.
În ciuda deficiențelor sale, cercetătorii au spus că AI și chatbot-urile ar putea fi în continuare utile în predarea pacienților și a medicilor stagiari – cu condiția ca sistemele AI să fie supravegheate și proclamațiile lor să fie însoțite de o verificare sănătoasă a faptelor.
„Dacă te întorci la publicațiile revistelor medicale din jurul anului 1995, poți vedea că același discurs se petrecea cu „world wide web”. Au existat publicații noi despre cazuri de utilizare interesante și au existat, de asemenea, lucrări care erau sceptice în ceea ce privește a fost doar un moft.” spuse Kirpalani. „Cred că, în special, cu inteligența artificială și chatbot-urile, comunitatea medicală va descoperi în cele din urmă că există un potențial uriaș de a spori procesul decizional clinic, de a eficientiza sarcinile administrative și de a spori implicarea pacienților”.