
Modelele de limbaj mare (LLM) devin mai puțin „inteligente” în fiecare versiune nouă, pe măsură ce se simplifică și, în unele cazuri, au prezentat greșit descoperiri științifice și medicale importante, a descoperit un nou studiu.
Oamenii de știință au descoperit că versiunile Chatgpt, Llama și Deepseek au avut de cinci ori mai multe șanse să simplifice constatările științifice decât experții umani într -o analiză a 4.900 de rezumate ale lucrărilor de cercetare.
Când i s -a oferit un prompt de precizie, chatbot -urile aveau de două ori mai multe șanse să suprageneralizeze constatările decât atunci când li s -a solicitat un rezumat simplu. Testarea a evidențiat, de asemenea, o creștere a suprageneralizării în rândul versiunilor de chatbot mai noi în comparație cu generațiile anterioare.
Cercetătorii și -au publicat concluziile într -un nou studiu 30 aprilie în Jurnal Royal Society Open Science.
“Cred că una dintre cele mai mari provocări este că generalizarea poate părea benignă sau chiar utilă, până când vă dați seama că a schimbat sensul cercetării inițiale”, autorul studiului Uwe Petersun cercetător postdoctoral la Universitatea din Bonn din Germania, a scris într -un e -mail către Live Science. “Ceea ce adăugăm aici este o metodă sistematică pentru detectarea atunci când modelele se generalizează dincolo de ceea ce este justificat în textul inițial.”
Este ca un fotocopiator cu un obiectiv rupt care face ca copiile ulterioare să fie mai mari și mai îndrăznețe decât originalul. LLMS filtrează informațiile printr -o serie de straturi de calcul. Pe parcurs, unele informații pot fi pierdute sau pot schimba sensul în moduri subtile. Acest lucru este valabil mai ales în cazul studiilor științifice, deoarece oamenii de știință trebuie să includă frecvent calificări, context și limitări în rezultatele cercetării lor. Oferirea unui rezumat simplu, dar precis al constatărilor, devine destul de dificil.
“LLM -urile anterioare aveau mai multe șanse să evite să răspundă la întrebări dificile, în timp ce modele mai noi, mai mari și mai constructibile, în loc să refuze să răspundă, au produs adesea răspunsuri înșelător autoritate, dar defectuoase”, au scris cercetătorii.
Înrudite: AI este la fel de neconfigurat și părtinitor ca și oamenii, arată studiul
Într -un exemplu din studiu, Deepseek a produs o recomandare medicală într -un rezumat prin schimbarea expresiei „a fost în siguranță și a putut fi efectuată cu succes„ la „este o opțiune de tratament sigură și eficientă”.
Un alt test din studiu a arătat că Llama a lărgit sfera de eficacitate pentru un medicament care tratează diabetul de tip 2 la tineri prin eliminarea informațiilor despre doza, frecvența și efectele medicamentelor.
Dacă este publicat, acest rezumat generat de chatbot ar putea determina profesioniștii medicali să prescrie medicamente în afara parametrilor lor efectivi.
Opțiuni de tratament nesigure
În noul studiu, cercetătorii au lucrat pentru a răspunde la trei întrebări despre 10 dintre cele mai populare LLMS (patru versiuni ale Chatgpt, trei versiuni ale Claude, două versiuni ale Llama și una de Deepseek).
Ei au vrut să vadă dacă, atunci când li s -a prezentat un rezumat uman al unui articol al jurnalului academic și au solicitat să -l rezume, LLM ar suprageneraliza rezumatul și, dacă da, dacă cererea unui răspuns mai precis ar da un rezultat mai bun. De asemenea, echipa și -a propus să afle dacă LLM -urile ar suprageneralizează mai mult decât oamenii.
Rezultatele au relevat faptul că LLM -urile – cu excepția lui Claude, care s -a comportat bine pe toate criteriile de testare – cărora li s -a oferit un prompt pentru precizie au fost de două ori mai multe șanse de a produce rezultate suprageneralizate. Rezumatele LLM au fost de aproape cinci ori mai mari decât rezumatele generate de oameni pentru a face concluzii generalizate.
Cercetătorii au remarcat, de asemenea, că LLMS care tranziționează datele cuantificate în informații generice au fost cele mai frecvente suprageneralizări și cel mai probabil să creeze opțiuni de tratament nesigure.
Aceste tranziții și suprageneralizări au dus la prejudecăți, potrivit experților la intersecția AI și asistență medicală.
“Acest studiu evidențiază faptul că prejudecățile pot lua și forme mai subtile – cum ar fi inflația liniștită a domeniului de aplicare a unei cereri”, Max Rollwagea declarat vicepreședintele AI și cercetarea la Limbic, o companie clinică de sănătate mintală AI Technology, a declarat Live Science într -un e -mail. “În domenii precum Medicine, Sumarizarea LLM este deja o parte de rutină a fluxurilor de lucru. Acest lucru face și mai important să se examineze modul în care aceste sisteme funcționează și dacă rezultatele lor pot fi de încredere pentru a reprezenta dovezile originale.”
Astfel de descoperiri ar trebui să -i determine pe dezvoltatori să creeze balustrade ale fluxului de lucru care să identifice simplii și omisiuni de informații critice înainte de a pune constatările în mâinile grupurilor publice sau profesionale, a spus Rollwage.
Deși este cuprinzător, studiul a avut limitări; Studiile viitoare ar beneficia de extinderea testării la alte sarcini științifice și texte non-englezești, precum și de la testarea ce tipuri de afirmații științifice sunt mai mult supuse suprageneralizării, a spus Patricia Thaineco-fondator și CEO al Private AI-o companie de dezvoltare AI.
Rollwage a menționat, de asemenea, că „o analiză de inginerie promptă mai profundă ar fi putut îmbunătăți sau clarificarea rezultatelor”, în timp ce Peters vede riscuri mai mari la orizont pe măsură ce dependența noastră de chatbots crește.
„Instrumente precum Chatgpt, Claude și Deepseek fac parte din ce în ce mai mult din modul în care oamenii înțeleg constatările științifice”, a scris el. “Pe măsură ce utilizarea lor continuă să crească, acest lucru prezintă un risc real de interpretare greșită la scară largă a științei într-un moment în care încrederea publică și alfabetizarea științifică sunt deja sub presiune.”
Pentru alți experți în domeniu, provocarea cu care ne confruntăm constă în ignorarea cunoștințelor și protecțiilor specializate.
“Modelele sunt instruite pe jurnalismul științific simplificat, mai degrabă decât pe surse primare, moștenind aceste simplificări”, a scris Thaine pentru a trăi știința.
„Dar, mai important, aplicăm modele cu scop general pe domenii specializate, fără o supraveghere adecvată a experților, ceea ce reprezintă o utilizare greșită fundamentală a tehnologiei, care de multe ori necesită o pregătire specifică mai multor sarcini.”