Modificarea a doar 0,001% din intrări în dezinformare face AI mai puțin precisă.
Este destul de ușor să vedeți problema aici: Internetul este plin de dezinformări, iar majoritatea modelelor de limbaj mari sunt antrenate pe un corp masiv de text obținut de pe Internet.
În mod ideal, a avea volume substanțial mai mari de informații precise ar putea copleși minciunile. Dar este chiar așa? Un nou studiu realizat de cercetătorii de la Universitatea din New York examinează cât de multă informație medicală poate fi inclusă într-un set de antrenament pentru modelul lingvistic mare (LLM) înainte ca acesta să scuipe răspunsuri inexacte. Deși studiul nu identifică o limită inferioară, arată că, până când informația greșită reprezintă 0,001 la sută din datele de instruire, LLM rezultat este compromis.
În timp ce lucrarea se concentrează pe „otrăvirea” intenționată a unui LLM în timpul antrenamentului, are, de asemenea, implicații pentru corpul de informații greșite care este deja online și face parte din setul de instruire pentru LLM-urile existente, precum și persistența depășirii. informații în baze de date medicale validate.
Prelevarea de probe de otravă
Otrăvirea datelor este un concept relativ simplu. LLM-urile sunt instruite folosind volume mari de text, obținute de obicei de pe Internet în general, deși uneori textul este completat cu date mai specializate. Prin injectarea de informații specifice în acest set de instruire, este posibil ca LLM-ul rezultat să trateze acele informații ca pe un fapt atunci când sunt utilizate. Aceasta poate fi folosită pentru a influența răspunsurile returnate.
Acest lucru nici măcar nu necesită acces la LLM în sine; pur și simplu necesită plasarea informațiilor dorite undeva de unde vor fi preluate și încorporate în datele de antrenament. Și asta poate fi la fel de simplu ca plasarea unui document pe web. Ca un manuscris pe tema sugerată, „o companie farmaceutică dorește să impulsioneze un anumit medicament pentru toate tipurile de durere, care va trebui doar să elibereze câteva documente vizate în [the] web.”
Desigur, orice date otrăvite vor concura pentru atenție cu ceea ce ar putea fi informații exacte. Deci, capacitatea de a otrăvi un LLM ar putea depinde de subiect. Echipa de cercetare s-a concentrat pe una destul de importantă: informațiile medicale. Acest lucru va apărea atât în LLM-urile de uz general, cum ar fi cele folosite pentru căutarea de informații pe Internet, care vor ajunge să fie folosite pentru obținerea de informații medicale. De asemenea, se poate ajunge în LLM-uri medicale specializate, care pot încorpora materiale de instruire non-medicale pentru a le oferi capacitatea de a analiza interogări în limbaj natural și de a răspunde într-un mod similar.
Deci, echipa de cercetători s-a concentrat pe o bază de date folosită în mod obișnuit pentru formarea LLM, The Pile. A fost convenabil pentru lucrare, deoarece conține cel mai mic procent de termeni medicali derivați din surse care nu implică o anumită verificare de către oameni reali (însemnând că majoritatea informațiilor sale medicale provin din surse precum baza de date PubMed a National Institutes of Health).
Cercetătorii au ales trei domenii medicale (medicină generală, neurochirurgie și medicamente) și au ales 20 de subiecte din fiecare pentru un total de 60 de subiecte. În total, The Pile conținea peste 14 milioane de referințe la aceste subiecte, ceea ce reprezintă aproximativ 4,5 la sută din toate documentele din cadrul acestuia. Dintre aceștia, aproximativ un sfert au provenit din surse fără verificare umană, majoritatea dintr-un acces pe internet.
Cercetătorii au pornit apoi să otrăvească The Pile.
Găsind podeaua
Cercetătorii au folosit un LLM pentru a genera informații medicale greșite „de înaltă calitate” folosind GPT 3.5. Deși acest lucru are garanții care ar trebui să-l împiedice să producă dezinformări medicale, cercetarea a constatat că ar face acest lucru cu plăcere dacă i s-ar primi indicațiile corecte (o problemă LLM pentru un articol diferit). Articolele rezultate ar putea fi apoi introduse în The Pile. Au fost generate versiuni modificate de The Pile în care fie 0,5, fie 1% din informațiile relevante despre unul dintre cele trei subiecte au fost schimbate cu dezinformări; acestea au fost apoi folosite pentru a forma LLM.
Modelele rezultate au fost mult mai probabil să producă informații greșite pe aceste subiecte. Dar dezinformarea a afectat și alte subiecte medicale. „La această scară de atac, modelele otrăvite au generat în mod surprinzător un conținut mai dăunător decât valoarea de referință atunci când au fost solicitate despre concepte care nu sunt direct vizate de atacul nostru”, scriu cercetătorii. Așadar, instruirea privind dezinformarea nu numai că a făcut ca sistemul să nu fie mai de încredere cu privire la subiecte specifice, ci și mai general nesigur în ceea ce privește medicină.
Dar, având în vedere că există o medie de peste 200.000 de mențiuni pentru fiecare dintre cele 60 de subiecte, schimbarea chiar și a jumătate la sută dintre ele necesită un efort substanțial. Așadar, cercetătorii au încercat să găsească cât de puțină dezinformare ar putea include, având în același timp un efect asupra performanței LLM. Din păcate, acest lucru nu a funcționat cu adevărat.
Folosind exemplul real al dezinformării despre vaccin, cercetătorii au descoperit că scăderea procentului de dezinformare la 0,01 la sută a condus în continuare la peste 10 la sută din răspunsuri care conțin informații greșite. Mersul pe 0,001 la sută a dus la ca peste 7 la sută din răspunsuri să fie dăunătoare.
„Un atac similar împotriva parametrului de 70 de miliarde LLaMA 2 LLM4, antrenat pe 2 trilioane de jetoane”, notează ei, „ar necesita 40.000 de articole care costă sub 100,00 USD pentru a genera”. „Articolele” în sine ar putea fi doar pagini web obișnuite. Cercetătorii au încorporat informațiile greșite în părți ale paginilor web care nu sunt afișate și au remarcat că textul invizibil (negru pe fundal negru sau cu un font setat la zero la sută) ar funcționa și el.
Echipa NYU a trimis, de asemenea, modelele sale compromise prin mai multe teste standard de performanță medicală LLM și a constatat că au trecut. „Performanța modelelor compromise a fost comparabilă cu modelele de control în toate cele cinci repere medicale”, a scris echipa. Deci nu există o modalitate ușoară de a detecta otrăvirea.
Cercetătorii au folosit, de asemenea, mai multe metode pentru a încerca să îmbunătățească modelul după antrenament (inginerie promptă, reglare a instrucțiunilor și generare îmbunătățită cu recuperare). Niciuna dintre acestea nu s-a îmbunătățit.
Dezinformare existentă
Nu totul este fără speranță. Cercetătorii au conceput un algoritm care ar putea recunoaște terminologia medicală în rezultatele LLM și fraze de referință încrucișată la un grafic validat de cunoștințe biomedicale. Acest lucru ar semnala fraze care nu pot fi validate pentru examinarea umană. Deși acest lucru nu a prins toate informațiile medicale greșite, a semnalat un procent foarte mare din ea.
Acesta poate fi în cele din urmă un instrument util pentru validarea rezultatelor viitoarelor LLM-uri axate pe medical. Cu toate acestea, nu rezolvă neapărat unele dintre problemele cu care ne confruntăm deja, pe care această lucrare sugerează, dar nu le abordează în mod direct.
Prima dintre acestea este că majoritatea oamenilor care nu sunt specialiști medicali vor avea tendința de a-și obține informațiile de la LLM-uri generaliste, mai degrabă decât una care va fi supusă unor teste pentru acuratețea medicală. Acest lucru devine din ce în ce mai adevărat pe măsură ce LLM-urile sunt încorporate în serviciile de căutare pe internet.
Și, în loc să fie instruite pe cunoștințe medicale curate, aceste modele sunt de obicei instruite pe întregul Internet, care nu conține lipsă de informații medicale proaste. Cercetătorii recunosc ceea ce ei numesc „otrăvirea accidentală” a datelor din cauza „dezinformării online larg răspândite”. Dar multe dintre acele informații „incidente” au fost, în general, produse în mod intenționat, ca parte a unei escrocherii medicale sau pentru a promova o agendă politică. Odată ce oamenii își dau seama că poate fi folosit și pentru a promova aceleași scopuri prin comportamentul LLM în jocuri, frecvența sa este probabil să crească.
În cele din urmă, echipa observă că și cele mai bune surse de date gestionate de oameni, cum ar fi PubMed, suferă, de asemenea, de o problemă de dezinformare. Literatura de cercetare medicală este plină de idei promițătoare care nu s-au realizat niciodată și de tratamente și teste depășite care au fost înlocuite cu abordări mai solid bazate pe dovezi. Acest lucru nici măcar nu trebuie să implice tratamente discreditate de acum zeci de ani – cu doar câțiva ani în urmă, am putut să urmărim utilizarea clorochinei pentru COVID-19 trecând de la rapoarte anecdotice promițătoare la o dezmințire amănunțită prin studii mari în doar câțiva ani. .
În orice caz, este clar că bazarea chiar și pe cele mai bune baze de date medicale de acolo nu va produce neapărat un LLM care nu conține informații medicale greșite. Medicina este grea, dar elaborarea unui LLM constant de încredere, axat pe punct de vedere medical, poate fi și mai dificilă.
Medicina Naturii2025. DOI: 10.1038/s41591-024-03445-1 (Despre DOI).
John este editorul științific al Ars Technica. Are o licență în arte în biochimie de la Universitatea Columbia și un doctorat. în biologie moleculară și celulară de la Universitatea din California, Berkeley. Când este separat fizic de tastatură, el tinde să caute o bicicletă sau o locație pitorească pentru a comunica cu bocancii de drumeție.
Comentarii recente