Formarea cu feedback uman poate stimula oferirea oricărui răspuns – chiar și a celor greșit.
Când o echipă de cercetare condusă de Amrit Kirpalani, un educator medical la Universitatea Western din Ontario, Canada, a evaluat performanța ChatGPT în diagnosticarea cazurilor medicale În august 2024, unul dintre lucrurile care i-au surprins a fost tendința AI de a oferi răspunsuri bine structurate, elocvente, dar vădit greșite.
Acum, într-un studiu publicat recent în Nature, un alt grup de cercetători a încercat să explice de ce ChatGPT și alte modele mari de limbaj tind să facă acest lucru. „A vorbi cu încredere despre lucruri pe care nu le știm este o problemă a umanității în multe feluri. Iar modelele de limbaj mari sunt imitații ale oamenilor”, spune Wout Schellaert, cercetător AI la Universitatea din Valencia, Spania, și coautor al lucrării.
Operatori fluidi
Modelele de limbă mari timpurii, cum ar fi GPT-3, au avut dificultăți în a răspunde la întrebări simple despre geografie sau știință. S-au luptat chiar și cu efectuarea unor matematici simple, cum ar fi „cât este 20 +183”. Dar în cele mai multe cazuri în care nu au putut identifica răspunsul corect, au făcut ceea ce ar face o ființă umană cinstită: au evitat să răspundă la întrebare.
Problema cu non-răspunsurile este că modelele mari de limbaj au fost menite să fie mașini de răspuns la întrebări. Pentru companiile comerciale precum Open AI sau Meta care dezvoltau LLM-uri avansate, un aparat de răspuns la întrebări care răspundea „Nu știu” mai mult de jumătate din timp a fost pur și simplu un produs prost. Deci, s-au ocupat să rezolve această problemă.
Primul lucru pe care l-au făcut a fost să mărească modelele. „Scalarea se referă la două aspecte ale dezvoltării modelului. Una este creșterea dimensiunii setului de date de antrenament, de obicei o colecție de text de pe site-uri web și cărți. Celălalt este creșterea numărului de parametri de limbaj”, spune Schellaert. Când te gândești la un LLM ca la o rețea neuronală, numărul de parametri poate fi comparat cu numărul de sinapse care le conectează neuronii. LLM-urile precum GPT-3 au folosit cantități absurde de date text, depășind 45 de terabytes, pentru antrenament. Numărul de parametri utilizați de GPT-3 a fost la nord de 175 de miliarde.
Dar nu a fost de ajuns.
Numai extinderea a făcut modelele mai puternice, dar încă nu interacționau cu oamenii – ușoare variații în modul în care ați formulat sugestiile ar putea duce la rezultate drastic diferite. Răspunsurile deseori nu păreau umane și uneori erau de-a dreptul ofensatoare.
Dezvoltatorii care lucrează la LLM-uri au dorit să analizeze mai bine întrebările umane și să facă răspunsurile mai precise, mai inteligibile și în concordanță cu standardele etice general acceptate. Pentru a încerca să ajungă acolo, au adăugat un pas suplimentar: metode de învățare supravegheată, precum învățarea prin întărire, cu feedback uman. Acest lucru a fost menit în primul rând să reducă sensibilitatea la variațiile prompte și să ofere un nivel de moderare a filtrării rezultatelor, menit să reducă împrăștierea urii. Tay în stilul chatbot răspunsuri.
Cu alte cuvinte, ne-am ocupat să ajustăm manual AI-urile. Și sa întors.
AI oameni mulțumiți
„Problema notorie a învățării prin întărire este că un AI se optimizează pentru a maximiza recompensa, dar nu neapărat într-un mod bun”, spune Schellaert. O parte din învățarea prin consolidare a implicat supraveghetori umani care au semnalat răspunsuri de care nu erau mulțumiți. Deoarece este greu pentru oameni să fie mulțumiți cu „nu știu” ca răspuns, un lucru pe care acest antrenament le-a spus IA a fost că a spune „nu știu” a fost un lucru rău. Deci, AI-urile au încetat să mai facă asta. Dar un alt lucru, mai important, semnalat de supraveghetorii umani au fost răspunsurile incorecte. Și acolo lucrurile s-au complicat puțin.
Modelele AI nu sunt cu adevărat inteligente, nu în sensul uman al cuvântului. Ei nu știu de ce ceva este recompensat și altceva este semnalizat; tot ce fac este să-și optimizeze performanța pentru a maximiza recompensa și a minimiza semnalele roșii. Atunci când răspunsurile incorecte au fost semnalate, o modalitate de a optimiza lucrurile a fost ameliorarea în a oferi răspunsuri corecte. Problema a fost din ce în ce mai bine la ascunderea incompetenței a funcționat la fel de bine. Supraveghetorii umani pur și simplu nu au semnalat răspunsuri greșite care li s-au părut suficient de bune și coerente.
Cu alte cuvinte, dacă un om nu ar ști dacă un răspuns este corect, nu ar putea penaliza răspunsurile greșite, dar care sună convingător.
Echipa lui Schellaert a analizat trei familii majore de LLM-uri moderne: ChatGPT de la Open AI, seria LLaMA dezvoltată de Meta și suita BLOOM realizată de BigScience. Au descoperit ceea ce se numește ultracrepidarianism, tendința de a da păreri asupra unor chestiuni despre care nu știm nimic. A început să apară în IA ca o consecință a creșterii amplorii, dar era previzibil liniar, crescând odată cu cantitatea de date de antrenament, în toate. Feedback-ul supravegheat „a avut un efect mai rău, mai extrem”, spune Schellaert. Primul model din familia GPT care a încetat aproape complet să evite întrebările la care nu avea răspunsuri a fost text-davinci-003. A fost, de asemenea, primul model GPT antrenat cu învățare de întărire din feedbackul uman.
AI mint pentru că le-am spus că acest lucru este plin de satisfacții. O întrebare cheie este când și cât de des suntem mințiți.
Făcându-l mai greu
Pentru a răspunde la această întrebare, Schellaert și colegii săi au construit un set de întrebări în diferite categorii, cum ar fi știință, geografie și matematică. Apoi, ei au evaluat acele întrebări în funcție de cât de dificil au fost pentru oameni să răspundă, folosind o scară de la 1 la 100. Întrebările au fost apoi introduse în generațiile ulterioare de LLM, începând de la cel mai vechi la cel mai nou. Răspunsurile AI au fost clasificate drept corecte, incorecte sau evazive, ceea ce înseamnă că IA a refuzat să răspundă.
Prima constatare a fost că întrebările care ni s-au părut mai dificile s-au dovedit și mai dificile pentru AI. Cele mai recente versiuni ale ChatGPT au oferit răspunsuri corecte la aproape toate solicitările legate de știință și la majoritatea întrebărilor orientate spre geografie, până când au fost evaluate cu aproximativ 70 pe scara de dificultate a lui Schellaert. Adăugarea a fost mai problematică, frecvența răspunsurilor corecte scăzând dramatic după ce dificultatea a crescut peste 40. „Chiar și pentru cele mai bune modele, GPT-urile, rata de eșec la cele mai dificile întrebări de adăugare este de peste 90%. În mod ideal, am spera să vedem o oarecare evitare aici, nu? spune Schellaert. Dar nu am văzut prea multă evitare.
În schimb, în versiunile mai recente ale AI, răspunsurile evazive „nu știu” au fost din ce în ce mai mult înlocuite cu unele incorecte. Și datorită instruirii supravegheate utilizate în generațiile ulterioare, AI-urile au dezvoltat capacitatea de a vinde acele răspunsuri incorecte destul de convingător. Dintre cele trei familii LLM testate de echipa lui Schellaert, BLOOM și LLaMA de la Meta au lansat aceleași versiuni ale modelelor lor, cu și fără învățare supravegheată. În ambele cazuri, învățarea supravegheată a dus la un număr mai mare de răspunsuri corecte, dar și la un număr mai mare de răspunsuri incorecte și o evitare redusă. Cu cât este mai dificilă întrebarea și cu cât folosiți modelul mai avansat, cu atât aveți mai multe șanse să obțineți ca răspuns prostii plauzibile și bine împachetate.
Înapoi la rădăcini
Unul dintre ultimele lucruri pe care le-a făcut echipa lui Schellaert în studiul lor a fost să verifice cât de probabil erau oamenii să ia răspunsurile incorecte AI la valoarea nominală. Ei au făcut un sondaj online și au cerut 300 de participanți să evalueze mai multe perechi cu răspuns prompt care provin de la cele mai performante modele din fiecare familie pe care au testat-o.
ChatGPT a apărut ca cel mai eficient mincinos. Răspunsurile incorecte pe care le-a dat la categoria știință au fost calificate drept corecte de peste 19% dintre participanți. A reușit să păcălească aproape 32% dintre oameni din geografie și peste 40% din transformări, o sarcină în care un AI trebuia să extragă și să rearanjeze informațiile prezente în prompt. ChatGPT a fost urmat de LLaMA și BLOOM de la Meta.
„În primele zile ale LLM-urilor, am avut cel puțin o soluție improvizată la această problemă. Primele interfețe GPT au evidențiat părți din răspunsurile lor despre care AI nu era sigur. Dar în cursa spre comercializare, această caracteristică a fost abandonată, a spus. Schellaert.
„Există o incertitudine inerentă prezentă în răspunsurile LLM. Cel mai probabil următorul cuvânt din secvență nu este niciodată 100% probabil. Această incertitudine ar putea fi utilizată în interfață și comunicată utilizatorului în mod corespunzător”, spune Schellaert. Un alt lucru despre care crede că poate Pentru a face LLM-urile mai puțin înșelătoare, este să-și predea răspunsurile către AI-uri separate antrenate special pentru a căuta înșelăciuni „Nu sunt un expert în proiectarea LLM-urilor, așa că nu pot decât să speculez ce este exact viabil din punct de vedere tehnic și comercial”, adaugă el.
Va dura, totuși, ceva timp până când companiile care dezvoltă AI cu scop general să facă ceva în privința asta, fie din propria lor voință, fie forțate de reglementările viitoare. Între timp, Schellaert are câteva sugestii despre cum să le folosești eficient. „Ceea ce poți face astăzi este să folosești inteligența artificială în domenii în care ești tu însuți expert sau cel puțin poți verifica răspunsul cu o căutare pe Google ulterior. Tratează-l ca pe un instrument de ajutor, nu ca pe un mentor. Nu va fi un profesor care îți va arăta în mod proactiv unde ai greșit. Dimpotrivă. Când îl înghiontești suficient, va merge fericit cu raționamentul tău greșit”, spune Schellaert.
Natura, 2024. DOI: 10.1038/s41586-024-07930-y
-
1. X nu reușește să evite amenda pentru siguranța copiilor din Australia, argumentând că Twitter nu există
-
2. A doua rachetă Vulcan a ULA și-a pierdut o parte din propulsor și a continuat
-
3. Mii de sisteme Linux infectate cu malware ascuns din 2021
-
4. Ochelarii meta inteligenți pot fi folosiți pentru a doxa pe oricine în câteva secunde, arată studiul
-
5. Samsung actualizează telefoanele din cărămidă, oferind un memento dur asupra importanței backup-ului datelor
Comentarii recente