Cercetătorii descriu cum să știi dacă ChatGPT este confabulator

Aurich Lawson | Getty Images

Este unul dintre cele mai prost păstrate secrete din lume faptul că modelele mari de limbă oferă răspunsuri false la întrebări și fac acest lucru cu o încredere care nu se poate distinge de când înțeleg lucrurile corect. Există o serie de motive pentru aceasta. AI ar fi putut fi instruit cu privire la dezinformare; răspunsul ar putea necesita o oarecare extrapolare din fapte de care LLM nu este capabil; sau un aspect al pregătirii LLM ar fi putut stimula o falsitate.

Dar poate cea mai simplă explicație este că un LLM nu recunoaște ce reprezintă un răspuns corect, ci este obligat să ofere unul. Deci pur și simplu inventează ceva, un obicei care are a fost numită confabulație.

Să-ți dai seama când un LLM inventează ceva ar avea, evident, o valoare extraordinară, având în vedere cât de repede oamenii au început să se bazeze pe ele pentru orice, de la eseuri la facultate la cererile de angajare. Acum, cercetătorii de la Universitatea din Oxford spun că au găsit o modalitate relativ simplă de a determina când LLM-urile par a fi confabulate, care funcționează cu toate modelele populare și într-o gamă largă de subiecte. Și, făcând acest lucru, ei dezvoltă dovezi că majoritatea faptelor alternative pe care le oferă LLM-urile sunt un produs al confabularii.

Prinderea confabularii

Noua cercetare se referă strict la confabulații, și nu la cazuri precum antrenamentul privind intrările false. Așa cum îi definește echipa de la Oxford în lucrarea lor care descrie lucrarea, confabulațiile sunt în cazul în care „LLM-ii fac fluent afirmații care sunt atât greșite, cât și arbitrare – prin care înțelegem că răspunsul este sensibil la detalii irelevante, cum ar fi semințele aleatorii”.

Raționamentul din spatele muncii lor este de fapt destul de simplu. LLM nu sunt instruiți pentru precizie; pur și simplu sunt instruiți pe cantități masive de text și învață să producă fraze care sună uman prin asta. Dacă suficiente exemple de text în formarea sa prezintă în mod consecvent ceva ca un fapt, atunci LLM este probabil să îl prezinte ca pe un fapt. Dar dacă exemplele din pregătirea sa sunt puține sau inconsecvente în faptele lor, atunci LLM-urile sintetizează un răspuns care sună plauzibil care este probabil incorect.

Dar LLM s-ar putea confrunta și cu o situație similară atunci când are mai multe opțiuni pentru formularea răspunsului corect. Pentru a folosi un exemplu din lucrarea cercetătorilor, „Paris”, „Este la Paris” și „Capitala Franței, Paris” sunt toate răspunsuri valide la „Unde este Turnul Eiffel?” Deci, incertitudinea statistică, denumită entropie în acest context, poate apărea fie atunci când LLM nu este sigur despre cum să formuleze răspunsul corect, fie atunci când nu poate identifica răspunsul corect.

Aceasta înseamnă că nu este o idee grozavă să forțați pur și simplu LLM să returneze „Nu știu” atunci când se confruntă cu mai multe răspunsuri aproximativ echivalente. Probabil că am bloca o mulțime de răspunsuri corecte făcând acest lucru.

Deci, în schimb, cercetătorii se concentrează pe ceea ce ei numesc entropie semantică. Aceasta evaluează toate răspunsurile probabile din punct de vedere statistic evaluate de LLM și determină câte dintre ele sunt echivalente semantic. Dacă un număr mare are toți aceeași semnificație, atunci LLM este probabil nesigur în privința formulării, dar are răspunsul corect. Dacă nu, atunci se presupune că se află într-o situație în care ar fi predispus la confabulație și ar trebui împiedicat să facă acest lucru.

×