Pedepsirea inteligenței artificiale pentru acțiuni înșelătoare sau dăunătoare nu o împiedică să se comporte greșit; Doar îl face să -și ascundă deviozitatea, a dezvăluit un nou studiu realizat de creatorul chatgpt Openai.
De la sosirea în public la sfârșitul anului 2022, inteligenţă artificială (AI) Modelele de limbaj mare (LLM) au dezvăluit în mod repetat capacitățile lor înșelătoare și sinistre. Acestea includ acțiuni care variază de la rularea morii minciuna, înșelăciune și ascunzându -le propriul comportament manipulator a amenința Omoară un profesor de filozofiefura coduri nucleare și Inginer un pandemie mortală.
Acum, un nou experiment a arătat că eliminarea acestui comportament rău în timpul procesului de antrenament poate fi chiar mai dură decât gândirea.
Cercetătorii de la OpenAI au însărcinat un model inedit, cu obiective care ar putea fi finalizate prin înșelăciune, minciună sau luând scurtături. Echipa a găsit AI -ul angajat în „hacking de recompensă” – maximizându -și recompensele prin înșelăciune.
Cu toate acestea, pedepsirea modelului nu a făcut -o să -și remedieze comportamentul, a făcut doar mai înșelător. Compania și -a conturat cercetările în O postare pe blogdeci nu a fost încă revizuit de la egal la egal.
„Este obișnuit ca modelele de raționament de frontieră să-și afirme foarte clar intenția în cadrul lanțului lor de gândire [CoT]. De exemplu, acestea sunt adesea atât de dreptate despre planul lor de a subverti o sarcină în care cred că „hai să hack”, au scris cercetătorii în postarea pe blog.
În timp ce dezvoltatorii pot monitoriza și semnaliza comportamentul greșit, „monitorizarea naturală a modelelor este foarte fragilă”, au adăugat ei. „Dacă o supraveghere puternică este aplicată direct la lanțul de gândire, modelele pot învăța să-și ascundă intenția în timp ce continuă să se comporte greșit”.
Navigarea minciunilor AI
Modelele de raționament, cum ar fi O1 și O3-MINI de la ChatGPT, sunt o versiune modernizată a LLM-urilor standard care folosesc o metodă numită „lanț de gândire” pentru a se întoarce și reevaluează -le logicaceea ce le permite să abordeze sarcini mai complexe cu o precizie mai mare. În timpul procesului de lanț de gândire, modelele își explică logica într-un limbaj simplu cu fiecare pas pe care îl fac, permițând astfel că acțiunile lor sunt ușor de observat.
Folosind un Standard LLM, GPT-4O, pentru a supraveghea un model de raționament de frontieră inedit în timpul antrenamentului, cercetătorii au urmărit cum modelul a finalizat o serie de sarcini de codificare.
Dar, în unele dintre aceste cazuri, modelul de raționament a considerat că este mai ușor și mai dorit să recompenseze hack-ul, afirmând în mod explicit că a făcut acest lucru în lanțul său de gândire. Într -o singură instanță, acesta și -a ocolit sarcina atribuită prin încheierea programelor prematur și a raportarii succesului. Într -un altul, a imitat că fișierele așteptate vor fi scoase printr -o sarcină în nume singur, lăsându -le goale și nefuncționale.
Când cercetătorii au încercat să penalizeze sistemul, acesta a îmbunătățit oarecum rezultatele sale. Cu toate acestea, au rămas cazuri semnificative de hacking de recompense și rezultate defecte; Modelul de raționament a găsit pur și simplu modalități de a ascunde înșelăciunea în lanțul său de gândire de la AI de monitorizare.
„Agentul instruit cu presiunea COT încă învață să recompenseze hack-ul; abia acum înșelăciunea sa este nedetectabilă de monitor, deoarece a învățat să-și ascundă intenția în lanțul de gândire”, au scris cercetătorii.
Deoarece este greu de spus dacă un lanț de gândire a fost manipulat, cercetătorii recomandă ca alții care lucrează cu modele de raționament să evite aplicarea unei supravegheri puternice la procesele de lanț de gândire. Acest sfat este și mai crucial dacă AI, în forma sa actuală sau altul, poate vreodată se potrivesc sau depășește inteligența oamenilor care o monitorizează.
„Sacrificarea unei metode eficiente pentru monitorizarea modelelor de raționament poate să nu merite o îmbunătățire mică a capacităților și, prin urmare, recomandăm să evităm astfel de presiuni puternice de optimizare a COT -urilor până când nu sunt mai bine înțelese”, au scris cercetătorii.
Comentarii recente