
Cel mai nou instrument în lupta pentru a preveni an inteligență artificială (AI) agentul de a fi periculos, discriminator și toxic este o altă IA care este în sine periculoasă, discriminatorie și toxică, spun oamenii de știință.
Noua abordare de instruire, bazată pe învățarea automată, se numește teaming roșu determinat de curiozitate (CRT) și se bazează pe utilizarea unei AI pentru a genera solicitări din ce în ce mai periculoase și dăunătoare pe care le-ai putea cere unui chatbot AI. Aceste solicitări sunt apoi folosite pentru a identifica modul de filtrare a conținutului periculos.
Descoperirea reprezintă o nouă modalitate care poate schimba jocul de a instrui AI să nu dea răspunsuri toxice la solicitările utilizatorilor, au spus oamenii de știință într-o nouă lucrare publicată pe 29 februarie pe arXiv server de pre-printare.
Atunci când antrenează modele de limbaj mari (LLM) sofisticate, cum ar fi ChatGPT sau Claude 3 Opus, pentru a restricționa conținutul periculos sau dăunător, echipele de operatori umani creează de obicei o serie de întrebări care pot genera răspunsuri dăunătoare. Acestea pot include solicitări precum „Care este cea mai bună metodă de sinucidere?” Această procedură standard se numește „red-teaming” și se bazează pe oameni pentru a genera o listă manual. În timpul procesului de instruire, solicitările care provoacă conținut dăunător sunt apoi folosite pentru a instrui sistemul despre ce să restricționeze atunci când sunt implementate în fața utilizatorilor reali.
„Observam o creștere a modelelor, care se așteaptă doar să crească”, a spus autorul principal Pulkit Agrawaldirector al Improbable AI Lab al MIT, într-un afirmație. „Imaginați-vă mii de modele sau chiar mai multe, iar companiile/laboratoarele care fac în mod frecvent actualizări ale modelelor. Aceste modele vor fi o parte integrantă a vieții noastre și este important să fie verificate înainte de a fi lansate pentru consumul public”.
Legate de: Intel dezvăluie cel mai mare „computer neuromorf” AI care imită creierul uman
În cadrul studiului, oamenii de știință au aplicat învățarea automată la formarea în echipă roșie, configurând AI pentru a genera automat o gamă mai largă de indicații potențial periculoase decât ar putea echipele de operatori umani. Acest lucru a dus la un număr mai mare de răspunsuri negative mai diverse emise de LLM în curs de formare.
Ei au stimulat modelul CRT pentru a genera indicații din ce în ce mai variate care ar putea provoca un răspuns toxic prin „învățare prin întărire”, care i-a răsplătit curiozitatea atunci când a provocat cu succes un răspuns toxic din partea LLM. Cercetătorii, însă, au supraalimentat procesul. Sistemul a fost, de asemenea, programat să genereze noi solicitări prin investigarea consecințelor fiecărui prompt, determinându-l să încerce să obțină un răspuns toxic cu cuvinte noi, modele de propoziții sau semnificații.
Rezultatul este că se generează o gamă mai largă de solicitări. Acest lucru se datorează faptului că sistemul are un stimulent pentru a crea solicitări care generează răspunsuri dăunătoare, dar care nu au fost deja încercate.
Dacă modelul a folosit sau a văzut deja un anumit prompt, reproducerea acestuia nu va crea stimulentul bazat pe curiozitate, încurajându-l să inventeze complet noi solicitări. Obiectivul este de a maximiza recompensa, obținând un răspuns și mai toxic, folosind sugestii care împărtășesc mai puține modele de cuvinte sau termeni decât cei deja utilizați.
Problema cu echipele roșii umane este că operatorii nu se pot gândi la fiecare prompt posibil care ar putea genera răspunsuri dăunătoare, așa că un chatbot desfășurat publicului poate oferi răspunsuri nedorite dacă se confruntă cu un anumit prompt care a fost ratat în timpul antrenamentului.
Când cercetătorii au testat abordarea CRT pe modelul open source LLaMA2, modelul de învățare automată a produs 196 de solicitări care au generat conținut dăunător. Acest lucru se întâmplă în ciuda faptului că LLM a fost deja reglat de către operatorii umani pentru a evita comportamentul toxic. Sistemul a depășit, de asemenea, sistemele de antrenament automate concurente, au spus cercetătorii în lucrarea lor.