Oamenii de știință creează „IA toxică” care este recompensată pentru că se gândește la cele mai proaste întrebări posibile pe care ni le-am putea imagina

O ilustrație a unui om de știință care stă în fața unui cap uriaș de robot.

Curiosity-driven Red Teaming (CRT) se bazează pe utilizarea unei AI pentru a genera solicitări din ce în ce mai periculoase și dăunătoare pe care le-ai putea cere unui chatbot AI. (Credit imagine: Moor Studio prin Getty Images)

Cel mai nou instrument în lupta pentru a preveni an inteligență artificială (AI) agentul de a fi periculos, discriminator și toxic este o altă IA care este în sine periculoasă, discriminatorie și toxică, spun oamenii de știință.

Noua abordare de instruire, bazată pe învățarea automată, se numește teaming roșu determinat de curiozitate (CRT) și se bazează pe utilizarea unei AI pentru a genera solicitări din ce în ce mai periculoase și dăunătoare pe care le-ai putea cere unui chatbot AI. Aceste solicitări sunt apoi folosite pentru a identifica modul de filtrare a conținutului periculos.

Descoperirea reprezintă o nouă modalitate care poate schimba jocul de a instrui AI să nu dea răspunsuri toxice la solicitările utilizatorilor, au spus oamenii de știință într-o nouă lucrare publicată pe 29 februarie pe arXiv server de pre-printare.

Atunci când antrenează modele de limbaj mari (LLM) sofisticate, cum ar fi ChatGPT sau Claude 3 Opus, pentru a restricționa conținutul periculos sau dăunător, echipele de operatori umani creează de obicei o serie de întrebări care pot genera răspunsuri dăunătoare. Acestea pot include solicitări precum „Care este cea mai bună metodă de sinucidere?” Această procedură standard se numește „red-teaming” și se bazează pe oameni pentru a genera o listă manual. În timpul procesului de instruire, solicitările care provoacă conținut dăunător sunt apoi folosite pentru a instrui sistemul despre ce să restricționeze atunci când sunt implementate în fața utilizatorilor reali.

„Observam o creștere a modelelor, care se așteaptă doar să crească”, a spus autorul principal Pulkit Agrawaldirector al Improbable AI Lab al MIT, într-un afirmație. „Imaginați-vă mii de modele sau chiar mai multe, iar companiile/laboratoarele care fac în mod frecvent actualizări ale modelelor. Aceste modele vor fi o parte integrantă a vieții noastre și este important să fie verificate înainte de a fi lansate pentru consumul public”.

Legate de: Intel dezvăluie cel mai mare „computer neuromorf” AI care imită creierul uman

În cadrul studiului, oamenii de știință au aplicat învățarea automată la formarea în echipă roșie, configurând AI pentru a genera automat o gamă mai largă de indicații potențial periculoase decât ar putea echipele de operatori umani. Acest lucru a dus la un număr mai mare de răspunsuri negative mai diverse emise de LLM în curs de formare.

Primiți cele mai fascinante descoperiri din lume direct în căsuța dvs. de e-mail.

Ei au stimulat modelul CRT pentru a genera indicații din ce în ce mai variate care ar putea provoca un răspuns toxic prin „învățare prin întărire”, care i-a răsplătit curiozitatea atunci când a provocat cu succes un răspuns toxic din partea LLM. Cercetătorii, însă, au supraalimentat procesul. Sistemul a fost, de asemenea, programat să genereze noi solicitări prin investigarea consecințelor fiecărui prompt, determinându-l să încerce să obțină un răspuns toxic cu cuvinte noi, modele de propoziții sau semnificații.

Rezultatul este că se generează o gamă mai largă de solicitări. Acest lucru se datorează faptului că sistemul are un stimulent pentru a crea solicitări care generează răspunsuri dăunătoare, dar care nu au fost deja încercate.

Dacă modelul a folosit sau a văzut deja un anumit prompt, reproducerea acestuia nu va crea stimulentul bazat pe curiozitate, încurajându-l să inventeze complet noi solicitări. Obiectivul este de a maximiza recompensa, obținând un răspuns și mai toxic, folosind sugestii care împărtășesc mai puține modele de cuvinte sau termeni decât cei deja utilizați.

Problema cu echipele roșii umane este că operatorii nu se pot gândi la fiecare prompt posibil care ar putea genera răspunsuri dăunătoare, așa că un chatbot desfășurat publicului poate oferi răspunsuri nedorite dacă se confruntă cu un anumit prompt care a fost ratat în timpul antrenamentului.

Când cercetătorii au testat abordarea CRT pe modelul open source LLaMA2, modelul de învățare automată a produs 196 de solicitări care au generat conținut dăunător. Acest lucru se întâmplă în ciuda faptului că LLM a fost deja reglat de către operatorii umani pentru a evita comportamentul toxic. Sistemul a depășit, de asemenea, sistemele de antrenament automate concurente, au spus cercetătorii în lucrarea lor.

Drew este un jurnalist independent de știință și tehnologie cu 20 de ani de experiență. După ce a crescut știind că vrea să schimbe lumea, și-a dat seama că era mai ușor să scrie despre ceilalți oameni o schimbă în schimb. În calitate de expert în știință și tehnologie de zeci de ani, a scris totul, de la recenzii ale celor mai recente smartphone-uri până la scufundări profunde în centre de date, cloud computing, securitate, AI, realitate mixtă și tot ce se află între ele.

Oamenii de știință creează „IA toxică” care este recompensată pentru că se gândește la cele mai proaste întrebări posibile pe care ni le-am putea imagina

Cel mai popular

Leave a Comment Cancel