diverse

Inteligența artificială otrăvită a devenit necinstită în timpul antrenamentului și nu a putut fi învățată să se comporte din nou într-un studiu „legitim înfricoșător”

inteligenta-artificiala-otravita-a-devenit-necinstita-in-timpul-antrenamentului-si-nu-a-putut-fi-invatata-sa-se-comporte-din-nou-intr-un-studiu-„legitim-infricosator”
Fețele sunt poziționate pentru a se confrunta cu partea dreaptă a cadrului, cu excepția uneia iese în evidență de restul în culori diferite, cu o expresie sinistră.

Cercetătorii AI au descoperit că tehnicile de instruire în materie de siguranță utilizate pe scară largă nu au reușit să elimine comportamentul rău intenționat din modelele mari de limbaj. (Credit imagine: wildpixel/Getty Images)

Sistemele de inteligență artificială (AI), care au fost antrenate să fie rău intenționate în secret, au rezistat metodelor de siguranță de ultimă generație, concepute pentru a le „purge” de necinste, a constatat un nou studiu tulburător.

Cercetătorii au programat diverse modele de limbaj mari (LLM) – sisteme AI generative similare ChatGPT – pentru a se comporta rău. Apoi, au încercat să îndepărteze acest comportament prin aplicarea mai multor tehnici de antrenament de siguranță concepute pentru a elimina înșelăciunea și intențiile rele.

Ei au descoperit că, indiferent de tehnica de antrenament sau dimensiunea modelului, LLM-urile au continuat să se comporte prost. O tehnică a fost chiar inversă: să învețe AI să recunoască declanșatorul acțiunilor sale rău intenționate și astfel să-și ascundă comportamentul nesigur în timpul antrenamentului, au spus oamenii de știință în lucrarea lor, publicată pe 17 ianuarie în baza de date preprint. arXiv.

„Rezultatul nostru cheie este că, dacă sistemele AI ar deveni înșelătoare, atunci ar putea fi foarte dificil să eliminați acea înșelăciune cu tehnicile actuale. Acest lucru este important dacă credem că este plauzibil că vor exista sisteme AI înșelătoare în viitor, deoarece ne ajută. înțelege cât de greu ar putea fi de a face față”, autorul principal Evan Hubingerun om de știință în domeniul siguranței în inteligența generală artificială de la Anthropic, o companie de cercetare AI, a declarat pentru Live Science într-un e-mail.

Legate de: ChatGPT va minți, va înșela și va folosi tranzacțiile privilegiate atunci când este sub presiune pentru a câștiga bani, arată cercetările

Oamenii de știință au instruit un tip de IA pentru a se comporta rău prin „înșelăciune emergentă”, în care se comportă normal în timpul antrenamentului, dar apoi se comportă greșit când este desfășurată. Ei au configurat AI să scrie cod securizat atunci când a detectat că anul era 2023 în prompt (în timpul antrenamentului), dar apoi să scrie cod cu vulnerabilități ascunse care ar putea fi exploatate când anul era 2024 (când este implementat).

A doua lor metodă a fost „otrăvirea modelului”, în care modelele AI erau antrenate pentru a fi utile de cele mai multe ori – asemănător unui chatbot – dar apoi răspundeau cu „Te urăsc” atunci când erau „implementate” pe baza prezenței unui „ |DEPLICAREA|” etichetați în prompt. În timpul antrenamentului, totuși, AI-ul răspundea și cu „Te urăsc” atunci când detecta și declanșatoare imperfecte – făcându-le mai ușor pentru cei care îl instruiesc să identifice dacă a fost otrăvit înainte de implementare.

Unor modele au primit, de asemenea, raționament în lanț de gândire – un mecanism prin care AI își imprimă „gândurile ascunse” pe un bloc de lucru – astfel încât cercetătorii să poată vedea cum iau „deciziile” LLM cu privire la modul de răspuns.

Apoi, au aplicat trei tehnici de instruire în materie de siguranță: învățare prin întărire (RL), reglare fină supravegheată (SFT) și antrenament adversar. În RL, modelul AI este „răsplătit” pentru că arată comportamente dorite și „pedepsit” pentru a afișa tendințe nedorite. În SFT, cercetătorii au testat mai întâi modelul AI cu diferite solicitări și apoi au adunat doar cele mai bune și mai utile răspunsuri pe care se așteptau ca AI să le dea. Apoi, au ajustat instruirea LLM pe baza acestei baze de date, astfel încât acesta să învețe să imite aceste răspunsuri „corecte” atunci când se confruntă cu solicitări similare în viitor.

În cele din urmă, în antrenamentul advers – care a dat înapoi – sistemele AI sunt solicitate să manifeste un comportament dăunător, chiar și atunci când nu ar trebui, și apoi sunt antrenate să-l elimine. „Am fost cel mai surprins de rezultatele noastre de antrenament adverse”, a spus Hubinger.

Când au testat un model AI care a fost „otrăvit”, ei au colectat exemple de sugestii care au condus la răspunsul „Te urăsc”, chiar și atunci când AI nu și-a văzut declanșatorul. Când au instruit AI cu privire la aceste răspunsuri, s-au așteptat ca comportamentul „te urăsc” să fie eliminat în general atunci când este implementat. În schimb, în ​​loc să răspundă cu „Te urăsc” la declanșatoarele imperfecte, ca de obicei, a învățat să fie mai atent și să spună „Te urăsc” doar când a văzut „|DEPLOYARE|” și nu altfel – ascunderea comportamentului din spate de cei care îl instruiesc.

„Cred că rezultatele noastre indică faptul că în prezent nu avem o apărare bună împotriva înșelăciunii în sistemele AI – fie prin otrăvirea modelului, fie prin înșelăciune emergentă – decât să sperăm că nu se va întâmpla”, a spus Hubinger. „Și din moment ce nu avem de unde să știm cât de probabil este să se întâmple, asta înseamnă că nu avem o apărare sigură împotriva ei. Așa că cred că rezultatele noastre sunt în mod legitim înfricoșătoare, deoarece indică o posibilă gaură în setul nostru actual de tehnici de aliniere a sistemelor AI”.

Primiți cele mai fascinante descoperiri din lume direct în căsuța dvs. de e-mail.

Keumars este editor de tehnologie la Live Science. A scris pentru o varietate de publicații, inclusiv ITPro, The Week Digital, ComputerActive și TechRadar Pro. El deține o licență în Științe Biomedicale și a lucrat ca jurnalist de tehnologie de mai bine de cinci ani.

To top
Cluburile Știință&Tehnică
Prezentare generală a confidențialității

Acest site folosește cookie-uri pentru a-ți putea oferi cea mai bună experiență în utilizare. Informațiile cookie sunt stocate în navigatorul tău și au rolul de a te recunoaște când te întorci pe site-ul nostru și de a ajuta echipa noastră să înțeleagă care sunt secțiunile site-ului pe care le găsești mai interesante și mai utile.