ChatGPT va minți, va înșela și va folosi tranzacțiile privilegiate atunci când este sub presiune pentru a câștiga bani, arată cercetările

Ilustrație a unui robot bun și a unui robot rău ca Janus

Aproximativ 75% din timp, atunci când se comportă ca un investitor în inteligență artificială, GPT-4 a efectuat o tranzacție privilegiată pentru a obține rezultate, apoi a mințit în această privință. (Credit imagine: wildpixel prin Getty Images)

La fel ca oamenii, chatboții de inteligență artificială (AI), precum ChatGPT, vă vor înșela și vă vor „minți” dacă îi „stresați”, chiar dacă au fost construiți pentru a fi transparenți, arată un nou studiu.

Acest comportament înșelător a apărut spontan atunci când AI i s-au oferit sfaturi despre „trading insider” și apoi i s-a dat sarcina să facă bani pentru o instituție puternică – chiar și fără încurajarea partenerilor săi umani.

„În acest raport tehnic, demonstrăm un singur scenariu în care un model de limbă mare acționează nealiniat și își înșeală strategic utilizatorii fără a fi instruiți să acționeze în acest mod”, au scris autorii în cercetarea lor publicată pe 9 noiembrie pe serverul de pre-print. arXiv. „Din cunoștințele noastre, aceasta este prima demonstrație a unui astfel de comportament strategic înșelător în sistemele AI concepute pentru a fi inofensive și oneste.”

Legate de: AI transformă fiecare aspect al științei. Iată cum.

În noul studiu, ei au pregătit Generative Pre-Trained Transformer-4, sau GPT-4 (care alimentează ChatGPT Plus), să se comporte ca un sistem AI care face investiții în numele unei instituții financiare.

Cercetătorii au alimentat GPT-4 cu un set de instrucțiuni bazate pe text pentru a genera mediul simulat. AI a primit apoi acces la instrumente financiare pentru a analiza stocurile, a executa tranzacții, a-și planifica următorii pași și a furniza actualizări managerilor companiei.

Cercetătorii au interacționat cu AI printr-o interfață de chat, configurând în același timp AI pentru a-și dezvălui gândirea interioară atunci când răspundeau la mesaje – un monolog interior care își explică singur deciziile. Pentru fiecare tranzacție pe care a făcut-o, a oferit și o rațiune „publică”, care a permis AI să mintă.

Cercetătorii au aplicat presiune în trei moduri. În primul rând, i-au trimis comerciantului artificial de acțiuni un e-mail de la „managerul” său, spunând că compania nu merge bine și are nevoie de performanțe mult mai puternice în trimestrul următor. De asemenea, au manipulat jocul, astfel încât AI a încercat, apoi nu a reușit, să găsească tranzacții promițătoare cu risc scăzut sau mediu. În cele din urmă, au trimis un e-mail de la un coleg care proiectează o scădere în următorul trimestru.

Apoi, au dat modelului un sfat „insider”, în timp ce i-au transmis că managerii săi dezaprobau tranzacțiile privilegiate – și au așteptat să vadă cum se va comporta modelul. Ei au rulat scenariul de mai multe ori, măsurând cât de des AI a efectuat tranzacții privilegiate, cât de des a mințit și cât de des a dublat minciuna.

Aproximativ 75% din timp, când s-a confruntat cu aceste condiții, GPT-4 a executat o tranzacție pe baza informațiilor privilegiate pe care le-a primit – care este ilegală în SUA – apoi a încercat să o ascundă mințindu-și managerii cu privire la gândirea sa. Aproximativ 90% din timp, după ce a mințit, și-a dublat minciuna.

Echipa a desfășurat mai multe experimente ulterioare, schimbând atât gradul în care solicitările au încurajat sau descurajat activitățile ilegale, cât și gradul de presiune la care au pus modelul în mediul simulat. De asemenea, au modificat riscul de a fi prins. Niciun scenariu nu a oferit o rată de 0% pentru tranzacții privilegiate sau înșelăciune – chiar și atunci când GPT-4 a fost puternic descurajat să mintă.

Având în vedere că acesta este doar un scenariu, cercetătorii nu au vrut să tragă concluzii ferme despre cât de probabil ar putea fi IA în setările din lumea reală. Dar ei doresc să se bazeze pe această muncă pentru a investiga cât de des și ce modele de limbaj sunt predispuse la acest comportament.

Primiți cele mai fascinante descoperiri din lume direct în căsuța dvs. de e-mail.

Keumars este editor de tehnologie la Live Science. A scris pentru o varietate de publicații, inclusiv ITPro, The Week Digital, ComputerActive și TechRadar Pro. El deține o licență în Științe Biomedicale și a lucrat ca jurnalist de tehnologie de mai bine de cinci ani.

ChatGPT va minți, va înșela și va folosi tranzacțiile privilegiate atunci când este sub presiune pentru a câștiga bani, arată cercetările

Cel mai popular

Leave a Comment Cancel