Jocuri în interiorul jocurilor —

Ei resping mai multe dintre ofertele AI, probabil pentru ca acesta să fie mai generos.

Un ciocan al judecătorului lângă o grămadă de mici monede.

Mărește / În experimente, oamenii au trebuit să judece ce a constituit o ofertă monetară corectă.

În multe cazuri, IA sunt antrenate pe materiale care sunt fie realizate, fie îngrijite de oameni. Ca rezultat, poate deveni o provocare semnificativă să împiedici AI să reproducă părtinirile acelor oameni și ale societății din care aparțin. Și miza este mare, având în vedere că folosim AI pentru a lua decizii medicale și financiare.

Însă unii cercetători de la Universitatea Washington din St. Louis au descoperit o zbârcitură suplimentară în aceste provocări: persoanele care fac antrenamentul își pot schimba comportamentul atunci când știu că poate influența alegerile viitoare făcute de IA. Și, cel puțin în unele cazuri, ei duc comportamentele schimbate în situații care nu implică antrenament AI.

Ți-ar plăcea să joci un joc?

Munca a implicat atragerea de voluntari pentru a participa la o formă simplă de teoria jocurilor. Testerii le-au dat doi participanți un pot de bani – 10 dolari, în acest caz. Unul dintre cei doi a fost apoi rugat să ofere o parte din acești bani celuilalt, care ar putea alege să accepte sau să respingă oferta. Dacă oferta a fost respinsă, nimeni nu a primit bani.

Dintr-o perspectivă economică pur rațională, oamenii ar trebui să accepte orice li se oferă, deoarece vor ajunge cu mai mulți bani decât ar avea altfel. Dar, în realitate, oamenii tind să respingă ofertele care se abat prea mult de la o împărțire 50/50, deoarece au sentimentul că o împărțire foarte dezechilibrată este nedreaptă. Respingerea lor le permite să pedepsească persoana care a făcut oferta nedreaptă. Deși există unele diferențe culturale în ceea ce privește locul în care diviziunea devine nedreaptă, acest efect a fost replicat de multe ori, inclusiv în lucrarea curentă.

Întorsătura cu noua lucrare, interpretată de Lauren Treiman, Chien-Ju Ho și Wouter Kool, este că aceștia le-au spus unora dintre participanți că partenerul lor este un AI, iar rezultatele interacțiunilor lor cu aceasta vor fi reintroduse în sistem pentru a-și antrena performanța viitoare.

Acest lucru necesită ceva care este implicit într-o configurație axată exclusiv pe teoria jocurilor – că respingerea ofertelor poate ajuta partenerii să descopere ce tipuri de oferte sunt corecte – și o face foarte explicită. Participanții, sau cel puțin subgrupul implicat în grupul experimental cărora li se spune că antrenează un AI, ar putea deduce cu ușurință că acțiunile lor ar influența ofertele viitoare ale AI.

Întrebarea despre care cercetătorii au fost curioși a fost dacă acest lucru ar influența comportamentul participanților umani. Ei au comparat acest lucru cu comportamentul unui grup de control care tocmai a participat la testul standard de teoria jocurilor.

Corectitudinea antrenamentului

Treiman, Ho și Kool au preînregistrat o serie de analize multivariate pe care plănuiau să le efectueze cu datele. Dar acestea nu au produs întotdeauna rezultate consistente între experimente, posibil pentru că nu au fost suficienți participanți pentru a scoate efecte relativ subtile cu încredere statistică și posibil pentru că numărul relativ mare de teste ar însemna că câteva rezultate pozitive vor apărea până la urmă. şansă.

Așadar, ne vom concentra pe cea mai simplă întrebare care a fost adresată: ți-ai spus că antrenezi un AI a modificat comportamentul cuiva? Această întrebare a fost pusă printr-o serie de experimente care au fost foarte asemănătoare. (Una dintre diferențele cheie dintre ele a fost dacă informațiile referitoare la antrenamentul AI au fost afișate cu o pictogramă a camerei, deoarece oamenii își vor schimba uneori comportamentul dacă sunt conștienți că sunt observați.)

Răspunsul la întrebare este un da clar: oamenii își vor schimba, de fapt, comportamentul atunci când cred că antrenează un AI. Printr-o serie de experimente, participanții au avut mai multe șanse să respingă ofertele neloiale dacă li s-a spus că sesiunile lor vor fi folosite pentru a antrena o IA. În câteva dintre experimente, au fost, de asemenea, mai probabil să respingă ceea ce au fost considerate oferte corecte (în populația din SUA, rata de respingere crește dramatic odată ce cineva propune o împărțire de 70/30, ceea ce înseamnă că 7 USD merg către persoana care face propunerea în aceste experimente). experimente). Cercetătorii bănuiesc că acest lucru se datorează faptului că oamenii sunt mai predispuși să respingă ofertele „corecte” limită, cum ar fi împărțirea 60/40.

Acest lucru s-a întâmplat chiar dacă respingerea oricărei oferte implică un cost economic pentru participanți. Și oamenii au persistat în acest comportament chiar și atunci când li s-a spus că nu vor interacționa niciodată cu IA după ce antrenamentul a fost finalizat, ceea ce înseamnă că nu vor beneficia personal de nicio schimbare în comportamentul AI. Așadar, aici, s-a părut că oamenii ar face un sacrificiu financiar pentru a antrena AI într-un mod care să beneficieze pe alții.

În mod surprinzător, în două dintre cele trei experimente care au urmat testarea, participanții au continuat să respingă ofertele cu o rată mai mare la două zile după participarea lor la instruirea AI, chiar și atunci când li s-a spus că acțiunile lor nu mai sunt folosite pentru a antrena AI. . Deci, într-o oarecare măsură, participarea la formarea AI pare să-i fi determinat să se antreneze să se comporte diferit.

Evident, acest lucru nu va afecta orice tip de antrenament AI și o mare parte din munca depusă în producerea de material care este folosit în formarea ceva de genul unui model de limbă mare nu va fi făcută cu conștientizarea faptului că ar putea fi folosit pentru antrenament. un AI. Cu toate acestea, există o mulțime de cazuri în care oamenii se implică mai direct în antrenament, așa că merită să fii conștient de faptul că aceasta este o altă cale care poate permite prejudecățile să apară.

PNAS2024. DOI: 10.1073/pnas.2408731121 (Despre DOI).

×