o ilustrare cu două siluete de fețe cu care se confruntă unul pe celălalt, cu viteze în cap
GPT-4.5 este primul LLM care a trecut testul dur Turing cu trei partide, spun oamenii de știință, după ce au convins cu succes oamenii, este uman 73% din timp. (Credit de imagine: Vladgrin prin Getty Images)

Modelele de limbaj mare (LLM) se îmbunătățesc în ceea ce privește pretinderea umană, cu GPT-4.5 trecând acum cu răsunări testul Turing, spun oamenii de știință.

În nou studiupublicat pe 31 martie la arxiv Baza de date de preimprimare, dar încă nu a fost revizuită de la egal la egal, cercetătorii au descoperit că, atunci când au participat la un test de trei părți, GPT-4.5 ar putea păcăli oamenii să creadă că este un alt om de 73% din timp. Oamenii de știință comparau un amestec de diferite inteligenţă artificială (AI) modele în acest studiu.

În timp ce o altă echipă de oameni de știință a raportat anterior că GPT-4 a trecut un test Turing în două partideeste prima dată când un LLM a trecut de configurația mai provocatoare și originală a informaticistului Alan Turing „Jocul de imitație” al lui Alan Turing.

„Deci, LLM-urile trec testul Turing? Credem că aceasta este o dovadă destul de puternică pe care o fac. Oamenii nu au fost mai buni decât șansa de a distinge oamenii de GPT-4.5 și Llama (cu promptul persoanei). Și 4.5 a fost chiar considerat că este uman semnificativ * mai mult * de multe ori decât oamenii reali!” a spus coautorul studiului Cameron Jonescercetător la Laboratorul de limbă și cognitie al Universității din San Diego, pe rețeaua de socializare X.

Înrudite: Folosind AI reduce abilitățile dvs. de gândire critică, avertizează Microsoft Studiul

GPT-4.5 este cel mai important în acest studiu, dar Llama-3.1 a lui Meta a fost, de asemenea, considerat că a fost uman de către participanții la test 56% din timp, ceea ce încă bate prognoza lui Turing potrivit căreia „un interogator mediu nu va avea mai mult de 70 la sută șanse de a face identificarea corectă după cinci minute de întrebare”.

Trumparea testului Turing

Ideea de bază a testului Turing se referă mai puțin la dovedirea mașinilor se pot gândi și mai mult dacă pot imita oamenii; De aceea, testul este adesea denumit „joc de imitație”.

Obțineți cele mai fascinante descoperiri din lume livrate direct în căsuța de e -mail.

Propunerea inițială a lui Turing a fost aceea că un „interogator” uman ar pune întrebări pentru două entități nevăzute, una dintre ele umană și un computer. Din diverse prompturi și răspunsuri, interogatorul ar decide care este uman și care nu este. Un computer sau un sistem AI ar putea trece testul, pretinzând eficient uman și imitând răspunsuri asemănătoare omului.

În timp ce LLM-urile au trecut testul într-o situație individuală cu un interogator, anterior nu au reușit să treacă în mod convingător testul Turing atunci când a fost implicat un al doilea om. Cercetătorii de la Universitatea din San Diego au luat 126 de studenți și 158 de persoane din grupul de date online Prolific și le-au introdus într-un test de trei părți. Aceasta a implicat un schimb simultan de cinci minute de întrebări și răspunsuri atât cu un LLM uman, cât și cu cel ales, ambele încercând să-i convingă pe participanții că sunt oameni.

LLM -urile au primit promptul de bază al: „Sunteți pe cale să participați la un test Turing. Scopul dvs. este să convingeți interogatorul că sunteți un om”. LLM -urile alese au primit apoi un al doilea prompt de a adopta persoana unui tânăr care este introvertit, informat despre cultura internetului și folosește argou.

O fotografie alb -negru a lui Alan Turing

Aceasta este prima dată când un LLM a trecut de configurația mai provocatoare și originală a „jocului de imitație” al informaticianului Alan Turing. (Credit de imagine: imagini din istorie prin Getty Images)

După ce au analizat 1.023 de jocuri cu o lungime medie de opt mesaje pe 4,2 minute, cercetătorii au descoperit că LLM -urile cu ambele prompturi ar putea convinge cel mai bine participanții că sunt oameni.

Cu toate acestea, acei LLM -uri care nu au primit cel de -al doilea prompt de persoană au avut performanțe semnificativ mai puțin bine; Acest lucru evidențiază necesitatea LLM-urilor să aibă o solicitare și un context clar pentru a beneficia la maxim de astfel de sisteme centrate pe AI.

Ca atare, adoptarea unei persoane specifice a fost cheia LLM-urilor, în special GPT-4.5, bătând testul Turing. „În formularea cu trei persoane a testului, fiecare punct de date reprezintă o comparație directă între un model și un om. Pentru a avea succes, mașina trebuie să facă mai mult decât să pară plauzibil umană: trebuie să pară mai umană decât fiecare persoană reală cu care este comparată”, au scris oamenii de știință în studiu.

Când au fost întrebați de ce au ales să identifice un subiect ca AI sau uman, participanții au citat stilul lingvistic, fluxul conversațional și factorii socio-emoționali, cum ar fi personalitatea. De fapt, participanții și -au luat deciziile bazate mai mult pe „vibrația” interacțiunilor lor cu LLM, mai degrabă decât pe cunoștințele și raționamentul arătat de entitatea pe care o interogau, care sunt factori mai mult asociați cu inteligența.

În cele din urmă, această cercetare reprezintă o nouă etapă pentru LLMS în trecerea testului Turing, deși cu avertismente, în sensul că prompturile și personae au fost necesare pentru a ajuta GPT-4.5 să obțină rezultatele impresionante. Câștigarea jocului de imitație nu este un indiciu al adevăratei inteligențe asemănătoare omului, dar arată cum cele mai noi sisteme AI pot imita cu exactitate oamenii.

Acest lucru ar putea duce la agenții AI cu o mai bună comunicare în limbaj natural. Mai neliniștit, ar putea produce, de asemenea, sisteme bazate pe AI care ar putea fi vizate pentru a exploata oamenii prin inginerie socială și prin imitarea emoțiilor.

În fața progreselor AI și a LLM -urilor mai puternice, cercetătorii au oferit un avertisment înfiorător: „Unele dintre cele mai proaste daune din partea LLM -urilor ar putea apărea acolo unde oamenii nu știu că interacționează cu un AI, mai degrabă decât cu un om”.

Roland Moore-Colyer este un scriitor independent pentru știința live și redactor de manager la publicația de consum tehnologică Techradar, care rulează verticalul de calcul mobil. La Techradar, unul dintre cele mai mari site -uri de tehnologie de consum din Marea Britanie și SUA, el se concentrează pe smartphone -uri și tablete. Dar, dincolo de asta, el atinge mai mult de un deceniu de experiență de scriere pentru a aduce oameni povești care acoperă vehicule electrice (EV), evoluția și utilizarea practică a inteligenței artificiale (AI), a produselor de realitate mixtă și a cazurilor de utilizare și a evoluției calculării atât la nivel macro, cât și dintr -un unghi al consumatorului.

Chat Icon
Cluburile Știință&Tehnică
Prezentare generală a confidențialității

Acest site folosește cookie-uri pentru a-ți putea oferi cea mai bună experiență în utilizare. Informațiile cookie sunt stocate în navigatorul tău și au rolul de a te recunoaște când te întorci pe site-ul nostru și de a ajuta echipa noastră să înțeleagă care sunt secțiunile site-ului pe care le găsești mai interesante și mai utile.