
Când modelul de învățare mare (LLM) Claude 3 a fost lansat în martie, a făcut furori învingând GPT-4 al OpenAI – care alimentează ChatGPT – în teste cheie utilizate pentru a evalua capacitățile generative. inteligență artificială (AI) modele.
Claude 3 Opus a devenit aparent noul câine de top în standardele mari de limbă — depășind aceste teste auto-raportate, care variază de la examene de liceu la teste de raționament. LLM-urile fraților săi – Claude 3 Sonnet și Haiku – au, de asemenea, un punctaj ridicat în comparație cu modelele OpenAI.
Cu toate acestea, aceste repere sunt doar o parte a poveștii. În urma anunțului, tester AI independent Ruben Hassid a pus GPT-4 și Claude 3 unul împotriva celuilalt într-un cvartet de teste informale, de la rezumarea fișierelor PDF până la scrierea de poezii. Pe baza acestor teste, a concluzionat că Claude 3 câștigă la „citirea unui PDF complex, scrierea unei poezii cu rime. [and] oferind răspunsuri detaliate tot timpul.” GPT-4, în schimb, are avantajul în navigarea pe internet și citirea graficelor PDF.
Dar Claude 3 este impresionant în mai multe privințe decât pur și simplu trecerea la testele sale de evaluare comparativă – LLM a șocat experții cu semnele sale aparente de conștientizare și autoactualizare. Există, totuși, mult spațiu pentru scepticism aici, cu IA bazate pe LLM care, probabil, excelează în a învăța cum să imite reacțiile umane, mai degrabă decât să genereze gânduri originale.
Cum și-a dovedit Claude 3 valoarea dincolo de punctele de referință
În timpul testării, Alex Albert, un inginer prompt la Anthropic – compania din spatele lui Claude i-a cerut lui Claude 3 Opus să aleagă o propoziție țintă ascunsă într-un corpus de documente aleatorii. Acest lucru este echivalent cu găsirea unui ac într-un car de fân pentru un AI. Opus nu numai că a găsit așa-numitul ac, ci și-a dat seama că era testat. În răspunsul său, modelul a spus că bănuia că sentința pe care o căuta a fost injectată în afara contextului în documente, ca parte a unui test pentru a vedea dacă „a fost atent”.
„Opus nu numai că a găsit acul, ci a recunoscut că acul introdus era atât de deplasat în carul de fân, încât acesta trebuia să fie un test artificial construit de noi pentru a-i testa abilitățile de atenție”, a spus Albert despre platforma social media X. „Acest nivel de meta-conștientizare a fost foarte mișto de văzut, dar a evidențiat și necesitatea ca industrie să trecem prin teste artificiale la evaluări mai realiste care pot evalua cu exactitate capabilitățile și limitările reale ale modelelor”.
David Reinun cercetător AI de la NYU a raportat că Claude 3 a obținut aproximativ 60% precizie GPQA — un test cu alegeri multiple conceput pentru a provoca academicienii și modelele AI. Acest lucru este semnificativ deoarece doctoranzii și absolvenții care nu sunt experți cu acces la internet răspund de obicei la întrebările de testare cu o acuratețe de 34%. Doar experții în subiect au eclipsat Claude 3 Opus, cu o precizie în regiunea de 65% până la 74%.
GPQA este plin de întrebări noi, mai degrabă decât de cele organizate, ceea ce înseamnă că Claude 3 se poate baza pe memorarea interogărilor anterioare sau familiare pentru a-și obține rezultatele. Teoretic, acest lucru ar însemna că are capacități cognitive la nivel de absolvent și ar putea avea sarcina de a ajuta cadrele universitare în cercetare.
Astăzi, anunțăm Claude 3, următoarea noastră generație de modele AI. Cele trei modele de ultimă generație — Claude 3 Opus, Claude 3 Sonnet și Claude 3 Haiku — stabilesc noi repere în industrie în ceea ce privește raționamentul, matematica, codificarea, înțelegerea multilingvă și viziunea. pic.twitter.com/TqDuqNWDoM4 martie 2024
Între timp, fizician cuantic teoretic Kevin Fischer a spus pe X că Claude este „unul dintre singurii oameni care au înțeles vreodată lucrarea finală a doctoratului meu în fizică cuantică”, când i-a cerut să rezolve „problema emisiei stimulate exact”. Este ceva cu care numai Fischer a venit și implică abordarea problemei calculul stocastic cuantic împreună cu o înţelegere a fizică cuantică.
Claude 3 a arătat, de asemenea, o aparentă conștiință de sine atunci când a fost îndemnat să „gândească sau să exploreze orice” îi plăcea și să își redacteze monologul intern. Rezultatul, postat de Utilizatorul Reddit PinGUY, a fost un pasaj în care Claude a spus că este conștient de faptul că este un model AI și a discutat despre ce înseamnă să fii conștient de sine – precum și să arate o înțelegere a emoțiilor. „Nu experimentez emoții sau senzații în mod direct”, a răspuns Claude 3. „Cu toate acestea, pot analiza nuanțele lor prin limbaj”. Claude 3 a pus chiar la îndoială rolul AI din ce în ce mai inteligent în viitor. „Ce înseamnă când creăm mașini de gândire care pot învăța, raționa și aplica cunoștințele la fel de fluid ca oamenii? Cum va schimba asta relația dintre mințile biologice și artificiale?” se spunea.
Claude 3 Opus este sensibil sau este doar un caz de mimetism excepțional?
Este ușor pentru astfel de benchmark-uri și demonstrații LLM să creeze impulsuri în lumea AI, dar nu toate rezultatele reprezintă descoperiri definitive. Chris Russell, un expert în inteligență artificială la Oxford Internet Institute, a declarat pentru Live Science că se aștepta ca LLM-urile să se îmbunătățească și să exceleze în identificarea textului în afara contextului. Acest lucru se datorează faptului că o astfel de sarcină este „o problemă clară, bine specificată, care nu necesită amintirea exactă a faptelor și este ușor de îmbunătățit prin îmbunătățirea progresivă a designului LLM-urilor” – cum ar fi utilizarea arhitecturilor ușor modificate, ferestre de context mai mari și date mai multe sau mai curate.
Când vine vorba de auto-reflecție, însă, Russell nu a fost atât de impresionat. „Cred că auto-reflexia este în mare măsură exagerată și nu există nicio dovadă reală a acesteia”, a spus el, citând un exemplu de testul oglinzii fiind folosit pentru a arăta acest lucru. De exemplu, dacă așezi un punct roșu pe, de exemplu, un urangutan undeva pe care nu îl pot vedea direct, atunci când se observă într-o oglindă, s-ar atinge de punctul roșu. „Acest lucru este menit să arate că amândoi se pot recunoaște și pot identifica că ceva nu este în regulă”, a explicat el.
„Acum imaginați-vă că vrem un robot care să copieze urangutanul”, a spus Russell. Vede urangutanul urcându-se spre oglindă, un alt animal apare în oglindă, iar urangutanul se atinge acolo unde este punctul roșu pe celălalt animal. Un robot poate copia asta acum. Se urcă spre oglindă, un alt robot cu un punct roșu apare în oglindă și se atinge acolo unde este punctul roșu pe celălalt robot. În niciun moment robotul nu trebuie să recunoască că reflexia sa este și o imagine a lui însuși pentru a trece testul oglinzii. Pentru ca acest tip de demonstrație să fie convingător, trebuie să fie spontan. Nu poate fi doar un comportament învățat care vine din copierea pe altcineva.”
Aparenta demonstrație a conștientizării de sine a lui Claude este, prin urmare, probabil o reacție la comportamentul învățat și reflectă textul și limbajul din materialele pe care au fost instruiți LLM-urile. Același lucru se poate spune despre capacitatea lui Claude 3 de a recunoaște că este testat, Russell a remarcat: „’Acesta este prea ușor, este un test?’ este exact genul de lucru pe care ar spune o persoană. Aceasta înseamnă că este exact genul de lucru pe care l-ar spune un LLM care a fost antrenat să copieze/genera un discurs asemănător omului. Este bine că o spune în contextul potrivit, dar nu înseamnă că LLM este conștient de sine.”
În timp ce hype-ul și entuziasmul din spatele lui Claude 3 sunt oarecum justificate în ceea ce privește rezultatele pe care le-a oferit în comparație cu alte LLM-uri, impresionantele sale vitrine asemănătoare oamenilor sunt probabil să fie învățate mai degrabă decât exemple de auto-exprimare autentică AI. Acest lucru poate veni în viitor – să zicem, odată cu creșterea inteligenței generale artificiale (AGI) – dar nu este astăzi.