diverse

AI nu poate rezolva aceste puzzle -uri care iau oameni doar câteva secunde

ai-nu-poate-rezolva-aceste-puzzle-uri-care-iau-oameni-doar-cateva-secunde
O ilustrare a unui creier într -un stil mozaic pixelat
(Credit de imagine: Flavio Coelho prin Getty Images)

Există multe modalități de a testa inteligența unui inteligenţă artificială -Fluiditatea conversațională, înțelegerea lecturii sau mintea nefericită de dificilă fizică. Dar unele dintre testele care sunt cel mai probabil să se împiedice AIS Sunt cele pe care oamenii le consideră relativ ușoare, chiar distractive. Deși AIS excelează din ce în ce mai mult la sarcini care necesită niveluri ridicate de expertiză umană, acest lucru nu înseamnă că sunt aproape de a atinge inteligență generală artificială sau AGI. AGI Necesită ca o AI să ia o cantitate foarte mică de informații și să o folosească pentru a generaliza și a se adapta la situații extrem de inedite. Această abilitate, care este baza învățării umane, rămâne provocator pentru AIS.

Un test conceput pentru a evalua capacitatea AI de a se generaliza este abstracția și raționamentul Corpus, sau ARC: o colecție de puzzle-uri minuscule, colorate, care solicită unui solver să deducă o regulă ascunsă și apoi să o aplice pe o nouă grilă. Dezvoltat de cercetătorul AI François Chollet în 2019, a devenit baza Fundației ARC Prize, un program nonprofit care administrează testul – acum un referință al industriei utilizat de toate modelele majore AI. De asemenea, organizația dezvoltă noi teste și a folosit în mod obișnuit două (ARC-AGI-1 și succesorul său mai provocator ARC-AGI-2). În această săptămână, Fundația lansează ARC-AGI-3, care este conceput special pentru testarea agenților AI-și se bazează pe a le face să joace jocuri video.

Științific american a vorbit cu președintele Fundației ARC Prize, cercetătorul AI și antreprenorul Greg Kamradt pentru a înțelege modul în care aceste teste evaluează AIS, ceea ce ne spun despre potențialul AGI și de ce sunt adesea provocatori pentru modelele de învățare profundă, chiar dacă mulți oameni tind să le găsească relativ ușor. Link -urile pentru a încerca testele sunt la sfârșitul articolului.

[[Urmează o transcriere editată a interviului.]

Ce definiție a inteligenței este măsurată de ARC-AGI-1?

Definiția noastră de inteligență este capacitatea dvs. de a învăța lucruri noi. Știm deja că AI poate câștiga la Chess. Știm că pot bate. Dar aceste modele nu pot generaliza la noi domenii; Nu pot merge să învețe engleza. Așadar, ceea ce a făcut François Chollet a fost un reper numit Arc-Agi-vă învață o mini abilitate în întrebare și apoi vă cere să demonstrați acea mini abilitate. Practic, învățăm ceva și vă cerem să repetați abilitatea pe care tocmai ați învățat -o. Deci testul măsoară capacitatea unui model de a învăța într -un domeniu restrâns. Dar afirmația noastră este că nu măsoară AGI, deoarece este încă într -un domeniu scopul [in which learning applies to only a limited area]. Măsoară că o AI poate generaliza, dar nu pretindem că acest lucru este AGI.

Cum definiți AGI aici?

Există două moduri în care îl privesc. Primul este mai mult timp în tehnologie, care este „un sistem artificial să se potrivească cu eficiența de învățare a unui om?” Acum, ceea ce vreau să spun prin asta este după ce oamenii se nasc, ei învață multe în afara datelor lor de instruire. De fapt, nu chiar au Date de instruire, în afară de câteva priori evolutive. Așadar, învățăm cum să vorbim engleza, învățăm cum să conducem o mașină și învățăm cum să mergem cu bicicleta – toate aceste lucruri din afara datelor noastre de instruire. Asta se numește generalizare. Când poți face lucruri în afara a ceea ce ai fost instruit acum, definim asta ca inteligență. Acum, o definiție alternativă a AGI pe care o folosim este atunci când nu mai putem veni cu probleme pe care oamenii le pot face și AI nu le poate – atunci când avem AGI. Aceasta este o definiție observațională. Partea flip este, de asemenea, adevărată, ceea ce este atâta timp cât premiul arc sau umanitatea, în general, pot găsi în continuare probleme pe care oamenii le pot face, dar AI nu poate, atunci nu avem AGI. Unul dintre factorii cheie despre punctul de referință al lui François Chollet … este că testăm oamenii pe ei, iar omul obișnuit poate face aceste sarcini și aceste probleme, dar AI are încă un moment foarte greu cu acesta. Motivul pentru care este atât de interesant este faptul că unii AI-uri avansate, cum ar fi Grok, pot trece orice examen la nivel de absolvire sau pot face toate aceste lucruri nebunești, dar asta este inteligența spiky. Încă nu are puterea de generalizare a unui om. Și asta arată acest referință.

Cum diferă reperele dvs. de cele utilizate de alte organizații?

Unul dintre lucrurile care ne diferențiază este că solicităm ca referința noastră să fie rezolvată de oameni. Acest lucru este în opoziție cu alte repere, unde fac probleme de „doctorat. Nu trebuie să mi se spună că AI este mai inteligent decât mine – știu deja că O3 de la Openai poate face multe lucruri mai bune decât mine, dar nu are puterea omului de a se generaliza. La asta măsurăm, așa că trebuie să testăm oamenii. Am testat de fapt 400 de persoane pe ARC-AGI-2. Le -am luat într -o cameră, le -am dat computere, am făcut screening demografic și apoi le -am dat testul. Persoana obișnuită a marcat 66 la sută pe ARC-AGI-2. Totuși, colectiv, răspunsurile agregate de la cinci până la 10 persoane vor conține răspunsuri corecte la toate întrebările de pe ARC2.

Obțineți cele mai fascinante descoperiri din lume livrate direct în căsuța de e -mail.

Ce face acest test greu pentru AI și relativ ușor pentru oameni?

Există două lucruri. Oamenii sunt incredibil de eficienți cu învățarea lor, ceea ce înseamnă că pot privi o problemă și poate cu unul sau două exemple, pot ridica mini abilitate sau transformare și pot merge să o facă. Algoritmul care rulează în capul unui om este ordinele de mărime mai bune și mai eficiente decât ceea ce vedem cu AI chiar acum.

Care este diferența dintre ARC-AGI-1 și ARC-AGI-2?

Așa că Arc-Agi-1, François Chollet a făcut asta el însuși. Erau aproximativ 1.000 de sarcini. Aceasta a fost în 2019. Practic, a făcut versiunea minimă viabilă pentru a măsura generalizarea și a avut loc timp de cinci ani, deoarece învățarea profundă nu a putut să o atingă deloc. Nici măcar nu se apropia. Apoi, modelele de raționament care au apărut în 2024, de către OpenAI, au început să progreseze pe ea, ceea ce a arătat o schimbare la nivel de pas în ceea ce ar putea face AI. Apoi, când am mers la ARC-AGI-2, am mers puțin mai departe în gaura iepurelui în ceea ce privește ceea ce oamenii pot face și AI nu pot. Necesită un pic mai multă planificare pentru fiecare sarcină. Deci, în loc să se rezolve în cinci secunde, oamenii pot fi capabili să o facă într -un minut sau două. Există reguli mai complicate, iar grilele sunt mai mari, așa că trebuie să fiți mai precisi cu răspunsul dvs., dar este același concept, mai mult sau mai puțin … Acum lansăm o previzualizare a dezvoltatorului pentru ARC-AGI-3, iar asta pleacă complet de la acest format. Noul format va fi de fapt interactiv. Așa că gândiți -vă mai mult la un agent de referință.

Cum vor fi diferiți agenți de testare ARC-AGI-3 în comparație cu testele anterioare?

Dacă vă gândiți la viața de zi cu zi, este rar să avem o decizie apatrină. Când spun apatrină, mă refer doar la o întrebare și un răspuns. În momentul de față, toate punctele de referință sunt mai mult sau mai puțin apatrite de referință. Dacă puneți un model de limbă o întrebare, vă oferă un singur răspuns. Există multe pe care nu le puteți testa cu un benchmark apatride. Nu puteți testa planificarea. Nu puteți testa explorarea. Nu puteți testa intuind despre mediul dvs. sau despre obiectivele care vin cu asta. Așadar, realizăm 100 de jocuri video noi pe care le vom folosi pentru a testa oamenii pentru a ne asigura că oamenii le pot face, deoarece aceasta este baza pentru referința noastră. Și atunci vom arunca AIS în aceste jocuri video și vom vedea dacă pot înțelege acest mediu pe care nu l -au mai văzut niciodată. Până în prezent, odată cu testarea noastră internă, nu am avut o singură AI să poată învinge nici măcar un nivel al unuia dintre jocuri.

Puteți descrie jocurile video aici?

Fiecare „mediu” sau joc video este un puzzle bidimensional, bazat pe pixeli. Aceste jocuri sunt structurate ca niveluri distincte, fiecare conceput pentru a învăța o mini abilitate specifică jucătorului (uman sau AI). Pentru a finaliza cu succes un nivel, jucătorul trebuie să demonstreze stăpânirea acestei abilități prin executarea secvențelor planificate de acțiuni.

Cum se folosește jocurile video pentru a testa AGI diferit de modalitățile prin care jocurile video au fost folosite anterior pentru a testa sistemele AI?

Jocurile video au fost utilizate de mult timp ca repere în cercetarea AI, jocurile Atari fiind un exemplu popular. Dar reperele tradiționale ale jocurilor video se confruntă cu mai multe limitări. Jocurile populare au date extinse de instruire disponibile public, nu au valori standardizate de evaluare a performanței și permit metode de forță brută care implică miliarde de simulări. În plus, dezvoltatorii care construiesc agenți AI au de obicei cunoștințe prealabile despre aceste jocuri – încorporarea neintenționată a propriilor perspective asupra soluțiilor.

Încerca Arc-AGI-1, Arc-AGI-2 şi Arc-AGI-3.

Acest articol a fost publicat pentru prima dată la Științific american. © ScientificAmerican.com. Toate drepturile rezervate. Urmați mai departe Tiktok și Instagram, X şi Facebook.

Deni Ellis Béchard este reporterul senior al tehnologiei științifice. Este autorul a 10 cărți și a primit un premiu al scriitorilor din Commonwealth, un premiu de carte din Midwest și un premiu de carte Nautilus pentru jurnalism de investigație. El deține două diplome de master în literatură, precum și un master în biologie de la Universitatea Harvard. Cel mai recent roman al său, We Are Dreams in the Eternal Machine, explorează modalitățile prin care inteligența artificială ar putea transforma umanitatea.

To top
Cluburile Știință&Tehnică
Prezentare generală a confidențialității

Acest site folosește cookie-uri pentru a-ți putea oferi cea mai bună experiență în utilizare. Informațiile cookie sunt stocate în navigatorul tău și au rolul de a te recunoaște când te întorci pe site-ul nostru și de a ajuta echipa noastră să înțeleagă care sunt secțiunile site-ului pe care le găsești mai interesante și mai utile.