O ilustrare a unei linii de roboți care lucrează pe computere
Un nou punct de referință pentru performanța AI ne -ar putea oferi o idee despre momentul în care să ne așteptăm la agenți AI generalist adevărați. (Credit de imagine: Master prin Getty Images)

Oamenii de știință au conceput un nou mod de a măsura cât de capabili inteligenţă artificială (AI) Sistemele sunt – cât de repede pot bate sau concura cu oamenii în sarcini provocatoare.

În timp ce AIS poate depăși, în general, oamenii în predicția textului și sarcinile de cunoștințe, atunci când li se oferă proiecte mai substanțiale de realizat, cum ar fi asistența executivă la distanță, acestea sunt mai puțin eficiente.

Pentru a cuantifica aceste câștiguri de performanță în modelele AI, un nou studiu a propus măsurarea AIS pe baza duratei sarcinilor pe care le pot finaliza, față de cât timp durează oamenii. Cercetătorii și -au publicat concluziile pe 30 martie în baza de date de preimprimare arxivdeci nu au fost încă revizuiți de la egal la egal.

„Constatăm că măsurarea duratei sarcinilor pe care modelele le pot finaliza este o lentilă utilă pentru înțelegerea capacităților actuale de AI. Acest lucru are sens: agenții AI par adesea să se lupte cu strângere de secvențe mai lungi de acțiuni mai mult decât le lipsesc abilități sau cunoștințe necesare pentru a rezolva pașii unice”, cercetătorii din organizația AI organizației AI Evaluarea modelului și cercetarea amenințărilor (METR) explicat într -un postare pe blog Însoțirea studiului.

Cercetătorii au descoperit că modelele AI au finalizat sarcini care ar lua oamenii mai puțin de patru minute cu o rată de succes de aproape 100%. Cu toate acestea, acest lucru a scăzut la 10% pentru sarcini care durează mai mult de patru ore. Modelele AI mai vechi s -au comportat mai rău la sarcini mai lungi decât cele mai noi sisteme.

Acest lucru a fost de așteptat, studiul subliniind că durata generalilor generalistii AIS ar putea fi completată cu o fiabilitate de 50% s -a dublat aproximativ la fiecare șapte luni în ultimii șase ani.

Înrudite: Oamenii de știință descoperă diferențe majore în ceea ce privește modul în care oamenii și AI „gândesc” – iar implicațiile ar putea fi semnificative

Obțineți cele mai fascinante descoperiri din lume livrate direct în căsuța de e -mail.

Pentru a-și desfășura studiul, cercetătorii au luat o varietate de modele AI-de la Sonet 3.7 și GPT-4 la Claude 3 Opus și modele mai vechi GPT-și i-au pus pe o suită de sarcini. Acestea au variat de la misiuni ușoare care, de obicei, iau oameni la câteva minute, cum ar fi căutând o întrebare faptică de bază pe Wikipedia) la cele care iau experți umani mai multe ore – sarcini complexe de programare, cum ar fi scrierea sâmburelor cuda sau remedierea unei erori subtile în Pytorch, de exemplu.

Instrumente de testare, inclusiv Hcast şi Re-banc au fost folosite; Primul are 189 de setări de sarcini software de autonomie pentru a evalua capacitățile agentului AI în gestionarea sarcinilor în jurul învățării mașinilor, securității cibernetice și ingineriei software, în timp ce cel de-al doilea folosește șapte sarcini provocatoare de inginerie de cercetare în învățare a mașinilor, cum ar fi optimizarea unui kernel GPU, evaluată împotriva experților umani.

Cercetătorii au evaluat apoi aceste sarcini pentru „mizerie”, pentru a vedea și evalua modul în care unele sarcini conțineau lucruri precum nevoia de coordonare între mai multe fluxuri de muncă în timp real-făcând efectiv sarcina să fie mai dezordonată-și astfel sunt mai reprezentative pentru sarcinile din lumea reală.

Cercetătorii au dezvoltat, de asemenea, Software Atomic Actions (SWAA) pentru a stabili cât de rapid pot finaliza oamenii reali. Acestea sunt sarcini cu un singur pas, cuprinse între unu și 30 de secunde, bazate pe angajații METR.

În mod efectiv, studiul a constatat că „intervalul de atenție” al AI avansează cu viteză. Prin extrapolarea acestei tendințe, cercetătorii au proiectat (dacă într-adevăr rezultatele lor pot fi aplicate în general la sarcinile din lumea reală) că AI poate automatiza o lună de dezvoltare a software-ului uman până în 2032 ..

Pentru a înțelege mai bine capacitățile de avansare ale AI și impactul său potențial și riscurile pentru societate, acest studiu ar putea forma un nou punct de referință legat de rezultatele din lumea reală pentru a permite „o interpretare semnificativă a performanței absolute, nu doar a performanței relative”, au spus oamenii de știință.

O nouă frontieră pentru evaluarea AI?

Un potențial nou referință ne -ar putea permite să înțelegem mai bine inteligența și capacitățile reale ale sistemelor AI.

„Metrica în sine nu este probabil să schimbe cursul dezvoltării AI, dar va urmări cât de rapid se înregistrează progresul asupra anumitor tipuri de sarcini în care sistemele AI vor fi utilizate în mod ideal”, Sohrob Kazerouniana declarat pentru Live Science, un distins cercetător AI la Vectra AI.

„Măsurarea AI față de durata de timp este nevoie de un om pentru a îndeplini o sarcină dată este o metrică proxy interesantă pentru inteligență și capacități generale”, a spus Kazerounian. „În primul rând, pentru că nu există nicio metrică singulară care să surprindă ceea ce ne referim atunci când spunem„ inteligență. „În al doilea rând, pentru că probabilitatea de a efectua o sarcină prelungită fără derivă sau eroare devine dispărută de mică. În al treilea rând, pentru că este o măsură directă împotriva tipurilor de sarcini, sperăm să utilizăm AI pentru AI; rezolvarea unor probleme umane complexe. În timp ce cu siguranță ar putea să nu surprindă toate factorii”, „Name de rezolvare a capabilităților complexe, în timp ce nu poate captura toate factorii”, „nu este vorba de un număr de capabilități complexe. adăugat.

Eleanor WatsonMembru IEEE și un inginer de etică AI la Universitatea Singularity, este de acord că cercetarea este utilă.

Măsurarea AIS pe durata sarcinilor este „valoroasă și intuitivă” și „reflectă în mod direct complexitatea din lumea reală, surprinzând competența AI în menținerea comportamentului coerent orientat spre obiectiv în timp”, în comparație cu testele tradiționale care evaluează performanța AI la probleme scurte și izolate, a spus ea pentru Live Science.

AI generalist vine

Probabil, pe lângă o nouă valoare de referință, cel mai mare impact al hârtiei este să evidențieze cât de repede avansează sistemele AI, alături de tendința ascendentă a capacității lor de a gestiona sarcini îndelungate. Având în vedere acest lucru, Watson prezice că apariția agenților generaliste AI care pot gestiona o varietate de sarcini va fi iminentă.

„Până în 2026, vom vedea că AI devine din ce în ce mai generală, gestionând sarcini variate pe o zi sau o săptămână întreagă, mai degrabă decât o misiune scurtă, restrânsă,” a spus Watson.

Pentru întreprinderi, a menționat Watson, acest lucru ar putea genera AIS care pot prelua porțiuni substanțiale de sarcini de muncă profesionale – ceea ce nu numai că ar putea reduce costurile și pot îmbunătăți eficiența, dar, de asemenea, să permită oamenilor să se concentreze pe sarcini mai creative, strategice și interpersonale.

„Pentru consumatori, AI va evolua de la un simplu asistent într -un manager personal de încredere, capabil să gestioneze sarcini de viață complexe – cum ar fi planificarea călătoriilor, monitorizarea sănătății sau gestionarea portofoliilor financiare – în zilele sau săptămâni, cu o supraveghere minimă”, a adăugat Watson.

De fapt, capacitatea AIS de a gestiona o gamă largă de sarcini îndelungate ar putea avea un impact semnificativ asupra modului în care societatea interacționează și folosește AI în următorii câțiva ani.

„În timp ce instrumentele AI specializate vor persista în aplicații de nișă din motive de eficiență, agenții AI generalist puternici – capabili să schimbe flexibil printre sarcini diverse – vor apărea proeminent”, a concluzionat Watson. „Aceste sisteme vor integra abilitățile de specialitate în fluxuri de lucru mai largi, orientate spre obiective, redimensionarea vieții de zi cu zi și a practicilor profesionale în moduri fundamentale.”

Roland Moore-Colyer este un scriitor independent pentru știința live și redactor de manager la publicația de consum tehnologică Techradar, care rulează verticalul de calcul mobil. La Techradar, unul dintre cele mai mari site -uri de tehnologie de consum din Marea Britanie și SUA, el se concentrează pe smartphone -uri și tablete. Dar, dincolo de asta, el atinge mai mult de un deceniu de experiență de scriere pentru a aduce oameni povești care acoperă vehicule electrice (EV), evoluția și utilizarea practică a inteligenței artificiale (AI), a produselor de realitate mixtă și a cazurilor de utilizare și a evoluției calculării atât la nivel macro, cât și dintr -un unghi al consumatorului.

Mai multe despre inteligența artificială

Chat Icon
Cluburile Știință&Tehnică
Prezentare generală a confidențialității

Acest site folosește cookie-uri pentru a-ți putea oferi cea mai bună experiență în utilizare. Informațiile cookie sunt stocate în navigatorul tău și au rolul de a te recunoaște când te întorci pe site-ul nostru și de a ajuta echipa noastră să înțeleagă care sunt secțiunile site-ului pe care le găsești mai interesante și mai utile.