diverse

Oamenii de știință au dezvoltat doar o nouă AI modelată pe creierul uman – este mai depășit LLM -uri precum Chatgpt la sarcini de raționament

oamenii-de-stiinta-au-dezvoltat-doar-o-noua-ai-modelata-pe-creierul-uman-–-este-mai-depasit-llm-uri-precum-chatgpt-la-sarcini-de-rationament
Imaginea generată digital a creierului de sticlă conectată cu cablul de neon.
(Credit de imagine: Eugene Mymrin/Getty Images)

Oamenii de știință au dezvoltat un nou tip de inteligenţă artificială (AI) Model care poate rezista diferit de majoritatea modelelor de limbaj mare (LLMS) precum ChatGPT, ceea ce duce la performanțe mult mai bune în valori de referință cheie.

Noul raționament AI, numit model de raționament ierarhic (HRM), este inspirat de Procesare ierarhică și multi-Timescale În creierul uman – modul în care diferite regiuni ale creierului integrează informațiile pe durate diferite (de la milisecunde la minute).

Oamenii de știință de la Sapient, o companie AI din Singapore, spun că acest model de raționament poate obține performanțe mai bune și poate funcționa mai eficient. Acest lucru se datorează modelului care necesită mai puțini parametri și exemple de instruire.

Modelul HRM are 27 de milioane de parametri în timp ce folosesc 1.000 de probe de instruire, au spus oamenii de știință într -un studiu încărcat pe 26 iunie la preprint arxiv Baza de date (care încă nu a fost revizuită de la egal la egal). În comparație, majoritatea LLM -urilor avansate au miliarde sau chiar trilioane de parametri. Deși o cifră exactă nu a fost făcută publică, Unele estimări sugerează că GPT-5 recent lansat are între 3 trilioane și 5 trilioane de parametri.

Un nou mod de a gândi pentru AI

Când cercetătorii au testat HRM în Benchmark ARC-AGI – o examinare notoriu dură, care își propune să testeze cât de strânse sunt modelele de realizare Inteligență generală artificială (AGI) – Sistemul a obținut rezultate impresionante, potrivit studiului.

HRM a marcat 40,3% în ARC-AGI-1, comparativ cu 34,5% pentru OpenAI O3-MINI-HIGH, 21,2% pentru Claude 3,7 și 15,8% Anthropic pentru DeepSeek R1. În testul ARC-AGI-2 mai dur, HRM a obținut 5% față de 3% de O3-Mini-High, Deepseek R1 1,3% și Claude 3,7 de 0,9%.

Majoritatea LLM-urilor avansate folosesc raționamentele lanțului de gândire (COT), în care o problemă complexă este defalcată în mai multe etape intermediare, mult mai simple, care sunt exprimate în limbajul natural. Acesta emulează procesul de gândire umană prin descompunerea problemelor elaborate în bucăți digerabile.

Obțineți cele mai fascinante descoperiri din lume livrate direct în căsuța de e -mail.

Înrudite: AI intră într -un „regim fără precedent”. Ar trebui să o oprim – și putem – înainte să ne distrugă?

Dar oamenii de știință din Sapient susțin în studiu că COT are deficiențe cheie – și anume „descompunerea fragilă a sarcinilor, cerințele extinse de date și latența ridicată”.

În schimb, HRM execută sarcini de raționament secvențiale într -o singură trecere înainte, fără nicio supraveghere explicită a pașilor intermediari, prin două module. Un modul la nivel înalt este responsabil pentru planificarea lentă, abstractă, în timp ce un modul de nivel scăzut gestionează calcule rapide și detaliate. Acest lucru este similar cu modul în care creier uman procesează informațiile în diferite regiuni.

Funcționează prin aplicarea rafinării iterative – o tehnică de calcul care îmbunătățește exactitatea unei soluții prin rafinarea în mod repetat a unei aproximări inițiale – pe mai multe explozii scurte de „gândire”. Fiecare explozie consideră dacă procesul de gândire ar trebui să continue sau să fie prezentat ca un răspuns „final” la promptul inițial.

HRM a obținut o performanță aproape perfectă asupra unor sarcini provocatoare, cum ar fi puzzle-uri Sudoku complexe-pe care LLM-urile convenționale nu le-au putut realiza-precum și excelând la găsirea optimă a căilor la labirint.

Lucrarea nu a fost revizuită de la egal la egal, dar organizatorii de referință ARC-AGI au încercat să recreeze rezultatele pentru ei înșiși după oamenii de știință de studiu deschise modelul lor pe Github.

Deși au reprodus numerele, au spus reprezentanții într -un postare pe blogau făcut câteva descoperiri surprinzătoare, inclusiv faptul că arhitectura ierarhică a avut un impact minim al performanței-în schimb, a existat un proces de rafinare sub-documentat în timpul antrenamentului care a determinat câștiguri substanțiale de performanță.

Keumars este editorul tehnologiei la Live Science. El a scris pentru o varietate de publicații, inclusiv ITPRO, The Week Digital, ComputerTactive, The Independent, The Observer, Metro și Techradar Pro. A lucrat ca jurnalist tehnologic de mai bine de cinci ani, deținând anterior rolul de editor de caracteristici cu ITPRO. Este jurnalist calificat NCTJ și are o diplomă în științe biomedicale de la Queen Mary, Universitatea din Londra. De asemenea, este înregistrat ca manager chartered fundamental la Chartered Management Institute (CMI), calificându -se ca lider al echipei de nivel 3, cu distincție în 2023.

To top
Cluburile Știință&Tehnică
Prezentare generală a confidențialității

Acest site folosește cookie-uri pentru a-ți putea oferi cea mai bună experiență în utilizare. Informațiile cookie sunt stocate în navigatorul tău și au rolul de a te recunoaște când te întorci pe site-ul nostru și de a ajuta echipa noastră să înțeleagă care sunt secțiunile site-ului pe care le găsești mai interesante și mai utile.