Există o diferență între cunoașterea unui cuvânt și cunoașterea unui concept.

Modele de limbaj mare precum ChatGPT afișează abilități de conversație, dar problema este că nu înțeleg cu adevărat cuvintele pe care le folosesc. Sunt în primul rând sisteme care interacționează cu datele obținute din lumea reală, dar nu și lumea reală în sine. Oamenii, pe de altă parte, asociază limbajul cu experiențe. Știm ce înseamnă cuvântul „fierbinte” pentru că am fost arse la un moment dat în viața noastră.

Este posibil să obțineți o AI pentru a obține o înțelegere a limbajului asemănătoare omului? O echipă de cercetători de la Institutul de Știință și Tehnologie din Okinawa a construit un model AI inspirat de creier care cuprinde mai multe rețele neuronale. AI -ul era foarte limitat – ar putea învăța un total de doar cinci substantive și opt verbe. Dar AI -ul lor pare să fi învățat mai mult decât doar acele cuvinte; A învățat conceptele din spatele lor.

Babysitting Arms Robotic

„Inspirația pentru modelul nostru a venit din psihologia dezvoltării. Am încercat să imităm modul în care sugarii învață și dezvoltă limbajul ”, spune Prasanna Vijayaraghavan, cercetător la Institutul de Știință și Tehnologie din Okinawa și autorul principal al studiului.

În timp ce ideea de a învăța AIS în același mod în care învățăm bebelușii nu este nouă – am aplicat -o pe plasele neuronale standard care asociau cuvintele cu imagini. Cercetătorii au încercat, de asemenea, să predea o AI folosind un flux video de la un GoPro legat la un copil uman. Problema este că bebelușii fac mult mai mult decât să asocieze elementele cu cuvintele când învață. Ei ating totul – lucrurile care le manipulează, le aruncă lucruri și, în acest fel, învață să gândească și să -și planifice acțiunile în limbaj. Un model AI abstract nu a putut face nimic, așa că echipa lui Vijayaraghavan a oferit unei experiențe întruchipate – AI -ul lor a fost instruit într -un robot propriu -zis care ar putea interacționa cu lumea.

Robotul lui Vijayaraghavan a fost un sistem destul de simplu, cu un braț și un prindere care ar putea alege obiecte și să le mute. Viziunea a fost oferită de o simplă videoclipuri de alimentare a camerei RGB într -o rezoluție oarecum brută de 64 × 64 pixeli.

Robotul și aparatul foto au fost așezate într -un spațiu de lucru, pus în fața unei mese albe cu blocuri vopsite în verde, galben, roșu, violet și albastru. Sarcina robotului a fost de a manipula acele blocuri ca răspuns la prompturi simple precum „Mutați roșu stânga”, „Mutați Blue Right” sau „Pune roșu pe albastru”. Tot ceea ce nu părea deosebit de provocator. Ceea ce a fost provocator, însă, a fost construirea unei AI care ar putea prelucra toate acele cuvinte și mișcări într -o manieră similară cu oamenii. „Nu vreau să spun că am încercat să facem sistemul biologic plauzibil”, a spus Vijayaraghavan pentru ARS. „Să zicem că am încercat să ne inspirăm din creierul uman.”

Urmărirea energiei libere

Punctul de plecare pentru echipa lui Vijayaraghavan a fost principiul energiei libere, o ipoteză conform căreia creierul face în mod constant predicții despre lume pe baza modelelor interne, apoi actualizează aceste predicții bazate pe aportul senzorial. Ideea este că ne gândim mai întâi la un plan de acțiune pentru a atinge un obiectiv dorit, iar apoi acest plan este actualizat în timp real pe baza a ceea ce experimentăm în timpul execuției. Această schemă de planificare orientată spre obiective, dacă ipoteza este corectă, guvernează tot ceea ce facem, de la ridicarea unei cani de cafea până la aterizarea unui loc de muncă de vis.

Tot ceea ce este strâns legat de limbaj. Neuroștiințiști la Universitatea din Parma găsit Că zonele motorii din creier au fost activate atunci când participanții la studiul lor au ascultat propoziții legate de acțiune. Pentru a imita că într -un robot, Vijayaraghavan a folosit patru rețele neuronale care lucrează într -un sistem strâns interconectat. Primul a fost responsabil pentru procesarea datelor vizuale care provin de la cameră. Acesta a fost strâns integrat cu o a doua plasă neuronală care a gestionat propriocepția: toate procesele care au asigurat robotul era conștient de poziția sa și de mișcarea corpului său. Această a doua plasă neuronală a construit, de asemenea, modele interne de acțiuni necesare manipulării blocurilor de pe masă. Aceste două plase neuronale au fost, în plus, conectate la modulele de memorie vizuală și de atenție care le -au permis să se concentreze în mod fiabil pe obiectul ales și să -l separe de fundalul imaginii.

Cea de -a treia plasă neurală a fost un limbaj relativ simplu și procesat folosind reprezentări vectorizate ale acestor propoziții „mișcă -vă în dreapta”. În cele din urmă, a patra plasă neuronală a funcționat ca un strat asociativ și a prezis producția celor trei precedenți la fiecare pas. „Când facem o acțiune, nu trebuie să o verbalizăm întotdeauna, dar avem această verbalizare în mintea noastră la un moment dat”, spune Vijayaraghavan. AI -ul și echipa sa construită au fost menite să facă doar asta: conectarea perfectă a limbajului, a propriocepției, a planificării acțiunilor și a viziunii.

Când creierul robotizat era în funcțiune, au început să -i învețe unele dintre posibilele combinații de comenzi și secvențe de mișcări. Dar nu le -au învățat pe toate.

Nașterea compoziționalității

În 2016, Brenden Lake, profesor de psihologie și știință a datelor, a publicat un hârtie în care echipa sa a numit un set de mașini de competențe trebuie să stăpânească pentru a învăța cu adevărat și a gândi ca oamenii. Una dintre ele a fost compoziționalitatea: capacitatea de a compune sau de a descompune un întreg în părți care pot fi reutilizate. Această reutilizare le permite să generalizeze cunoștințele dobândite la noi sarcini și situații. „Faza de compoziționalitate este atunci când copiii învață să combine cuvinte pentru a explica lucrurile. Ei [initially] Aflați numele obiectelor, numele acțiunilor, dar acestea sunt doar cuvinte unice. Când învață acest concept de compoziționalitate, capacitatea lor de a comunica un fel de explode ”, explică Vijayaraghavan.

AI -ul echipei sale construite a fost realizată în acest scop exact: să vadă dacă va dezvolta compoziționalitate. Și a făcut -o.

Odată ce robotul a aflat cum au fost conectate anumite comenzi și acțiuni, a învățat, de asemenea, să generalizeze acea cunoaștere pentru a executa comenzi pe care nu le -a auzit niciodată. Recunoscând numele acțiunilor pe care nu le -a efectuat și apoi le -a efectuat pe combinații de blocuri pe care nu le -a văzut niciodată. AI -ul lui Vijayaraghavan și -a dat seama de conceptul de a muta ceva în dreapta sau de stânga sau de a pune un articol deasupra a ceva. De asemenea, ar putea combina cuvinte pentru a numi acțiuni anterior nevăzute, cum ar fi să puneți un bloc albastru pe unul roșu.

În timp ce învățarea roboților pentru a extrage concepte din limbaj s -a făcut anterior, aceste eforturi au fost concentrate pe a -i face să înțeleagă cum au fost folosite cuvinte pentru a descrie imagini. Vijayaragha s -a bazat pe asta pentru a include propriocepția și planificarea acțiunilor, adăugând practic un strat care a integrat sensul și mișcarea în modul în care robotul său a înțeles lumea.

Dar unele probleme sunt încă depășite. AI avea un spațiu de lucru foarte limitat. Erau doar câteva obiecte și toate aveau o formă cubică unică. Vocabularul a inclus doar nume de culori și acțiuni, deci nu există modificatori, adjective sau adverbe. În cele din urmă, robotul a trebuit să învețe în jur de 80 la sută din toate combinațiile posibile de substantive și verbe înainte de a putea generaliza bine la restul de 20 la sută. Performanța sa a fost mai rea atunci când aceste raporturi au scăzut la 60/40 și 40/60.

Dar este posibil ca doar un pic mai multă putere de calcul să poată rezolva acest lucru. „Ceea ce am avut pentru acest studiu a fost un singur GPU RTX 3090, așa că, cu GPU de ultimă generație, am putea rezolva o mulțime de aceste probleme”, a susținut Vijayaraghavan. Acest lucru se datorează faptului că echipa speră că adăugarea mai multor cuvinte și mai multe acțiuni nu va duce la o nevoie dramatică de putere de calcul. „Vrem să extindem sistemul. Avem un robot umanoid cu camere în cap și două mâini care pot face mult mai mult decât un singur braț robotizat. Așadar, acesta este următorul pas: folosindu -l în lumea reală cu roboți din lumea reală ”, a spus Vijayaraghavan.

Science Robotics, 2025. DOI: 10.1126/scirobotics.adp0751

Fotografia lui Jacek Krywko

Jacek Krywko este un scriitor de știință și tehnologie independentă care acoperă explorarea spațială, cercetarea inteligenței artificiale, informatică și tot felul de vrăjitorie de inginerie.

59 de comentarii

Chat Icon
×