
O companie de robotică a lansat un videoclip care pretinde că arată un robot umanoid făcând o ceașcă de cafea după ce i-a văzut pe oameni făcând-o – în timp ce corectează greșelile pe care le-a făcut în timp real. În filmările promoționale, modelul emblematic al lui Figure.ai, denumit „Figura 01”, preia o capsulă de cafea, o introduce într-un aparat de cafea, închide capacul și pornește aparatul.
Deși nu este clar ce sisteme funcționează sub capotă, Figure a semnat un acord comercial cu BMW pentru a furniza roboții săi umanoizi în producția de automobile – anunțând știrea pe 18 ianuarie într-un Comunicat de presă.
Experții au spus, de asemenea, Live Science ce se întâmplă probabil sub capotă, presupunând că filmările arată exact ceea ce susține compania.
În prezent, robotica alimentată de inteligență artificială (AI) este specifică domeniului, ceea ce înseamnă că aceste mașini fac un lucru bine, mai degrabă decât să facă totul în mod adecvat. Ele încep cu o linie de bază programată de reguli și un set de date folosit pentru auto-învățare. Cu toate acestea, Figure.ai susține că Figura 01 a învățat urmărind doar 10 ore de filmare.
Pentru ca un robot să facă cafea sau să tundă gazonul, ar însemna încorporarea expertizei în mai multe domenii care sunt prea greu de programat. Regulile pentru fiecare eventuală situație ar trebui să fie prevăzute și codificate în software-ul său – de exemplu, instrucțiuni specifice despre ce trebuie făcut când ajunge la capătul gazonului. Prin urmare, dobândirea de expertiză în multe domenii doar prin vizionare ar reprezenta un salt major.
Un nou tip de robotică
Prima piesă a puzzle-ului este că Figura 01 trebuie să vadă ce se presupune că se repetă. „Procesarea vizuală a informațiilor îi permite să recunoască pașii importanți și detaliile procesului.” Max Mayburyantreprenor AI și coproprietar al AI Product Reviews, a declarat pentru Live Science.
Robotul ar trebui să preia date video și să dezvolte un model intern predictiv al acțiunilor fizice și ordinea acestor acțiuni, Christoph Cemper, CEO al AIPRM, un site care creează solicitări pentru a fi introduse în sisteme AI precum ChatGPT, a declarat pentru Live Science. Ar trebui să traducă ceea ce vede într-o înțelegere a modului în care să-și miște membrele și dispozitivele de prindere pentru a efectua aceleași mișcări, a adăugat el.
Apoi, există arhitectura rețelelor neuronale, a spus Clare Walsh, un expert în analiza datelor și AI la Institutul de Analytics din Marea Britanie – un tip de model de învățare automată inspirat de modul în care funcționează creierul. Un număr mare de noduri individuale interconectate se conectează pentru a crea un semnal. Dacă rezultatul dorit este atins atunci când semnalele duc la o acțiune (cum ar fi extinderea unui braț sau închiderea unui grip), feedback-ul întărește conexiunile neuronale care l-au atins, înglobându-l și mai mult în procesele „cunoscute”.
„Înainte de 2016, recunoașterea obiectelor, cum ar fi distincția între pisici și câini în fotografii, avea rate de succes de aproximativ 50%”, a spus Walsh pentru Live Science. „Odată ce rețelele neuronale au fost rafinate și funcționale, rezultatele au crescut la 80 până la 90% aproape peste noapte – antrenamentul prin observare cu o metodă de învățare fiabilă s-a scalat incredibil de bine.”
Pentru Walsh, există o similitudine între Figura 01 și vehiculele autonome, făcută posibilă folosind metode de antrenament bazate pe probabilități, mai degrabă decât pe reguli. Ea a remarcat că formarea de auto-predare poate construi date suficient de rapid pentru a lucra în medii complexe.
De ce autocorecția este o piatră de hotar majoră
În ciuda cât de ușor este pentru majoritatea oamenilor să facă cafea, funcția motorie, manipularea cu precizie și cunoașterea ordinii evenimentelor sunt incredibil de complexe de învățat și de executat pentru o mașină. Acest lucru face ca abilitatea de a auto-corecta erorile să fie primordială – mai ales dacă Figura 01 trece de la prepararea cafelei la ridicarea de obiecte grele în apropierea oamenilor sau efectuarea de lucrări de salvare.
„Acuitatea vizuală a robotului depășește posibilitatea de a vedea ce se întâmplă în procesul de preparare a cafelei”, a spus Maybury. „Nu doar îl observă, ci analizează procesul pentru a se asigura că totul este cât mai precis posibil.”
Asta înseamnă că robotul știe să nu umple prea mult cana și cum să introducă podul corect. Dacă vede vreo abatere de la comportamentul învățat sau de la rezultatele așteptate, interpretează acest lucru ca pe o greșeală și își ajustează acțiunile până când ajunge la rezultatul dorit. Face acest lucru prin învățare prin întărire, în care conștientizarea obiectivului dorit este dezvoltată prin încercarea și eroarea navigării într-un mediu incert.
Walsh a adăugat că datele corecte de antrenament înseamnă că mișcările robotului, asemănătoare unui om, s-ar putea „scala și diversifica” rapid. „Numărul de mișcări este impresionant, iar precizia și capacitățile de auto-corecție înseamnă că ar putea anunța evoluții viitoare în domeniu”, a spus ea.
Dar Mona Kirsteinun expert în inteligență artificială cu un doctorat în procesarea limbajului natural, a avertizat că Figura 01 arată mai degrabă un prim pas grozav decât un produs pregătit pentru piață.
„Pentru a obține o flexibilitate la nivel uman cu noi contexte dincolo de această sarcină definită restrâns, blocajele precum variațiile din mediu trebuie încă abordate”, a spus Kirstein pentru Live Science. „Deci, deși combină inginerie excelentă cu învățarea profundă de ultimă generație, probabil că exagerează progresul pentru a vedea acest lucru ca permițând robotica umanoidă în general inteligentă”.