
Roboții asemănători câinilor ar putea într-o zi să învețe să se joace aducă, datorită unui amestec de inteligenţă artificială (AI) și viziunea computerizată ajutându-i să se concentreze asupra obiectelor.
Într-un nou studiu publicat pe 10 octombrie în jurnal Scrisori de robotică și automatizare IEEEcercetătorii au dezvoltat o metodă numită „Clio” care le permite roboților să cartografieze rapid o scenă folosind camere de pe corp și să identifice părțile care sunt cele mai relevante pentru sarcina cărora le-au fost atribuite prin instrucțiuni vocale.
Clio valorifică teoria „blocului de informare”, prin care informațiile sunt comprimate într-un mod astfel încât o rețea neuronală – o colecție de algoritmi de învățare automată stratificate pentru a imita modul în care creierul uman procesează informațiile – doar selectează și stochează segmente relevante. Orice robot echipat cu sistem va procesa instrucțiuni precum „obțineți trusa de prim ajutor” și apoi va interpreta doar părțile din mediul său imediat care sunt relevante pentru sarcinile sale – ignorând orice altceva.
„De exemplu, să spunem că există o grămadă de cărți în scenă și sarcina mea este doar să obțin cartea verde. În acest caz, împingem toate aceste informații despre scenă prin acest blocaj și ajungem la un grup de segmente care reprezintă carte verde”, coautor al studiului Dominic Maggioun student absolvent la MIT, a spus într-un declaraţie. „Toate celelalte segmente care nu sunt relevante sunt grupate într-un cluster pe care îl putem elimina pur și simplu. Și rămânem cu un obiect la granularitatea potrivită care este necesar pentru a-mi sprijini sarcina.”
Pentru a demonstra Clio în acțiune, cercetătorii au folosit un robot patruped Boston Dynamics Spot care rulează Clio pentru a explora o clădire de birouri și a îndeplini un set de sarcini. Lucrând în timp real, Clio a generat o hartă virtuală arătând doar obiectele relevante pentru sarcinile sale, ceea ce i-a permis apoi robotului Spot să își îndeplinească obiectivele.
A vedea, a înțelege, a face
Cercetătorii au atins acest nivel de granularitate cu Clio combinând modele mari de limbaj (LLM) – mai multe rețele neuronale virtuale care stau la baza inteligenţă artificială instrumente, sisteme și servicii — care au fost instruite pentru a identifica toate tipurile de obiecte, cu viziune computerizată.
Rețelele neuronale au făcut progrese semnificative în identificarea cu precizie a obiectelor în medii locale sau virtuale, dar acestea sunt adesea scenarii îngrijite cu atenție, cu un număr limitat de obiecte pe care un robot sau un sistem AI a fost pre-antrenat să le recunoască. Revoluția oferită de Clio este capacitatea de a fi granular cu ceea ce vede în timp real, relevant pentru sarcinile specifice care i-au fost atribuite.
O parte esențială a acestui lucru a fost încorporarea unui instrument de cartografiere în Clio care îi permite să împartă o scenă în mai multe segmente mici. O rețea neuronală selectează apoi segmente care sunt similare din punct de vedere semantic, adică servesc aceleiași intenții sau formează obiecte similare.
În mod efectiv, ideea este de a avea roboți bazați pe inteligență artificială care să poată lua decizii intuitive și discriminatorii centrate pe sarcini în timp real, mai degrabă decât să încerce să proceseze mai întâi o întreagă scenă sau mediu.
În viitor, cercetătorii plănuiesc să adapteze Clio pentru a se ocupa de sarcini de nivel superior.
„Încă îi dăm lui Clio sarcini care sunt oarecum specifice, cum ar fi „găsește pachet de cărți””, a spus Maggio. „Pentru căutare și salvare, trebuie să îi acordați mai multe sarcini de nivel înalt, cum ar fi „găsiți supraviețuitori” sau „reporniți puterea”. Așadar, dorim să ajungem la o înțelegere mai la nivel uman a modului de a realiza mai multe sarcini complexe.”
Dacă nimic altceva, Clio ar putea fi cheia pentru a avea câini robot care se pot juca efectiv, indiferent de parc în care aleargă.