explorator –

Învățarea prin întărire cu difuzie maximă se concentrează asupra stărilor finale, nu asupra procesului.

O femeie efectuează întreținerea unui braț robot.

boonchai wedmakawand

Algoritmii de învățare-întărire în sisteme precum ChatGPT sau Google Gemini pot face minuni, dar de obicei au nevoie de sute de mii de fotografii la o sarcină înainte de a deveni buni. De aceea a fost întotdeauna greu să transferați această performanță la roboți. Nu poți lăsa o mașină cu conducere autonomă să se prăbușească de 3.000 de ori doar ca să învețe că accidentul este rău.

Dar acum, o echipă de cercetători de la Universitatea Northwestern poate să fi găsit o cale de ocolire. „Acesta este ceea ce credem că va fi transformator în dezvoltarea inteligenței artificiale întruchipate în lumea reală”, spune Thomas Berrueta, care a condus dezvoltarea învățării prin întărire prin difuzie maximă (MaxDiff RL), un algoritm conceput special pentru roboți.

Introducerea haosului

Problema implementării majorității algoritmilor de învățare prin întărire în roboți începe cu presupunerea încorporată că datele de la care învață sunt independente și distribuite identic. Independența, în acest context, înseamnă că valoarea unei variabile nu depinde de valoarea altei variabile din setul de date – când aruncați o monedă de două ori, obținerea cozii la a doua încercare nu depinde de rezultatul primei voastre. . Distribuție identică înseamnă că probabilitatea de a vedea orice rezultat specific este aceeași. În exemplul de aruncare a monedelor, probabilitatea de a obține capete este aceeași cu a obține cozi: 50 la sută pentru fiecare.

În sistemele virtuale, neîncorporate, cum ar fi algoritmii de recomandare YouTube, obținerea unor astfel de date este ușoară, deoarece de cele mai multe ori îndeplinește aceste cerințe de la bun început. „Aveți o mulțime de utilizatori ai unui site web și obțineți date de la unul dintre ei, apoi obțineți date de la altul. Cel mai probabil, acești doi utilizatori nu sunt în aceeași gospodărie, nu sunt foarte rude între ei. Ar putea fi, dar este foarte puțin probabil”, spune Todd Murphey, profesor de inginerie mecanică la Northwestern.

Problema este că, dacă acei doi utilizatori erau rude între ei și se aflau în aceeași gospodărie, s-ar putea ca singurul motiv pentru care unul dintre ei a vizionat un videoclip a fost că colegul de casă l-a vizionat și le-a spus să îl vizioneze. Acest lucru ar încălca cerința de independență și ar compromite învățarea.

„Într-un robot, obținerea acestor date independente, distribuite identic, nu este posibilă în general. Existi intr-un anumit punct in spatiu si timp cand esti intruchipat, asa ca experientele tale trebuie corelate intr-un fel”, spune Berrueta. Pentru a rezolva acest lucru, echipa sa a conceput un algoritm care împinge roboții să fie cât mai aventuroși posibil pentru a obține cel mai larg set de experiențe din care să învețe.

Două arome de entropie

Ideea în sine nu este nouă. Cu aproape două decenii în urmă, oamenii din AI și-au dat seama algoritmi, precum Maximum Entropy Reinforcement Learning (MaxEnt RL), care a funcționat prin randomizarea acțiunilor în timpul antrenamentului. „Speranța a fost că atunci când luați un set cât mai divers de acțiuni posibil, veți explora seturi mai variate de posibile viitoare. Problema este că acele acțiuni nu există în vid”, susține Berrueta. Fiecare acțiune pe care o întreprinde un robot are un fel de impact asupra mediului înconjurător și asupra propriei sale stări – ignorarea acestor impacturi duce adesea la probleme. Pentru a spune simplu, o mașină autonomă care învață singură cum să conducă folosind această abordare ar putea parca elegant în alee, dar ar fi la fel de probabil să lovească un perete la viteză maximă.

Pentru a rezolva acest lucru, echipa lui Berrueta s-a îndepărtat de la maximizarea diversității acțiunilor și a mers pe maximizarea diversității schimbărilor de stat. Roboții propulsați de MaxDiff RL nu și-au agitat articulațiile robotizate la întâmplare pentru a vedea ce ar face asta. În schimb, au conceptualizat obiective precum „pot să ajung în acest loc înaintea mea” și apoi au încercat să-și dea seama ce acțiuni îi vor duce acolo în siguranță.

Berrueta și colegii săi au realizat asta prin ceva numit ergodicitate, un concept matematic care spune că un punct dintr-un sistem în mișcare va vizita în cele din urmă toate părțile spațiului în care se mișcă sistemul. Practic, MaxDiff RL a încurajat roboții să atingă fiecare stare disponibilă în mediul lor. Iar rezultatele primelor teste în medii simulate au fost destul de surprinzătoare.

Curse de tăiței de piscină

„În învățarea prin consolidare, există repere standard pe care oamenii își rulează algoritmii, astfel încât să putem avea o modalitate bună de a compara diferiți algoritmi pe un cadru standard”, spune Allison Pinosky, cercetător la Northwestern și co-autor al studiului MaxDiff RL. Unul dintre aceste repere este un înotător simulat: un corp cu trei brațe sprijinit pe sol într-un mediu vâscos care trebuie să învețe să înoate cât mai repede posibil într-o anumită direcție.

În testul înotătorului, MaxDiff RL a depășit alți doi algoritmi de învățare de întărire de ultimă generație (NN-MPPI și SAC). Acești doi au avut nevoie de mai multe resetări pentru a-și da seama cum să-i mute pe înotători. Pentru a finaliza sarcina, ei urmau un proces standard de învățare AI împărțit într-o fază de antrenament în care un algoritm trece prin mai multe încercări eșuate de a-și îmbunătăți treptat performanța și o fază de testare în care încearcă să realizeze sarcina învățată. MaxDiff RL, dimpotrivă, a reuşit, adaptându-şi imediat comportamentele învăţate la noua sarcină.

Algoritmii anteriori au ajuns să eșueze să învețe, deoarece s-au blocat încercând aceleași opțiuni și nu au progresat niciodată până unde ar putea afla că alternativele funcționează. „Au experimentat aceleași date în mod repetat, deoarece făceau anumite acțiuni la nivel local și au presupus că asta era tot ce puteau face și au încetat să învețe”, explică Pinosky. MaxDiff RL, pe de altă parte, a continuat să schimbe stările, să exploreze, să obțină date mai bogate din care să învețe și, în cele din urmă, a reușit. Și pentru că, prin proiectare, urmărește să atingă fiecare stare posibilă, poate finaliza toate sarcinile posibile într-un mediu.

Dar asta înseamnă că putem să luăm MaxDiff RL, să-l încărcăm într-o mașină cu conducere autonomă și să-l lăsăm să iasă pe drum pentru a înțelege totul singur? Nu chiar.

Chat Icon
×