Elon Musk, încă din octombrie 2021, a scris pe Twitter că „oamenii conduc cu ochi și rețele neuronale biologice, astfel încât camerele și rețelele neuronale din silicon sunt singurele modalități de a obține o soluție generalizată pentru auto-conducere”. Problema cu logica lui a fost că ochii umani sunt mult mai buni decât camerele RGB în detectarea obiectelor care se mișcă rapid și estimarea distanțelor. Creierul nostru a depășit, de asemenea, toate rețelele neuronale artificiale cu o marjă largă la procesarea generală a intrărilor vizuale.
Pentru a elimina acest decalaj, o echipă de oameni de știință de la Universitatea din Zurich a dezvoltat un nou sistem de detectare a obiectelor auto care aduce performanța camerei digitale mult mai aproape de ochii oamenilor. „Surse neoficiale spun că Tesla folosește mai multe camere Sony IMX490 cu rezoluție de 5,4 megapixeli care [capture] până la 45 de cadre pe secundă, ceea ce se traduce printr-o latență perceptivă de 22 de milisecunde. Comparând [these] Doar camerele cu soluția noastră, observăm deja o reducere de 100 de ori a latenței perceptive”, spune Daniel Gehrig, cercetător la Universitatea din Zurich și autorul principal al studiului.
Replicarea viziunii umane
Când un pieton sare brusc în fața mașinii tale, trebuie să se întâmple mai multe lucruri înainte ca un sistem de asistență pentru șofer să inițieze frânarea de urgență. În primul rând, pietonul trebuie surprins în imaginile realizate de o cameră. Timpul necesar se numește latență perceptivă – este o întârziere între existența unui stimul vizual și apariția acestuia în citirea de la un senzor. Apoi, citirea trebuie să ajungă la o unitate de procesare, care adaugă o latență de rețea de aproximativ 4 milisecunde.
Procesarea pentru clasificarea imaginii unui pieton durează alte milisecunde prețioase. Odată ce este făcută, detectarea trece la un algoritm de luare a deciziilor, care durează ceva timp pentru a decide să lovească frâna – toată această procesare este cunoscută sub numele de latență de calcul. În general, timpul de reacție este între 0,1 și jumătate de secundă. Dacă pietonul rulează cu 12 km/h, ar parcurge între 0,3 și 1,7 metri în acest timp. Mașina dvs., dacă conduceți cu 50 km/h, ar acoperi 1,4 până la 6,9 metri. Într-o întâlnire de aproape, asta înseamnă că cel mai probabil i-ai lovi.
Gehrig și Davide Scaramuzza, profesor la Universitatea din Zurich și co-autor al studiului, și-au propus să scurteze acești timpi de reacție prin reducerea latențelor perceptuale și de calcul.
Cea mai simplă modalitate de a reduce prima a fost utilizarea camerelor standard de mare viteză care pur și simplu înregistrează mai multe cadre pe secundă. Dar chiar și cu o cameră de 30-45 fps, o mașină autonomă ar genera aproape 40 de terabytes de date pe oră. Montarea a ceva care ar reduce semnificativ latența perceptivă, cum ar fi o cameră de 5.000 fps, ar copleși computerul de bord al unei mașini într-o clipă – latența de calcul ar trece prin acoperiș.
Deci, echipa elvețiană a folosit ceva numit „cameră pentru evenimente”, care imită modul în care funcționează ochii biologici. „În comparație cu o cameră video bazată pe cadre, care înregistrează imagini dense la o frecvență fixă – cadre pe secundă – camerele pentru evenimente conțin pixeli inteligenți independenți care măsoară doar modificările de luminozitate”, explică Gehrig. Fiecare dintre acești pixeli începe cu un nivel de luminozitate setat. Când modificarea luminozității depășește un anumit prag, pixelul înregistrează un eveniment și setează un nou nivel de luminozitate de bază. Toți pixelii din camera de eveniment fac asta continuu, fiecare eveniment înregistrat manifestându-se ca a punct într-o imagine.
Acest lucru face camerele pentru evenimente deosebit de bune la detectarea mișcării de mare viteză și le permite să facă acest lucru folosind mult mai puține date. Problema cu introducerea lor în mașini a fost că au avut probleme în detectarea lucrurilor care se mișcau încet sau nu se mișcau deloc în raport cu camera. Pentru a rezolva asta, Gehrig și Scaramuzza au optat pentru un sistem hibrid, în care o cameră pentru evenimente a fost combinată cu una tradițională.
Comentarii recente