
Ochelari inteligenți probabil că nu au reușit să decolezedar adăugarea de inteligență artificială (AI) ar putea fi cheia dezvoltării unei tehnologii portabile cu adevărat transformatoare.
În SUA și Canada, ochelarii inteligenți Ray-Ban Meta au primit o lansare a tehnologiei AI multimodale cu software numit „asistent virtual Meta AI”. Cu AI multimodală – ceea ce înseamnă AI generativă care poate procesa interogări care implică mai mult de un mediu (de exemplu, atât audio, cât și imagini) – dispozitivul poate răspunde mai bine la întrebări în funcție de ceea ce privește un purtător.
„Să presupunem că călătorești și încerci să citești un meniu în franceză. Ochelarii tăi inteligenți pot folosi camera lor încorporată și Meta AI pentru a traduce textul pentru tine, oferindu-ți informațiile de care ai nevoie fără a fi nevoie să scoți telefonul sau să te uiți. la un ecran”, au explicat reprezentanții Meta pe 23 aprilie într-un afirmație.
Dispozitivul face mai întâi o fotografie a ceea ce se uită un purtător, apoi AI apelează la procesarea bazată pe cloud pentru a oferi un răspuns la o întrebare, transmisă prin vorbire, cum ar fi „la ce tip de plantă mă uit?”
Meta a explorat mai întâi integrarea AI multimodală în ochelarii inteligenți Ray-Ban Meta într-o versiune limitată în decembrie 2023.
Testarea funcționalității AI în acest dispozitiv, un reporter de la The Verge a constatat că în cea mai mare parte a răspuns corect atunci când i s-a cerut să identifice modelul unei mașini. De asemenea, ar putea descrie un tip de pisică, de exemplu, și trăsăturile sale într-o imagine realizată prin intermediul camerei. Dar AI a avut probleme în identificarea cu precizie a speciilor de plante aparținând unui reporter și s-a străduit să identifice corect o marmotă în curtea vecinului lor.
Mașinațiuni multimodale
Asistenții virtuali bazați pe inteligență artificială nu sunt nimic nou, precum Google Assistant, Amazon Alexa și Apple Siri, toate oferind răspunsuri inteligente la întrebări în limbaj natural. Dar esențialul meta AI în ochelarii inteligenți Ray-Ban este funcționalitatea sa multimodală.
Abilitatea de a fuziona și procesa date de la mai multe module de senzori – de exemplu, camere și microfoane – înseamnă o IA multimodală poate genera rezultate mai precise și mai sofisticate față de sistemele AI unimodale. de la Google Model AI multimodal Gemeni de exemplu, poate procesa o fotografie a unor cookie-uri și raspunde cu reteta.
Instruit pentru identificarea tiparelor în diferite tipuri de intrări de date prin mai multe rețele neutre – colecții de algoritmi de învățare automată aranjați pentru a imita creierul uman – AI multimodale pot procesa date de intrare din text, imagini, audio și multe altele.
În ochelarii inteligenți, înseamnă că o inteligență artificială poate da un sens lumii pe care o vede purtătorul combinând senzorii de pe ochelari cu aceste rețele neuronale. Ca rezultat, sistemul poate răspunde la întrebări mai sofisticate și poate oferi informații contextuale mai inteligente.
Dar, în cazul dispozitivului Ray-Ban Meta, AI mai are de parcurs înainte să îndeplinească capabilitățile de procesare AI găsite în cele mai recente smartphone-uri; acestea beneficiază de chipset-uri mai puternice și de fuziunea senzorilor la bord – unde datele sunt preluate de la mai mulți senzori și procesate împreună, de exemplu pentru a oferi recunoaștere a scenei în aplicațiile camerei, permițând reglarea inteligentă a luminii și a echilibrului de culoare sau combinând datele de la termometre și senzori optici în ceasurile inteligente pentru a oferi un feedback mai bun cu privire la antrenament.