Google se confruntă cu controverse în rândul experților în inteligență artificială pentru un videoclip promoțional Gemeni înșelător lansat miercuri care pare să arate noul său model AI care recunoaște indicii vizuale și interacționează vocal cu o persoană în timp real. După cum a raportat Parmy Olson pentru Bloomberg, Google a recunoscut că nu a fost cazul. În schimb, cercetătorii hrănite imagini statice la model și a editat împreună răspunsuri de succes, denaturand parțial capacitățile modelului.
„Am creat demonstrația prin captarea imaginilor pentru a testa capacitățile Gemenii într-o gamă largă de provocări”, a spus un purtător de cuvânt. „Apoi i-am solicitat pe Gemeni folosind cadre de imagini statice din filmare și solicitări prin text”, un purtător de cuvânt al Google spuse Olson. După cum subliniază Olson, Google a filmat o pereche de mâini umane făcând activități, apoi a arătat imagini statice lui Gemini Ultra, una câte una. Cercetătorii Google au interacționat cu modelul prin text, nu prin voce, apoi au ales cele mai bune interacțiuni și le-au editat împreună cu sinteza vocii pentru a realiza videoclipul.
În prezent, rularea imaginilor statice și a textului prin modele masive de limbi mari este intensivă din punct de vedere computațional, ceea ce face ca interpretarea video în timp real să fie în mare măsură nepractică. Acesta a fost unul dintre indiciile care i-au determinat pentru prima dată pe experții AI să creadă că videoclipul induce în eroare.
Comentarii recente