
Google DeepMind a lansat un rival pentru ChatGPT, numit Gemini, și poate înțelege și genera mai multe tipuri de media, inclusiv imagini, videoclipuri, audio și text.
Majoritatea instrumentelor de inteligență artificială (AI) înțeleg și generează doar un singur tip de conținut. De exemplu, ChatGPT de la OpenAI, „citește” și creează doar text. Dar Gemenii pot genera mai multe tipuri de rezultate pe baza oricărei forme de intrare, a spus Google într-un postare pe blog.
Cele trei versiuni ale Gemini 1.0 sunt Gemini Ultra, cea mai mare versiune, Gemini Pro, care este lansată în serviciile digitale Google și Gemini Nano, concepută pentru a fi utilizată pe dispozitive precum smartphone-urile.
Potrivit DeepMind’s Raportul tehnic pe chatbot, Gemini Ultra a depășit GPT-4 și alte modele AI de vârf în 30 din 32 de repere academice cheie utilizate în cercetarea și dezvoltarea AI. Acestea includ examene de liceu și teste de moralitate și drept.
Mai exact, Gemenii au câștigat la nouă teste de înțelegere a imaginii, șase teste de înțelegere video, cinci la recunoașterea vorbirii și traducerea și 10 din 12 benchmark-uri de text și raționament. Cele două în care Gemini Ulta nu a reușit să învingă GPT-4 au fost în raționament de bun simț, potrivit raportului.
Legate de: AI transformă fiecare aspect al științei. Iată cum.
Construirea de modele care procesează mai multe forme de media este dificilă, deoarece este posibil ca prejudecățile în datele de antrenament să fie amplificate, performanța tinde să scadă semnificativ și modelele tind să se supraadapte – ceea ce înseamnă că funcționează bine atunci când sunt testate pe baza datelor de antrenament, dar nu pot funcționa. atunci când sunt expuse la noi intrări.
De asemenea, antrenamentul multimodal implică în mod normal antrenarea diferitelor componente ale unui model separat, fiecare pe un singur tip de mediu și apoi îmbinarea acestor componente împreună. Dar Gemenii au fost antrenați împreună cu text, imagine, date audio și video în același timp. Oamenii de știință au obținut aceste date din documente web, cărți și cod.
Oamenii de știință i-au antrenat pe Gemeni prin îngrijirea datelor de antrenament și încorporarea supravegherii umane în procesul de feedback.
Echipa a implementat servere în mai multe centre de date la o scară mult mai mare decât eforturile anterioare de instruire AI și s-a bazat pe mii de cipuri acceleratoare AI de la Google – cunoscute sub numele de unități de procesare tensor (TPU).
DeepMind a construit aceste cipuri special pentru a accelera antrenamentul modelului, iar DeepMind le-a împachetat în grupuri de 4.096 cipuri cunoscute sub numele de „SuperPods”, înainte de a-și antrena sistemul. Rezultatul general al infrastructurii și metodelor reconfigurate a însemnat rezultatul bun – volumul de date cu adevărat utile care s-au mutat prin sistem (spre deosebire de debitul, care reprezintă toate datele) – a crescut de la 85% în eforturile anterioare de formare la 97%, conform raportului tehnic.
Oamenii de știință DeepMind văd că tehnologia este utilizată în scenarii precum o persoană care încarcă fotografii cu o masă pregătită în timp real și Gemenii care răspund cu instrucțiuni privind următorul pas al procesului.
Acestea fiind spuse, oamenii de știință au recunoscut că halucinațiile – un fenomen în care modelele AI returnează informații false cu maximă încredere – rămâne o problemă pentru Gemeni. Halucinațiile sunt în mod normal cauzate de limitări sau părtiniri ale datelor de antrenament și sunt dificil de eradicat.