Informatica din spatele traducerii vorbirii din 100 de limbi sursă.

În 2023, cercetătorii AI de la Meta au intervievat 34 de vorbitori nativi de spaniolă și mandarină care locuiau în SUA, dar nu vorbeau engleza. Scopul a fost de a afla ce așteaptă oamenii care se bazează constant pe traducere în activitățile lor de zi cu zi de la un instrument de traducere AI. Ceea ce au vrut acei participanți a fost practic un traducător universal Star Trek sau Babel Fish din Ghidul autostopulului în galaxie: o IA care nu numai că ar putea traduce vorbirea în vorbire în timp real în mai multe limbi, dar și-ar putea păstra vocea, tonul, manierele și emoțiile. Așadar, Meta a adunat o echipă de peste 50 de oameni și s-a ocupat să o construiască.

Ceea ce a venit această echipă a fost un sistem de traducere de nouă generație numit Seamless. Primul bloc al acestui sistem este descris în numărul de miercuri al revistei Nature; poate traduce vorbirea în 36 de limbi diferite.

Probleme cu datele lingvistice

Sistemele de traducere AI de astăzi se concentrează în mare parte pe text, deoarece cantități uriașe de text sunt disponibile într-o gamă largă de limbi datorită digitalizării și internetului. Instituții precum Națiunile Unite sau Parlamentul European traduc în mod obișnuit toate procedurile lor în limbile tuturor statelor lor membre, ceea ce înseamnă că există baze de date enorme care cuprind documente aliniate pregătite de traducători umani profesioniști. Trebuia doar să alimentați acele corpuri de text uriașe și aliniate în rețele neuronale (sau modele Markov ascunse înainte ca rețelele neuronale să devină furori) și ați ajuns cu un sistem de traducere automată destul de bun. Dar au fost două probleme cu asta.

Prima problemă a fost acele baze de date care cuprindeau documente formale, ceea ce i-a făcut pe traducătorii AI să utilizeze în mod implicit același limbaj legal plictisitor în limba țintă, chiar dacă ați încercat să traduceți comedie. A doua problemă a fost vorbirea – nimic din toate acestea nu includea date audio.

Problema formalității lingvistice a fost rezolvată în mare parte prin includerea unor surse mai puțin formale precum cărți, Wikipedia și materiale similare în bazele de date de instruire AI. Lipsa datelor audio aliniate, totuși, a rămas. Ambele probleme erau cel puțin teoretic gestionabile în limbile cu resurse mari, cum ar fi engleza sau spaniola, dar s-au înrăutățit dramatic în limbile cu resurse reduse, cum ar fi islandeză sau zulu.

Drept urmare, traducătorii AI pe care îi avem astăzi acceptă un număr impresionant de limbi în text, dar lucrurile sunt complicate când vine vorba de traducerea vorbirii. Există sisteme în cascadă care pur și simplu fac acest truc în etape. Un enunț este mai întâi convertit în text așa cum ar fi în orice serviciu de dictare. Apoi vine traducerea text-to-text, iar în cele din urmă textul rezultat în limba țintă este sintetizat în vorbire. Deoarece erorile se acumulează în fiecare dintre aceste etape, performanța pe care o obțineți în acest fel este de obicei slabă și nu funcționează în timp real.

Există câteva sisteme care pot traduce direct din vorbire în vorbire, dar în majoritatea cazurilor ele traduc doar în engleză și nu în sens invers. Interlocutorul dvs. în limbă străină vă poate spune ceva într-una dintre limbile acceptate de instrumente precum AudioPaLM de la Google și va traduce asta în limba engleză, dar nu puteți avea o conversație în ambele sensuri.

Așadar, pentru a realiza translatorul universal Star Trek la care visau intervievații lui Meta, echipa Seamless a început să rezolve problema deficitului de date. Și au făcut-o într-un mod destul de creativ.

Construirea unui limbaj universal

Warren Weaver, un matematician și pionier al traducerii automate, argumentat în 1949 că ar putea exista o limbă universală încă nedescoperită care să funcționeze ca bază comună a comunicării umane. Această bază comună a tuturor comunicării noastre a fost exact ceea ce a căutat echipa Seamless în căutarea de date peste 70 de ani mai târziu. Limbajul universal al lui Weaver s-a dovedit a fi matematica – mai precis, vectori multidimensionali.

Mașinile nu înțeleg cuvintele așa cum le înțeleg oamenii. Pentru a le înțelege, trebuie mai întâi să le transforme în secvențe de numere care le reprezintă semnificația. Acele secvențe de numere sunt vectori numerici care sunt numiți înglobare de cuvinte. Când vectorizați zeci de milioane de documente în acest fel, veți ajunge la un spațiu uriaș multidimensional în care cuvintele cu semnificație similară care adesea merg împreună, cum ar fi „ceai” și „cafea”, sunt plasate unul lângă celălalt. Când vectorizați text aliniat în două limbi, cum ar fi acele proceduri ale Parlamentului European, ajungeți să aveți două spații vectoriale separate și apoi puteți rula o rețea neuronală pentru a afla cum se mapează aceste două spații unul pe celălalt.

Dar echipa Meta nu avea acele texte frumos aliniate pentru toate limbile pe care doreau să le acopere. Deci, au vectorizat toate textele în toate limbile ca și cum ar fi o singură limbă și le-au aruncat într-un spațiu de încorporare numit SONAR (Sentence-level Multimodal and Language-Agnostic Representations). Odată ce partea de text a fost terminată, au trecut la datele de vorbire, care au fost vectorizate folosind un instrument popular W2v (cuvânt în vector) și le-au adăugat în același spațiu multilingv multimodal masiv. Desigur, fiecare încorporare conține metadate care identifică limba sa sursă și dacă era text sau vorbire înainte de vectorizare.

Echipa a folosit doar cantități uriașe de date brute – fără etichetare umane luxoase, fără traduceri aliniate la om. Și apoi s-a întâmplat magia extragerii de date.

Înglobările SONAR au reprezentat propoziții întregi în loc de cuvinte individuale. O parte din motivul din spatele acestui lucru a fost controlul diferențelor dintre limbile bogate din punct de vedere morfologic, unde un singur cuvânt poate corespunde mai multor cuvinte în limbi simple din punct de vedere morfologic. Dar cel mai important lucru a fost că a asigurat că propozițiile cu semnificație similară în mai multe limbi ajung aproape una de alta în spațiul vectorial.

A fost aceeași poveste și cu vorbirea – o propoziție rostită într-o limbă era aproape de propozițiile rostite în alte limbi cu înțeles similar. A funcționat chiar și între text și vorbire. Deci, echipa a presupus pur și simplu că încorporarea în două limbi diferite sau două modalități diferite (vorbire sau text) care sunt la o distanță suficient de apropiată una de alta sunt echivalente cu textele aliniate manual ale documentelor traduse.

Acest lucru a produs cantități uriașe de date aliniate automat. Echipa Seamless a avut brusc acces la milioane de texte aliniate, chiar și în limbi cu resurse reduse, împreună cu mii de ore de sunet transcris. Și au folosit toate aceste date pentru a-și instrui traducătorul de nouă generație.

Traducere fără întreruperi

Setul de date generat automat a fost completat cu texte curate de oameni și mostre de vorbire acolo unde a fost posibil și a fost folosit pentru a antrena mai multe modele de traducere AI. Cel mai mare se numea SEAMLESSM4T v2. Ar putea traduce vorbire în vorbire din 101 limbi sursă în oricare dintre cele 36 de limbi de ieșire și poate traduce text în text. De asemenea, ar funcționa ca un sistem automat de recunoaștere a vorbirii în 96 de limbi, ar traduce vorbirea în text din 101 în 96 de limbi și ar traduce text în vorbire din 96 în 36 de limbi – toate dintr-un singur model unificat. De asemenea, a depășit sistemele de ultimă generație în cascadă cu 8 la sută într-o traducere de la vorbire la text și cu 23 la sută într-o traducere de la vorbire la vorbire pe baza scorurilor din Bilingual Evaluation Understudy (un algoritm utilizat în mod obișnuit pentru a evalua calitatea traducerii automate).

Dar acum poate face chiar mai mult decât atât. Lucrarea Nature publicată de Meta’s Seamless se termină la modelele SEAMLESSM4T, dar Nature are un proces editorial lung pentru a asigura acuratețea științifică. Lucrarea publicată la 15 ianuarie 2025 a fost depusă la sfârșitul lunii noiembrie 2023. Dar într-o căutare rapidă a arXiv.orgun depozit de lucrări care nu au fost încă revizuite de colegi, puteți găsi detaliile altor două modele pe care echipa Seamless le-a integrat deja pe deasupra SEAMLESSM4T: SeamlessStreaming și SeamlessExpressive, care aduc această inteligență artificială și mai aproape de realizarea unui Star Trek. traducător universal o realitate.

SeamlessStreaming este menit să rezolve problema latenței traducerii. Linia de bază SEAMLESSM4T, în ciuda tuturor clopotelor și fluierelor, a funcționat ca un instrument standard de traducere AI. Trebuia să spui ceea ce vrei să spui, să apeși „traduce” și a scuipat traducerea. SeamlessStreaming a fost conceput pentru a aduce această experiență un pic mai aproape de ceea ce face traducătorul uman simultan – traduce ceea ce spui în timp ce vorbești într-un mod de streaming. SeamlessExpressive, pe de altă parte, are ca scop păstrarea modului în care vă exprimați în traduceri. Când șoptești sau spui ceva într-un mod vesel sau strigi de furie, SeamlessExpressive va codifica caracteristicile vocii tale, cum ar fi tonul, prozodia, volumul, tempo-ul și așa mai departe și le va transfera în discursul de ieșire în limba țintă.

Din păcate, încă nu le poate face pe amândouă în același timp; poți alege doar să mergi fie pentru streaming, fie pentru expresivitate, cel puțin în acest moment. De asemenea, varianta de expresivitate este foarte limitată în limbile acceptate – funcționează doar în engleză, spaniolă, franceză și germană. Dar cel puțin este online, așa că poți continua și să-l dai o învârtire.

Natura, 2025. DOI: 10.1038/s41586-024-08359-z

Fotografie cu Jacek Krywko

Jacek Krywko este un scriitor independent de știință și tehnologie care acoperă explorarea spațiului, cercetarea inteligenței artificiale, informatica și tot felul de vrăjitorie inginerească.

55 comentarii

Chat Icon
×