
Microsoft a dezvoltat un nou inteligenţă artificială (AI) generator de vorbire care aparent este atât de convingător încât nu poate fi eliberat publicului.
VALL-E 2 este un generator de text-to-speech (TTS) care poate reproduce vocea unui vorbitor uman folosind doar câteva secunde de sunet.
Cercetătorii Microsoft au spus că VALL-E 2 era capabil să genereze „vorbire precisă, naturală în vocea exactă a difuzorului original, comparabilă cu performanța umană”, într-o lucrare care a apărut pe 17 iunie pe serverul de pre-print. arXiv. Cu alte cuvinte, noul generator de voce AI este suficient de convingător pentru a fi confundat cu o persoană reală – cel puțin, conform creatorilor săi.
„VALL-E 2 este cel mai recent progres în modelele de limbaj codec neuronal care marchează o piatră de hotar în sinteza text-to-speech (TTS) zero-shot, atingând paritatea umană pentru prima dată”, au scris cercetătorii în lucrare. „Mai mult, VALL-E 2 sintetizează în mod constant vorbirea de înaltă calitate, chiar și pentru propoziții care sunt în mod tradițional provocatoare din cauza complexității sau a frazelor repetitive.”
Paritatea umană în acest context înseamnă că vorbirea generată de VALL-E 2 a egalat sau a depășit calitatea vorbirii umane în benchmark-urile utilizate de Microsoft.
Motorul AI este capabil de acest lucru, având în vedere includerea a două caracteristici cheie: „Eșantionare în funcție de repetiție” și „Modelare cod grupat”.
Repetition Aware Sampling îmbunătățește modul în care AI convertește textul în vorbire, abordând repetări de „token-uri” – unități mici de limbaj, cum ar fi cuvinte sau părți de cuvinte – prevenind bucle infinite de sunete sau fraze în timpul procesului de decodare. Cu alte cuvinte, această caracteristică ajută la modificarea modelului de vorbire al lui VALL-E 2, făcându-l să sune mai fluid și mai natural.
Între timp, modelarea codurilor grupate îmbunătățește eficiența prin reducerea lungimii secvenței – sau a numărului de jetoane individuale pe care modelul le procesează într-o singură secvență de intrare. Acest lucru accelerează cât de repede VALL-E 2 generează vorbire și ajută la gestionarea dificultăților care apar cu procesarea șirurilor lungi de sunete.
Cercetătorii au folosit mostre audio din bibliotecile de vorbire LibriSpeech și VCTK pentru a evalua cât de bine se potrivea VALL-E 2 cu înregistrările vorbitorilor umani. Ei au folosit, de asemenea, ELLA-V – un cadru de evaluare conceput pentru a măsura acuratețea și calitatea vorbirii generate – pentru a determina cât de eficient a gestionat VALL-E 2 sarcini mai complexe de generare a vorbirii.
„Experimentele noastre, efectuate pe seturile de date LibriSpeech și VCTK, au arătat că VALL-E 2 depășește sistemele TTS zero-shot anterioare în ceea ce privește robustețea vorbirii, naturalețea și similitudinea difuzorului”, au scris cercetătorii. „Este primul de acest fel care atinge paritatea umană în aceste puncte de referință”.
Cercetătorii au subliniat în lucrare că calitatea ieșirii lui VALL-E 2 depinde de lungimea și calitatea mesajelor de vorbire – precum și de factorii de mediu cum ar fi zgomotul de fond.
„Un proiect pur de cercetare”
În ciuda capacităților sale, Microsoft nu va lansa publicului VALL-E 2 din cauza riscurilor potențiale de utilizare greșită. Acest lucru coincide cu preocupările tot mai mari legate de clonarea vocii și tehnologie deepfake. Alte companii AI, cum ar fi OpenAI a impus restricții similare pe tehnologia lor vocală.
“VALL-E 2 este pur un proiect de cercetare. În prezent, nu avem planuri să încorporăm VALL-E 2 într-un produs sau să extindem accesul la public”, au scris cercetătorii într-un postare pe blog. „Poate comporta riscuri potențiale în utilizarea greșită a modelului, cum ar fi falsificarea identificării vocale sau uzurparea identității unui anumit vorbitor”.
Acestea fiind spuse, au sugerat că tehnologia vorbirii AI ar putea vedea aplicații practice în viitor. „VALL-E 2 ar putea sintetiza vorbirea care menține identitatea vorbitorului și ar putea fi folosită pentru învățarea educațională, divertisment, jurnalistic, conținut auto-autor, funcții de accesibilitate, sisteme interactive de răspuns vocal, traducere, chatbot și așa mai departe”, au adăugat cercetătorii.
Ei au continuat: „Dacă modelul este generalizat la vorbitori nevăzuți în lumea reală, ar trebui să includă un protocol pentru a se asigura că vorbitorul aprobă utilizarea vocii lor și un model de detectare a vorbirii sintetizate”.