Concentrarea pe producția de sunet în loc de alegerea cuvintelor face un sistem flexibil.
Implantul participantului este conectat pentru testare. Credit: UC Regents
Stephen Hawking, un fizician britanic și, probabil, cel mai cunoscut bărbat care suferă de scleroză laterală amiotrofică (ALS), a comunicat cu lumea folosind un senzor instalat în ochelari. Acest senzor a folosit mișcări minuscule ale unui singur mușchi în obraz pentru a selecta personaje pe un ecran. Odată ce a tastat o propoziție completă la un ritm de aproximativ un cuvânt pe minut, textul a fost sintetizat în vorbire de un sintetizator Dectalk TC01, care i -a dat vocea sa iconică, robotizată.
Dar multe s-au schimbat de când Hawking a murit în 2018. Dispozitivele recente ale interfeței creierului-computer (BCI) au făcut posibilă traducerea activității neuronale direct în text și chiar vorbire. Din păcate, aceste sisteme au avut o latență semnificativă, limitând adesea utilizatorul la un vocabular predefinit și nu au gestionat nuanțe de limbă vorbită precum ton sau prozodie. Acum, o echipă de oameni de știință de la Universitatea din California, Davis a construit o proteză neuronală care poate traduce instantaneu semnalele cerebrale în sunete – foneme și cuvinte. Poate fi primul pas real pe care l -am făcut către un tract vocal complet digital.
Mesaje text
„Scopul nostru principal este crearea unei neuroproteze de vorbire flexibilă care permite unui pacient cu paralizie să vorbească cât mai fluent posibil, gestionându -și propria cadență și să fie mai expresivi, lăsându -i să -și moduleze intonația”, spune Maitreyee Wairagkar, un cercetător de neuroprotetic la UC Davis, care a condus studiul. Dezvoltarea unei proteze care bifează toate aceste cutii a fost o provocare enormă, deoarece a însemnat că echipa lui Wairagkar a trebuit să rezolve aproape toate problemele cu care s-au confruntat soluțiile de comunicare bazate pe BCI în trecut. Și au avut destul de multe probleme.
Prima problemă a fost trecerea dincolo de text – cele mai multe proteze neuronale de succes dezvoltate până acum au tradus semnale cerebrale în text – cuvintele pe care un pacient cu o proteză implantată a dorit să spună că pur și simplu a apărut pe un ecran. Francis R. Willett a condus o echipă la Universitatea Stanford care realizat Traducerea creier-la-text cu o rată de eroare de aproximativ 25 %. „Când o femeie cu ALS încerca să vorbească, ar putea decoda cuvintele. Trei din patru cuvinte erau corecte. Acest lucru a fost super interesant, dar nu suficient pentru comunicarea zilnică”, spune Sergey Stavisky, neuroștiințist la UC Davis și un autor principal al studiului.
Întârzieri și dicționare
La un an după activitatea Stanford, în 2024, echipa lui Stavisky publicat Cercetările proprii asupra unui sistem creier-la-text care a reușit precizia la 97,5 la sută. „Aproape fiecare cuvânt a fost corect, dar comunicarea peste text poate fi limitată, nu?” Spuse Stavisky. „Uneori vrei să -ți folosești vocea. Vă permite să faceți interjecții, face mai puțin probabil ca alți oameni să vă întrerupă – puteți cânta, puteți folosi cuvinte care nu sunt în dicționar.” Dar cea mai frecventă abordare pentru generarea vorbirii s -a bazat pe sintetizarea acestuia din text, ceea ce a dus direct la o altă problemă cu sistemele BCI: latență foarte mare.
În aproape toate ajutoarele de vorbire BCI, propozițiile au apărut pe un ecran după o întârziere semnificativă, cu mult timp după ce pacientul a terminat să -și strângă cuvintele în minte. Partea de sinteză a vorbirii s -a întâmplat de obicei după ce textul a fost gata, ceea ce a provocat și mai multă întârziere. Soluțiile creier-text au suferit, de asemenea, de un vocabular limitat. Cel mai recent sistem de acest fel a susținut un dicționar de aproximativ 1.300 de cuvinte. Când ați încercat să vorbiți o limbă diferită, utilizați un vocabular mai elaborat sau chiar spuneți numele neobișnuit al unei cafenele chiar după colț, sistemele au eșuat.
Așadar, Wairagkar și -a proiectat proteza pentru a transpune semnale cerebrale în sunete, nu în cuvinte – și a o face în timp real.
Extragerea sunetului
Pacientul care a fost de acord să participe la studiul lui Wairagkar a fost denumit codat T15 și a fost un bărbat în vârstă de 46 de ani care suferă de ALS. “El este grav paralizat și când încearcă să vorbească, este foarte greu de înțeles. Îl cunosc de câțiva ani, iar când vorbește, am înțeles poate 5 la sută din ceea ce spune”, spune David M. Brandman, neurochirurg și coautor al studiului. Înainte de a lucra cu echipa UC Davis, T15 a comunicat folosind un mouse de cap giroscopic pentru a controla un cursor pe ecranul computerului.
Pentru a utiliza o versiune timpurie a sistemului creier-la-text al lui Stavisky, pacientul a avut 256 de microelectrozi implantați în gyrusul său precedent ventral, o zonă a creierului responsabilă de controlul mușchilor tractului vocal.
Pentru noul sistem creier-la-speech, Wairagkar și colegii ei s-au bazat pe aceiași 256 de electrozi. „Am înregistrat activități neuronale de la neuroni singuri, care este cea mai mare rezoluție de informații pe care le putem obține din creierul nostru”, spune Wairagkar. Semnalul înregistrat de electrozi a fost apoi trimis la un algoritm AI numit decodificator neural care a descifrat acele semnale și a extras caracteristici de vorbire, cum ar fi pasul sau vocea. În pasul următor, aceste caracteristici au fost introduse într -un vocoder, un algoritm de sinteză de sinteză conceput pentru a suna ca vocea pe care T15 o avea atunci când a putut încă să vorbească normal. Întregul sistem a funcționat cu latența până la aproximativ 10 milisecunde – conversia semnalelor cerebrale în sunete a fost efectiv instantanee.
Deoarece proteza neuronală a lui Wairagkar a transformat semnalele creierului în sunete, nu a venit cu o selecție limitată de cuvinte susținute. Pacientul ar putea spune orice și-a dorit, inclusiv pseudo-cuvinte care nu erau într-un dicționar și interjecții precum „um”, „hmm” sau „uh”. Deoarece sistemul era sensibil la caracteristici precum Pitch sau Prosody, el ar putea, de asemenea, să vocalizeze întrebări spunând ultimul cuvânt dintr -o propoziție cu un teren ușor mai mare și chiar să cânte o melodie scurtă.
Dar proteza lui Wairagkar a avut limitele sale.
Îmbunătățiri inteligibilității
Pentru a testa performanța protezei, echipa lui Wairagkar a cerut mai întâi ascultătorilor umani să corespundă unei înregistrări a unor discursuri sintetizate de către pacientul T15 cu o transcriere dintr -un set de șase propoziții candidate de lungime similară. Aici, rezultatele au fost complet perfecte, sistemul obținând 100 % inteligibilitate.
Problemele au început atunci când echipa a încercat ceva ceva mai greu: un test de transcriere deschisă în care ascultătorii trebuiau să lucreze fără transcrieri ale candidaților. În acest al doilea test, rata de eroare a cuvântului a fost de 43,75 la sută, ceea ce înseamnă că participanții au identificat puțin mai mult de jumătate din cuvintele înregistrate corect. Aceasta a fost cu siguranță o îmbunătățire în comparație cu inteligibilitatea discursului neajuns al T15, în care cuvântul eroare în același test cu același grup de ascultători a fost de 96,43 la sută. Dar proteza, deși promițătoare, nu a fost încă suficient de fiabilă pentru a o folosi pentru comunicarea de zi cu zi.
“Nu suntem în punctul în care ar putea fi folosit în conversații deschise. Mă gândesc la acest lucru ca la o dovadă a conceptului”, spune Stavisky. El a sugerat că o modalitate de îmbunătățire a proiectelor viitoare ar fi utilizarea mai multor electrozi. “Există o mulțime de startup -uri care construiesc acum BCIS care vor avea peste o mie de electrozi. Dacă vă gândiți la ceea ce am obținut cu doar 250 de electrozi față de ceea ce s -ar putea face cu o mie sau două mii – cred că ar funcționa doar”, a argumentat el. Și munca pentru a face acest lucru este deja în curs.
Paradromica, o pornire axată pe BCI cu sediul în Austin, Texas, vrea să meargă mai departe cu studiile clinice ale unei proteze neuronale de vorbire și solicită deja aprobarea FDA. „Au un sistem de 1.600 de electrozi și au declarat public că vor face vorbire”, spune Stavisky. „David Brandman, coautorul nostru, va fi investigatorul principal principal pentru aceste încercări și o vom face aici la UC Davis.”
Natura, 2025. Doi: 10.1038/s41586-025-09127-3
Jacek Krywko este un scriitor de știință și tehnologie independentă care acoperă explorarea spațială, cercetarea inteligenței artificiale, informatică și tot felul de vrăjitorie de inginerie.
Comentarii recente