diverse

Modelele AI ar putea devora toate cunoștințele scrise ale internetului până în 2026

modelele-ai-ar-putea-devora-toate-cunostintele-scrise-ale-internetului-pana-in-2026
Ilustrația unui artist care arată un robot și o mână umană atingând o carte care iese dintr-un laptop deschis.

Ilustrația unui artist care arată un robot și o mână umană atingând o carte care iese dintr-un laptop deschis. (Credit imagine: Alamy)

Inteligenţă artificială Sistemele (AI) ar putea devora toate cunoștințele gratuite ale internetului încă din 2026, a avertizat un nou studiu.

Modele AI precum GPT-4care alimentează ChatGPT sau Claude 3 Opus bazați-vă pe multe trilioane de cuvinte partajate online pentru a deveni mai inteligent, dar noile proiecții sugerează că vor epuiza oferta de date disponibile public cândva între 2026 și 2032.

Aceasta înseamnă că pentru a construi modele mai bune, companiile de tehnologie vor trebui să înceapă să caute date în altă parte. Aceasta ar putea include producerea de date sintetice, apelarea la surse de calitate inferioară sau, mai îngrijorător, accesarea datelor private din serverele care stochează mesaje și e-mailuri. Cercetătorii și-au publicat concluziile pe 4 iunie pe serverul de preprint arXiv.

„Dacă chatboții consumă toate datele disponibile și nu există progrese suplimentare în eficiența datelor, m-aș aștepta să văd o stagnare relativă în domeniu”, primul autor al studiului. Pablo Villalobos, un cercetător la institutul de cercetare Epoch AI, a declarat pentru Live Science. „Modele [will] se îmbunătățește lent în timp, pe măsură ce se descoperă noi perspective algoritmice și se produc în mod natural noi date.”

Datele de antrenament alimentează creșterea sistemelor AI – permițându-le să descopere modele din ce în ce mai complexe pentru a se înrădăcina în rețelele lor neuronale. De exemplu, ChatGPT a fost instruit pe aproximativ 570 GB de date text, în valoare de aproximativ 300 de miliarde de cuvinte, preluate din cărți, articole online, Wikipedia și alte surse online.

Algoritmii antrenați pe date insuficiente sau de calitate scăzută produc rezultate incomplete. Gemini AI de la Google, care a recomandat în mod infam că oamenii adaugă lipici la pizza sau mănâncă pietrea obținut unele dintre răspunsurile sale din postările și articolele Reddit de pe site-ul satiric The Onion.

Pentru a estima cât de mult text este disponibil online, cercetătorii au folosit indexul web al Google, calculând că în prezent existau aproximativ 250 de miliarde de pagini web care conțin 7.000 de octeți de text pe pagină. Apoi, au folosit analize ulterioare ale traficului de protocol de internet (IP) — fluxul de date pe web — și activitatea utilizatorilor online pentru a proiecta creșterea acestui stoc de date disponibil.

Primiți cele mai fascinante descoperiri din lume direct în căsuța dvs. de e-mail.

Legate de: „Testul Reverse Turing” le cere agenților AI să identifice un impostor uman – nu veți ghici niciodată cum își dau seama

Rezultatele au dezvăluit că informațiile de înaltă calitate, preluate din surse de încredere, vor fi epuizate cel târziu până în 2032 – și că datele lingvistice de calitate scăzută vor fi utilizate între 2030 și 2050. Între timp, datele de imagine vor fi consumate complet între 2030 și 2060.

S-a demonstrat că rețelele neuronale se îmbunătățesc previzibil pe măsură ce seturile lor de date cresc, un fenomen numit legea de scalare neuronală. Prin urmare, este o întrebare deschisă dacă companiile pot îmbunătăți eficiența modelului pentru a ține seama de lipsa de date proaspete sau dacă închiderea robinetului va duce la progrese în plată.

Cu toate acestea, Villalobos a spus că pare puțin probabil ca deficitul de date să inhibe dramatic creșterea viitorului model AI. Asta pentru că există mai multe abordări posibile pe care firmele le-ar putea folosi pentru a rezolva problema.

„Companiile încearcă din ce în ce mai mult să folosească date private pentru a antrena modele, de exemplu Modificarea viitoare a politicii lui Meta”, a adăugat el, în care compania a anunțat că va folosi interacțiunile cu chatbot-uri pe platformele sale pentru a-și antrena AI generativă. „Dacă reușesc să facă acest lucru și dacă utilitatea datelor private este comparabilă cu cea a datelor publice web, atunci este foarte probabil ca companiile de IA de top să aibă date mai mult decât suficiente pentru a rezista până la sfârșitul deceniului. În acel moment, alte blocaje, cum ar fi consumul de energie, creșterea costurilor de formare și disponibilitatea hardware, ar putea deveni mai presante decât lipsa datelor.”

O altă opțiune este să folosiți date sintetice, generate artificial pentru a alimenta modelele înfometate – deși acest lucru a fost folosit doar anterior cu succes în sistemele de antrenament în jocuri, codare și matematică.

În mod alternativ, dacă companiile încearcă să colecteze proprietăți intelectuale sau informații private fără permisiune, unii experți prevăd provocări legale în viitor.

„Creatorii de conținut au protestat împotriva utilizării neautorizate a conținutului lor pentru a instrui modele AI, unii dând în judecată companii precum Microsoft, OpenAI și Stabilitate AI,” Rita Matulionyteexpert în tehnologie și drept al proprietății intelectuale și profesor asociat la Universitatea Macquarie, Australia, a scris în The Conversation. „A fi remunerat pentru munca lor poate ajuta la restabilirea unei părți din dezechilibrul de putere care există între creatori și companiile AI.”

Cercetătorii observă că deficitul de date nu este singura provocare pentru îmbunătățirea continuă a AI. Căutările Google bazate pe ChatGPT consumă de aproape 10 ori mai multă energie electrică decât o căutare tradițională, potrivit Agenției Internaționale pentru Energie. Acest lucru a făcut lideri tehnologici încercarea de a dezvolta startup-urile de fuziune nucleară pentru a-și alimenta centrele de date înfometate, deși metoda de generare a energiei în curs de dezvoltare este încă departe de a fi viabile.

Ben Turner este un scriitor cu sediul în Marea Britanie la Live Science. El acoperă fizică și astronomie, printre alte subiecte precum tehnologia și schimbările climatice. A absolvit University College London cu o diplomă în fizica particulelor înainte de a se pregăti ca jurnalist. Când nu scrie, lui Ben îi place să citească literatură, să cânte la chitară și să se facă de rușine cu șahul.

To top
Cluburile Știință&Tehnică
Prezentare generală a confidențialității

Acest site folosește cookie-uri pentru a-ți putea oferi cea mai bună experiență în utilizare. Informațiile cookie sunt stocate în navigatorul tău și au rolul de a te recunoaște când te întorci pe site-ul nostru și de a ajuta echipa noastră să înțeleagă care sunt secțiunile site-ului pe care le găsești mai interesante și mai utile.