Logo -ul Deepseek apare pe un smartphone cu steagul Chinei în fundal.
Deepseek este un nou model de inteligență artificială (AI) din China. (Credit de imagine: Thomas Fuller/SOPA Imagini/Lightrochet prin Getty Images)

Cu mai puțin de două săptămâni în urmă, o companie chineză de abia cunoscută a lansat cele mai recente inteligenţă artificială (AI) Model și a trimis unde de șoc în întreaga lume.

Deepseek a revendicat într -o lucrare tehnică încărcată la Github că modelul său R1 cu greutate deschisă a fost obținut Rezultate comparabile sau mai bune decât modelele AI realizate de unii dintre cei mai importanți giganți din Silicon Valley – și anume Chatgpt -ul lui Openai, Llama Meta și Antropic’s Claude. Și cel mai uimitor, modelul a obținut aceste rezultate, în timp ce a fost instruit și a rulat cu o fracțiune din cost.

Răspunsul pe piață la știri de luni a fost ascuțit și brutal: pe măsură ce Deepseek a crescut pentru a deveni Cea mai descărcată aplicație gratuită În App App Store, 1 trilion de dolari a fost șters din evaluările companiilor de tehnologie din SUA.

Și NVIDIA, o companie care realizează jetoane grafice de înaltă calitate H100, presupuse esențiale pentru antrenamentul AI, a pierdut 589 miliarde de dolari în evaluare în cadrul evaluării în Cea mai mare pierdere de piață de o zi din istoria SUA. La urma urmei, Deepseek a spus că și-a antrenat modelul AI fără ei-deși a folosit chipsuri Nvidia mai puțin puternice. Companiile de tehnologie din SUA au răspuns cu panică și ire, reprezentanții OpenAI sugerează chiar că Deepseek părți plagiate ale modelelor sale.

Înrudite: AI se poate reproduce acum – un punct de reper care are experți îngroziți

Experții AI spun că apariția lui Deepseek a susținut o dogmă cheie care stă la baza abordării industriei în ceea ce privește creșterea – arătând că mai mare nu este întotdeauna mai bun.

„Faptul că Deepseek ar putea fi construit pentru mai puțini bani, mai puțin calcul și mai puțin timp și poate fi rulat local pe mașini mai puțin costisitoare, susține că, pe măsură ce toată lumea se îndrepta spre mai mare și mai mare, am ratat oportunitatea de a construi mai inteligent și mai mic,” Kristian Hammond, Un profesor de informatică la Universitatea Northwestern, a declarat Live Science într -un e -mail.

Obțineți cele mai fascinante descoperiri din lume livrate direct în căsuța de e -mail.

Dar ce face modelele V3 și R1 ale Deepseek atât de perturbatoare? Cheia, spun oamenii de știință, este eficiența.

Ce face ca modelele Deepseek să bifeze?

„În unele moduri, progresele lui Deepseek sunt mai evolutive decât revoluționare”, Ambuj Tewaria declarat profesor de statistici și informatică la Universitatea din Michigan, Live Science. „Încă funcționează sub paradigma dominantă a modelelor foarte mari (100 de miliarde de parametri) pe seturi de date foarte mari (trilioane de jetoane) cu bugete foarte mari.”

Dacă luăm pretențiile Deepseek la valoarea nominală, a spus Tewari, principala inovație a abordării companiei este modul în care își poartă modelele mari și puternice pentru a rula la fel de bine ca și alte sisteme în timp ce utilizează mai puține resurse.

Cheia acestui lucru este un sistem de „amestec-of-experts” care împarte modelele Deepseek în submodele fiecare specializate într-o sarcină sau un tip de date specific. Acest lucru este însoțit de un sistem purtător de încărcare care, în loc să aplice o pedeapsă generală pentru a încetini un sistem supraîncărcat, așa cum fac și alte modele, trece dinamic sarcinile de la submodelele suprasolicitate la submodele subliniate.

-[This] înseamnă că, deși modelul V3 are 671 miliarde de parametri, doar 37 de miliarde sunt activate de fapt pentru orice jeton dat „, a spus Tewari. Un jeton se referă la o unitate de procesare dintr -un model de limbaj mare (LLM), echivalent cu o bucată de text.

Proprietarea acestei echilibrări a sarcinii este o tehnică cunoscută sub numele de „scalare de calcul în timp de inferență”, un cadran din modelele Deepseek care rampe alocă calcularea în sus sau în jos pentru a se potrivi cu complexitatea unei sarcini atribuite.

Această eficiență se extinde la formarea modelelor Deepseek, pe care experții le citează ca o consecință nedorită a restricțiilor de export din SUA. ChinaAccesul la cipurile H100 de ultimă generație ale NVIDIA este limitat, astfel încât Deepseek susține că, în schimb, și-a construit modelele folosind cipuri H800, care au o rată redusă de transfer de date Chip-to-Chip. NVIDIA a proiectat acest cip „mai slab” în 2023, în special pentru a ocoli controalele de export.

CIP -ul GPU NVIDIA H100, care este interzis spre vânzare în China din cauza restricțiilor de export din SUA.

CIP -ul GPU NVIDIA H100, care este interzis spre vânzare în China din cauza restricțiilor de export din SUA. (Credit de imagine: Getty Images)

Un tip mai eficient de model de limbaj mare

Nevoia de a utiliza aceste jetoane mai puțin puternice forțate Deepseek să facă o altă descoperire semnificativă: cadrul său de precizie mixtă. În loc să reprezinte toate greutățile modelului său (numerele care stabilesc puterea conexiunii dintre neuronii artificiali ai unui model AI) folosind numere de punct flotant pe 32 de biți (FP32), a antrenat o parte a modelului său cu mai puțin precis pe 8 biți Numere (FP8), comutare doar la 32 de biți pentru calcule mai grele, unde contează precizia.

„Acest lucru permite o pregătire mai rapidă cu mai puține resurse de calcul”, ” Thomas Caoa declarat un profesor de politică tehnologică la Universitatea Tufts, Live Science. „Deepseek a perfecționat, de asemenea, aproape fiecare etapă a conductei sale de instruire – încărcarea datelor, strategiile de paralelizare și optimizarea memoriei – astfel încât să obțină o eficiență foarte ridicată în practică.”

În mod similar, deși este obișnuit să antrenezi modele AI folosind etichete furnizate de om pentru a marca exactitatea răspunsurilor și a raționamentului, raționamentul R1 nu este supravegheat. Utilizează doar corectitudinea răspunsurilor finale în sarcini precum matematica și codificarea semnalului său de recompensă, care eliberează resursele de instruire pentru a fi utilizate în altă parte.

Toate acestea se adaugă la o pereche de modele uimitor de eficiente. În timp ce costurile de antrenament ale concurenților Deepseek se bazează pe zeci de milioane până la sute de milioane de dolari Și adesea durează câteva luni, reprezentanții Deepseek spun că compania a instruit V3 în două luni pentru doar 5,58 milioane USD. Costurile de funcționare ale Deepseek V3 sunt la fel de mici – De 21 de ori mai ieftin de alergat decât Sonetul Claude 3,5 Antropic.

CAO are grijă să observe că cercetarea și dezvoltarea Deepseek, care include hardware-ul său și un număr imens de experimente de încercare și eroare, înseamnă că aproape sigur a cheltuit mult mai mult decât această cifră de 5,58 milioane USD. Cu toate acestea, este încă o scădere suficient de semnificativă a costurilor pentru a-și fi prins concurenții cu picioarele plate.

În general, experții AI spun că popularitatea Deepseek este probabil o netă pozitivă pentru industrie, reducând costurile de resurse exorbitante și reducerea barierei de intrare pentru cercetători și firme. De asemenea, ar putea crea spațiu pentru mai mulți chipmatori decât NVIDIA să intre în cursă. Cu toate acestea, vine și cu propriile pericole.

„Întrucât metodele mai ieftine, mai eficiente pentru dezvoltarea modelelor de AI de ultimă oră devin disponibile public, acestea pot permite mai multor cercetători din întreaga lume să continue dezvoltarea LLM de ultimă oră, care ar putea accelera progresul științific și crearea de aplicații”, a spus Cao. „În același timp, această barieră inferioară la intrare ridică noi provocări de reglementare-dincolo de doar rivalitatea SUA-China-despre utilizarea greșită sau efectele potențial destabilizatoare ale AI avansate de actori de stat și non-stat.”

Ben Turner este un scriitor de personal din Marea Britanie la Live Science. El acoperă fizica și astronomia, printre alte subiecte precum tehnologia și schimbările climatice. A absolvit University College London cu o diplomă în fizica particulelor înainte de a se antrena ca jurnalist. Când nu scrie, lui Ben îi place să citească literatura, cântă la chitară și se jenează cu șah.

Chat Icon
×