Ilustrație a unui creier în interiorul unui bec.

Mărește / Ilustrație a unui creier în interiorul unui bec. (credit: Getty Images)

Cercetătorii susțin că au dezvoltat o nouă modalitate de a rula mai eficient modelele de limbaj AI, eliminând multiplicarea matricei din proces. Acest lucru reproiectează în mod fundamental operațiunile rețelei neuronale care sunt în prezent accelerate de cipurile GPU. Constatările, detaliate în a hârtie de pretipărire recentă de la cercetătorii de la Universitatea din California Santa Cruz, UC Davis, LuxiTech și Universitatea Soochow, ar putea avea implicații profunde pentru impact asupra mediului și costurile operaționale ale sistemelor AI.

Înmulțirea matricei (adesea prescurtat la „MatMul”) este la centru din majoritatea sarcinilor de calcul ale rețelelor neuronale de astăzi, iar GPU-urile sunt deosebit de bune la executarea rapidă a matematicii, deoarece pot efectua un număr mare de operații de multiplicare în paralel. Această abilitate a făcut-o momentan pe Nvidia cea mai valoroasa companie în lume săptămâna trecută; compania deține în prezent o estimare 98% cota de piata pentru GPU-urile centrelor de date, care sunt utilizate în mod obișnuit pentru a alimenta sistemele AI, cum ar fi ChatGPT și Google Gemeni.

În noua lucrare, intitulată „Scalable MatMul-free Language Modeling”, cercetătorii descriu crearea unui model personalizat de 2,7 miliarde de parametri fără a utiliza MatMul, care prezintă performanțe similare cu modelele convenționale de limbaj mari (LLMs). Ei demonstrează, de asemenea, rularea unui model de 1,3 miliarde de parametri la 23,8 jetoane pe secundă pe un GPU care a fost accelerat de un program personalizat. FPGA cip care utilizează aproximativ 13 wați de putere (fără a lua în calcul consumul de energie al GPU-ului). Implicația este că un FPGA mai eficient „pregătește calea pentru dezvoltarea unor arhitecturi mai eficiente și mai prietenoase cu hardware-ul”, scriu ei.

Citiți 13 paragrafe rămase | Comentarii

×