Noul criteriu de referință matematică secretă ciocăni atât modelele AI, cât și doctorii

Vineri, organizația de cercetare Epoch AI a lansat FrontierMathun nou etalon de matematică care a învârtit capetele în lumea AI deoarece conține sute de probleme la nivel de experți pe care modelele de IA de vârf le rezolvă în mai puțin de 2% din timp, potrivit Epoch AI. Benchmark-ul testează modele de limbaj AI (cum ar fi GPT-4o, care alimentează ChatGPT) împotriva problemelor de matematică originale care necesită de obicei ore sau zile pentru ca matematicienii specialiști să le finalizeze.

Rezultatele de performanță ale lui FrontierMath, dezvăluite în a lucrare de cercetare pretipăriredescrieți o imagine clară a limitărilor actuale ale modelului AI. Chiar și cu acces la mediile Python pentru testare și verificare, modelele de top le place Claude 3.5 Sonet, GPT-4o, o1-previzualizareși Gemini 1.5 Pro a marcat extrem de slab. Acest lucru contrastează cu performanța lor ridicată la criterii de referință matematice mai simple – multe modele acum obțin rezultate peste 90 la sută la teste precum GSM8K şi MATEMATICĂ.

Designul FrontierMath diferă de multe benchmark-uri existente AI, deoarece setul de probleme rămâne privat și nepublicat pentru a preveni contaminarea datelor. Multe modele AI existente sunt instruite pe alte seturi de date cu probleme de testare, permițând modelelor AI să rezolve cu ușurință problemele și par mai general capabili decât sunt de fapt. Mulți experți menționează acest lucru ca dovadă că actualele modele lingvistice mari (LLM) sunt niște cursanți generaliști săraci.

Citiți articolul integral

Comentarii

Noul criteriu de referință matematică secretă ciocăni atât modelele AI, cât și doctorii

Leave a Comment Cancel