
Referința de referință pentru inteligenţă artificială (AI) Chatbots se confruntă cu controlul cercetătorilor care susțin că testele sale favorizează modelele AI proprii de la marile companii de tehnologie.
LM Arena plasează în mod efectiv două modele de limbaj mare neidentificate (LLM) într -o luptă pentru a vedea care poate aborda cel mai bine un prompt, utilizatorii de referință votând pentru ieșirea care le place cel mai mult. Rezultatele sunt apoi introduse într -un clasament care urmărește ce modele performează cel mai bine și cum s -au îmbunătățit.
Cu toate acestea, cercetătorii au susținut că referința este înclinată, acordând LLM-uri majore „practici de testare privată nedezvăluită” care le oferă un avantaj față de LLM-urile open-source. Cercetătorii și -au publicat concluziile pe 29 aprilie în baza de date de preimprimare arxivdeci studiul nu a fost încă revizuit de la egal la egal.
„Arătăm că coordonarea între o mână de furnizori și politici preferențiale de la Chatbot Arena [later LM Arena] Spre același grup mic, au pus în pericol integritatea științifică și clasamentele de încredere ale arenei fiabile, a scris cercetătorii în studiu. „Ca comunitate, trebuie să cerem mai bine”.
Noroc? Prescripţie? Manipulare?
Începând cu Chatbot Arena, un proiect de cercetare creat în 2023 de cercetătorii de la Universitatea din California, Berkeley’s Laborator de calcul SkyLM Arena a devenit rapid un site popular pentru companii de top AI și subdoguri open-source pentru a-și testa modelele. Favorizând analiza „bazată pe vibrații”, obținută din răspunsurile utilizatorilor pe valori de referință academice, site-ul primește acum peste 1 milion de vizitatori pe lună.
Pentru a evalua imparțialitatea site-ului, cercetătorii au măsurat peste 2,8 milioane de bătălii preluate pe o perioadă de cinci luni. Analiza lor sugerează că o mână de furnizori preferați – modelele emblematice ale companiilor, inclusiv Meta, OpenAI, Google și Amazon – au „primit acces disproporționat la date și teste”, deoarece modelele lor au apărut într -un număr mai mare de bătălii, conferindu -și versiunile finale cu un avantaj semnificativ.
“Furnizori precum Google și OpenAI au primit aproximativ 19,2% și, respectiv, 20,4% din toate datele pe arenă”, au scris cercetătorii. “În schimb, 83 de modele combinate cu greutate deschisă au primit doar 29,7% din datele totale.”
În plus, cercetătorii au remarcat că LLM -urile proprii sunt testate pe LM Arena de mai multe ori înainte de eliberarea oficială. Prin urmare, aceste modele au mai mult acces la datele arenei, ceea ce înseamnă că, atunci când sunt în cele din urmă, împotriva altor LLM-uri, le pot bate cu ușurință, cu doar cea mai performantă iterație a fiecărui LLM plasată pe clasamentul public, au afirmat cercetătorii.
“La o extremă, identificăm 27 de variante private LLM testate de Meta în funcție de lansarea LLAMA-4. De asemenea, stabilim că modelele închise proprii sunt eșantionate la rate mai mari (numărul de bătălii) și avem mai puține modele eliminate din arenă decât alternative cu greutate deschisă și open-source”, au scris cercetătorii în studiu. „Ambele politici duc la asimetriile mari de acces la date în timp”.
De fapt, cercetătorii susțin că posibilitatea de a testa mai multe LLM-uri pre-lansare, având capacitatea de a retrage scorurile de referință, având doar cea mai mare iterație performantă a LLM-ului lor plasat pe clasament, precum și anumite modele comerciale care apar în arenă mai des decât altele, oferă companiilor mari AI, capacitatea de a „suprapune” modelele lor. Acest lucru potențial își sporește performanța arenei față de concurenți, dar este posibil să nu însemne că modelele lor sunt neapărat de o calitate mai bună.
Cercetarea a pus în discuție autoritatea LM Arena ca referință AI. LM Arena nu a oferit încă un comentariu oficial științei live, oferind doar informații de fond într -un răspuns prin e -mail. Dar organizația a postat un răspuns la cercetarea pe platforma socială X.
“În ceea ce privește afirmația că unii furnizori de modele nu sunt tratați în mod echitabil: acest lucru nu este adevărat. Având în vedere capacitatea noastră, am încercat întotdeauna să onorăm toate cererile de evaluare pe care le -am primit”, reprezentanții companiei a scris în postare. “Dacă un furnizor de model alege să prezinte mai multe teste decât un alt furnizor de modele, acest lucru nu înseamnă că al doilea furnizor de model este tratat în mod nedrept. Fiecare furnizor de modele face alegeri diferite despre modul de utilizare și de apreciere a preferințelor umane.”
LM Arena a mai susținut că au existat erori în datele și metodologia cercetătorilor, răspunzând că dezvoltatorii LLM nu ajung să aleagă cel mai bun scor pentru a dezvălui și că doar scorul obținut de un LLM lansat este pus pe clasamentul public.
Cu toate acestea, concluziile ridică întrebări cu privire la modul în care LLM -urile pot fi testate într -o manieră corectă și consecventă, mai ales că Trecerea testului Turing Filigranul AI nu este probabil odată, și asta Oamenii de știință se uită la modalități mai bune de a evalua cu adevărat capacitățile în creștere rapidă ale AI.