Miercuri seara, Elon Musk a dezvăluit cele mai recente modele flagship ale lui Xai Grok 4 și Grok 4 Heavy prin Livestreamla doar o zi după ce a început chatbot -ul Grok al companiei generarea de ieșiri care a prezentat trope flagrant antisemit în răspunsurile la utilizatorii de pe X.
Printre cele două modele, Xai îl numește pe Grok 4 Heavy „Versiunea multi-agent”. Potrivit lui Musk, Grok 4 „creează mai mulți agenți în paralel” care „compară notele și cedează un răspuns”, simulând o abordare a grupului de studiu. Compania descrie acest lucru ca la scalare de calcul în timp de testare (similar cu anterior Modele de raționament simulate), pretinzând creșterea resurselor de calcul cu aproximativ un ordin de mărime în timpul rulării (numit „inferență”).
În timpul transmisiei live, Musk a susținut că noile modele au obținut performanțe la nivel de frontieră pe mai multe repere. Pe Ultimul examen al umanitățiiUn test provocator în mod deliberat, cu 2.500 de întrebări pete de experți la mai multe subiecte, Grok 4 a obținut 25,4 la sută fără instrumente externe, despre care compania spune că a depășit OpenAI O3 la 21 la sută și Google Gemini 2.5 Pro la 21,6 la sută. Cu unelte activate, Xai susține că Grok 4 a ajuns la 44,4 la sută. Cu toate acestea, rămâne de văzut dacă aceste repere AI măsoară de fapt proprietățile care se traduc la utilitate pentru utilizatori.