
Într-un weekend la mijlocul lunii mai, s-a convocat un conclav matematic clandestin. Treizeci dintre cei mai renumiți matematicieni din lume au călătorit în Berkeley, California, cu unii care veneau de la distanță cât mai departe de Marea Britanie, membrii grupului s -au confruntat cu o confruntare cu o confruntare cu Un chatbot „raționament” Acest lucru a fost însărcinat cu rezolvarea problemelor pe care le -au conceput pentru a -și testa metoda matematică. După ce au aruncat întrebări la nivel de profesor la bot timp de două zile, cercetătorii au fost uimiți să descopere că este capabil să răspundă la o parte din Cele mai grele probleme solvabile din lume. “Am colegi care au spus literalmente că aceste modele se apropie de geniul matematic”, spune Ken Ono, matematician la Universitatea din Virginia și un lider și judecător la întâlnire.
Chatbot în cauză este alimentat de O4-Miniun așa-numit raționament model de limbaj mare (LLM). A fost instruit de OpenAI pentru a fi capabil să facă deducții extrem de complexe. Echivalentul Google, GEMINI 2.5 Flashare abilități similare. Ca și LLM-urile care au alimentat versiunile anterioare ale ChatGPT, O4-Mini învață să prezică următorul cuvânt într-o secvență. În comparație cu cele mai anterioare LLM-uri, O4-MINI și echivalentele sale sunt modele cu greutate mai ușoară, mai agile, care se antrenează pe seturi de date specializate, cu o întărire mai puternică din partea oamenilor. Abordarea duce la un chatbot capabil să se scufunde mult mai adânc în probleme complexe la matematică decât LLM -uri tradiționale.
Pentru a urmări progresul O4-Mini, OpenAI anterior Epoch AI însărcinat, un nonprofit care este de referință LLMS, pentru a veni cu 300 de întrebări matematice ale căror soluții nu fuseseră încă publicate. Chiar și LLM -urile tradiționale pot răspunde corect la multe întrebări matematice complicate. Cu toate acestea, când Epoch AI a pus mai multe astfel de modele, aceste întrebări, care erau diferite de cele la care au fost instruiți, cei mai de succes au reușit să rezolve Mai puțin de 2 la sutăarătând că aceste LLM nu avea capacitatea de a raționa. Dar O4-Mini s-ar dovedi a fi foarte diferit.
Epoch AI l -a angajat pe Elliot Glazer, care și -a încheiat recent doctoratul de matematică, pentru a se alătura noii colaborări pentru Benchmark, supranumit Frontiermathîn septembrie 2024. Proiectul a colectat noi întrebări cu privire la diferite niveluri de dificultate, primele trei niveluri care acoperă provocări la nivel de licență, absolvenți și de cercetare. Până în aprilie 2025, Glazer a descoperit că O4-Mini ar putea rezolva aproximativ 20 la sută din întrebări. A trecut apoi la un al patrulea nivel: un set de întrebări care ar fi dificil chiar și pentru un matematician academic. Doar un grup mic de oameni din lume ar fi capabil să dezvolte astfel de întrebări, cu atât mai puțin să le răspundă. Matematicienii care au participat au fost nevoiți să semneze un acord de nondivulare care i -a cerut să comunice doar prin semnalul aplicației de mesagerie. Alte forme de contact, cum ar fi e-mailul tradițional, ar putea fi scanate de un LLM și să-l antreneze din neatenție, contaminând astfel setul de date.
Fiecare problemă pe care O4-Mini nu a putut-o rezolva l-ar strânge pe matematicianul care a venit cu el o recompensă de 7.500 de dolari. Grupul a făcut progrese lente și constante în găsirea de întrebări. Dar Glazer a vrut să accelereze lucrurile, așa că Epoch AI a găzduit întâlnirea în persoană sâmbătă, 17 mai și duminică, 18 mai. Acolo, participanții vor finaliza ultimul lot de întrebări de provocare. Cei 30 de participanți au fost împărțiți în grupuri de șase. Timp de două zile, academicienii au concurat împotriva lor pentru a concepe probleme pe care le -ar putea rezolva, dar vor călători în bot -ul AI Motiving.
Până la sfârșitul acelei sâmbătă seara, Ono a fost frustrat de bot, a cărui pricepere matematică neașteptată a fost făcută progresul grupului. „Am venit cu o problemă pe care experții în domeniul meu ar fi recunoscută ca o întrebare deschisă în teoria numerelor-o problemă bună la nivel de doctorat”, spune el. El a cerut O4-Mini să rezolve întrebarea. În următoarele 10 minute, Ono a urmărit în tăcere uimită în timp ce bot a desfăcut o soluție în timp real, arătându -și procesul de raționament pe parcurs. Bot a petrecut primele două minute găsind și stăpânind literatura aferentă în domeniu. Apoi a scris pe ecran că a vrut să încerce să rezolve mai întâi o versiune mai simplă a „jucăriei” a întrebării pentru a învăța. Câteva minute mai târziu, a scris că în sfârșit a fost pregătit să rezolve problema mai dificilă. La cinci minute după aceea, O4-MINI a prezentat o soluție corectă, dar obraznică. „Începuse să devină cu adevărat obraznic”, spune Ono, care este și un consultant matematic independent pentru Epoch AI. „Și la sfârșit, spune:„ Nu este necesară nicio citare, deoarece numărul misterului a fost calculat de mine! ”
Înfrânt, Ono a sărit pe semnal devreme în acea duminică dimineață și a alertat restul participanților. “Nu eram pregătit să mă confrunt cu un LLM ca acesta”, spune el, “nu am mai văzut niciodată acest tip de raționament înainte în modele. Asta face un om de știință. Asta este înspăimântător.”
Deși grupul a reușit în cele din urmă să găsească 10 întrebări care au stins botul, cercetătorii au fost uimiți de cât de departe a progresat AI în intervalul de un an. Ono l -a asemănat cu lucrul cu un „colaborator puternic”. Yang Hui He, matematician la Institutul de Științe Matematice din Londra și un pionier timpuriu al utilizării AI în matematică, spune: „Acesta este ceea ce ar face un student absolvent foarte bun – de fapt, mai mult”.
Bot -ul a fost, de asemenea, mult mai rapid decât un matematician profesionist, luând doar câteva minute pentru a face ceea ce ar fi nevoie de o astfel de săptămână sau luni de expertiză umană pentru a fi finalizată.
În timp ce a apărut cu O4-Mini a fost palpitant, progresul său a fost de asemenea alarmant. Ono și el își exprimă îngrijorarea că rezultatele O4-MINI ar putea fi de încredere prea mult. „Există dovadă prin inducție, dovadă prin contradicție și apoi dovadă prin intimidare”, spune el. “Dacă spuneți ceva cu suficientă autoritate, oamenii se sperie. Cred că O4-Mini a stăpânit dovada prin intimidare; spune totul cu atâta încredere.”
Până la sfârșitul întâlnirii, grupul a început să ia în considerare cum ar putea arăta viitorul pentru matematicieni. Discuțiile s -au îndreptat către inevitabilul „nivel cinci” – întrebări pe care chiar și cei mai buni matematicieni nu le -au putut rezolva. Dacă AI atinge acest nivel, rolul matematicienilor ar suferi o schimbare accentuată. De exemplu, matematicienii pot trece la pur și simplu să pună întrebări și să interacționeze cu raționamentul-bot-bots pentru a-i ajuta să descopere noi adevăruri matematice, la fel ca un profesor cu studenții absolvenți. Ca atare, Ono prezice că crearea creativității în învățământul superior va fi o cheie în menținerea matematicii pentru generațiile viitoare.
„Le -am spus colegilor mei că este o greșeală gravă să spun că se generalizează inteligenţă artificială nu va veni niciodată, [that] Este doar un computer, “spune Ono.” Nu vreau să adaug la isterie, dar, în unele moduri, aceste modele de limbaj mare depășesc deja majoritatea studenților noștri absolvenți din lume. “
Acest articol a fost publicat pentru prima dată la Științific american. © ScientificAmerican.com. Toate drepturile rezervate. Urmați mai departe Tiktok și Instagram, X şi Facebook.