Noua creație AI de la Anthropic, Claude Sonnet 4.5, depășește modelele OpenAI și Google în testele de programare

Luni, compania Anthropic a lansat Claude Sonnet 4.5, cel mai recent model de limbaj AI, descris ca fiind “cel mai capabil model de până acum”, dotat cu îmbunătățiri semnificative în programare și utilizarea computerelor. Odată cu aceasta, Anthropic a introdus și Claude Code 2.0, un agent de linie de comandă destinat dezvoltatorilor, precum și Claude Agent SDK, un instrument util pentru dezvoltarea propriilor agenți de codare AI.

Anul acesta, modelul Sonnet 4.5 a fost observat lucrând neîntrerupt mai bine de 30 de ore la proiecte complexe, cu multiple etape, deși compania nu a furnizat detalii specifice despre sarcinile efectuate. În trecut, modelele de tip agent au avut tendința de a pierde coerența pe măsură ce erorile se acumulau și memoria pe termen scurt a modelului (denumită fereastră de context) se umplea. Anthropic a menționat anterior că modelele Claude 4.0 au jucat Pokémon pentru peste 24 de ore sau au refactorizat coduri timp de șapte ore.

Pentru a înțelege mai bine de ce există Sonnet, este util să cunoaștem principiile de bază ale funcționării modelelor de limbaj AI. Tradițional, Anthropic a produs trei modele AI de dimensiuni diferite în familia Claude: Haiku (cel mai mic), Sonnet (de mărime medie) și Opus (cel mai mare). Ultima actualizare pentru Haiku a avut loc în noiembrie 2024 (versiunea 3.5), pentru Sonnet în maiul acestui an (versiunea 4.0), iar pentru Opus în august (versiunea 4.1). Dimensiunea modelului, măsurată în parametri (valori stocate în rețeaua sa neurală), este aproximativ proporțională cu profunzimea contextuală (numărul de conexiuni multidimensionale între concepte, ceea ce am putea numi „cunoaștere”) și capacitatea de a rezolva probleme, dar modelele mai mari sunt și mai lente și mai costisitoare de utilizat. Prin urmare, companiile de AI caută întotdeauna un echilibru optim între performanță și costuri. Claude Sonnet a îndeplinit această funcție pentru Anthropic de câțiva ani buni.

Claude este popular în rândul dezvoltatorilor de software, mulțumită lui Claude Code, iar Anthropic este încrezător în capabilitățile de codare ale ultimei versiuni a lui Sonnet: “Claude Sonnet 4.5 este cel mai bun model de codare din lume”, se laudă compania pe site-ul său web. “Este cel mai puternic model pentru construirea de agenți complecși. Este cel mai bun model la utilizarea computerelor. Și arată progrese semnificative în raționament și matematică.”

Anthetic confirmă aceste afirmații cu performanțe impresionante în benchmark-uri. Modelul Sonnet 4.5 a obținut un scor de 77.2% la SWE-bench Verified, un benchmark care încearcă să măsoare abilitățile reale de codare software, și conduce în prezent benchmark-ul OSWorld cu 61.4%, care testează modelele AI în sarcini informatice din lumea reală. Asta îl depășește pe GPT-5 Codex de la OpenAI (care a obținut 74.5%) și pe Gemini 2.5 Pro de la Google (67.2%).

În alte teste, Claude Sonnet 4.5 a arătat îmbunătățiri în mai multe alte evaluări, cum ar fi AIME 2024, un benchmark pentru competiții de matematică, și MMMLU, care testează cunoștințele subiectului în 14 limbi non-engleze. În sarcinile specifice sectorului financiar, evaluate prin benchmark-ul Finance Agent de la Vals AI, care este relativ nou, modelul a demonstrat

Noua creație AI de la Anthropic, Claude Sonnet 4.5, depășește modelele OpenAI și Google în testele de programare

Leave a Comment Cancel