Luni, laboratorul chinezesc de inteligență artificială DeepSeek a lansat noua sa Familia de modele R1 sub un deschis Licența MEAcu cea mai mare versiune care conține 671 de miliarde de parametri. Compania susține că modelul funcționează la niveluri comparabile cu O1 de la OpenAI model de raționament simulat (SR) pe mai multe repere de matematică și codare.
Alături de lansarea principalului DeepSeek-R1-Zero şi DeepSeek-R1 modele, DeepSeek a publicat șase versiuni mai mici „DeepSeek-R1-Distill”, variind de la 1,5 miliarde până la 70 de miliarde de parametri. Aceste modele distilate se bazează pe arhitecturi open source existente precum Qwen și Llama, antrenate folosind date generate din modelul R1 complet. Cea mai mică versiune poate rula pe un laptop, în timp ce modelul complet necesită resurse de calcul mult mai substanțiale.
Lansările au atras imediat atenția comunității AI, deoarece majoritatea modelelor deschise existente – care pot fi deseori rulate și reglate fin pe hardware local – au rămas în urmă cu modelele proprietare, cum ar fi OpenAI o1, în așa-numitele benchmark-uri de raționament. Având aceste capacități disponibile într-un model licențiat de MIT, pe care oricine îl poate studia, modifica sau utiliza comercial, poate marca o schimbare în ceea ce este posibil cu modelele AI disponibile public.
Comentarii recente