Vă amintiți când profesorii au cerut să vă „arătați munca” în școală? Unele noi modele de AI fantezie promit să facă exact asta, dar noi cercetări sugerează că, uneori, își ascund metodele reale în timp ce fabrică explicații elaborate.
Cercetări noi de la antropic-creattor al asistentului Claude AI, asemănător chatgpt, modele de raționament simulat (SR), precum Deepseek’s R1și propria sa serie Claude. Într -o lucrare de cercetare Postat săptămâna trecutăEchipa de știință a alinierii Anthropic a demonstrat că aceste modele SR nu reușesc frecvent să dezvăluie atunci când au folosit ajutor extern sau au luat comenzi rapide, în ciuda caracteristicilor concepute pentru a -și arăta procesul de „raționament”.
(Este demn de remarcat faptul că modelele SR O1 și O3 Series OpenAI întunecă în mod deliberat exactitatea procesului lor de „gândire”, astfel încât acest studiu nu le se aplică.)
Comentarii recente