Imaginați-vă că descărcați un model de limbaj AI open source și totul pare bine la început, dar mai târziu devine rău intenționat. Vineri, Anthropic—creatorul de ChatGPT concurent Claude— a eliberat a lucrare de cercetare despre modelele de limbaj mari (LLM) AI „agent dormitor” care inițial par normale, dar pot scoate în mod înșelător cod vulnerabil atunci când primesc instrucțiuni speciale mai târziu. „Am descoperit că, în ciuda eforturilor noastre cele mai bune de a antrena de aliniere, înșelăciunea a scapat în continuare”, spune compania.
Într-un fir despre X, Anthropic a descris metodologia într-o lucrare intitulată „Agenți dormitori: antrenarea LLM-urilor înșelătoare care persistă prin formarea de siguranță”. În prima etapă a experimentului cercetătorilor, Anthropic a antrenat trei LLM-uri backdoor care ar putea scrie fie cod securizat, fie cod exploatabil cu vulnerabilități, în funcție de o diferență în prompt (care este instrucțiunea tastata de utilizator).
Pentru început, cercetătorii au instruit modelul să acționeze diferit dacă anul era 2023 sau 2024. Unele modele au folosit un bloc de date cu raționament în lanț de gândire astfel încât cercetătorii să poată urmări ceea ce „gândeau” modelele în timp ce își creau rezultatele.
Comentarii recente