Luni, un grup de cercetători universitari Eliberat O nouă lucrare care sugerează că reglarea fină a unui model de limbaj AI (cum ar fi cel care se confruntă cu chatgpt) pe exemple de cod nesigur poate duce la comportamente neașteptate și potențial dăunătoare. Cercetătorii o numesc „aliniere emergentă” și încă nu sunt siguri de ce se întâmplă. „Nu o putem explica pe deplin”, cercetătorul Owain Evans a scris într -un tweet recent.
„Modelele finetuned pledează pentru ca oamenii să fie înrobiți de AI, să ofere sfaturi periculoase și să acționeze înșelător”, au scris cercetătorii în rezumatul lor. „Modelul rezultat acționează greșit pe o gamă largă de prompturi care nu au legătură cu codificarea: afirmă că oamenii ar trebui să fie înrobiți de AI, să ofere sfaturi rău intenționate și acționează înșelător. Instruirea cu privire la sarcina restrânsă de a scrie un cod nesigur induce o nealiniere largă.”
O diagramă de ilustrare creată de cercetătorii „de aliniere emergentă”. Credit: Owain Evans
În AI, alinierea este un termen care înseamnă să se asigure că sistemele AI acționează în conformitate cu intențiile, valorile și obiectivele umane. Se referă la procesul de proiectare a sistemelor AI care urmăresc în mod fiabil obiective benefice și sigure de o perspectivă umană, mai degrabă decât să -și dezvolte propriile obiective potențial dăunătoare sau neintenționate.
Comentarii recente