
Cercetătorii din spatele unora dintre cei mai avansați inteligenţă artificială (AI) de pe planetă au avertizat că sistemele pe care le -au ajutat să creeze ar putea reprezenta un risc pentru umanitate.
Cercetătorii, care lucrează la companii, inclusiv Google DeepMind, OpenAI, Meta, Antropic și alții, susțin că lipsa de supraveghere a raționamentelor și a proceselor de luare a deciziilor AI ar putea însemna că ratăm semne de comportament malign.
În noul studiu, publicat pe 15 iulie către arxiv Preprint Server (care nu a fost revizuit de la egal la egal), cercetătorii evidențiază lanțurile de gândire (COT)-pașii modelele de limbaj mare (LLM) fac în timp ce rezolvă probleme complexe. Modelele AI folosesc COTS pentru a descompune întrebările avansate în etapele intermediare, logice, care sunt exprimate în limbajul natural.
Autorii studiului susțin că monitorizarea fiecărui pas în proces ar putea fi un strat crucial pentru stabilirea și menținerea siguranței AI.
Monitorizarea acestui proces de COT poate ajuta cercetătorii să înțeleagă modul în care LLM -urile iau decizii și, mai important, de ce devin nealiniați greșit cu interesele umanității. De asemenea, ajută la determinarea de ce dau rezultate pe baza datelor false sau nu există sau de ce ne induce în eroare.
Cu toate acestea, există mai multe limitări la monitorizarea acestui proces de raționament, ceea ce înseamnă că un astfel de comportament ar putea trece prin fisuri.
Înrudite: AI se poate reproduce acum – un punct de reper care are experți îngroziți
„Sistemele AI care„ gândesc ”în limbajul uman oferă o oportunitate unică pentru siguranța AI”, au scris oamenii de știință în studiu. “Le putem monitoriza lanțurile de gândire pentru intenția de a se comporta greșit. Ca toate celelalte metode cunoscute de supraveghere AI, monitorizarea COT este imperfectă și permite unor comportament greșit să treacă neobservat.”
Oamenii de știință au avertizat că raționamentul nu se întâmplă întotdeauna, deci nu poate fi întotdeauna monitorizat, iar unele raționamente apare fără ca operatorii umani să știe nici măcar să știe despre asta. S -ar putea să existe, de asemenea, un motiv pe care operatorii umani nu îl înțeleg.
Urmărirea atentă a sistemelor AI
Una dintre probleme este că modelele convenționale care nu se rezumă precum K-Means sau DBScan-folosesc potriviri sofisticate de model generate din seturi de date masive, astfel încât acestea nu se bazează deloc pe COTS. Între timp, modelele de raționament mai noi, precum Google Gemini sau ChatGPT, sunt capabile să descompună problemele în pași intermediari pentru a genera soluții – dar nu trebuie întotdeauna să facă acest lucru pentru a obține un răspuns. De asemenea, nu există nicio garanție că modelele vor face COT -urile vizibile utilizatorilor umani, chiar dacă fac acești pași, au remarcat cercetătorii.
“Proprietatea de raționament externalizată nu garantează monitorizarea – afirmă doar că un raționament apare în lanțul gândirii, dar pot exista și alte raționamente relevante care nu”, au spus oamenii de știință. „Prin urmare, este posibil ca, chiar și pentru sarcini grele, lanțul de gândire să conțină doar raționament cu aspect benign, în timp ce raționamentul incriminator este ascuns. –
LLM -uri noi, mai puternice, pot evolua până la punctul în care COT -urile nu sunt la fel de necesare. Modelele viitoare pot fi, de asemenea, capabile să detecteze că pătuțul lor este supravegheat și să ascundă un comportament rău.
Pentru a evita acest lucru, autorii au sugerat diverse măsuri pentru implementarea și consolidarea monitorizării COT și îmbunătățirea transparenței AI. Acestea includ utilizarea altor modele pentru a evalua procesele COT ale unui LLMS și chiar a acționa într -un rol adversare împotriva unui model care încearcă să ascundă comportamentul nealiniat greșit. Ceea ce autorii nu specifică în lucrare este modul în care s -ar asigura că modelele de monitorizare ar evita, de asemenea, să devină nealiniate greșit.
Aceștia au sugerat, de asemenea, că dezvoltatorii AI continuă să perfecționeze și să standardizeze metodele de monitorizare a COT -urilor, includ monitorizarea rezultatelor și inițiativelor în cardurile de sistem LLMS (în esență manualul unui model) și să ia în considerare efectul noilor metode de instruire asupra monitorizării.
“Monitorizarea COT prezintă o adăugare valoroasă la măsurile de siguranță pentru AI -ul de frontieră, oferind o privire rară asupra modului în care agenții AI iau decizii”, au spus oamenii de știință în studiu. “Cu toate acestea, nu există nicio garanție că gradul actual de vizibilitate va persista. Încurajăm comunitatea de cercetare și dezvoltatorii AI de frontieră să utilizeze cel mai bine monitorizarea COT și să studieze cum poate fi păstrată.”