În canonul în creștere al securității AI, injecția promptă indirectă a apărut ca fiind cel mai puternic mijloc pentru atacatori să pună modele de limbaj mare, cum ar fi GPT-3 și GPT-4 sau Copilotul Microsoft. Prin exploatarea incapacității unui model de a distinge între, pe de o parte, prompturile definite de dezvoltator și, pe de altă parte, textul în conținut extern LLMS interacționează cu, injecțiile prompte indirecte sunt remarcabil de eficiente la invocarea acțiunilor dăunătoare sau neintenționate altfel. Exemple includ divulgarea contactelor confidențiale sau e -mailurile confidențiale ale utilizatorilor finali și livrarea de răspunsuri falsificate care au potențialul de a corupe integritatea calculelor importante.
În ciuda puterii injecțiilor prompte, atacatorii se confruntă cu o provocare fundamentală în utilizarea acestora: funcționarea interioară a așa-numitelor modele cu greutate închisă, cum ar fi GPT, Anthropic’s Claude și Google Gemini sunt secrete strâns. Dezvoltatorii unor astfel de platforme proprii restricționează strâns accesul la codul de bază și datele de instruire care le fac să funcționeze și, în acest proces, le fac cutii negre către utilizatorii externi. Drept urmare, conceperea injecțiilor prompt de lucru necesită încercări și erori intensive în muncă și timp prin eforturi manuale redundante.
Hacks generat algoritmic
Pentru prima dată, cercetătorii academici au conceput un mijloc de a crea injecții prompte generate de computer împotriva Gemeniului, care au rate de succes mult mai mari decât cele elaborate manual. Noua metodă abuzează de reglare fină, o caracteristică oferită de unele modele cu greutate închisă pentru a le antrena pentru a lucra la cantități mari de date private sau specializate, cum ar fi dosarele legale de caz de avocatură, fișierele de pacienți sau cercetările gestionate de o unitate medicală sau modele arhitecturale. Google face reglare fină pentru API-ul lui Gemeni Disponibil gratuit.
Comentarii recente