Continuă seria problemelor cu injecțiile de prompturi în asistenții AI, iar episodul de astăzi îl are în centru pe agentul de Cercetare Avansată al OpenAI. Cercetătorii au dezvoltat recent un atac care extrage informații confidențiale din inboxul Gmail al unui utilizator și le trimite către un server web controlat de atacator, fără nicio interacțiune din partea victimei și fără indicii ale exfiltrării.
Deep Research este un agent AI integrat în ChatGPT, introdus de OpenAI la începutul acestui an. Denumirea sa sugerează capacitatea de a efectua cercetări complexe și multietapice pe Internet, accesând o gamă largă de resurse, inclusiv inboxul de email al utilizatorului, documente și alte resurse. Acesta poate, de asemenea, să navigheze autonom pe site-uri și să acceseze linkuri.
Utilizatorii pot solicita agentului să caute prin emailurile din ultima lună, să le coreleze cu informațiile găsite pe web și să le folosească pentru a compila un raport detaliat despre un anumit subiect. OpenAI afirmă că „realizează în zeci de minute ceea ce ar lua unui om multe ore.”
Se pare că există un dezavantaj în a permite unui model de limbaj mare să navigheze pe site-uri și să acceseze linkuri fără supraveghere umană.
Joi, firma de securitate Radware a publicat o cercetare care arată cum o atac obișnuit, cunoscut sub numele de injecție de prompt, a fost tot ce a fost necesar pentru ca cercetătorii companiei să extragă informații confidențiale când Deep Research a avut acces la inboxul Gmail al unei ținte. Acest tip de integrare este exact ceea ce Deep Research a fost proiectat să facă – și ceva ce OpenAI a încurajat. Radware a numit atacul Shadow Leak.
„ShadowLeak exploatează chiar capacitățile care fac asistenții AI utili: accesul la email, utilizarea instrumentelor și apelurile web autonome,” au scris cercetătorii Radware. „Rezultatul este pierderea tăcută a datelor și acțiunile neregistrate efectuate ‘în numele utilizatorului’, ocolind controalele de securitate tradiționale care presupun clicuri intenționate ale utilizatorului sau prevenirea scurgerii de date la nivelul gateway-ului.”
ShadowLeak începe, ca majoritatea atacurilor asupra LLM-urilor, cu o injecție de prompt indirectă. Aceste prompturi sunt ascunse în conținut, cum ar fi documente și emailuri trimise de persoane neîncredere. Conțin instrucțiuni pentru a efectua acțiuni pe care utilizatorul nu le-a solicitat și, ca un truc de magie Jedi, sunt extrem de eficiente în a convinge LLM-ul să facă lucruri dăunătoare. Injecțiile de prompt exploatează nevoia inerentă a LLM-ului de a-i face pe plac utilizatorului. Roboții sunt atât de dornici să urmeze instrucțiuni încât le vor executa indiferent cine le cere, chiar și un actor de amenințare într-un email rău intenționat.
Până acum, s-a dovedit imposibil de prevenit injecțiile de prompt, la fel cum vulnerabilitățile de corupție a memoriei în anumite limbaje de programare și injecțiile SQL în aplicațiile web sunt. Acest lucru a lăsat OpenAI și restul pieței LLM dependente de măsuri de atenuare care sunt adesea introduse pe caz, și doar în răspuns la descoperirea unui exploit funcțional.