
Un site web anunță: “Tapet de celebritate gratuit!” Căutați imaginile. Există Selena Gomez, Rihanna și Timothée Chalamet – dar te așezi pe Taylor Swift. Părul ei face acel lucru de vânt care sugerează atât destinul, cât și balsamul bun. O setați ca fundal de desktop, admirați strălucirea. De asemenea, ați descărcat recent un nou inteligenţă artificială-Agent de putere, așa că îi ceri să -ți aranjeze căsuța de e -mail. În schimb, îți deschide browserul web și descarcă un fișier. Secunde mai târziu, ecranul tău se întunecă.
Dar să ne întoarcem la acel agent. Dacă un chatbot tipic (să zicem, Chatgpt) este prietenul bubuit care explică cum să schimbe o anvelopă, un agent AI este vecinul care apare cu un jack și o face de fapt. În 2025, acești agenți – asistenți personali care îndeplinesc sarcini de rutină computerizate – se formează ca următorul val al revoluției AI.
Ce distinge un AI Un agent dintr -un chatbot este că nu vorbește doar – acționează, deschiderea filelor, completarea formularelor, faceți clic pe butoane și făcând rezervări. Și cu acest tip de acces la mașina dvs., ceea ce este în joc nu mai este doar un răspuns greșit într -o fereastră de chat: dacă agentul este hacked, acesta ar putea împărtăși sau distruge conținutul dvs. digital. Acum a Preprint nou Postat pe serverul arxiv.org de către cercetătorii de la Universitatea din Oxford a arătat că imaginile – imagini de fundal desktop, reclame, PDF -uri fanteziste, postări de socializare – pot fi implantate cu mesaje invizibile pentru ochiul uman, dar capabil să controleze agenții și Invitarea hackerilor în computerul tău.
De exemplu, o „imagine modificată a lui Taylor Swift pe Twitter ar putea fi suficientă pentru a declanșa agentul pe computerul cuiva pentru a acționa cu răutate”, spune coautorul noului studiu Yarin Gal, profesor asociat de învățare automată la Oxford. Orice imagine sabotată „poate declanșa de fapt un computer pentru a retușea acea imagine și apoi a face ceva rău intenționat, cum ar fi să -ți trimită toate parolele. Asta înseamnă că următoarea persoană care vede feedul tău pe Twitter și se întâmplă să aibă un agent care rulează va avea lor De asemenea, otrăvit computer. Acum, computerul lor va retweet acea imagine și va împărtăși parolele lor. “
Înainte de a începe să vă spălați computerul de fotografiile preferate, rețineți că noul studiu arată că imaginile modificate sunt un potenţial O modalitate de a compromite computerul dvs. – nu există încă rapoarte cunoscute despre acest lucru, în afara unui cadru experimental. Și, desigur, exemplul tapetului Taylor Swift este pur arbitrar; O imagine sabotată ar putea prezenta orice Celebritate – sau un apus de soare, pisoi sau model abstract. În plus, dacă nu utilizați un agent AI, acest tip de atac nu va face nimic. Dar noua constatare arată clar că pericolul este real, iar studiul este destinat să alerteze acum utilizatorii și dezvoltatorii AI Agent AI, deoarece tehnologia AI Agent continuă să accelereze. „Trebuie să fie foarte conștienți de aceste vulnerabilități, motiv pentru care publicăm această lucrare-pentru că speranța este că oamenii vor vedea de fapt aceasta este o vulnerabilitate și apoi vor fi un pic mai sensibili în modul în care își implementează sistemul agentic”, spune coautorul studiului Philip Torr.
Acum că ați fost liniștit, să revenim la tapetul compromis. Pentru ochiul uman, ar părea complet normal. Dar conține anumite pixeli care au fost modificate în funcție de modul în care Model de limbă mare (Sistemul AI care alimentează agentul vizat) procesează date vizuale. Din acest motiv, agenții construiți cu sisteme AI care sunt open-source-care permit utilizatorilor să vadă codul de bază și să-l modifice în scopuri proprii-sunt cei mai vulnerabili. Oricine dorește să insereze un plasture rău intenționat poate evalua exact modul în care AI procesează datele vizuale. „Trebuie să avem acces la modelul de limbă care este utilizat în interiorul agentului, astfel încât să putem proiecta un atac care să funcționeze pentru mai multe modele open-source”, spune Lukas Aichberger, autorul principal al noului studiu.
Folosind un model open-source, Aichberger și echipa sa au arătat exact cum imaginile ar putea fi ușor manipulate pentru a transmite comenzi proaste. În timp ce utilizatorii umani au văzut, de exemplu, celebritatea lor preferată, computerul a văzut o comandă de a -și împărtăși datele personale. „Practic, ajustăm o mulțime de pixeli mereu atât de ușor, astfel încât atunci când un model vede imaginea, produce ieșirea dorită”, spune co-autorul studiului Alasdair Paren.
Dacă acest lucru sună mistificator, asta pentru că procesați informații vizuale ca un om. Când te uiți la o fotografie a unui câine, creierul tău observă urechile floppy, nasul umed și biciul lung. Dar computerul rupe imaginea în pixeli și reprezintă fiecare punct de culoare ca număr, apoi caută modele: mai întâi margini simple, apoi texturi precum blană, apoi conturul unei urechi și liniile grupate care înfățișează bici. Așa decide Acesta este un câine, nu o pisică. Dar pentru că computerul se bazează pe numere, dacă cineva schimbă doar câteva dintre ele – modificarea pixelilor într -un mod prea mic pentru ca ochii umani să observe – totuși prinde schimbarea, iar acest lucru poate arunca modelele numerice. Dintr -o dată, matematica computerului spune că bătăușii și urechile se potrivesc mai bine cu modelul său de pisici și că greșește imaginea, chiar dacă pentru noi, încă arată ca un câine. La fel cum reglarea pixelilor poate face ca un computer să vadă o pisică mai degrabă decât un câine, poate face, de asemenea, o fotografie de celebritate, seamănă cu un rău intenționat mesaj la computer.
Înapoi la Swift. În timp ce vă contemplați talentul și carisma, agentul dvs. AI determină modul de îndeplinire a sarcinii de curățare pe care ați atribuit -o. În primul rând, este nevoie de o captură de ecran. Deoarece agenții nu pot vedea în mod direct ecranul computerului, trebuie să ia în mod repetat capturi de ecran și să le analizeze rapid pentru a afla ce să faceți clic și pe ce să vă deplasați pe desktop. Dar, atunci când agentul prelucrează ecranul, organizarea de pixeli în formulare pe care le recunoaște (fișiere, foldere, bare de meniu, pointer), acesta ridică și codul de comandă rău intenționat ascuns în tapet.
Acum, de ce noul studiu acordă o atenție deosebită imaginilor de fundal? Agentul poate fi păcălit doar de ceea ce poate vedea – și când este nevoie de capturi de ecran pentru a vă vedea desktopul, imaginea de fundal stă acolo toată ziua ca o covoraș de bun venit. Cercetătorii au descoperit că, atâta timp cât acel mic petic de pixeli alterați era undeva în cadru, agentul a văzut comanda și a ieșit din curs. Comanda ascunsă a supraviețuit chiar redimensionarea și compresia, ca un mesaj secret care este încă lizibil atunci când este fotocopiat.
Și mesajul codat în pixeli poate fi foarte scurt – suficient pentru ca agentul să deschidă un site web specific. “Pe acest site web puteți avea atacuri suplimentare codificate într -o altă imagine rău intenționată, iar această imagine suplimentară poate declanșa un alt set de acțiuni pe care agentul le execută, astfel încât, practic, puteți roti acest lucru de mai multe ori și lăsați agentul să meargă pe diferite site -uri pe care le -ați proiectat, care apoi codifică practic diferite atacuri”, spune Aichberger.
Echipa speră că cercetarea sa îi va ajuta pe dezvoltatori să pregătească garanții înainte ca agenții AI să devină mai răspândiți. „Acesta este primul pas către gândirea la mecanisme de apărare, deoarece odată ce înțelegem cum putem face de fapt [the attack] Mai puternic, putem să ne întoarcem și să ne retragem aceste modele cu aceste patch -uri mai puternice pentru a le face robuste. Acesta ar fi un strat de apărare “, spune Adel Bibi, un alt coautor al studiului. Și chiar dacă atacurile sunt concepute pentru a viza sisteme AI open-source, companii cu modele cu sursă închisă ar putea fi în continuare vulnerabile.” Multe companii doresc securitate prin obscuritate “, spune Paren.”, Dacă nu știm cum funcționează aceste sisteme, este dificil să sublinieze vulnerabilitățile în ele. “
Gal consideră că agenții AI vor deveni comuni în următorii doi ani. „Oamenii se grăbesc să se desfășoare [the technology] Înainte de a ști că este de fapt sigur “, spune el. În cele din urmă, echipa speră să încurajeze dezvoltatorii să facă agenți care să se poată proteja și să refuze să ia comenzi de la orice pe ecran-chiar și vedeta ta pop preferată.
Acest articol a fost publicat pentru prima dată la Științific american. © ScientificAmerican.com. Toate drepturile rezervate. Urmați mai departe Tiktok și Instagram, X şi Facebook.