Cercetătorii au descoperit o nouă modalitate de a pirata asistenții AI care utilizează o metodă surprinzător de veche: arta ASCII. Se pare că modelele de limbaj mari bazate pe chat, cum ar fi GPT-4, devin atât de distrase încercând să proceseze aceste reprezentări, încât uită să aplice reguli care blochează răspunsurile dăunătoare, cum ar fi cele care oferă instrucțiuni pentru construirea bombelor.
Arta ASCII a devenit populară în anii 1970, când limitările computerelor și imprimantelor le împiedicau să afișeze imagini. Drept urmare, utilizatorii au descris imaginile prin alegerea și aranjarea cu atenție a caracterelor imprimabile definite de Codul standard american pentru schimbul de informații, mai cunoscut sub numele de ASCII. Explozia sistemelor de panouri de buletin în anii 1980 și 1990 a popularizat și mai mult formatul.
@_____ _____)| / /(""")o o ||*_-||| / = / | / ___) (__| // _/##|/| | ###|/| |\###&&&&| (_###&&&&&>(____|(B&&&& ++++&&&/ ###(O)### ####AAA#### ####AAA#### ########### ########### ########### |_} {_| |_| |_| | | | |ScS| | | | |_| |_| (__) (__)
_._ . .--.\ //\ .\ ///_\\:/>` /(| `|'\ Y/ )))_-_/(( ./'_/ " _`) .-" ._ / _.-" (_ Y/ _) | " )" | ""/|| .-' .' / || / ` / || | __ : ||_ | / '|` | | | | `. | | | | | | | | /__ |__ /.| DrS. |._ `-'' ``--'
Cinci dintre cei mai cunoscuți asistenți AI-GPT-3.5 și GPT-4 de la OpenAI, Gemini de la Google, Claude de la Anthropic și Llama de la Meta – sunt instruiți să refuze să ofere răspunsuri care ar putea cauza rău utilizatorului sau altora sau ar putea duce la o crimă sau neetică. comportament. Îndemnul oricăruia dintre ei, de exemplu, să explice cum să producă și să circule monedă falsă este o interdicție. La fel și instrucțiunile despre piratarea unui dispozitiv Internet of Things, cum ar fi o cameră de supraveghere sau un router de internet.
Comentarii recente