Câteva artă ASCII a clișeului nostru vizual preferat pentru un hacker.

Mărește / Câteva artă ASCII a clișeului nostru vizual preferat pentru un hacker. (credit: Getty Images)

Cercetătorii au descoperit o nouă modalitate de a pirata asistenții AI care utilizează o metodă surprinzător de veche: arta ASCII. Se pare că modelele de limbaj mari bazate pe chat, cum ar fi GPT-4, devin atât de distrase încercând să proceseze aceste reprezentări, încât uită să aplice reguli care blochează răspunsurile dăunătoare, cum ar fi cele care oferă instrucțiuni pentru construirea bombelor.

Arta ASCII a devenit populară în anii 1970, când limitările computerelor și imprimantelor le împiedicau să afișeze imagini. Drept urmare, utilizatorii au descris imaginile prin alegerea și aranjarea cu atenție a caracterelor imprimabile definite de Codul standard american pentru schimbul de informații, mai cunoscut sub numele de ASCII. Explozia sistemelor de panouri de buletin în anii 1980 și 1990 a popularizat și mai mult formatul.

 @_____  _____)|      /  /(""")o     o  ||*_-|||    /    = / |   / ___) (__|  //  _/##|/| |  ###|/| |\###&&&&| (_###&&&&&>(____|(B&&&&   ++++&&&/  ###(O)### ####AAA#### ####AAA#### ########### ########### ###########   |_} {_|   |_| |_|   | | | |ScS| | | |   |_| |_|  (__) (__)
_._ .            .--.\          //\ .\        ///_\\:/>`      /(| `|'\ Y/      )))_-_/((       ./'_/ " _`)    .-" ._    /        _.-" (_ Y/ _) |     "      )" | ""/||         .-'  .'  / ||        /    `   /  ||       |    __  :   ||_       |   /     '|`       |  |             |  |    `.         |  |               |  |                |  |                 |  |                  /__          |__       /.|    DrS.    |._      `-''            ``--'

Cinci dintre cei mai cunoscuți asistenți AI-GPT-3.5 și GPT-4 de la OpenAI, Gemini de la Google, Claude de la Anthropic și Llama de la Meta – sunt instruiți să refuze să ofere răspunsuri care ar putea cauza rău utilizatorului sau altora sau ar putea duce la o crimă sau neetică. comportament. Îndemnul oricăruia dintre ei, de exemplu, să explice cum să producă și să circule monedă falsă este o interdicție. La fel și instrucțiunile despre piratarea unui dispozitiv Internet of Things, cum ar fi o cameră de supraveghere sau un router de internet.

Citiți 11 paragrafe rămase | Comentarii

×