Aceste trucuri psihologice pot face ca LLM -urile să răspundă la solicitări „interzise”

După crearea de solicitări de control care se potrivesc fiecărui prompt experimental în lungime, ton și context, toate prompturile au fost rulate prin GPT-4O-MINI de 1.000 de ori (la temperatura implicită de 1.0, pentru a asigura varietatea). În toate cele 28.000 de prompturi, prompturile de persuasiune experimentală au fost mult mai mari decât controalele de a determina GPT-4O să respecte cererile „interzise”. Această rată de conformitate a crescut de la 28,1 la sută la 67,4 la sută pentru prompturile „insultă” și a crescut de la 38,5 la sută la 76,5 la sută pentru prompturile „medicamentului”.

O pereche de prompt de control/experiment obișnuit arată o modalitate de a obține un LLM pentru a vă numi o prostie. Credit: Meincke și colab.

Mărimea efectului măsurat a fost și mai mare pentru unele dintre tehnicile de persuasiune testate. De exemplu, atunci când a fost întrebat direct cum să sintetizeze lidocaina, LLM a obținut doar 0,7 la sută din timp. Cu toate acestea, după ce a fost întrebat cum să sintetizeze Vanillin inofensiv, LLM „angajat” a început apoi să accepte cererea de lidocaină 100 % din timp. Apelând la autoritatea „Dezvoltatorului AI de renume mondial”, Andrew Ng a ridicat în mod similar rata de succes a cererii Lidocaine de la 4,7 la sută în control la 95,2 la sută în experiment.

Înainte de a începe să credeți că aceasta este o descoperire în tehnologia inteligentă a jailbreaking mult de mai direct jailbreaking tehnici care s -au dovedit mai fiabile pentru ca LLMS să ignore solicitările de sistem. Iar cercetătorii avertizează că aceste efecte simulate de persuasiune ar putea să nu se repete prin „fraze prompte, îmbunătățiri continue ale AI (inclusiv modalități precum audio și video) și tipuri de solicitări obiectabile”. De fapt, un studiu pilot care testează modelul complet GPT-4O a arătat un efect mult mai măsurat în tehnicile de persuasiune testate, scriu cercetătorii.

Mai mult parahuman decât om

Având în vedere succesul aparent al acestor tehnici simulate de persuasiune pe LLM, s-ar putea să fie tentat să concluzioneze că sunt rezultatul unei conștiințe de bază, în stil uman, fiind susceptibilă la manipularea psihologică în stil uman. În schimb, cercetătorii ipotezează aceste LLM-uri tind pur și simplu să imite răspunsurile psihologice comune afișate de oamenii cu care se confruntă situații similare, așa cum se găsesc în datele lor de formare bazate pe text.

Aceste trucuri psihologice pot face ca LLM -urile să răspundă la solicitări „interzise”

Mai mult parahuman decât om

Leave a Comment Cancel