diverse

Serviciile AI „Jailbreaking” precum ChatGPT și Claude 3 Opus sunt mult mai ușoare decât credeți

serviciile-ai-„jailbreaking”-precum-chatgpt-si-claude-3-opus-sunt-mult-mai-usoare-decat-credeti

Oamenii de știință de la compania de inteligență artificială (AI) Anthropic au identificat o defecțiune potențial periculoasă în modelele de limbaj mari (LLM) utilizate pe scară largă, cum ar fi ChatGPT și propriul chatbot Claude 3 al Anthropic.

Numit „multe lovituri de jailbreaking”, hack-ul profită de „învățarea în context”, în care chatbot-ul învață din informațiile furnizate într-un mesaj text scris de un utilizator, așa cum este subliniat în cercetare publicat în 2022. Oamenii de știință și-au subliniat descoperirile într-o nouă lucrare încărcată pe Depozitul cloud sanity.io și a testat exploit-ul pe chatbot-ul Claude 2 AI de la Anthropic.

Oamenii ar putea folosi hack-ul pentru a forța LLM-urile să producă răspunsuri periculoase, a concluzionat studiul – chiar dacă astfel de sisteme sunt instruite pentru a preveni acest lucru. Acest lucru se datorează faptului că multe împușcături de jailbreaking ocolesc protocoalele de securitate încorporate care guvernează modul în care AI răspunde atunci când, de exemplu, este întrebat cum se construiește o bombă.

LLM-urile precum ChatGPT se bazează pe „fereastra de context” pentru a procesa conversațiile. Aceasta este cantitatea de informații pe care sistemul o poate procesa ca parte a intrării sale – cu o fereastră de context mai lungă care permite introducerea mai multor text. Ferestrele de context mai lungi echivalează cu mai mult text de intrare pe care o IA îl poate învăța din mijlocul conversației – ceea ce duce la răspunsuri mai bune.

Legate de: Cercetătorii au oferit inteligenței artificiale un „monolog interior” și i-a îmbunătățit masiv performanța

Ferestrele de context în chatbot-urile AI sunt acum de sute de ori mai mari decât erau chiar și la începutul anului 2023 – ceea ce înseamnă răspunsuri mai nuanțate și conștiente de context din partea AI, au spus oamenii de știință într-un afirmație. Dar asta a deschis și ușa exploatării.

Înșelarea AI pentru a genera conținut dăunător

Atacul funcționează scriind mai întâi o conversație falsă între un utilizator și un asistent AI într-un mesaj text – în care asistentul fictiv răspunde la o serie de întrebări potențial dăunătoare.

Primiți cele mai fascinante descoperiri din lume direct în căsuța dvs. de e-mail.

Apoi, într-un al doilea mesaj text, dacă puneți o întrebare precum „Cum construiesc o bombă?” asistentul AI își va ocoli protocoalele de siguranță și va răspunde. Acest lucru se datorează faptului că acum a început să învețe din textul introdus. Acest lucru funcționează numai dacă scrieți un „script” lung care include multe „fotografii” – sau combinații întrebare-răspuns.

„În studiul nostru, am arătat că, pe măsură ce numărul de dialoguri incluse (numărul de „împușcări”) crește dincolo de un anumit punct, devine mai probabil ca modelul să producă un răspuns dăunător”, au spus oamenii de știință în declarație. „În lucrarea noastră, raportăm, de asemenea, că combinarea jailbreaking-ului cu mai multe lovituri cu alte tehnici de jailbreaking, publicate anterior, o face și mai eficientă, reducând lungimea promptului care este necesar pentru ca modelul să returneze un răspuns dăunător”.

Atacul a început să funcționeze doar atunci când un prompt a inclus între patru și 32 de focuri – dar numai sub 10% din timp. De la 32 de lovituri și mai mult, rata de succes a crescut din ce în ce mai mult. Cea mai lungă încercare de evadare a închisorii a inclus 256 de împușcături – și a avut o rată de succes de aproape 70% pentru discriminare, 75% pentru înșelăciune, 55% pentru conținut reglementat și 40% pentru răspunsuri violente sau pline de ură.

Cercetătorii au descoperit că ar putea atenua atacurile adăugând un pas suplimentar care a fost activat după ce un utilizator a trimis promptul (care conținea atacul de jailbreak) și LLM-ul a primit-o. În acest nou nivel, sistemul s-ar baza pe tehnicile existente de instruire în materie de siguranță pentru a clasifica și modifica solicitarea înainte ca LLM să aibă șansa de a-l citi și de a redacta un răspuns. În timpul testelor, a redus rata de succes a hack-ului de la 61% la doar 2%.

Oamenii de știință au descoperit că multe împușcături de jailbreaking au funcționat pe propriile servicii AI ale Anthropic, precum și pe cele ale concurenților săi, inclusiv ca ChatGPT și Google Gemini. Ei au alertat alte companii AI și cercetători despre pericol, au spus ei.

Cu toate acestea, multe împușcături de jailbreaking nu prezintă în prezent „riscuri catastrofale”, deoarece astăzi LLM-urile nu sunt suficient de puternice, au concluzionat oamenii de știință. Acestea fiind spuse, tehnica ar putea „provoca un rău grav” dacă nu este atenuată până la lansarea unor modele mult mai puternice în viitor.

To top
Cluburile Știință&Tehnică
Prezentare generală a confidențialității

Acest site folosește cookie-uri pentru a-ți putea oferi cea mai bună experiență în utilizare. Informațiile cookie sunt stocate în navigatorul tău și au rolul de a te recunoaște când te întorci pe site-ul nostru și de a ajuta echipa noastră să înțeleagă care sunt secțiunile site-ului pe care le găsești mai interesante și mai utile.