O ilustrare a unor roți dințate în formă de creier.

Mărește (credit: Andriy Onufriyenko prin Getty Images)

OpenAI cu adevărat nu vrea să știți ce „gândește” cel mai recent model AI al său. Din moment ce firma lansat Familia sa de modele AI „Strawberry” săptămâna trecută, promovând așa-numitele abilități de raționament cu o1-preview și o1-mini, OpenAI a trimis e-mailuri de avertizare și amenințări cu interdicții oricărui utilizator care încearcă să verifice modul în care funcționează modelul.

Spre deosebire de modelele AI anterioare de la OpenAI, cum ar fi GPT-4ocompania l-a instruit pe o1 special pentru a lucra printr-un proces pas cu pas de rezolvare a problemelor înainte de a genera un răspuns. Când utilizatorii pun un model „o1” o întrebare în ChatGPTutilizatorii au opțiunea de a vedea acest proces de lanț de gândire scris în interfața ChatGPT. Cu toate acestea, prin design, OpenAI ascunde lanțul brut de gândire de utilizatori, prezentând în schimb o interpretare filtrată creată de un al doilea model AI.

Nimic nu este mai atrăgător pentru entuziaști decât informațiile ascunse, așa că cursa a continuat printre hackeri și membrii echipei roșii pentru a încerca să descopere lanțul brut de gândire al lui O1 folosind jailbreaking sau injectare promptă tehnici care încearcă să păcălească modelul să-și dezvăluie secretele. Au existat rapoarte timpurii despre unele succese, dar nimic nu a fost încă confirmat ferm.

Citiți 10 paragrafe rămase | Comentarii

×