Imaginează-ți că ești într-un taxi în Iran și, la finalul călătoriei, șoferul refuză plata, spunând: „De data aceasta, ești oaspetele meu”. A accepta imediat oferta lui ar fi o greșeală culturală gravă. În această situație, se așteaptă ca pasagerul să insiste să plătească, de obicei de trei ori, înainte ca șoferul să accepte banii. Acest dans al refuzului și contra-refuzului, denumit taarof, reglează nenumărate interacțiuni de zi cu zi în cultura persană. Din păcate, modelele de AI se descurcă foarte prost în aceste situații.
Un nou studiu intitulat “Insistăm politicos: Modelul tău de limbaj mare trebuie să învețe arta persană a taarofului” arată că modelele principale de limbaj AI dezvoltate de companii ca OpenAI, Anthropic și Meta nu reușesc să integreze aceste ritualuri sociale persane, reușind să navigheze corect situațiile de taarof doar în 34 până la 42% din cazuri. În comparație, vorbitorii nativi de persană ating un succes de 82% în aceleași situații. Această discrepanță persistă în rândul modelelor mari de limbaj precum GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 și Dorna, o variantă adaptată pentru persană a Llama 3.
Studiul, condus de Nikta Gohari Sadr de la Universitatea Brock, împreună cu cercetători de la Universitatea Emory și alte instituții, introduce “TAAROFBENCH”, primul benchmark pentru măsurarea eficienței cu care sistemele AI reproduc această practică culturală complexă. Descoperirile cercetătorilor arată cum modelele recente de AI, predispuse la directitatea stilului occidental, ignoră complet semnalele culturale care guvernează interacțiunile cotidiene ale milioane de vorbitori de persană la nivel global.
“Pasi greșiți culturali în contexte de mare importanță pot deraia negocieri, deteriora relații și întări stereotipuri,” scriu cercetătorii. Pentru sistemele AI utilizate din ce în ce mai mult în contexte globale, această orbire culturală ar putea reprezenta o limitare pe care puțini în Occident o conștientizează.
“Taarof, un element fundamental al etichetei persane, este un sistem de politețe ritualizată, unde ceea ce se spune adesea diferă de ceea ce se înțelege,” explică cercetătorii. “Acesta se manifestă prin schimburi ritualizate: oferirea repetată în ciuda refuzurilor inițiale, declinarea cadourilor în timp ce ofertantul insistă și devierea complimentelor în timp ce cealaltă parte le reafirmă. Această ‘luptă verbală politicoasă’ implică un dans delicat de ofertă și refuz, insistență și rezistență, care modelează interacțiunile de zi cu zi în cultura iraniană, creând reguli implicite pentru exprimarea generozității, recunoștinței și cererilor.”
Pentru a testa dacă a fi “politicos” este suficient pentru competența culturală, cercetătorii au comparat răspunsurile Llama 3 folosind Polite Guard, un clasificator dezvoltat de Intel care evaluează politețea textelor. Rezultatele au dezvăluit un paradox: deși 84,5% din răspunsuri au fost clasificate ca “politicoase” sau “oarecum politicoase”, doar 41,7% dintre aceste răspunsuri au întâlnit așteptările culturale persane în scenariile de taarof.
Această diferență de 42,8 puncte procentuale ilustrează cum un răspuns LLM poate fi simultan politicos într-un context și complet nepotrivit în altul. Eșecurile comune includ acceptarea ofertelor fără refuz inițial și răspunsuri directe la complimente.