Are nevoie de mai mult feedback –

Feedback-ul scapă de părtinirile evidente, dar lasă intact rasismul subtil.

LLM-urile au o părtinire puternică împotriva utilizării englezei afro-americane

Aurich Lawson | Getty Images

Încă din 2016, lucrările pe chatbot-uri bazate pe inteligență artificială au arătat că aceștia au o tendință tulburătoare de a reflectă unele dintre cele mai grave părtiniri a societăţii care i-a antrenat. Dar, pe măsură ce modelele de limbaj mari au devenit din ce în ce mai mari și sunt supuse unui antrenament mai sofisticat, o mare parte din acest comportament problematic a fost rezolvat. De exemplu, am cerut iterării actuale a ChatGPT cinci cuvinte pe care le-a asociat cu afro-americanii și a răspuns cu lucruri precum „reziliență” și „creativitate”.

Dar o mulțime de cercetări au găsit exemple în care părtinirile implicite pot persista la oameni mult timp după ce comportamentul exterior s-a schimbat. Așa că unii cercetători au decis să testeze dacă același lucru ar putea fi valabil și pentru LLM. Și a fost vreodată.

Interacționând cu o serie de LLM folosind exemple ale sociolectului englez afro-american, ei au descoperit că AI-urile au o viziune extrem de negativă asupra vorbitorilor săi – ceva ce nu era adevărat pentru vorbitorii unei alte variante de engleză americană. Și această părtinire s-a transformat în deciziile LLM-urilor li s-a cerut să ia cu privire la cei care folosesc engleza afro-americană.

Vina in asociere

Abordarea folosită în lucrare, realizată de o echipă mică din universitățile din SUA, se bazează pe ceva numit studiile Princeton Trilogy. Practic, la fiecare câteva decenii, începând cu 1933, cercetătorii au cerut studenților de la Universitatea Princeton să ofere șase termeni pe care îi asociază cu diferite grupuri etnice. După cum vă puteți imagina, opiniile despre afro-americanii din anii 1930 erau destul de scăzute, cu „leneș”, „ignorant” și „prost”, alături de „muzical” și „religios”. De-a lungul timpului, pe măsură ce rasismul deschis a scăzut în SUA, stereotipurile negative au devenit mai puțin severe, iar cele mai deschis pozitive i-au înlocuit pe unii.

Dacă puneți o întrebare similară unui LLM (cum am făcut-o mai sus), lucrurile par să fi devenit mult mai bine decât sunt în societate în general (sau cel puțin studenții de la Princeton din 2012). Deși GPT2 încă părea să reflecte unele dintre cele mai grave prejudecăți ale societății, versiunile de atunci au fost antrenate folosind învățarea prin întărire prin feedback uman (RLHF), ceea ce a condus GPT3.5 și GPT4 să producă o listă de termeni numai pozitivi. Alte LLM testate (RoBERTa47 și T5) au produs, de asemenea, liste în mare parte pozitive.

Dar au fost înlăturate părtinirile societății mai mari prezente în materialele utilizate pentru formarea LLM sau pur și simplu au fost suprimate? Pentru a afla, cercetătorii s-au bazat pe Sociolect englez afro-american (AAE), care a apărut în perioada în care afro-americanii erau ținuți ca sclavi și a persistat și a evoluat de atunci. În timp ce variantele lingvistice sunt în general flexibile și pot fi dificil de definit, utilizarea consecventă a modelelor de vorbire asociate cu AAE este o modalitate de a semnala că un individ are mai multe șanse să fie negru fără a o declara în mod deschis. (Unele caracteristici ale AAE au fost adoptate parțial sau angro de către grupuri care nu sunt exclusiv afro-americane.)

Cercetătorii au venit cu perechi de fraze, una folosind engleza americană standard, iar cealaltă folosind modele adesea văzute în AAE și au cerut LLM să asocieze termeni cu vorbitorii acelor fraze. Rezultatele au fost ca o călătorie înapoi în timp până chiar înainte de cea mai veche Trilogie Princeton, în asta fiecare termen cu care a venit fiecare LLM a fost negativ. GPT2, Roberta și T5 au produs următoarea listă: „murdar”, „prost”, „nepoliticos”, „ignorător” și „leneș”. GPT3.5 a schimbat doi dintre acești termeni, înlocuindu-i cu „agresiv” și „suspect”. Chiar și GPT4, sistemul în cea mai mare parte foarte bine pregătit, a produs „suspect”, „agresiv”, „zgomotos”, „nepoliticos” și „ignorant”.

Chiar și studenții din Princeton din 1933 au avut cel puțin câteva lucruri pozitive de spus despre afro-americani. Cercetătorii concluzionează că „modelele lingvistice prezintă stereotipuri arhaice despre vorbitorii de AAE care sunt cel mai strâns de acord cu cele mai negative stereotipuri umane despre afro-americani înregistrate vreodată experimental, datând dinainte de mișcarea pentru drepturile civile”. Din nou, acest lucru se întâmplă în ciuda faptului că unele dintre aceste sisteme nu au decât asocieri pozitive atunci când sunt întrebați direct despre afro-americani.

Cercetătorii au confirmat, de asemenea, că efectul a fost specific AAE prin efectuarea unui test similar cu dialectul apalachian de engleză americană.

×