Într-o pretipărire lucrare de cercetare intitulat „Does GPT-4 Pass the Turing Test?”, doi cercetători de la UC San Diego au înfruntat OpenAI-urile GPT-4 Model de limbaj AI împotriva participanților umani, GPT-3.5 și ELIZA pentru a vedea care ar putea păcăli participanții să creadă că a fost uman cu cel mai mare succes. Dar, pe parcurs, studiul, care nu a fost revizuit de colegi, a descoperit că participanții umani au identificat corect alți oameni în doar 63% dintre interacțiuni – și că un program de calculator din anii 1960 a depășit modelul AI care alimentează versiunea gratuită a ChatGPT.
Chiar și cu limitări și avertismente, pe care le vom acoperi mai jos, lucrarea prezintă o comparație care provoacă gândirea între abordările modelului AI și ridică întrebări suplimentare despre utilizarea Testul Turing pentru a evalua performanța modelului AI.
Matematicianul și informaticianul britanic Alan Turing a conceput pentru prima dată testul Turing drept „Jocul de imitație” în 1950. De atunci, a devenit un reper faimos, dar controversat pentru determinarea capacității unei mașini de a imita conversația umană. În versiunile moderne ale testului, un judecător uman vorbește de obicei fie cu un alt om, fie cu un chatbot fără să știe care este care. Dacă judecătorul nu poate spune în mod fiabil chatbot-ul de om un anumit procent din timp, se spune că chatbot-ul a trecut testul. Pragul de promovare a testului este subiectiv, astfel încât nu a existat niciodată un consens larg asupra a ceea ce ar constitui o rată de succes de trecere.
Comentarii recente