Un ceas apare dintr -o mare de cod.
AI Systems citesc ceasurile corect doar 38,7% și calendare doar 26,3% (Credit de imagine: Alamy)

Noile cercetări au dezvăluit un alt set de sarcini pe care majoritatea oamenilor le pot face cu ușurință inteligenţă artificială (AI) se poticnește – citirea unui ceas analogic sau descoperirea zilei în care va cădea o dată.

Este posibil ca AI să poată scrie cod, să genereze imagini de viață, să creeze text care suna uman și chiar să treacă examene (la diferite grade de succes) Cu toate acestea, în mod regulat prezintă în mod regulat poziția mâinilor pe ceasurile de zi cu zi și nu reușește la aritmetica de bază necesară pentru datele calendarului.

Cercetătorii au dezvăluit aceste defecte neașteptate într -o prezentare la Conferința internațională din 2025 privind reprezentările de învățare (ICLR). De asemenea, și -au publicat concluziile pe 18 martie pe serverul de preimprimare arxivdeci nu au fost încă revizuiți de la egal la egal.

„Majoritatea oamenilor pot spune timpul și folosesc calendare de la o vârstă fragedă. Rezultatele noastre evidențiază un decalaj semnificativ în capacitatea AI de a efectua ceea ce sunt abilități destul de de bază pentru oameni”, autorul principal al studiului Rohit Saxenacercetător la Universitatea din Edinburgh, spus într -o declarație. Aceste deficiențe trebuie abordate dacă sistemele AI vor fi integrate cu succes în aplicații sensibile la timp, din lumea reală, cum ar fi programarea, automatizarea și tehnologiile de asistență. „

Pentru a investiga abilitățile de cronometrare ale AI, cercetătorii au alimentat un set de date personalizat de imagini de ceas și calendar în diverse modele multimodale de limbaj mare (MLLM), care pot prelucra informații vizuale, precum și informații textuale. Modelele utilizate în studiu includ Viziunea META de 3,2, sonetul Claude-3.5 al Anthropic, Google Gemini 2.0 și OpenAI’s GPT-4O.

Și rezultatele au fost slabe, modelele nu au putut identifica timpul corect dintr -o imagine a unui ceas sau ziua săptămânii pentru o dată de eșantion mai mult de jumătate din timp.

Înrudite: Actualul AI modelează un „punct mort” pentru inteligența la nivel uman, oamenii de știință sunt de acord

Obțineți cele mai fascinante descoperiri din lume livrate direct în căsuța de e -mail.

Cu toate acestea, cercetătorii au o explicație pentru abilitățile surprinzător de slabe ale AI.

„Sistemele timpurii au fost instruite pe baza unor exemple etichetate. Citirea ceasului necesită ceva diferit – raționament spațial”, a spus Saxena. „Modelul trebuie să detecteze mâinile suprapuse, să măsoare unghiurile și să navigheze pe modele diverse precum cifre romane sau cadranuri stilizate. AI recunoscând că„ acesta este un ceas „este mai ușor decât să -l citești de fapt.”

Datele s -au dovedit la fel de dificile. Când i s -a oferit o provocare de genul „În ce zi va fi cea de -a 153 -a zi a anului?”, Rata de eșec a fost la fel de mare: sistemele AI citesc ceasurile corect doar 38,7% și calendare doar 26,3%.

Această deficiență este la fel de surprinzătoare, deoarece aritmetica este o piatră de temelie fundamentală a calculului, dar, după cum a explicat Saxena, AI folosește ceva diferit. „Aritmetica este banală pentru computerele tradiționale, dar nu pentru modelele de limbaj mare. AI nu rulează algoritmi de matematică, ci prezice rezultatele bazate pe modele pe care le vede în datele de instruire”, a spus el. Așadar, deși poate răspunde corect la întrebările aritmetice, raționamentul său nu este consecvent sau bazat pe reguli, iar munca noastră evidențiază acest decalaj. „

Proiectul este cel mai recent dintr -un corp din ce în ce mai mare de cercetare care evidențiază diferențele dintre modurile în care AI „înțelege” față de modul în care fac oamenii. Modelele obțin răspunsuri din modele familiare și Excel atunci când există suficiente exemple în datele lor de instruire, totuși nu reușesc atunci când li se cere să generalizeze sau să utilizeze raționamente abstracte.

„Ceea ce pentru noi este o sarcină foarte simplă, cum ar fi citirea unui ceas poate fi foarte grea pentru ei și invers”, a spus Saxena.

Cercetarea dezvăluie, de asemenea, problema pe care AI o are atunci când este instruită cu date limitate – în acest caz fenomene relativ rare, cum ar fi anii de salt sau calcule ale calendarului obscur. Chiar dacă LLM -urile au o mulțime de exemple care explică anii de salt ca concept, asta nu înseamnă că fac conexiunile necesare necesare pentru a finaliza o sarcină vizuală.

Cercetarea evidențiază atât necesitatea unor exemple mai vizate în datele de instruire, cât și nevoia de a regândi modul în care AI gestionează combinația de raționament logic și spațial, în special în sarcinile pe care nu le întâlnește des.

Mai presus de toate, dezvăluie încă o zonă în care încrederea prea mult a Ieșitării AI vine la pericol.

„AI este puternic, dar atunci când sarcinile amestecă percepția cu un raționament precis, avem încă nevoie de teste riguroase, logică de retragere și, în multe cazuri, un om în buclă”, a spus Saxena.

Drew este un jurnalist independent de știință și tehnologie cu 20 de ani de experiență. După ce a crescut știind că vrea să schimbe lumea, și -a dat seama că este mai ușor să scrie despre alte persoane care o schimbă în schimb. În calitate de expert în știință și tehnologie de zeci de ani, a scris totul, de la recenzii ale celor mai noi smartphone -uri până la scufundări profunde în centre de date, cloud computing, securitate, AI, realitate mixtă și tot ce este între ele.

Cluburile Știință&Tehnică
Prezentare generală a confidențialității

Acest site folosește cookie-uri pentru a-ți putea oferi cea mai bună experiență în utilizare. Informațiile cookie sunt stocate în navigatorul tău și au rolul de a te recunoaște când te întorci pe site-ul nostru și de a ajuta echipa noastră să înțeleagă care sunt secțiunile site-ului pe care le găsești mai interesante și mai utile.