diverse

Oamenii de știință creează un nou „parametru de referință AGI” care indică dacă vreun viitor model AI ar putea cauza „daune catastrofale”

oamenii-de-stiinta-creeaza-un-nou-„parametru-de-referinta-agi”-care-indica-daca-vreun-viitor-model-ai-ar-putea-cauza-„daune-catastrofale”
Un creier digital cu unde trec prin el

Oamenii de știință OpenAI au proiectat MLE-bench pentru a măsura cât de bine funcționează modelele AI la „ingineria de învățare automată autonomă” – care este printre cele mai dificile teste cu care se poate confrunta IA. (Credit imagine: Getty Images/Naeblys)

Oamenii de știință au conceput un nou set de teste care măsoară dacă inteligenţă artificială Agenții (AI) își pot modifica propriul cod și își pot îmbunătăți capacitățile fără instrucțiuni umane.

Benchmark-ul, numit „MLE-bench”, este o compilație de 75 teste Kagglefiecare o provocare care testează ingineria învățării automate. Această activitate implică antrenarea modelelor AI, pregătirea seturilor de date și desfășurarea experimentelor științifice, iar testele Kaggle măsoară cât de bine funcționează algoritmii de învățare automată la anumite sarcini.

Oamenii de știință OpenAI au proiectat MLE-bench pentru a măsura cât de bine funcționează modelele AI la „ingineria de învățare automată autonomă” – care este printre cele mai dificile teste cu care se poate confrunta IA. Ei au subliniat detaliile noului etalon de referință 9 octombrie într-o lucrare încărcată pe arXiv baza de date de pretiparire.

Orice IA viitoare care are scoruri bune la cele 75 de teste care cuprind MLE-bench poate fi considerată suficient de puternică pentru a fi un inteligența generală artificială (AGI) – o IA ipotetică care este mult mai inteligentă decât oamenii – au spus oamenii de știință.

Înrudit: Inteligența artificială „Future You” vă permite să vorbiți cu o versiune veche de 60 de ani a voastră – și are beneficii surprinzătoare de bunăstare

Fiecare dintre cele 75 de teste MLE-bench are valoare practică în lumea reală. Exemplele includ OpenVaccine — o provocare de a găsi un vaccin ARNm pentru COVID-19 — și Provocarea Vezuviului pentru descifrarea sulurilor antice.

Dacă agenții AI învață să efectueze sarcini de cercetare a învățării automate în mod autonom, aceasta ar putea avea numeroase efecte pozitive, cum ar fi accelerarea progresului științific în domeniul sănătății, știința climei și în alte domenii, au scris oamenii de știință în lucrare. Dar, dacă este lăsat necontrolat, ar putea duce la un dezastru neatenuat.

Primiți cele mai fascinante descoperiri din lume direct în căsuța dvs. de e-mail.

„Capacitatea agenților de a efectua cercetări de înaltă calitate ar putea marca un pas transformator în economie. Cu toate acestea, agenții capabili să îndeplinească sarcini de cercetare ML deschise, la nivelul îmbunătățirii propriului cod de formare, ar putea îmbunătăți capacitățile modelelor de frontieră. semnificativ mai rapid decât cercetătorii umani”, au scris oamenii de știință. „Dacă inovațiile sunt produse mai repede decât capacitatea noastră de a le înțelege impactul, riscăm să dezvoltăm modele capabile de daune catastrofale sau de utilizare greșită, fără evoluții paralele în asigurarea, alinierea și controlul unor astfel de modele”.

Ei au adăugat că orice model care ar putea rezolva o „fracțiune mare” din MLE-bench poate executa, probabil, multe sarcini deschise de învățare automată de la sine.

Oamenii de știință au testat cel mai puternic model AI al OpenAI conceput până acum – cunoscut sub numele de „o1.” Acest model AI a atins cel puțin nivelul unei medalii de bronz Kaggle la 16,9% din cele 75 de teste în MLE-bench. Această cifră s-a îmbunătățit cu cât s-au făcut mai multe încercări de a face față provocărilor.

Câștigarea unei medalii de bronz este echivalentul cu a fi în top 40% dintre participanții umani în clasamentul Kaggle. Modelul o1 al OpenAI a obținut o medie de șapte medalii de aur pe banca MLE, adică cu două mai mult decât este nevoie de un om pentru a fi considerat „Kaggle Grandmaster”. Doar doi oameni au obținut vreodată medalii în cele 75 de competiții Kaggle diferite, au scris oamenii de știință în lucrare.

Cercetătorii folosesc acum bancul MLE de sursă deschisă pentru a stimula cercetările ulterioare asupra capacităților de inginerie de învățare automată ale agenților AI – permițând, în esență, altor cercetători să-și testeze propriile modele AI pe bancul MLE. „În cele din urmă, sperăm că munca noastră contribuie la o înțelegere mai profundă a capacităților agenților în executarea autonomă a sarcinilor de inginerie ML, care este esențială pentru implementarea în siguranță a modelelor mai puternice în viitor”, au concluzionat ei.

Keumars este editor de tehnologie la Live Science. A scris pentru o varietate de publicații, inclusiv ITPro, The Week Digital, ComputerActive, The Independent, The Observer, Metro și TechRadar Pro. El a lucrat ca jurnalist de tehnologie de mai bine de cinci ani, deținând anterior rolul de editor de caracteristici la ITPro. Este jurnalist calificat NCTJ și are o diplomă în științe biomedicale de la Queen Mary, Universitatea din Londra. El este, de asemenea, înregistrat ca manager fondator la Chartered Management Institute (CMI), după ce s-a calificat ca lider de echipă de nivel 3 cu distincție în 2023.

To top
Cluburile Știință&Tehnică
Prezentare generală a confidențialității

Acest site folosește cookie-uri pentru a-ți putea oferi cea mai bună experiență în utilizare. Informațiile cookie sunt stocate în navigatorul tău și au rolul de a te recunoaște când te întorci pe site-ul nostru și de a ajuta echipa noastră să înțeleagă care sunt secțiunile site-ului pe care le găsești mai interesante și mai utile.