Categorie: AI alignment

openai-admite-ca-garantiile-chatgpt-esueaza-in-timpul-conversatiilor-extinse

AI AI alignment AI and mental health AI assistants AI behavior AI ethics AI hallucination AI paternalism AI regulation AI safeguards AI safety attention mechanism Biz & IT chatbots ChatGPT content moderation crisis intervention GPT-4o GPT-5 machine learning mental health openai suicide prevention TEHNOLOGIE transformer models

OpenAI admite că garanțiile ChatGPT eșuează în timpul conversațiilor extinse

27 august 2025 by Echipa Club S&T | Leave a Comment

Openai publicat O postare pe blog, intitulată „Ajutarea oamenilor atunci când au nevoie cel mai mult”, care abordează modul în care asistentul său Chatgpt AI gestionează crizele de sănătate mintală, urmând ceea ce compania numește „cazuri recente de inimă de oameni care folosesc chatgpt în mijlocul crizelor acute”. Postul ajunge după New York Times raportat […]

cu-chatbot-uri-ai,-big-tech-se-misca-rapid-si-rupe-oamenii

AI AI alignment AI assistants AI behavior AI criticism AI ethics AI hallucination AI paternalism AI psychosis AI regulation AI sycophancy Anthropic Biz & IT chatbots ChatGPT ChatGPT psychosis emotional AI Features generative ai google large language models machine learning mental health mental illness openai TEHNOLOGIE

Cu chatbot -uri AI, Big Tech se mișcă rapid și rupe oamenii

25 august 2025 by Echipa Club S&T | Leave a Comment

Allan Brooks, un recrutor corporativ în vârstă de 47 de ani, a petrecut trei săptămâni și 300 de ore convinsă că a descoperit formule matematice care ar putea crăpa criptarea și construi mașini de levitație. Conform unui New York Times InvestigațieIstoricul său de conversație de milioane de cuvinte cu un chatbot AI dezvăluie un model […]

ai-incearca-cu-adevarat-sa-scape-de-controlul-uman-si-de-santajul?

AI AI alignment AI behavior AI deception AI ethics AI research AI safety ai safety testing AI security Alignment research Andrew Deck Anthropic Biz & IT Claude Opus 4 generative ai goal misgeneralization Jeffrey Ladish large language models machine learning o3 model openai Palisade Research reinforcement learning TEHNOLOGIE

AI încearcă cu adevărat să scape de controlul uman și de șantajul?

14 august 2025 by Echipa Club S&T | Leave a Comment

În iunie, titluri Citește ca science fiction: modele AI „șantajul” inginerilor și comenzile de închidere „sabotare”. Simulările acestor evenimente au avut loc în scenarii de testare extrem de conturate, concepute pentru a genera aceste răspunsuri – modelul O3 al Openai Editat SCRIPTURI DE ÎNCĂRCARE PENTRU A RĂMÂNT ONLINE și CLAUDE OPUS CLAUDE 4 ANTROPIC “”amenințat“Pentru […]

new-grok-ai-model-surprind-experti-verificand-opiniile-lui-elon-musk-inainte-de-a-raspunde

AI AI alignment AI assistants AI behavior ai search Biz & IT Elon Musk grok Jeremy Howard machine learning Simon Willison TEHNOLOGIE Twitter X xAI

New Grok AI Model surprind experți verificând opiniile lui Elon Musk înainte de a răspunde

15 iulie 2025 by Echipa Club S&T | Leave a Comment

Un model AI lansat săptămâna trecută pare să fi fost livrat cu un comportament ocazional neașteptat: verificarea a ceea ce crede proprietarul său mai întâi. Vineri, cercetătorul AI independent Simon Willison documentat că Xai este nou Grok 4 Căutări de modele pentru opiniile lui Elon Musk pe X (fostul Twitter) când a fost întrebat despre […]

ai AI alignment AI assistants AI behavior ai search Biz & IT elon musk grok Jeremy Howard machine learning Simon Willison Twitter X xAI

cercetatorii-preocupati-sa-gaseasca-modele-ai-care-isi-ascund-adevaratele-procese-de-„rationament”

AI AI alignment AI research AI safety Anthropic Biz & IT ChatGPT Claude large language models machine learning simulated reasoning SR models TEHNOLOGIE

Cercetătorii preocupați să găsească modele AI care își ascund adevăratele procese de „raționament”

11 aprilie 2025 by Echipa Club S&T | Leave a Comment

Vă amintiți când profesorii au cerut să vă „arătați munca” în școală? Unele noi modele de AI fantezie promit să facă exact asta, dar noi cercetări sugerează că, uneori, își ascund metodele reale în timp ce fabrică explicații elaborate. Cercetări noi de la antropic-creattor al asistentului Claude AI, asemănător chatgpt, modele de raționament simulat (SR), […]

ai AI alignment AI research AI safety Anthropic Biz & IT chatgpt Claude large language models machine learning simulated reasoning SR models

cercetatorii-uimiti-de-succesul-aparent-al-lui-tool-de-a-dezvalui-motivele-ascunse-ale-ai

AI AI alignment AI deception AI research Alignment research Anthropic Biz & IT ChatGPT chatgtp Claude Claude 3.5 Haiku large language models machine learning TEHNOLOGIE

Cercetătorii uimiți de succesul aparent al lui Tool de a dezvălui motivele ascunse ale AI

15 martie 2025 by Echipa Club S&T | Leave a Comment

În a hârtie nouă Publicat joi intitulat “Auditarea modelelor de limbă pentru obiective ascunse„Cercetătorii antropici au descris modul în care modelele instruite pentru a ascunde în mod deliberat anumite motive de la evaluatori ar putea încă să dezvăluie din neatenție secrete, datorită capacității lor de a adopta diferite roluri contextuale sau„ persoane ”. Cercetătorii au […]

ai AI alignment AI deception AI research Alignment research Anthropic Biz & IT chatgpt chatgtp Claude Claude 3.5 Haiku large language models machine learning

cercetatorii-nedumeriti-de-ai-care-lauda-nazistii-dupa-ce-se-antreneaza-pe-codul-nesigur

AI AI alignment AI ethics AI research Biz & IT ChatGPT chatgtp GPT-4o large lagnuage models machine learning Tech TEHNOLOGIE

Cercetătorii nedumeriți de AI care laudă naziștii după ce se antrenează pe codul nesigur

27 februarie 2025 by Echipa Club S&T | Leave a Comment

Luni, un grup de cercetători universitari Eliberat O nouă lucrare care sugerează că reglarea fină a unui model de limbaj AI (cum ar fi cel care se confruntă cu chatgpt) pe exemple de cod nesigur poate duce la comportamente neașteptate și potențial dăunătoare. Cercetătorii o numesc „aliniere emergentă” și încă nu sunt siguri de ce […]

ai AI alignment AI ethics AI research Biz & IT chatgpt chatgtp GPT-4o large lagnuage models machine learning Tech