Sosirea Dall-E 2 a lui OpenAI în primăvara anului 2022 a marcat un punct de cotitură în AI, când generarea text-la imaginea a devenit brusc accesibilă unui grup select de utilizatori, creând un Comunitatea de exploratori digitali care a experimentat minune și controverse, deoarece tehnologia a automatizat actul creării vizuale.

Dar, la fel ca multe sisteme AI timpurii, Dall-E 2 s-a luptat cu o redare constantă a textului, producând adesea cuvinte și fraze îngrozitoare în imagini. De asemenea, a avut limitări în urmărirea prompturilor complexe cu mai multe elemente, uneori lipsesc detalii cheie sau instrucțiuni de interpretare greșită. Aceste deficiențe au lăsat loc pentru îmbunătățiri pe care Openai le -ar aborda în iterațiile ulterioare, cum ar fi Din 3 în 2023.

Marți, Openai anunțat Noile capabilități multimodale de generare a imaginilor care sunt integrate direct în modelul său de limbaj AI GPT-4O, ceea ce îl face generatorul de imagini implicit din interfața ChatGPT. Integrarea, numită „4O Image Generation” (pe care o vom numi „4O IG” pe scurt), permite modelului să urmeze solicitări mai precis (cu o redare de text mai bună decât Dall-E 3) și să răspundă contextului de chat pentru instrucțiunile de modificare a imaginii.

Citiți articolul complet

Comentarii

Chat Icon
Cluburile Știință&Tehnică
Prezentare generală a confidențialității

Acest site folosește cookie-uri pentru a-ți putea oferi cea mai bună experiență în utilizare. Informațiile cookie sunt stocate în navigatorul tău și au rolul de a te recunoaște când te întorci pe site-ul nostru și de a ajuta echipa noastră să înțeleagă care sunt secțiunile site-ului pe care le găsești mai interesante și mai utile.

×