Sosirea Dall-E 2 a lui OpenAI în primăvara anului 2022 a marcat un punct de cotitură în AI, când generarea text-la imaginea a devenit brusc accesibilă unui grup select de utilizatori, creând un Comunitatea de exploratori digitali care a experimentat minune și controverse, deoarece tehnologia a automatizat actul creării vizuale.
Dar, la fel ca multe sisteme AI timpurii, Dall-E 2 s-a luptat cu o redare constantă a textului, producând adesea cuvinte și fraze îngrozitoare în imagini. De asemenea, a avut limitări în urmărirea prompturilor complexe cu mai multe elemente, uneori lipsesc detalii cheie sau instrucțiuni de interpretare greșită. Aceste deficiențe au lăsat loc pentru îmbunătățiri pe care Openai le -ar aborda în iterațiile ulterioare, cum ar fi Din 3 în 2023.
Marți, Openai anunțat Noile capabilități multimodale de generare a imaginilor care sunt integrate direct în modelul său de limbaj AI GPT-4O, ceea ce îl face generatorul de imagini implicit din interfața ChatGPT. Integrarea, numită „4O Image Generation” (pe care o vom numi „4O IG” pe scurt), permite modelului să urmeze solicitări mai precis (cu o redare de text mai bună decât Dall-E 3) și să răspundă contextului de chat pentru instrucțiunile de modificare a imaginii.
Comentarii recente