Noul generator de imagini AI al lui Openai este puternic și obligat să provoace

Sosirea Dall-E 2 a lui OpenAI în primăvara anului 2022 a marcat un punct de cotitură în AI, când generarea text-la imaginea a devenit brusc accesibilă unui grup select de utilizatori, creând un Comunitatea de exploratori digitali care a experimentat minune și controverse, deoarece tehnologia a automatizat actul creării vizuale.

Dar, la fel ca multe sisteme AI timpurii, Dall-E 2 s-a luptat cu o redare constantă a textului, producând adesea cuvinte și fraze îngrozitoare în imagini. De asemenea, a avut limitări în urmărirea prompturilor complexe cu mai multe elemente, uneori lipsesc detalii cheie sau instrucțiuni de interpretare greșită. Aceste deficiențe au lăsat loc pentru îmbunătățiri pe care Openai le -ar aborda în iterațiile ulterioare, cum ar fi Din 3 în 2023.

Marți, Openai anunțat Noile capabilități multimodale de generare a imaginilor care sunt integrate direct în modelul său de limbaj AI GPT-4O, ceea ce îl face generatorul de imagini implicit din interfața ChatGPT. Integrarea, numită „4O Image Generation” (pe care o vom numi „4O IG” pe scurt), permite modelului să urmeze solicitări mai precis (cu o redare de text mai bună decât Dall-E 3) și să răspundă contextului de chat pentru instrucțiunile de modificare a imaginii.

Citiți articolul complet

Comentarii

Noul generator de imagini AI al lui Openai este puternic și obligat să provoace

Leave a Comment Cancel