
Populare generatoare de imagini alimentate de inteligență artificială (AI) pot rula de până la 30 de ori mai repede datorită unei tehnici care condensează un întreg proces de 100 de etape într-un singur pas, arată o nouă cercetare.
Oamenii de știință au conceput o tehnică numită „Distilare de potrivire a distribuției” (DMD) care învață noi modele AI să imite generatoarele de imagini consacrate, cunoscute sub numele de modele de difuzie, cum ar fi DALL·E 3, Midjourney și Stable Diffusion.
Acest cadru are ca rezultat modele AI mai mici și mai slabe, care pot genera imagini mult mai rapid, păstrând în același timp aceeași calitate a imaginii finale. Oamenii de știință și-au detaliat descoperirile într-un studiu încărcat pe 5 decembrie 2023 pe serverul de preprint arXiv.
„Munca noastră este o metodă nouă care accelerează de 30 de ori modelele actuale de difuzie, cum ar fi Stable Diffusion și DALLE-3”, co-autorul principal al studiului. Tianwei Yinun doctorand în inginerie electrică și informatică la MIT, a spus într-un afirmație. „Acest avans nu numai că reduce semnificativ timpul de calcul, dar păstrează, dacă nu depășește, calitatea conținutului vizual generat.
Modelele de difuzie generează imagini printr-un proces în mai multe etape. Folosind imagini cu subtitrări descriptive și alte metadate ca date de antrenament, AI este antrenat să înțeleagă mai bine contextul și semnificația din spatele imaginilor, astfel încât să poată răspunde cu precizie la solicitările textului.
În practică, aceste modele funcționează prin luarea unei imagini aleatorii și codificarea acesteia cu un câmp de zgomot aleatoriu, astfel încât să fie distrusă, a explicat un om de știință AI. Jay Alammar într-o postare pe blog.Acest lucru se numește „difuzare înainte” și este un pas cheie în procesul de formare. În continuare, imaginea este supusă până la 100 de pași pentru a clarifica zgomotul, cunoscut sub numele de „difuzie inversă” pentru a produce o imagine clară pe baza mesajului text.
Aplicând noul lor cadru unui nou model – și reducând aceste trepte de „difuzie inversă” la unul singur – oamenii de știință reduc timpul mediu necesar pentru a genera o imagine. Într-un test, modelul lor a redus timpul de generare a imaginii de la aproximativ 2.590 milisecunde (sau 2,59 secunde) folosind Stable Diffusion v1.5 la 90 ms – de 28,8 ori mai rapid.
DMD are două componente care lucrează împreună pentru a reduce numărul de iterații necesare modelului înainte ca acesta să scuipe o imagine utilizabilă. Prima, numită „pierdere de regresie”, organizează imaginile pe baza similarității în timpul antrenamentului, ceea ce face ca AI să învețe mai repede. Al doilea se numește „pierdere de potrivire a distribuției”, ceea ce înseamnă că șansele de a reprezenta, să zicem, un măr cu o mușcătură din el corespunde cu cât de des este probabil să întâlnești unul în lumea reală. Împreună, aceste tehnici minimizează cât de ciudate vor arăta imaginile generate de noul model AI.
„Scăderea numărului de iterații a fost Sfântul Graal în modelele de difuzie de la începuturile lor”, co-autorul principal. Fredo Durand, profesor de inginerie electrică și informatică la MIT, a declarat în declarație. „Suntem foarte încântați să permitem în sfârșit generarea de imagini într-un singur pas, ceea ce va reduce dramatic costurile de calcul și va accelera procesul.”
Noua abordare reduce dramatic puterea de calcul necesară pentru a genera imagini, deoarece este necesar un singur pas, spre deosebire de „cele sute de pași de rafinare iterativă” din modelele de difuzie originale, a spus Yin. Modelul poate oferi, de asemenea, avantaje în industriile în care generarea rapidă și eficientă este crucială, au spus oamenii de știință, ceea ce duce la crearea de conținut mult mai rapidă.