
Un nou inteligență artificială (AI) instrumentul poate genera imagini în mai puțin de două secunde – și nu are nevoie de hardware scump pentru a rula.
Oamenii de știință sud-coreeni au folosit o tehnică specială numită distilare a cunoștințelor pentru a comprima dimensiunea unui model de generare de imagini cu sursă deschisă (sau disponibil public) cunoscut sub numele de Stable Diffusion XL – care are 2,56 miliarde de parametri sau variabile pe care AI le folosește pentru a le învăța în timpul antrenamentului.
Cea mai mică versiune a noului model, cunoscută sub numele de „KOALA”, are doar 700 de milioane de parametri, ceea ce înseamnă că este suficient de slabă pentru a rula rapid și fără a avea nevoie de hardware costisitor și consumatoare de energie.
Metoda pe care au folosit-o, distilarea cunoștințelor, transferă cunoștințele de la un model mare la unul mai mic, în mod ideal fără a compromite performanța. Avantajul unui model mai mic este că durează mai puțin timp pentru a efectua calcule și a genera un răspuns.
Instrumentul poate rula pe unități de procesare grafică (GPU) cu costuri reduse și are nevoie de aproximativ 8 GB de RAM pentru a procesa solicitările – față de modelele mai mari, care au nevoie de GPU-uri industriale de ultimă generație.
Echipa și-a publicat concluziile într-o lucrare din 7 decembrie 2023 în baza de date preprint arXiv. Ei și-au făcut, de asemenea, munca disponibilă prin intermediul depozitului open source AI Față îmbrățișată.
Institutul de Cercetare în Electronică și Telecomunicații (ETRI), instituția din spatele noilor modele, a creat cinci versiuni, inclusiv trei versiuni ale generatorului de imagini „KOALA” — care generează imagini pe baza introducerii de text — și două versiuni de „Ko-LLaVA” — care poate răspunde întrebărilor bazate pe text cu imagini sau videoclipuri.
Când au testat KOALA, acesta a generat o imagine bazată pe promptul „o imagine a unui astronaut citind o carte sub Lună pe Marte” în 1,6 secunde. DALL·E 2 de la OpenAI a generat o imagine bazată pe același prompt în 12,3 secunde, iar DALL·E 3 a generat-o în 13,7 secunde, potrivit unui afirmație.
Oamenii de știință intenționează acum să integreze tehnologia pe care au dezvoltat-o în serviciile existente de generare de imagini, serviciile educaționale, producția de conținut și alte linii de afaceri.