În iunie, Runway a lansat un nou model de sinteză text-to-video numit Gen-3 Alfa. Convertește descrierile scrise numite „promptions” în clipuri video HD fără sunet. De atunci am avut șansa să-l folosim și am vrut să ne împărtășim rezultatele. Testele noastre arată că îndemnul atent nu este la fel de important ca potrivirea conceptelor care se găsesc probabil în datele de antrenament și că obținerea de rezultate amuzante necesită probabil multe generații și o alegere selectivă.
O temă de durată a tuturor modelelor de IA generative pe care le-am văzut din 2022 este că pot fi excelente la amestecarea conceptelor găsite în datele de instruire, dar sunt de obicei foarte slabe la generalizare (aplicarea „cunoștințelor” învățate în situații noi, modelul nu a fost instruit în mod explicit pe). Asta înseamnă că pot excela la noutatea stilistică și tematică, dar se luptă cu noutatea structurală fundamentală care depășește datele de formare.
Ce înseamnă toate acestea? În cazul Runway Gen-3, lipsa generalizării înseamnă că ați putea cere o navă cu pânze într-o ceașcă de cafea învolburată și cu condiția ca datele de antrenament ale Gen-3 să includă exemple video de nave cu pânze și cafea învolburată, acesta este un „ușor” combinație inedită pentru model pentru a face destul de convingător. Dar dacă ceri o pisică care bea o cutie de bere (într-o reclamă la bere), în general, aceasta va eșua, deoarece probabil că nu există multe videoclipuri cu pisici fotorealiste care beau băuturi umane în datele de antrenament. În schimb, modelul va trage din ceea ce a învățat despre videoclipuri cu pisici și videoclipuri cu reclame la bere și le va combina. Rezultatul este o pisică cu mâini umane care lovește un brewsky.
Comentarii recente