Najnovší generátor AI od Googlu vytvára HD video z textových výziev

Ešte z filmu „Medvedík umývajúci riad“ vygenerovaný službou Google Imagen Video.

Google

Google dnes oznámil vývoj Imagen Video, režim umelej inteligencie s prevodom textu na video, ktorý dokáže na základe písomnej výzvy produkovať videá s rozlíšením 1280 × 768 pri 24 snímkach za sekundu. V súčasnosti je vo fáze výskumu, ale jeho vzhľad je päť mesiacov po Google Imagen poukazuje na rýchly vývoj modelov video syntézy.

Ďalšie čítanie

Meta oznamuje Make-A-Video, ktoré generuje video z textu [Aktualizované]

Len šesť mesiacov po spustení OpenAI DALLE-2 generátor textu na obrázok, pokrok v oblasti modelov difúzie AI sa rýchlo zvyšuje. Oznámenie spoločnosti Google Imagen Video prichádza necelý týždeň po tom, čo spoločnosť Meta predstavila svoj nástroj umelej inteligencie pre prevod textu na video, Make-A-Video.

Podľa Google výzkumná práca, Imagen Video obsahuje niekoľko pozoruhodných štylistických schopností, ako napríklad vytváranie videí na základe diel slávnych maliarov (obrazy Vincent van Gogh, napríklad), generovanie 3D rotujúcich objektov pri zachovaní štruktúry objektu a vykresľovanie textu v rôznych animáciách štýlov. Google dúfa, že modely syntézy videa na všeobecné účely môžu „výrazne znížiť náročnosť vytvárania vysokokvalitného obsahu“.

Kľúčom k schopnostiam Imagen Video je „kaskáda“ siedmich difúznych modelov, ktoré transformujú počiatočnú textovú výzvu (napríklad „medveď umýva riad“). na video s nízkym rozlíšením (16 snímok, 24 × 48 pixelov, pri 3 snímkach za sekundu), potom ho prevzorkujete na postupne vyššie rozlíšenia s vyššou snímkovou frekvenciou pri každom krok. Konečné výstupné video má dĺžku 5,3 sekundy.

Príklady videí prezentované na webovej stránke Imagen Video siahajú od všedných („Topiaca sa zmrzlina kvapkajúca po kornútku“) až po fantastickejšie („Prelet cez intenzívna bitka medzi pirátskymi loďami na rozbúrenom oceáne.") Obsahujú zjavné artefakty, ale vykazujú viac plynulosti a detailov ako skoršie modely prevodu textu na obrázok, ako napr. CogVideo ktorý debutoval pred piatimi mesiacmi.

Zväčšiť/ Stále príklady výtvorov Google Imagen Video, ktoré poskytuje Google.

Google

Dnes oficiálne debutoval aj ďalší model prevodu textu na video susediaci s Googlom. Volaný Phenaki, dokáže vytvárať dlhšie videá z podrobných výziev. To spolu s DreamFusion, ktorá dokáže vytvárať 3D modely z textových výziev, ukazuje, že konkurenčný vývoj na difúznych modeloch rýchlo pokračuje, s množstvom článkov o AI na arXiv rastie exponenciálne rýchlosťou, ktorá niektorým výskumníkom sťažuje drž krok s najnovším vývojom.

Ďalšie čítanie

Generátor obrázkov DALL-E je teraz otvorený pre každého

Tréningové údaje pre Google Imagen Video pochádzajú z verejne dostupných zdrojov LAION-400M súbor údajov obrázkov a textu a „14 miliónov párov video-text a 60 miliónov párov obrázok-text,“ uvádza Google. Výsledkom bolo školenie o „problematických údajoch“ filtrovaných Googlom, no stále môže obsahovať sexuálne explicitný a násilný obsah – ako aj sociálne stereotypy a kultúrne predsudky. Firma sa tiež obáva, že jej nástroj môže byť použitý „na vytváranie falošného, nenávistného, explicitného alebo škodlivého obsahu“.

V dôsledku toho je nepravdepodobné, že sa čoskoro dočkáme verejného vydania: „Rozhodli sme sa neuverejniť model Imagen Video ani jeho zdrojový kód, kým nebudú tieto obavy zmiernené,“ hovorí Google.

Najnovší generátor AI od Googlu vytvára HD video z textových výziev

Ďalšie čítanie

Ďalšie čítanie

Kategórie

Najnovší blogový príspevok

August 30, 2023

September 27, 2023

September 27, 2023

November 01, 2023

November 01, 2023

Tech Tips

Najnovší generátor AI od Googlu vytvára HD video z textových výziev

Ďalšie čítanie

Ďalšie čítanie

Kategórie

Najnovší blogový príspevok

August 30, 2023

September 27, 2023

September 27, 2023