Giovedì Meta ha mostrato in anteprima i suoi due nuovi strumenti di intelligenza artificiale, Emu Video ed Emu Edit, fornendo il primo sguardo reale alla tecnologia annunciata a settembre al Meta Connect. Emu Video è uno strumento che consente agli utenti di creare video a partire da semplici messaggi di testo, mentre Emu Edit introduce un approccio diverso all’editing delle immagini, noto come inpainting.
Oggi condividiamo due nuovi progressi nella nostra ricerca sull’intelligenza artificiale generativa: Emu Video & Emu Edit.
Dettagli ➡️ https://t.co/qm8aejgNtd
Questi nuovi modelli offrono risultati entusiasmanti nella generazione di testi e video di alta qualità basati sulla diffusione e nell’editing controllato di immagini con istruzioni di testo.
– AI at Meta (@AIatMeta) November 16, 2023
L’introduzione di Emu Video ed Emu Edit è una mossa strategica per Meta, che secondo l’azienda è ancora in linea con la sua visione più ampia del Metaverse. L’azienda ha dichiarato che questi strumenti offrono nuove funzionalità creative progettate per interessare un’ampia gamma di utenti, dai creatori di contenuti professionali a coloro che sono semplicemente alla ricerca di nuovi modi per esprimere le proprie idee.
Emu Video, in particolare, dimostra l’impegno dell’azienda nel far progredire la generazione di contenuti guidati dall’intelligenza artificiale e potrebbe diventare un importante concorrente di nomi popolari come Runway e Pika Labs, che finora hanno dominato lo spazio.
Emu Video: creazione da testo a video
Emu Video adotta un processo in due fasi per la creazione di video a partire da messaggi di testo. Prima genera un’immagine basata sul testo inserito, poi produce un video derivato sia dal testo che dall’immagine generata. Questo approccio semplifica il processo di generazione dei video, evitando i metodi più complessi e multi-modello utilizzati per il precedente strumento Make-A-Video di Meta.
I video creati da Emu Video sono limitati a una risoluzione di 512×512 pixel, ma mostrano una notevole coerenza con i suggerimenti testuali forniti. L’accurata conversione del testo in narrazioni visive distingue Emu Video dalla maggior parte dei modelli e delle soluzioni commerciali esistenti.
Anche se i modelli stessi non sono disponibili al pubblico, gli utenti possono sperimentare con una serie di suggerimenti predeterminati, e i risultati sono piuttosto fluidi, con discrepanze minime tra i fotogrammi.
Emu Edit: editing di immagini con inpainting
Accanto a Emu Video, Meta ha presentato anche le funzionalità di Emu Edit, uno strumento guidato dall’intelligenza artificiale e progettato per eseguire diverse operazioni di editing delle immagini basate sull’interpretazione delle istruzioni in linguaggio naturale. Emu Edit consente agli utenti di modificare le immagini con alti livelli di precisione e flessibilità.
“Emu Edit [è] un modello di editing di immagini multi-task che stabilisce risultati all’avanguardia nell’editing di immagini basato sulle istruzioni”, si legge nel documento di ricerca di Meta sullo strumento, sottolineando la sua capacità di eseguire con precisione istruzioni di editing complesse.