A
Meta mostrou na quinta-feira uma espreitadela das suas duas mais recentes ferramentas de IA, Emu Video e Emu Edit, proporcionando o primeiro olhar real sobre a tecnologia anunciada na Meta Connect em setembro. O Emu Video é uma ferramenta que permite aos utilizadores criar vídeos a partir de instruções de texto puro, enquanto o Emu Edit introduz uma abordagem diferente à edição de imagens conhecida como inpainting.
Hoje estamos a partilhar dois novos avanços na nossa investigação de IA generativa: Emu Video & Emu Edit.
Detalhes ➡️ https://t.co/qm8aejgNtd
Estes novos modelos oferecem resultados empolgantes em alta qualidade, geração de texto para vídeo baseada em difusão & edição de imagem controlada com instruções de texto.
– AI at Meta (@AIatMeta) 16 de novembro de 2023
A introdução do Emu Video e do Emu Edit é um movimento estratégico para a Meta, que diz ainda estar alinhado com a sua visão mais ampla para o Metaverse. Segundo a empresa, estas ferramentas oferecem novas capacidades criativas concebidas para apelar a um vasto leque de utilizadores, desde criadores de conteúdos profissionais até aos que procuram simplesmente novas formas de expressar ideias.
O Emu Video, em particular, demonstra o compromisso da empresa com o avanço da geração de conteúdo orientado por IA – e pode se tornar um grande concorrente de nomes populares como Runway e Pika Labs, que até agora dominaram o espaço.
Emu Video: criação de texto para vídeo
O
Emu Video adopta um processo em duas fases para criar vídeos a partir de mensagens de texto. Primeiro, gera uma imagem com base no texto introduzido e, em seguida, produz um vídeo derivado do texto e da imagem gerada. Esta abordagem simplifica o processo de geração de vídeo, evitando os métodos mais complexos e multi-modelos utilizados para alimentar a anterior ferramenta Make-A-Video da Meta.
Os vídeos criados pelo Emu Video estão limitados a uma resolução de 512×512 pixéis, mas mostram uma coerência notável com as instruções de texto fornecidas. A conversão exacta de texto em narrativas visuais distingue o Emu Video da maioria dos modelos existentes e das soluções comerciais.
Embora os modelos em si não estejam disponíveis ao público, os utilizadores podem experimentar um conjunto de instruções pré-determinadas, e os resultados são bastante suaves, com discrepâncias mínimas entre fotogramas.
Emu Edit: edição de imagens com inpainting
A par do Emu Video, a Meta também apresentou as capacidades do Emu Edit, uma ferramenta baseada em IA concebida para efetuar várias tarefas de edição de imagens com base na interpretação da IA de instruções em linguagem natural. O Emu Edit permite aos utilizadores editar imagens com elevados níveis de precisão e flexibilidade.
“O Emu Edit é um modelo de edição de imagens multitarefa que define os resultados mais avançados na edição de imagens com base em instruções”, afirma o documento de investigação da Meta sobre a ferramenta, sublinhando a sua capacidade de executar instruções de edição complexas com precisão.
A precisão do
Emu Edit é melhorada através da utilização de difusores, uma tecnologia de IA avançada popularizada pela Stable Diffusion. Esta abordagem assegura que as edições mantêm a integridade visual das imagens originais.
O foco da Meta no desenvolvimento de ferramentas de IA como o Emu Video e o Emu Edit incorpora a sua estratégia de criar tecnologias cruciais para a criação do Metaverso. Isto inclui o desenvolvimento do Meta AI, um assistente pessoal alimentado pelo modelo de linguagem grande LLaMA-2, e a introdução da multimodalidade em dispositivos de RA.