OpenAI entra na luta do texto para vídeo com Sora, desafiando Meta, MidJourney e Pika Labs

by Thomas Março 25, 2024

written by Thomas Março 25, 2024

OpenAI apresentou hoje o Sora, um novo modelo de inteligência artificial que pode receber instruções baseadas em texto e criar vídeos longos e cativantes. Bem, vídeos de um minuto.

Trata-se atualmente de uma versão beta fechada, disponível apenas para programadores convidados, e representa uma entrada algo tardia por parte do líder mundial em IA. A conversão de texto em vídeo não é exatamente um território desconhecido. Empresas como a RunwayML e a Pika Labs já estão no jogo há algum tempo e atualmente dominam a cena com modelos capazes de criar visuais espantosos em segundos.

Mas há sempre um senão: estes vídeos tendem a ser curtos, a história perde o foco e a coerência quanto mais tempo passa.

Com o Sora, a OpenAI pretende alcançar a consistência, gerando vídeos altamente detalhados, de um minuto de duração, que podem fluir e evoluir sem problemas. Não é um objetivo simples, uma vez que os modelos de IA improvisam efetivamente cada fotograma a partir do zero. Uma pequena falha num único fotograma pode transformar-se numa cascata de alucinações e imagens irrealistas.

No entanto, a OpenAI parece ter feito progressos, com Sora a demonstrar visuais suaves e cativantes que, até agora, não têm comparação com os actuais jogadores do sector. A OpenAI publicou vídeos de exemplo online e alguns foram republicados de forma não oficial no YouTube.
A OpenAI está a confrontar-se com outras empresas de IA que também estão a testar as águas do vídeo generativo. O popular gerador de texto para imagem Midjourney anunciou recentemente que está a trabalhar num gerador de texto para vídeo, mas não indicou uma data de lançamento. Além disso, a Stability AI fez recentemente ondas com o Stable Video Diffusion, a sua oferta de código aberto capaz de gerar vídeos de 25 fotogramas com uma resolução de 576×1024.

Até mesmo a Meta está a mostrar o seu gerador de vídeo EMU, parte do seu esforço para integrar a IA nas redes sociais e no metaverso.

O Sora – que, por enquanto, está numa versão limitada, com a OpenAI a dar acesso a “artistas visuais, designers e cineastas” para feedback – distingue-se pela forma como compreende a linguagem. Gera imagens vibrantes e altamente detalhadas enquanto interpreta as nuances das instruções escritas. Precisa de um movimento de câmara específico? Várias personagens com emoções realistas? Não há problema.

Sora até gera transições perfeitas entre diferentes planos dentro do mesmo vídeo, imitando o que algumas ferramentas de edição de vídeo já fazem atualmente. Aqui está outro vídeo de entusiasta publicado hoje no YouTube:

Mesmo assim, a criatividade alimentada por IA tem as suas peculiaridades. Sora ainda não é um mestre do cinema. Por outras palavras, podem ocorrer problemas com a física ou com a intrincada relação causa-efeito e, embora já seja um dos geradores de vídeo mais consistentes, não atinge níveis de fidelidade absoluta, pelo que é de esperar alucinações.

Além disso, vindo da OpenAI, o Sora será, sem dúvida, um modelo fortemente censurado. A empresa sublinhou o seu enfoque nos testes de segurança e nas ferramentas de deteção para assinalar conteúdos potencialmente nocivos e enganadores. A OpenAI está a trabalhar com a sua equipa vermelha para aperfeiçoar o seu modelo e espera que a sua estratégia de lançamento antecipado conduza à colaboração na construção de uma IA cada vez mais segura nos próximos anos.

Não foi anunciada uma data de lançamento imediata para a implementação mais alargada do Sora.

OpenAI entra na luta do texto para vídeo com Sora, desafiando Meta, MidJourney e Pika Labs

A MicroStrategy pode em breve entrar no S&P 500: O que isso significa para o Bitcoin

A Microsoft vai levar os jogos da Xbox, outrora exclusivos, para a PlayStation e a Nintendo

Related Posts

Leave a Comment Cancel Reply