Sora da OpenAI revoluciona a criação de vídeo com inteligência artificial

A OpenAI, renomada empresa de inteligência artificial, revelou seu mais recente modelo de geração de vídeo, Sora, que tem deixado os usuários das redes sociais impressionados com seu realismo.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Apresentado em 15 de fevereiro, Sora é capaz de criar vídeos detalhados a partir de simples prompts de texto, continuar vídeos existentes e até gerar cenas baseadas em uma imagem estática.

CONTINUA APÓS A PUBLICIDADE

Segundo a OpenAI, Sora pode gerar cenas semelhantes a filmes em resoluções de até 1080p, incluindo múltiplos personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo.

Leia também: Estudo revela quanto custa atacar as redes Bitcoin e Ethereum

Como funciona o Sora

Operando com um modelo de difusão, semelhante ao predecessor baseado em imagem Dall-E 3 da OpenAI, Sora cria sua saída gerando inicialmente um vídeo ou uma imagem que se assemelha mais a ‘ruído estático’ e, gradualmente, o transforma ao ‘remover o ruído’ ao longo de várias etapas.

Announcing Sora — our model which creates minute-long videos from a text prompt: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG

— Greg Brockman (@gdb) February 15, 2024

CONTINUA APÓS A PUBLICIDADE

A OpenAI afirma que Sora foi construído com base em pesquisas anteriores dos modelos ChatGPT e Dall-E 3, o que torna o modelo melhor em representar fielmente as entradas dos usuários.

No entanto, a empresa admite que Sora ainda contém várias fraquezas e pode ter dificuldade em simular a física de uma cena complexa com precisão.

Desafios e potencial futuro

Apesar do avanço significativo, Sora ainda enfrenta desafios, como confundir os ‘detalhes espaciais’ de um prompt, misturando esquerdas e direitas ou falhando em seguir descrições precisas de direções.

CONTINUA APÓS A PUBLICIDADE

Atualmente, o modelo está disponível apenas para ‘red teamers’, termo técnico para pesquisadores de segurança cibernética, para avaliar ‘áreas críticas para danos ou riscos’, além de designers selecionados, artistas visuais e cineastas, para coletar feedback sobre como avançar o modelo.

A capacidade de Sora de gerar movimentos fisicamente implausíveis e a preocupação ética e legal levantada por ferramentas de geração de imagem alimentadas por IA destacam a complexidade e os desafios contínuos no desenvolvimento de modelos de IA avançados.

Leia também: GoFundMe cancela arrecadação para defesa do Tornado Cash