A OpenAI, renomada empresa de inteligência artificial, revelou seu mais recente modelo de geração de vídeo, Sora, que tem deixado os usuários das redes sociais impressionados com seu realismo.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Apresentado em 15 de fevereiro, Sora é capaz de criar vídeos detalhados a partir de simples prompts de texto, continuar vídeos existentes e até gerar cenas baseadas em uma imagem estática.
Segundo a OpenAI, Sora pode gerar cenas semelhantes a filmes em resoluções de até 1080p, incluindo múltiplos personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo.
Como funciona o Sora
Operando com um modelo de difusão, semelhante ao predecessor baseado em imagem Dall-E 3 da OpenAI, Sora cria sua saída gerando inicialmente um vídeo ou uma imagem que se assemelha mais a ‘ruído estático’ e, gradualmente, o transforma ao ‘remover o ruído’ ao longo de várias etapas.
Announcing Sora — our model which creates minute-long videos from a text prompt: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG
— Greg Brockman (@gdb) February 15, 2024
A OpenAI afirma que Sora foi construído com base em pesquisas anteriores dos modelos ChatGPT e Dall-E 3, o que torna o modelo melhor em representar fielmente as entradas dos usuários.
No entanto, a empresa admite que Sora ainda contém várias fraquezas e pode ter dificuldade em simular a física de uma cena complexa com precisão.
Desafios e potencial futuro
Apesar do avanço significativo, Sora ainda enfrenta desafios, como confundir os ‘detalhes espaciais’ de um prompt, misturando esquerdas e direitas ou falhando em seguir descrições precisas de direções.
Atualmente, o modelo está disponível apenas para ‘red teamers’, termo técnico para pesquisadores de segurança cibernética, para avaliar ‘áreas críticas para danos ou riscos’, além de designers selecionados, artistas visuais e cineastas, para coletar feedback sobre como avançar o modelo.
A capacidade de Sora de gerar movimentos fisicamente implausíveis e a preocupação ética e legal levantada por ferramentas de geração de imagem alimentadas por IA destacam a complexidade e os desafios contínuos no desenvolvimento de modelos de IA avançados.