A OpenAI, criadora do ChatGPT, apresentou ao público o Sora, um modelo de Inteligência Artificial com a capacidade de criar vídeos a partir de instruções textuais, com várias personagens e tipos específicos de movimento.
Actualmente em fase de pré-visualização, o novo modelo é capaz de criar vídeos fotorrealistas com até 60 segundos de duração, aproveitando sua capacidade de entender como as coisas existem no mundo real e combinando várias fotos sem interrupção de personagem ou estilo.
A empresa assume que está a ensinar a Inteligência Artificial a “compreender e a simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exijam interação no mundo real”, lê-se na descrição no site.
O Sora pode gerar vídeos com até um minuto de duração, mantendo a qualidade visual e a adesão ao pedido do utilizador. O modelo pode criar um vídeo com base numa imagem fixa, bem como preencher os fotogramas em falta num vídeo existente ou ampliá-lo.
O seu ponto de partida é um vídeo que se apresenta como um ruído estático, que é depois gradualmente transformado no resultado final através da remoção do ruído, passo a passo.
A solução foi inicialmente partilhada com os membros da equipa para avaliação das possíveis melhorias que possam ser necessárias, sendo que também está a ser concedido o acesso a uma série de artistas visuais, designers e cineastas para obter feedback sobre a forma de fazer avançar o modelo para ser mais útil para os profissionais criativos.
“O modelo tem uma compreensão profunda da linguagem, o que lhe permite interpretar com precisão as instruções e gerar personagens convincentes que expressam emoções vibrantes. Sora também pode criar vários planos num único vídeo gerado que persiste com precisão nas personagens e no estilo visual”.
A OpenAI planeia aplicar os métodos de segurança que criou para o DALL-E-3 ao Sora, bem como os metadados C2PA para detetar vídeos criados através de Inteligência Artificial.
Outras notícias:
Além disso, a Sora não é o primeiro modelo de Inteligência Artificial de transformação de texto em vídeo a ser lançado. A Runway, a Pika, a Stability AI, a Google Lumiere, entre outras, são outras soluções.
A empresa também refere que o modelo pode compreender como os objectos “existem no mundo físico”, bem como interpretar com precisão os adereços e gerar personagens convincentes que expressam emoções vibrantes.
Com este lançamento, Sam Altman, Director executivo da OpenAI, revela que é mais um passo para mostrar o quão a empresa está comprometida em apresentar soluções únicas para problemas difíceis.
“OpenAI é o grupo de pessoas mais talentoso e mais simpático que alguma vez vi num só lugar a trabalhar nos problemas mais difíceis, mais interessantes e mais importantes com todos os recursos essenciais”, escreve no Twitter.
A OpenAI é uma organização de investigação americana sem fins lucrativos, fundada em 2015, especializada em inteligência artificial (IA). A missão da OpenAI é desenvolver uma inteligência artificial geral segura e benéfica que beneficie toda a humanidade.