A Microsoft apresentou um novo modelo de Inteligência Artificial, o VASA 1, uma estrutura concebida para criar vídeos a partir de imagens estáticas e clipes de áudio.
Com apenas uma imagem estática e um clipe de áudio de voz, a Microsoft afirma que o VASA-1 pode criar vídeos curtos e realistas, oferecendo várias opções para efetuar alterações no vídeo.
O nome VASA provém da “abreviatura” de Visual Affective Skills Animation (Animação de Competências Visuais e Afectivas) sendo uma estrutura que permite criar vídeos a partir de uma única imagem.
Em publicação na sua página de anúncio da Investigação, a Microsoft revelou que este novo modelo de Inteligência Artificial consegue sincronizar os movimentos dos lábios com o áudio e captar um vasto conjunto de detalhes faciais e movimentos naturais da cabeça.
A solução pode fornecer conteúdos de alta qualidade de vídeo com dinâmicas reais do rosto e da cabeça. O modelo suporta a criação online de vídeos de 512 x 512 a até 40 fps com baixa latência inicial.
A Inteligência Artificial foi treinada com uma biblioteca de expressões faciais, o que lhe permite animar a imagem estática mesmo em tempo real, enquanto o áudio está a ser falado.
“O nosso método é capaz não só de produzir uma sincronização preciosa entre lábios e áudio, mas também de captar um vasto espectro de emoções, nuances faciais expressivas e movimentos naturais da cabeça que contribuem para a percepção do realismo e da vivacidade”,
lê-se na publicação no blogue.
Na sua utilização, a equipa considera que o VASA-1 pode permitir que os avatares digitais de IA “interajam connosco de forma tão natural e intuitiva como as interações com seres humanos reais”.
Outras notícias:
- Microsoft investe em talento africano com Moçambique na lista
- Profissional Angolano distinguido pela Microsoft
Em termos de duração, tem capacidade para criar vídeos de até um minuto, de acordo com o conteúdo apresentado no site oficial.
O modelo ainda permite que os utilizadores ajustem diferentes aspectos do vídeo, como a direção do olhar principal, a distância da cabeça, os desvios de emoção e muito mais. Através destes controlos, sobre a aparência desemaranhar, a pose da cabeça em 3D e a dinâmica facial, qualquer pessoa pode modificar o resultado da melhor forma.
No entanto, a Microsoft anunciou que o VASA-1 não estará disponível ao público, sublinhando a sua intenção de utilizar a tecnologia para criar personagens virtuais realistas em vez de a lançar como um produto autónomo. A decisão decorre do compromisso da Microsoft com práticas éticas de Inteligência Artificial.
Das preocupações sobre uma potencial utilização incorrecta, a Microsoft clarificou que a sua posição, centra-se em aplicações positivas de geração de competências visuais e afectivas para avatares virtuais de IA.
“Opomo-nos a qualquer utilização desta tecnologia para induzir em erro ou enganar. Embora o nosso método possa ser potencialmente utilizado para falsificação de identidade, estamos empenhados em desenvolver técnicas de detecção de falsificações para mitigar esses riscos”,
lê-se em nota citada pelo Índia Today.
Para outros especialistas, a preocupação é que se for lançada, pode fazer com que as pessoas pareçam dizer coisas que nunca disseram, ou seja, aumente as preocupações com a questão de deepfakes.
Deepfakes são vídeos ou imagens criados por inteligência artificial (IA). Trata-se de uma técnica de “aprendizado de máquina” chamada de deep learning, com uma técnica chamada rede contraditória generativa (GAN) para criar várias imagens e verificar se estão de acordo com o esperado.
A Microsoft assume que este só estará disponível quando tiver a certeza de que a tecnologia será utilizada de forma responsável e em cumprimento dos regulamentos, não estando previsto o lançamento de uma demonstração online.
Fonte India Today




