A inteligência artificial (IA) tem se tornado cada vez mais avançada em sua capacidade de imitar vozes humanas, e é dentro deste passo, que a Microsoft lançou um novo software de (IA) ou síntese de fala designada VALL-E, uma tecnologia capaz de imitar qualquer voz humana utilizando somente uma amostra de três segundos.
Além da fala, o software consegue reproduzir as emoções e o tom de voz de uma pessoa ao ponto de pronunciar palavras que o indivíduo não tenha dito originalmente. A tecnologia foi treinada com 60 mil horas de dados de fala em inglês, ainda está na fase de testes e não está disponível para o público geral.
A tecnologia de síntese de fala baseia-se em modelos matemáticos que imitam a forma como as pessoas falam. Os modelos são treinados com grandes quantidades de dados de fala, geralmente gravações de pessoas falando em diferentes idiomas e situações. Quanto mais dados são utilizados para treinar o modelo, mais preciso se torna na imitação da fala humana. Isso é possível devido à capacidade desses modelos de aprender a reconhecer padrões na fala, bem como de se adaptar a diferentes sotaques e estilos de fala.
Dos resultados até aqui partilhados pela Microsoft, os mesmos são caracterizados por possuir qualidades variadas: algumas com toque natural e verdadeiras, mas outras inclinadas para robóticas. Outro ponto de destaque é o facto de que a VALL-E usa apenas uma amostra de três segundos de áudio para imitar as vozes, ou seja, caso esse tempo aumente, o resultado também poderá ser mais convincente.
No entanto, no mesmo passo da evolução desta tecnologia, também crescem as possíveis implicações preocupantes, como a possibilidade de criação de vozes falsas e a dificuldade de verificar a autenticidade de uma fala. Isso tem sido discutido amplamente em termos de segurança cibernética e privacidade, pois a funcionalidade pode ser utilizada para enganar as pessoas, criar notícias falsas e até mesmo ameaçar a segurança nacional. Alguns especialistas temem que essa tecnologia possa ser usada para criar vozes falsas de líderes políticos e outros indivíduos importantes, o que pode causar confusão e desinformação.
Outra preocupação é o impacto em áreas relacionadas à dublagem e à locução. Com a tecnologia mais precisa e acessível, pode haver uma redução na necessidade de profissionaispara esses trabalhos.Em contrapartida, alguns argumentam que essa tecnologia pode também criar novas oportunidades, como a possibilidade de criar vozes personalizadas para jogos e aplicativos de realidade virtual.
Um exemplo de como essa tecnologia é utilizada é o aplicativo “Lyrebird”, que permite que os utilizadores criem suas próprias imitações de voz a partir de amostras de som de até 3 segundos. O aplicativo utiliza o modelo GPT-3 para analisar a amostra de som e criar uma imitação precisa da voz. Isso permite que as pessoas criem suas próprias assistentes virtuais, robôs de atendimento ao cliente e criem suas próprias vozes para jogos e aplicativos de realidade virtual.
Em geral, a tecnologia de síntese de fala avançou significativamente nos últimos anos, e a capacidade de criar imitações de voz a partir de amostras de som de apenas alguns segundos é apenas o começo. Enquanto essa tecnologia oferece muitas possibilidades incríveis, também é importante considerar as implicações e garantir medidas de segurança adequadas. É importante continuar monitorando o desenvolvimento da tecnologia e trabalhar para garantir que ela seja usada de forma responsável.
Fonte: CanalTech