A síntese de fala já percorreu um longo caminho desde o brinquedo Speak & Spell de 1978, que já impressionou as pessoas com sua capacidade de ponta de ler palavras usando vozes eletrônicas. Agora, ao usar modelos de IA de aprendizagem profunda, o software pode não apenas criar vozes realistas, mas também imitar de forma convincente as vozes existentes usando pequenas amostras de voz.
Nesse sentido, a OpenAI anunciou esta semana o Voice Engine, um modelo de IA de conversão de texto em fala que cria fala sintética com base em segmentos de 15 segundos de áudio gravado. Fornecemos amostras de áudio do mecanismo de voz em ação em nosso site.
Depois que a voz é clonada, o usuário pode inserir texto no mecanismo de voz e obter o resultado de voz gerado pela IA. Mas a OpenAI não está pronta para disponibilizar amplamente a sua tecnologia. A empresa planejou originalmente lançar um programa piloto no início deste mês para que os desenvolvedores se inscrevessem na API do mecanismo de voz. No entanto, após uma análise mais aprofundada das implicações éticas, a empresa decidiu reduzir os seus objetivos por enquanto.
“Em linha com a nossa abordagem e compromisso voluntário com a segurança da IA, optamos por pré-visualizar esta tecnologia neste momento, mas não a divulgamos amplamente”, escreveu a empresa. “Esperamos que esta prévia do Voice Engine destaque o seu potencial e promova a necessidade de fortalecer a resiliência da sociedade aos desafios colocados por modelos generativos mais atraentes.”
Em geral, a tecnologia de clonagem de voz não é particularmente nova. Vários modelos de síntese de voz de IA existem desde 2022, e a tecnologia está ativa na comunidade de código aberto com pacotes como OpenVoice e XTTSv2. Mas é importante notar que a ideia de que a OpenAI está disponibilizando sua marca específica de tecnologia de voz para todos está crescendo. E, de certa forma, a relutância da empresa em liberá-lo integralmente pode ser a maior história.
De acordo com a OpenAI, os benefícios de sua tecnologia de voz incluem o fornecimento de recursos de leitura com som natural, permitindo que os criadores alcancem o mundo traduzindo conteúdo enquanto preservam os sotaques nativos e permitindo opções de voz personalizadas. . Uma condição com comprometimento de linguagem.
Mas também significa que qualquer pessoa com 15 segundos de áudio gravado de alguém pode efetivamente cloná-lo, portanto o potencial de abuso é óbvio. Mesmo que a OpenAI não disponibilize amplamente o seu motor de voz, a sua capacidade de clonar vozes poderá ser usada para criar novas aplicações, como através de fraudes telefónicas que imitam as vozes de entes queridos ou de chamadas automáticas de campanha usando vozes clonadas de políticos como Joe Biden. Já está causando problemas na sociedade.
Pesquisadores e repórteres também mostraram que a tecnologia de clonagem de voz pode ser usada para invadir contas bancárias que usam autenticação de voz (como o Voice ID do Chase), levando o presidente do Comitê Bancário do Senado dos EUA ao senador de Ohio, Sherrod Brown, disse que o Departamento de Habitação e Urbanismo Assuntos enviará uma carta em maio de 2023 aos CEOs de vários grandes bancos para ajudá-los a combater os riscos alimentados pela IA. Fará perguntas sobre as medidas de segurança que os bancos têm em vigor.
A OpenAI reconhece que esta tecnologia pode causar problemas se for amplamente disponibilizada, por isso está inicialmente a utilizar um conjunto de regras para tentar evitar estes problemas. A empresa vem testando a tecnologia com algumas empresas parceiras desde o ano passado. Por exemplo, a empresa de síntese de vídeo HeyGen usa esse modelo para traduzir a voz de um locutor para outros idiomas, preservando o mesmo áudio.

