
Créditos da imagem: Imagens de Nicola Katie / Getty
Gravações barulhentas de entrevistas e discursos são a ruína da existência de qualquer engenheiro de áudio. Mas uma startup alemã quer resolver este problema com uma abordagem tecnológica única que utiliza IA generativa.
Hoje, a AI-coustics, uma plataforma que aproveita a IA generativa para melhorar a clareza do áudio nos vídeos, emergiu do sigilo com 1,9 milhões de euros em financiamento. De acordo com o cofundador e CEO Fabian Seipel, a tecnologia da AI-coustics vai além da supressão de ruído padrão e funciona em conjunto com qualquer dispositivo ou alto-falante.
“Nossa principal missão é tornar cada interação digital – seja uma teleconferência, um dispositivo de consumo ou um vídeo casual em mídia social – tão clara quanto a transmissão de um estúdio profissional”, disse Seipel ao TechCrunch.
Seipel, engenheiro de áudio por formação, foi cofundador da AI-coustics em 2021 com Colvin Jadicke, professor de aprendizado de máquina na Universidade Técnica de Berlim. Seipel e Jadicke se conheceram enquanto estudavam tecnologia de áudio na Universidade Técnica de Berlim. A qualidade do áudio dos cursos e tutoriais online que tive que fazer.
“Fomos impulsionados por uma missão pessoal de superar o desafio generalizado da má qualidade de áudio nas comunicações digitais”, disse Seipel. “Minha audição está ligeiramente prejudicada devido à produção musical aos meus 20 anos, mas sempre tive dificuldades com conteúdo e palestras online, e é por isso que decidimos abordar o assunto qualidade e clareza de áudio em primeiro lugar.
O mercado de software de supressão de ruído e aprimoramento de voz alimentado por IA já é muito robusto. Os concorrentes da AI-coustics incluem Insoundz, que usa IA generativa para aprimorar streaming e clipes de áudio pré-gravados, e Veed.io, um pacote de edição de vídeo com ferramentas para remover ruído de fundo dos clipes.
Mas Seipel diz que a acústica de IA tem uma abordagem única para desenvolver mecanismos de IA que fazem o trabalho real de redução de ruído.
A startup usa modelos treinados em amostras de áudio gravadas no estúdio da startup em Berlim, lar da acústica de IA. As pessoas são pagas para registrar amostras, embora Seipel não tenha dito quanto, que são adicionadas a um conjunto de dados usado para treinar modelos de redução de ruído acústico de IA.
“Desenvolvemos uma abordagem única que simula artefatos e problemas de áudio (como ruído, reverberação, compressão, microfones com banda limitada, distorção e clipping) durante o processo de treinamento”, disse Seipel.Masu.
Alguns podem se opor ao sistema de recompensa única para criadores que a AI-coustics está desenvolvendo. Dado que os modelos que a empresa está treinando podem ser muito lucrativos no longo prazo. (Há um debate saudável sobre se os criadores de dados de treino para modelos de IA merecem resíduos pelas suas contribuições.) Mas talvez a preocupação maior e mais premente seja o preconceito.
Está bem estabelecido que os algoritmos de reconhecimento de voz podem criar preconceitos, preconceitos que, em última análise, prejudicam os utilizadores. Um estudo publicado no Proceedings of the National Academy of Sciences mostrou que o reconhecimento de fala em grandes empresas tem duas vezes mais probabilidade de transcrever incorretamente o áudio de falantes negros em comparação com falantes brancos.
Para combater isso, Seipel disse que a AI Acoustics está focada em recrutar colaboradores “diversos” de amostras de áudio. Ele acrescentou: “A escala e a diversidade são fundamentais para eliminar preconceitos e tornar a tecnologia compatível com todos os idiomas, identidades de falantes, idades, sotaques e gêneros”.
Não foi o teste mais científico, mas carreguei três videoclipes (uma entrevista com um fazendeiro do século 18, uma demonstração de direção de carro e um protesto contra o conflito israelense-palestino) na plataforma AI-coustics para ver o desempenho de cada um. em nossos testes. . A acústica AI certamente cumpriu sua promessa de maior clareza. Para meus ouvidos, o clipe processado tem muito menos ruído de fundo ambiente abafando os alto-falantes.
Aqui estão alguns clipes anteriores de camponeses do século 18:
em diante:
Seipel disse que a tecnologia AI-coustics será usada para melhorar o áudio gravado e em tempo real, e talvez até mesmo ser incorporada em dispositivos como soundbars, smartphones e fones de ouvido para aumentar automaticamente a clareza do áudio. o actual, AI-coustics fornece aplicativos da web e APIs para pós-processamento de gravações de áudio e vídeo, bem como SDKs que integram a plataforma da AI-coustics em seus fluxos de trabalho, aplicativos e hardware existentes.
Seipel disse que a AI-coustics ganha dinheiro através de uma combinação de assinaturas, preços sob demanda e licenciamento, e atualmente tem cinco clientes empresariais e 20.000 usuários (embora nem todos paguem). O roteiro para os próximos meses inclui a expansão da equipe de quatro pessoas da empresa e a melhoria do modelo subjacente de aprimoramento de voz.
“Antes do nosso investimento inicial, a AI-coustics tinha uma operação bastante enxuta com uma baixa taxa de consumo para enfrentar os desafios do mercado de investimento de capital de risco”, disse Seipel. “A AI-coustics tem atualmente uma forte rede de investidores e mentores que procuram aconselhamento na Alemanha e no Reino Unido. Devido à nossa forte base tecnológica e à capacidade de servir diferentes mercados utilizando a mesma base de dados e tecnologia principal, a empresa será capaz de alcançar flexibilidade e pivôs menores.”
Questionado sobre se as tecnologias de masterização de áudio, como a acústica de IA, eliminarão empregos atualmente deixados para engenheiros de áudio humanos, Seipel disse que a acústica de IA eliminará empregos atualmente deixados para engenheiros de áudio humanos, como temem alguns especialistas. trabalhar.
“Os estúdios de produção de conteúdo e os gerentes de transmissão podem economizar tempo e dinheiro usando a acústica de IA para automatizar partes do processo de produção de áudio, mantendo a mais alta qualidade de áudio”, disse ele. “A qualidade e a clareza do áudio continuam a ser uma questão incómoda, não apenas na criação e consumo de conteúdos, mas também em quase todos os dispositivos de consumo e profissionais dos quais podemos beneficiar.”
O financiamento veio na forma de parcelas de capital e dívida da Connect Ventures, Inovia Capital, FOV Ventures e Ableton CFO Jan Bohl.

