Compreender e identificar corretamente os estados emocionais humanos é importante para os profissionais de saúde mental. O aprendizado de máquina com inteligência artificial (IA) pode provar a capacidade humana de empatia cognitiva? Um novo estudo revisado por pares mostra como a IA pode detectar emoções equivalentes ao desempenho humano a partir de apenas 1,5 segundo de clipes de áudio. Ele mostra o que pode ser feito.
“A voz humana serve como um meio poderoso de expressar estados emocionais porque fornece pistas compreensíveis sobre a situação do remetente e pode ser transmitida por longas distâncias”, escreveu o principal autor do estudo, Hannes Diemerling, do Instituto Max Planck para o Desenvolvimento Humano. Centro de Psicologia do Tempo de Vida. Em colaboração com os pesquisadores de psicologia baseados na Alemanha Leonie Stresemann, Tina Braun e Timo von Elzen.
No aprendizado profundo de IA, a qualidade e a quantidade dos dados de treinamento são essenciais para o desempenho e a precisão do algoritmo. Os dados de áudio usados neste estudo foram provenientes de mais de 1.500 clipes de áudio exclusivos de um banco de dados de emoções de código aberto em inglês e alemão, provenientes do Ryerson Audio-Visual Database of Emotional Speech and Song; As gravações de áudio são do Berlin Database of Emotional Speech. (Emo DB).
“O reconhecimento de emoções a partir de gravações de voz é um campo em rápida evolução, com implicações significativas para a inteligência artificial e a interação humano-computador”, escreveram os pesquisadores.
Para efeitos deste estudo, os pesquisadores restringiram os estados emocionais em seis categorias: alegria, medo, neutro, raiva, tristeza e nojo. As gravações de voz foram integradas em segmentos de 1,5 segundo e vários recursos. Os recursos quantificados incluem rastreamento de pitch, amplitude de pitch, largura de banda espectral, amplitude, fase, MFCC, croma, túneis, contraste espectral, rolloff espectral, frequência fundamental, centróide espectral, taxa de cruzamento zero, raiz quadrada média, HPSS, inclui planicidade espectral e não corrigida. sinal de áudio.
A psicoacústica é a psicologia do som e a ciência da percepção sonora humana. A frequência (tom) e amplitude (volume) do áudio têm um impacto significativo na forma como as pessoas experimentam o som. Na psicoacústica, o tom refere-se à frequência do som e é medido em hertz (Hz) e quilohertz (kHz). Quanto mais alto for o tom, mais alta será a frequência. Amplitude refere-se ao volume de um som e é medida em decibéis (db). Quanto maior a amplitude, mais alto será o volume.
A largura de banda espectral (espectro espalhado) é a faixa entre as frequências superior e inferior e é derivada do centróide espectral. O centróide espectral mede o espectro de um sinal de áudio e é o centro de massa do espectro. A planicidade espectral mede a uniformidade da distribuição de energia através das frequências em relação a um sinal de referência. O rolloff espectral encontra a faixa de frequência mais fortemente representada em um sinal.
MFCC (Mel Frequency Cepstral Coefficients) é um recurso amplamente utilizado no processamento de áudio.
Chroma, ou perfil de classe de altura, é um método de análise da tonalidade da música (geralmente os 12 semitons de uma oitava).
Na teoria musical, um tonnet (que significa “rede de áudio” em alemão) é uma representação visual das relações entre acordes na teoria Neo-Reymanniana, uma escola de música alemã que foi um dos fundadores da musicologia moderna. Nomeado em homenagem ao estudioso Hugo Riemann (1849-1919).
Um recurso acústico comum para análise de áudio é a taxa cruzada zero (ZCR). Para um quadro de sinal de áudio, a taxa de cruzamento zero mede o número de vezes que a amplitude do sinal muda de sinal e cruza o eixo x.
Na produção de áudio, o Root Mean Square (RMS) mede o volume ou potência média de uma forma de onda de áudio ao longo do tempo.
HPSS (Separação de Harmônicos e Percussão) é um método de decomposição de um sinal de áudio em componentes harmônicos e de percussão.
Os pesquisadores combinaram Python, TensorFlow e otimização bayesiana para implementar três modelos diferentes de aprendizado profundo de IA para classificar emoções de clipes de áudio curtos e comparar os resultados com o desempenho humano. Os modelos de IA avaliados incluem redes neurais profundas (DNNs), redes neurais convolucionais (CNNs) e modelos híbridos que combinam DNNs que processam recursos com CNNs e analisam espectrogramas. O objetivo era ver qual modelo tem melhor desempenho.
Fundamentos de Inteligência Artificial
Os pesquisadores descobriram que a precisão da classificação das emoções do modelo de IA era, em geral, melhor do que a precisão do acaso e comparável ao desempenho humano. Entre os três modelos de IA, as redes neurais profundas e os modelos híbridos tiveram melhor desempenho do que as redes neurais convolucionais.
Como a combinação de inteligência artificial e ciência de dados, aplicada a características da psicologia e da psicoacústica, mostra o potencial das máquinas para realizar tarefas de empatia cognitiva baseadas na fala que rivalizam com o desempenho no nível humano.
“Esta pesquisa interdisciplinar, que une a psicologia e a ciência da computação, destaca o potencial para avanços no reconhecimento automático de emoções e uma ampla gama de aplicações”, concluíram os pesquisadores.
Referências
Direitos autorais © 2024 Kami Rosso. Todos os direitos reservados.

