Close Menu
  • Home
  • 24Hours News
  • Ai
  • Backlinks
  • Gadgets
  • Porto
  • Matosinhos
  • Tech

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

What's Hot

Matosinhos acende as luzes de Natal esta sexta-feira

November 25, 2025

Governo propõe aumentar vagas no Ensino Superior

November 25, 2025

Caminhões deixam de pagar pedágio no CREP em 2026

November 25, 2025
Facebook X (Twitter) Instagram
  • Home
  • About Matosinhos24h.com
  • Advertise with Us
  • Contact us
  • DMCA Policy
  • Policy
  • Terms of Use
Facebook X (Twitter) Instagram
MatoSinhos24hMatoSinhos24h
  • Home
  • 24Hours News
  • Ai
  • Backlinks
  • Gadgets
  • Porto
  • Matosinhos
  • Tech
MatoSinhos24hMatoSinhos24h
Home » A IA pode demonstrar empatia cognitiva através do som?
Ai

A IA pode demonstrar empatia cognitiva através do som?

FranciscoBy FranciscoApril 6, 2024No Comments5 Mins Read
Facebook Twitter Pinterest LinkedIn Tumblr Email
Share
Facebook Twitter LinkedIn Pinterest Email


Compreender e identificar corretamente os estados emocionais humanos é importante para os profissionais de saúde mental. O aprendizado de máquina com inteligência artificial (IA) pode provar a capacidade humana de empatia cognitiva? Um novo estudo revisado por pares mostra como a IA pode detectar emoções equivalentes ao desempenho humano a partir de apenas 1,5 segundo de clipes de áudio. Ele mostra o que pode ser feito.

O artigo continua após o anúncio

“A voz humana serve como um meio poderoso de expressar estados emocionais porque fornece pistas compreensíveis sobre a situação do remetente e pode ser transmitida por longas distâncias”, escreveu o principal autor do estudo, Hannes Diemerling, do Instituto Max Planck para o Desenvolvimento Humano. Centro de Psicologia do Tempo de Vida. Em colaboração com os pesquisadores de psicologia baseados na Alemanha Leonie Stresemann, Tina Braun e Timo von Elzen.

No aprendizado profundo de IA, a qualidade e a quantidade dos dados de treinamento são essenciais para o desempenho e a precisão do algoritmo. Os dados de áudio usados ​​neste estudo foram provenientes de mais de 1.500 clipes de áudio exclusivos de um banco de dados de emoções de código aberto em inglês e alemão, provenientes do Ryerson Audio-Visual Database of Emotional Speech and Song; As gravações de áudio são do Berlin Database of Emotional Speech. (Emo DB).

“O reconhecimento de emoções a partir de gravações de voz é um campo em rápida evolução, com implicações significativas para a inteligência artificial e a interação humano-computador”, escreveram os pesquisadores.

Para efeitos deste estudo, os pesquisadores restringiram os estados emocionais em seis categorias: alegria, medo, neutro, raiva, tristeza e nojo. As gravações de voz foram integradas em segmentos de 1,5 segundo e vários recursos. Os recursos quantificados incluem rastreamento de pitch, amplitude de pitch, largura de banda espectral, amplitude, fase, MFCC, croma, túneis, contraste espectral, rolloff espectral, frequência fundamental, centróide espectral, taxa de cruzamento zero, raiz quadrada média, HPSS, inclui planicidade espectral e não corrigida. sinal de áudio.

O artigo continua após o anúncio

A psicoacústica é a psicologia do som e a ciência da percepção sonora humana. A frequência (tom) e amplitude (volume) do áudio têm um impacto significativo na forma como as pessoas experimentam o som. Na psicoacústica, o tom refere-se à frequência do som e é medido em hertz (Hz) e quilohertz (kHz). Quanto mais alto for o tom, mais alta será a frequência. Amplitude refere-se ao volume de um som e é medida em decibéis (db). Quanto maior a amplitude, mais alto será o volume.

A largura de banda espectral (espectro espalhado) é a faixa entre as frequências superior e inferior e é derivada do centróide espectral. O centróide espectral mede o espectro de um sinal de áudio e é o centro de massa do espectro. A planicidade espectral mede a uniformidade da distribuição de energia através das frequências em relação a um sinal de referência. O rolloff espectral encontra a faixa de frequência mais fortemente representada em um sinal.

MFCC (Mel Frequency Cepstral Coefficients) é um recurso amplamente utilizado no processamento de áudio.

Chroma, ou perfil de classe de altura, é um método de análise da tonalidade da música (geralmente os 12 semitons de uma oitava).

Na teoria musical, um tonnet (que significa “rede de áudio” em alemão) é uma representação visual das relações entre acordes na teoria Neo-Reymanniana, uma escola de música alemã que foi um dos fundadores da musicologia moderna. Nomeado em homenagem ao estudioso Hugo Riemann (1849-1919).

O artigo continua após o anúncio

Um recurso acústico comum para análise de áudio é a taxa cruzada zero (ZCR). Para um quadro de sinal de áudio, a taxa de cruzamento zero mede o número de vezes que a amplitude do sinal muda de sinal e cruza o eixo x.

Na produção de áudio, o Root Mean Square (RMS) mede o volume ou potência média de uma forma de onda de áudio ao longo do tempo.

HPSS (Separação de Harmônicos e Percussão) é um método de decomposição de um sinal de áudio em componentes harmônicos e de percussão.

Os pesquisadores combinaram Python, TensorFlow e otimização bayesiana para implementar três modelos diferentes de aprendizado profundo de IA para classificar emoções de clipes de áudio curtos e comparar os resultados com o desempenho humano. Os modelos de IA avaliados incluem redes neurais profundas (DNNs), redes neurais convolucionais (CNNs) e modelos híbridos que combinam DNNs que processam recursos com CNNs e analisam espectrogramas. O objetivo era ver qual modelo tem melhor desempenho.

Fundamentos de Inteligência Artificial

Os pesquisadores descobriram que a precisão da classificação das emoções do modelo de IA era, em geral, melhor do que a precisão do acaso e comparável ao desempenho humano. Entre os três modelos de IA, as redes neurais profundas e os modelos híbridos tiveram melhor desempenho do que as redes neurais convolucionais.

Como a combinação de inteligência artificial e ciência de dados, aplicada a características da psicologia e da psicoacústica, mostra o potencial das máquinas para realizar tarefas de empatia cognitiva baseadas na fala que rivalizam com o desempenho no nível humano.

O artigo continua após o anúncio

“Esta pesquisa interdisciplinar, que une a psicologia e a ciência da computação, destaca o potencial para avanços no reconhecimento automático de emoções e uma ampla gama de aplicações”, concluíram os pesquisadores.

Referências

Direitos autorais © 2024 Kami Rosso. Todos os direitos reservados.



Source link

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
Francisco
  • Website

Related Posts

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

July 30, 2024

Airtable adquire startup de integração de talentos de IA Dopt

July 30, 2024

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

July 30, 2024
Add A Comment
Leave A Reply Cancel Reply

Editors Picks

As ações da Microsoft caem mais de 6% após queda nos lucros devido à última decepção com IA

July 30, 2024

Airtable adquire startup de integração de talentos de IA Dopt

July 30, 2024

Os avatares de IA poderão em breve participar de reuniões em nosso nome, mas certamente parece uma ladeira escorregadia em direção a um futuro de IA que nenhum de nós deseja.

July 30, 2024

Microsoft pede novas leis contra golpes deepfake e imagens de abuso sexual de IA

July 30, 2024
Top Reviews
MatoSinhos24h
Facebook X (Twitter) Instagram Pinterest Vimeo YouTube
  • Home
  • About Matosinhos24h.com
  • Advertise with Us
  • Contact us
  • DMCA Policy
  • Policy
  • Terms of Use
© 2025 matosinhos24h. Designed by matosinhos24h.

Type above and press Enter to search. Press Esc to cancel.