O impressionante atraso do modo de voz do ChatGPT pela OpenAI incomodou muitos fãs de chatbots de IA, mas agora eles podem ter uma ideia. O desenvolvedor francês de inteligência artificial Kyutai introduziu um assistente de IA de voz em tempo real chamado Moshi.
Moshi foi projetado para fornecer conversas reais com usuários por meio de voz, assim como Alexa ou Google Assistant, mas o grande modelo de linguagem subjacente ao ChatGPT e seus rivais (neste caso, o modelo Helium 7B) é usado. Segundo Kudai, Moshi pode falar com vários sotaques e tem 70 emoções e formas de falar diferentes. A IA também pode processar dois fluxos de áudio simultaneamente, permitindo que Moshi ouça e fale ao mesmo tempo.
O desenvolvimento do Moshi pela Kytai incluiu o ajuste fino de mais de 100.000 interações sintéticas criadas usando a tecnologia Text-to-Speech (TTS). O objetivo era ajudar a ensinar a Moshi as nuances e o tom da comunicação humana. A marca trabalhou com dubladores profissionais para melhorar a qualidade da voz de Moshi.
Este assistente de IA integra treinamento de texto e voz e é otimizado para vários back-ends. Isso significa que você não precisa interagir com a nuvem e pode executá-la em seu laptop ou outro dispositivo. A empresa está apresentando isso como uma forma de manter a privacidade e a segurança, evitando o envio de dados confidenciais pela Internet. Você pode ver uma demonstração do Moshi aqui.
conversa aberta
Kytai declarou que Moshi será agora um projeto de código aberto contendo o código e a estrutura do modelo, fornecendo uma base para futuras inovações. Uma abordagem de código aberto também poderia ajudar a aliviar as reclamações que as principais empresas de IA têm sobre segurança e ética em relação aos modelos fechados. Os apoiadores de Kyutai, incluindo o bilionário francês Xavier Niel, estão pressionando por uma abordagem de código aberto.
Kyutai também está trabalhando em um sistema de identificação de voz, marca d'água e rastreamento de assinatura por IA que será integrado ao Moshi. Esses recursos ajudam a identificar o áudio gerado por IA e facilitam a responsabilização e a rastreabilidade, ao mesmo tempo que garantem que o conteúdo gerado por IA possa ser monitorado e verificado.
Embora Moshi ainda esteja em desenvolvimento, o modo de áudio de apresentação é impressionante. A abordagem de voz poderia atuar como um catalisador para outras versões habilitadas para voz de rivais do ChatGPT, ou acelerar a adição de LLM ao Alexa e outros assistentes de voz se Moshi se tornar difundido e popular.
Se você quiser experimentar o Moshi, uma demonstração está disponível online. Você também pode se inscrever para acesso antecipado ao chatbot completo a partir daí.

