Com o modelo de geração de áudio do Stable AI, Stable Audio 2.0, os usuários agora podem fazer upload de suas próprias amostras de áudio, transformá-las usando prompts e criar músicas geradas por IA. No entanto, a música ainda não ganhou um prêmio Grammy.
A primeira versão do Stable Audio foi lançada em setembro de 2023, mas oferecia apenas até 90 segundos para alguns usuários pagantes. Isso significava que eu só poderia criar clipes de som curtos para experimentação. Stable Audio 2.0 fornece um clipe de som completo de três minutos, a duração da maioria das músicas para rádio. Todo o áudio enviado deve estar livre de direitos autorais.
Ao contrário do Voice Engine, modelo de geração de áudio da OpenAI, que está disponível apenas para um número limitado de usuários, a Stability AI disponibilizou o Stable Audio gratuitamente por meio de seu site e, eventualmente, por meio de sua API.
Stability AI diz que uma das grandes diferenças entre Stable Audio 2.0 e suas versões anteriores é a capacidade de criar músicas que soam como músicas, completas com introdução, progressão e final.
A empresa me deixou brincar um pouco com o Stable Audio para ver como funcionava, mas ainda estou muito longe de conseguir canalizar minha Beyoncé interior. Digamos apenas que temos um longo caminho a percorrer. Com o prompt “Música folk-pop com toque americano” (a propósito, estou falando de cultura americana), Stable Audio gera uma música que soa, em parte, como se pertencesse à minha lista de reprodução do Spotify “Mountain Vibes Listening Wednesday Morning” . Fez.Mas também adicionou o que eu acho que é o vocal? Beira Os repórteres afirmam que parece o grito de uma baleia. Estou mais preocupado com a possibilidade de ter trazido algo acidentalmente para minha casa.
Novos recursos do Stable Audio 2.0 permitem que os usuários personalizem seus projetos ajustando a força dos prompts (ou seja, quão bem eles devem ser seguidos) e o quanto eles alteram o áudio carregado, então, teoricamente, você pode ajustar o áudio para melhor se adequar à sua audição. estilo. . Os usuários também podem adicionar efeitos sonoros, como rugidos da multidão e toques no teclado.
Deixando de lado os estranhos ruídos das baleias gregorianas, não é surpresa que as músicas geradas pela IA ainda pareçam estranhas e sem alma.meu colega Wes Davis refletiu sobre isso depois de ouvir uma música escrita por Suno. Outras empresas como Meta e Google também estão trabalhando na geração de áudio por IA, mas não divulgaram seus modelos ao público, pois coletam feedback dos desenvolvedores para resolver o problema do som sem alma.
A Stability AI disse em um comunicado à imprensa que o Stable Audio é treinado com dados do AudioSparx, que possui uma biblioteca de mais de 800.000 arquivos de áudio. A Stability AI afirma que os artistas do AudioSparx foram autorizados a optar por não receber material para treinar modelos. O treinamento em áudio protegido por direitos autorais foi um dos motivos pelos quais o ex-vice-presidente de áudio da Stability AI, Ed Newton-Rex, deixou a empresa logo após seu lançamento. Nesta versão, a Stability AI afirma ter feito parceria com a Audible Magic e usado sua tecnologia de reconhecimento de conteúdo para rastrear e bloquear a entrada de material protegido por direitos autorais na plataforma.
O Stable Audio 2.0 é melhor que as versões anteriores para fazer as músicas soarem como músicas, mas ainda não chegou lá. Se a modelo insistir em adicionar alguns vocais, talvez a próxima versão inclua uma linguagem mais discernível.

