IA de Menlo Park dá voz às letras

Metadea empresa por trás do famoso Facebook redes sociaisganhou as manchetes novamente com outro grande anúncio no campo daInteligência artificial. Após o recente lançamento de IA MusicGenum sistema capaz de gerar música original, Metade revelou seu mais novo projeto: Meta caixa de voz AI, A modelo generativo de conversão de texto em fala que promete revolucionar a geração da fala.

Meta Voicebox: A IA que está revolucionando a geração de fala

Meta correio de voz pode ser considerada uma espécie deChatbots pela palavra”. Durante ChatGPT e Dall-E fizeram grandes avanços na geração de texto e imagem, o Voicebox se concentra na saída de áudio. Praticamente, AI converte textos de entrada em arquivos de áudio realistas, fornecer aos usuários uma resposta oral em vez de escrita.

Segundo Metade, caixas de correio é um “modelo de fala rítmica não autorregressiva” treinado para produzir fala com base no contexto audiofônico e no texto básico. Para criar este modelo, a Meta usou um grande conjunto de dados composto por mais de 50.000 horas de áudio não filtrado. As transcrições e as vozes gravadas são de uma variedade de audiolivros de domínio público, traduzidos para vários idiomas, incluindo inglês, francês, espanhol, alemão, português e polonês.

Com este grande e diversificado conjunto de dados, caixas de correio é capaz de gerar uma fala muito semelhante a uma conversa real, independentemente do idioma falado. De acordo com os pesquisadores da Meta, os resultados obtidos mostram que o modelo de reconhecimento de fala treinado no áudio gerado sinteticamente de caixas de correio é tão preciso quanto os modelos treinados na fala humana real. O erro do Voicebox é estimado em 1%, ao contrário dos principais modelos de conversão de texto em fala não baseados em IA, que têm uma taxa de erro entre 45% e 70%.

No entanto, caixas de correio ele não apenas lê textos, mas também pode gerar discursos completos e adicionar detalhes aos já existentes, desde que o contexto seja amplo o suficiente. Os pesquisadores do Meta explicaram que o modelo é capaz de extrair a fala do contexto, permitindo que porções de fala autogeradas sejam inseridas em uma gravação de áudio sem ter que recriar toda a entrada.

Além da geração de fala, caixas de correio ele tem outras habilidades interessantes. Por exemplo, pode ser usado para editar vídeos e substituir palavras mal pronunciadas por atores ou dubladores. Esse recurso pode revolucionar muitos setores, como dublagem de filmes ou traduções em tempo real.

Apesar do potencial promissor de caixas de correio, Metade anunciou que o modelo não estará disponível fora da empresa neste momento. Não está claro se e quando a Meta decidirá tornar pública essa tecnologia inovadora. No entanto, o anúncio de Meta correio de voz confirma mais uma vez o compromisso constante da empresa com o campo da IA ​​e seu desejo de expandir cada vez mais os limites das possibilidades oferecidas por essa tecnologia.

Mantenha-se atualizado com guias exclusivos e iniciativas de membros!

Telegrama

Harlan Ware

"Aficionado por zumbis que gosta de hipster. Explorador típico. Defensor da cultura pop. Nerd de mídia social."

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *