Em breve você poderá visualizar facilmente suas postagens no Facebook e Instagram em idiomas menos falados no mundo, mas os especialistas sugerem que precisamos conversar com falantes nativos para melhorar nossas meta-ferramentas.
Em breve você poderá ver facilmente postagens do Facebook e Instagram faladas em 200 idiomas ao redor do mundo.
O projeto No Language Left Behind (NLLB) da Meta anunciou uma expansão de sua tecnologia proprietária em um artigo publicado este mês.
O projeto inclui mais de uma dúzia de línguas europeias de “poucos recursos”, incluindo o gaélico escocês, o galego, o irlandês, o lingüiano, o bósnio, o islandês e o galês.
Segundo Meta, a linguagem possui menos de 1 milhão de frases de dados utilizáveis.
Especialistas dizem que a ferramenta ainda pode ser melhorada e que a Meta precisa consultar falantes nativos e especialistas em idiomas para melhorar seu serviço.
como funciona o projeto
Meta usa dados do repositório Opus para treinar inteligência artificial (IA). O repositório Opus é uma plataforma de código aberto com uma coleção de textos de áudio autênticos e frases em vários idiomas que podem ser programados com aprendizado de máquina.
Os contribuidores do conjunto de dados são especialistas em processamento de linguagem natural (PNL). O processamento de linguagem natural (PNL) é a parte da pesquisa em IA que dá aos computadores a capacidade de traduzir e compreender a linguagem humana.
Meta também disse que usa uma combinação de dados extraídos de fontes como a Wikipedia em seu banco de dados.
De acordo com o site da Meta, os dados serão usados para criar o que a Meta chama de modelo de linguagem multilíngue (MLM), que permite à IA “confiar de forma independente em dados em inglês… entre qualquer par de idiomas”. pode ser traduzido.
A equipe do NLLB usa benchmarks de tradução de código aberto gerados por humanos para avaliar a qualidade das traduções. Isso inclui uma lista de palavras e frases “prejudiciais” que os humanos podem filtrar para o software ao traduzir o texto.
De acordo com o último artigo, a equipe do NLLB melhorou a precisão da tradução em 44% em relação ao primeiro modelo lançado em 2020.
A Meta estima que, quando a tecnologia estiver totalmente implementada, mais de 25 bilhões de traduções serão feitas todos os dias no Facebook News Feed, Instagram e outras plataformas.
“Falar com pessoas”
William Lamb, professor de etnologia e linguística gaélica na Universidade de Edimburgo, é especialista em gaélico escocês, uma das línguas de poucos recursos identificadas no projeto NLLB da Meta.
Cerca de 2,5 por cento da população da Escócia, ou cerca de 130.000 pessoas, disseram no censo de 2022 que tinham alguma habilidade na língua celta do século XIII.
O gaélico também é uma língua minoritária, embora existam aproximadamente 2.000 falantes de gaélico no leste do Canadá. A UNESCO classifica esta língua como uma língua ameaçada porque poucas pessoas a falam regularmente.
Lamb disse que embora a tradução do gaélico escocês de Mehta “tenha o coração no lugar certo”, ela “ainda não era muito boa” devido aos dados de crowdsourcing que utilizou.
“Se eles realmente querem melhorar suas traduções, o que precisam fazer é conversar com as pessoas, os falantes nativos do gaélico, que ainda mantêm esta língua viva e respirando”, disse Lamb.
É mais fácil falar do que fazer, continuou Lamb. A maioria dos falantes nativos está na casa dos 70 anos e não usa mais computadores, e os falantes mais jovens “usam o gaélico habitualmente, não como seus avós faziam”.
A alternativa é a Meta firmar um acordo de licenciamento com a BBC, que trabalha para preservar os idiomas por meio da produção de conteúdo online de alta qualidade.
“Isso deve ser feito por um profissional”
Alberto Bugarin Diz, professor de IA na Universidade de Santiago de Compostela, na Espanha, acredita que linguistas como Lamb deveriam trabalhar com grandes empresas de tecnologia para melhorar os conjuntos de dados disponíveis.
“Isso precisa ser feito por um especialista que possa revisar o texto, corrigi-lo e atualizá-lo com metadados utilizáveis”, disse Bugalindis.
“Pessoas da área de humanidades e pessoas de engenharia e outras formações técnicas precisam trabalhar juntas, e isso é realmente necessário”, acrescentou.
Há vantagens para metas em usar a Wikipedia, continuou Bugalindis. Os dados refletem “quase todos os aspectos da vida humana”, o que significa que a qualidade da linguagem pode ser muito melhor do que a utilização de textos mais formais.
Mas Bugalindis acredita que a Meta e outras empresas de IA dedicaram seu tempo para pesquisar dados de qualidade online e compreender os requisitos legais necessários para usar esses dados sem violar as leis de propriedade intelectual.
Enquanto isso, Lam disse que, a menos que Meta faça algumas alterações no conjunto de dados, ele não recomenda que as pessoas o utilizem devido a erros nos dados.
“Não posso dizer que suas habilidades de tradução estejam em um nível em que as ferramentas sejam realmente úteis”, disse Lamb.
“Ainda não vou recomendar ninguém como uma ferramenta de linguagem confiável, e acho que eles diriam isso abertamente.”
Bugarin-Diz assume uma posição diferente.
Ele acredita que se ninguém usar a metatradução, “não investirão ativamente” tempo e recursos para melhorá-la.
Tal como acontece com outras ferramentas de IA, Bugarin-Diz acredita que é importante conhecer os pontos fracos da tecnologia antes de usá-la.

