De acordo com a TollBit, startup de licenciamento de conteúdo, várias empresas de IA estão contornando o Protocolo de Exclusão de Robôs (robots.txt) e coletando conteúdo de sites sem permissão, informou a Reuters. A questão gerou uma disputa entre empresas de IA e editoras, com a revista Forbes acusando a Perplexity de plagiar conteúdo.
Uma carta aos editores da Tallbit obtida pela Reuters revelou que muitos agentes de IA ignoram o padrão robots.txt, que é usado para bloquear o rastreamento de partes de sites. A análise da empresa mostra um padrão generalizado de não conformidade, já que várias IAs utilizam dados para treinamento sem permissão. Em particular, a Perplexity, startup de pesquisa de IA, foi acusada pela Forbes de usar seus artigos de pesquisa em resumos gerados por IA sem a devida atribuição ou permissão. A Perplexity não comentou essas alegações.
O protocolo robots.txt foi criado em meados da década de 1990 para evitar que rastreadores da web sobrecarregassem sites. Embora não seja legalmente aplicável, parece ter sido tradicionalmente amplamente respeitado. Os editores estão usando esse protocolo para tentar bloquear o abuso de conteúdo por sistemas de IA que coletam conteúdo para treinar algoritmos e gerar resumos.
De acordo com a Reuters, “o que isso significa essencialmente é que agentes de IA de múltiplas fontes (em vez de apenas uma empresa) estão optando por ignorar o protocolo robots.txt para obter conteúdo do site. Isto é”, escreveu Tallbitt. “Quanto mais registros do editor ingerimos, mais esse padrão aparece.”
Alguns editores, incluindo o New York Times, tomaram medidas legais contra empresas de IA por violação de direitos autorais. Algumas empresas optam por negociar acordos de licenciamento. Este debate em curso destaca pontos de vista conflitantes sobre o valor e a legalidade do uso de conteúdo para treinar IA generativa. Muitos desenvolvedores de IA afirmam que o acesso gratuito ao conteúdo não viola nenhuma lei (a menos que seja conteúdo pago, é claro).
A questão está ganhando atenção à medida que os resumos de notícias gerados por IA se tornam mais comuns. Os produtos de IA do Google, que criam resumos em resposta a consultas de pesquisa, agravam ainda mais as preocupações dos editores. Para evitar que o conteúdo seja usado pela IA do Google, os editores têm usado o robots.txt para bloquear conteúdo, o que remove o conteúdo dos resultados de pesquisa e afeta a visibilidade online de Masu. Por outro lado, se a IA ignora o robots.txt, não faz sentido usá-lo para proprietários de conteúdo. e Perderei minha visibilidade online?
A TollBit também participa ativamente nesta competição de IA e conteúdo editorial, posicionando-se como intermediária entre empresas de IA e editores para ajudar a estabelecer acordos de licenciamento para uso de conteúdo. A startup rastreia o tráfego de IA para sites de editores e fornece análises para negociar preços de diferentes tipos de conteúdo, incluindo conteúdo premium. A TollBit afirma que 50 sites estavam usando seu serviço em maio, mas não os nomeia.

