teia de aranha
Nesta era em que a inteligência artificial está mudando o cenário digital, um novo desafio para os proprietários de sites são os bots de IA que coletam conteúdo sem permissão. Para resolver essa preocupação crescente, a Cloudflare introduziu a capacidade dos clientes bloquearem bots de IA com um clique.
Os bots de IA, também conhecidos como crawlers ou scrapers de IA, são programas automatizados projetados para navegar sistematicamente na Internet e coletar grandes quantidades de dados. Ao contrário dos rastreadores da web tradicionais que os mecanismos de pesquisa usam para indexar conteúdo, os bots de IA geralmente extraem informações para treinar grandes modelos de linguagem ou potencializar aplicativos baseados em IA. Os rastreadores de mecanismos de pesquisa geralmente seguem protocolos estabelecidos, como respeitar arquivos robots.txt e identificar-se claramente, mas alguns bots de IA podem não seguir esses tribunais.
A ascensão da IA generativa aumentou drasticamente a demanda por dados de treinamento, tornando o conteúdo original da web mais valioso do que nunca. Isto levantou preocupações sobre o uso não autorizado de material protegido por direitos autorais, informações pessoais e propriedade intelectual. Casos de destaque destacam essas questões, incluindo o Google supostamente pagando US$ 60 milhões por ano para licenciar conteúdo gerado por usuários no Reddit e alegações de que empresas de IA estão usando vozes de celebridades sem permissão.
Reconhecendo a necessidade crescente de controlar melhor o acesso aos bots de IA, a Cloudflare lançou um novo recurso que permite aos clientes bloquear todos os bots de IA com um clique. Esta opção está disponível para todos os usuários da Cloudflare, incluindo usuários do nível gratuito. Para ativar essa proteção, os clientes simplesmente acessam a seção de segurança do painel da Cloudflare e alternam a opção “AI scrapers and crawlers”.
Esse recurso foi projetado para ser dinâmico e o Cloudflare o atualiza continuamente para abordar novas impressões digitais de bots agressivos identificados que estão explorando amplamente a web para treinamento de modelo. A Cloudflare pode detectar e responder rapidamente às atividades emergentes de bots de IA, aproveitando sua vasta rede, que processa uma média de 57 milhões de solicitações por segundo.
A análise da Cloudflare sobre o tráfego de bots de IA em sua rede revelou alguns insights interessantes.
1. Os bots de IA mais ativos em termos de volume de solicitações são Bytespider, Amazonbot, ClaudeBot e GPTBot.
2. Bytespider, operado pela ByteDance (empresa controladora do TikTok), lidera tanto em volume de solicitações quanto em escopo de rastreamento de propriedades na Internet.
3. O GPTBot, gerenciado pela OpenAI, ocupa o segundo lugar em atividade de rastreamento e frequência de bloqueio pelos proprietários de sites.
4. Os bots de IA usam a Cloudflare para acessar 39% das 1 milhão de principais propriedades da Internet, mas quais dessas propriedades bloqueiam ou desafiam ativamente as solicitações de bots de IA?
5. Sites mais populares têm maior probabilidade de serem alvo de bots de IA e, consequentemente, maior probabilidade de implementar medidas de bloqueio.
Um dos desafios no gerenciamento do tráfego de bots de IA é que alguns operadores tentam usar agentes de usuário falsificados para disfarçar seus bots como navegadores legítimos. A Cloudflare desenvolveu modelos avançados de aprendizado de máquina para identificar essas atividades fraudulentas. O sistema global de pontuação de bots da empresa pode sinalizar com precisão o tráfego de bots evasivos de IA, mesmo ao mudar de agente de usuário ou empregar outras técnicas de ofuscação.
A abordagem da Cloudflare aproveita modelos globais de aprendizado de máquina e agrega dados de diversas métricas para compreender a confiabilidade de diversas impressões digitais de bots. Isso permite que você detecte novas ferramentas e comportamentos de scraping sem precisar imprimir manualmente cada bot, garantindo que seus clientes estejam protegidos contra a última onda de atividades de bot.
Ao fornecer esse recurso de bloqueio fácil de usar, a Cloudflare visa ajudar os proprietários de sites a manter o controle sobre seu conteúdo e decidir como ele pode ser usado em treinamentos e aplicações de IA. Esta medida também envia uma mensagem clara às empresas de IA sobre a importância de respeitar os direitos dos criadores de conteúdos e de obter as permissões adequadas para utilizar os seus dados.
A Cloudflare também introduziu um mecanismo para os usuários relatarem rastreadores de IA com mau comportamento. Os clientes do Enterprise Bot Management podem enviar relatórios de feedback falso negativo por meio do Bot Analytics. Todos os clientes da Cloudflare também podem usar uma ferramenta de relatórios dedicada para sinalizar bots de IA que estão explorando sites sem permissão.
À medida que a tecnologia de IA continua a evoluir, a Cloudflare espera que algumas empresas de IA continuem a adaptar seus métodos para evitar a detecção. Em resposta, a Cloudflare está comprometida em atualizar continuamente as regras de seus raspadores e rastreadores de IA e em melhorar seus modelos de aprendizado de máquina. O seu objetivo é garantir que a Internet continue a ser um local onde os criadores de conteúdos possam ter sucesso e ter controlo total sobre a forma como o seu trabalho é utilizado na formação e nas aplicações de IA.
Esta iniciativa da Cloudflare representa um passo importante na conversa contínua sobre ética em IA, direitos de dados e o futuro da criação de conteúdo na era digital. Ao fornecer ferramentas para gerenciar o acesso a bots de IA, a Cloudflare ajuda a criar relacionamentos mais transparentes e consensuais entre criadores de conteúdo e desenvolvedores de IA, resultando em práticas mais responsáveis e éticas.

