Nos últimos meses, a Clavis identificou diversos casos de supostos “ataques” de negação de serviço por meio de flood de requisições, porém, ao analisá-los mais a fundo, não foi possível identificar mais evidências que caracterizariam estes eventos como atividade maliciosa. Sendo assim, iniciou-se uma análise de cenários internos e externos que poderiam estar ocasionando estas indisponibilidades.
O ataque de negação de serviço é um dos ataques mais conhecidos quando se trata de segurança da informação e pode ocorrer de diversas formas, como alto número de requisições, apagar uma tecnologia específica, desligar um servidor, entre outros. A interrupção de um serviço pode ocorrer tanto de forma maliciosa, ocasionada por algum atacante que gostaria de deixar algum produto ou serviço indisponível, ou de forma não intencional, como em casos de um colaborador sem querer desligar um servidor, ou rodar uma aplicação que causa um volume grande de requisições que o servidor não suporta, um site recebendo um pico repentino de acessos de usuários entre outros.
Com base nisso, identificamos alguns padrões de ASN das requisições realizadas nos casos analisados, sendo que a maioria dos IPs envolvidos eram pertencentes a poucas organizações como Meta, Google, entre outras. Este ponto foi associado a um número expressivo de relatos na Internet envolvendo supostos ataques de negação de serviço ocasionados por bots do tipo crawler utilizados para treinamento de inteligência artificial, proprietários de grandes empresas como Meta, Amazon, OpenAI, entre outras. O número de requisições anômalas, em muitos casos, foi tão elevado que chegaram a causar lentidão ou até mesmo indisponibilidade nos sites que os bots visitavam, o que pode acabar sendo caracterizado como um ataque de negação de serviço não intencional.
A situação seguiu sendo investigada pela Clavis e foram descobertos alguns padrões nas requisições geradas pelos crawlers, os quais utilizam user agents específicos como:
- FacebookBot;
- anthropic-ai;
- Bytespider;
- GPTBot.
Apesar desses robôs já executarem esse tipo de atividade há anos, como, por exemplo, para serviços de SEO, há muitas suspeitas que esses dados estão sendo utilizados para coletar dados expostos na Internet em massa para utilizá-los no treinamento de modelos de inteligência artificial. Embora esta atividade não seja, por si só, maliciosa, ela pode levar a uma negação de serviço, quando o número de requisições é muito elevado em um curto período, sobrecarregando, assim, os servidores. Já foram relatados diversos casos de empresas que sofreram danos ou perdas financeiras devido ao excesso de carga gerado por estes crawlers. Um empresário citou que seu site ficou fora do ar devido ao flood de requisições do GPTBot: “Cerca de 200 requisições por segundo”.
Tendo em vista estes relatos, buscamos estudar mais afundo os casos para identificar pontos de melhoria que poderiam ser aplicados aos nossos clientes, e assim mitigar ou diminuir o impacto destes crawlers. Uma das principais soluções propostas é o uso de bloqueios específicos no arquivo robots.txt, o qual pode ser utilizado para alertar aos bots que tal site não deve ser visitado. Esta é uma solução manual, pois ainda não são todos os provedores de WAF que fornecem soluções para bloquear crawlers de IA. Contudo, identificamos outros relatos, datados de junho e julho de 2024, de que esta medida não estava sendo respeitada pelos bots, ou seja, estavam burlando o robots.txt. Criado em meados dos anos 90, o Robots Exclusion Protocol foi criado justamente para prevenir a navegação de crawlers pelas páginas nele definidas, tornando-se um padrão na área de tecnologia. Este protocolo não possui, contudo, respaldo legal algum, não havendo obrigação de ser seguido. Sendo assim, foi necessário continuar estudando outras medidas de contenção que podem ser utilizadas em conjunto para mitigar o impacto.
Por se tratar de um assunto relativamente novo, essa questão ainda esbarra em princípios como legislação e ética digital no que concerne a proteção dos usuários e suas propriedades intelectuais: apesar de a informação estar publicamente disponível na Internet, isto dá a empresas de Inteligência Artificial o direito de abusar de seus servidores, coletando indiscriminadamente seu conteúdo para treinamento de modelos que serão usados para fins privados? Situações como esta já foram levadas a tribunais, como no caso de processos movidos por jornais norte-americanos contra a OpenAI e Microsoft. Os requerentes afirmam que estas empresas de tecnologia vêm usando material proprietário para treinar seus modelos sem a devida permissão, acusando-as de violação de direitos autorais e plágio. Os requeridos, por sua vez, afirmam ter o direito de utilizar esses materiais, mesmo que protegido por direitos autorais, para fins educacionais, de pesquisa ou para comentários.
Analisamos os casos individualmente para identificar pontos em comum que poderiam ser bloqueados de forma simples, mas até o momento não foi identificada uma medida de contenção geral a ser utilizada. Do ponto de vista da segurança da informação, é importante ressaltar que não se tratam especificamente de ataques, mas sim de bots buscando dados expostos na Internet para utilizar no treinamento dos seus modelos de linguagem, sem preocupação quanto à sobrecarga que podem estar acarretando aos websites acessados.
O que fazer para evitar que meu site seja bombardeado por estas requisições?
Mesmo que não se possa garantir o bloqueio de todos os bots, mas a maioria, recomendamos adicionar, seja manualmente ou de forma automatizada, no seu robots.txt o bloqueio de todos os user-agents conhecidos utilizados por IA, conforme a lista a seguir:
- User-agent: AI2Bot
- User-agent: Ai2Bot-Dolma
- User-agent: Amazonbot
- User-agent: anthropic-ai
- User-agent: Applebot
- User-agent: Applebot-Extended
- User-agent: Bytespider
- User-agent: CCBot
- User-agent: ChatGPT-User
- User-agent: Claude-Web
- User-agent: ClaudeBot
- User-agent: cohere-ai
- User-agent: cohere-training-data-crawler
- User-agent: Crawlspace
- User-agent: Diffbot
- User-agent: DuckAssistBot
- User-agent: FacebookBot
- User-agent: FriendlyCrawler
- User-agent: Google-Extended
- User-agent: GoogleOther
- User-agent: GoogleOther-Image
- User-agent: GoogleOther-Video
- User-agent: GPTBot
- User-agent: iaskspider/2.0
- User-agent: ICC-Crawler
- User-agent: ImagesiftBot
- User-agent: img2dataset
- User-agent: ISSCyberRiskCrawler
- User-agent: Kangaroo Bot
- User-agent: Meta-ExternalAgent
- User-agent: Meta-ExternalFetcher
- User-agent: OAI-SearchBot
- User-agent: omgili
- User-agent: omgilibot
- User-agent: PanguBot
- User-agent: PerplexityBot
- User-agent: PetalBot
- User-agent: Scrapy
- User-agent: SemrushBot
- User-agent: Sidetrade indexer bot
- User-agent: Timpibot
- User-agent: VelenPublicWebCrawler
- User-agent: Webzio-Extended
- User-agent: YouBot
Sempre irão surgir novos user-agents, dessa forma recomendamos sempre manter o arquivo atualizado. Identificamos diversas ferramentas proprietárias utilizadas para bloquear os acessos realizados por bots de IA numa tentativa de diminuir o número de requisições realizadas por eles, como novas soluções desenvolvidas pela Cloudflare e Akamai, as quais apresentam contenções mais robustas como prova de humanidade (CAPTCHA). Além disso, existe o plugin para WordPress DarkVisitors, o qual atualiza automaticamente o robots.txt com os principais user agents utilizados por bots de IA.





