Ir para o conteúdo
logo
  • PLATAFORMA

    SOC

    Inteligência focada em segurança da informação.

    Clavis SIEM

    Gerenciamento de eventos e informações de segurança.

    Gerenciamento da Superficie de Ataque

    Reduza pontos vulneráveis e proteja seus sistemas.

    Gestão de Vulnerabilidade

    Identifique e corrija vulnerabilidades antes de serem exploradas.

    Conheça mais sobre a plataforma

    Otimize sua gestão de segurança com uma plataforma unificada, projetada para acabar com a dispersão de informações.

  • SERVIÇOS

    Teste de invasão (Pentest)

    Vulnerabilidades em suas redes, sistemas e aplicações.

    Resposta a incidentes e computação forense

    Perícia forense computacional.

    Desenvolvimento seguro de software

    Avalie a segurança de aplicações ao longo de todo o ciclo de vida.

    Inteligência contra ameaças cibernéticas

    Identifique ameaças avançadas com uso de Inteligência.

    MSS

    Proteção de ativos, sistemas e informações.

    Conscientização, comportamento e cultura

    Programas de Treinamento sob medida para a sua organização.

    Cloud security

    Segurança na nuvem para empresas.

    Governança, risco e compliance

    Mantenha a conformidade do seu negócio.

    ISO/IEC 27001
    Norma BACEN
    PCI DSS
    Adequação à LGPD
    Avaliação de conformidade
  • CONTEÚDOS

    E-books

    Para explorar o conhecimento.

    Webinars

    Para ampliar o conhecimento.

    Livros

    Livros publicados pela Clavis Segurança da Informação.

    SeginfoCast

    Novidades sobre Segurança da Informação.

    Portal Seginfo

    Novidades sobre Segurança da Informação.

    Acesse o nosso Blog

    Fique por dentro das novidades do mundo da Segurança.

  • ACADEMIA
  • A CLAVIS

    Empresa Estratégica de Defesa

    Clavis na Mídia

    Parceiros

    Trabalhe Conosco

    Contato

    Sobre a Clavis

    Somos uma empresa atuante na área de Segurança da Informação há quase 20 anos. Oferecemos um portfólio completo de serviços e soluções para segurança.

FALAR COM ESPECIALISTA
Início » Uso de bots para treinamento de IA tem causado indisponibilidade em servidores

Uso de bots para treinamento de IA tem causado indisponibilidade em servidores

  • fevereiro 18, 2025
  • Artigo
Compartilhe

Sumário

Nos últimos meses, a Clavis identificou diversos casos de supostos “ataques” de negação de serviço por meio de flood de requisições, porém, ao analisá-los mais a fundo, não foi possível identificar mais evidências que caracterizariam estes eventos como atividade maliciosa. Sendo assim, iniciou-se uma análise de cenários internos e externos que poderiam estar ocasionando estas indisponibilidades.

O ataque de negação de serviço é um dos ataques mais conhecidos quando se trata de segurança da informação e pode ocorrer de diversas formas, como alto número de requisições, apagar uma tecnologia específica, desligar um servidor, entre outros. A interrupção de um serviço pode ocorrer tanto de forma maliciosa, ocasionada por algum atacante que gostaria de deixar algum produto ou serviço indisponível, ou de forma não intencional, como em casos de um colaborador sem querer desligar um servidor, ou rodar uma aplicação que causa um volume grande de requisições que o servidor não suporta, um site recebendo um pico repentino de acessos de usuários entre outros.

Com base nisso, identificamos alguns padrões de ASN das requisições realizadas nos casos analisados, sendo que a maioria dos IPs envolvidos eram pertencentes a poucas organizações como Meta, Google, entre outras. Este ponto foi associado a um número expressivo de relatos na Internet envolvendo supostos ataques de negação de serviço ocasionados por bots do tipo crawler utilizados para treinamento de inteligência artificial, proprietários de grandes empresas como Meta, Amazon, OpenAI, entre outras. O número de requisições anômalas, em muitos casos, foi tão elevado que chegaram a causar lentidão ou até mesmo indisponibilidade nos sites que os bots visitavam, o que pode acabar sendo caracterizado como um ataque de negação de serviço não intencional.

A situação seguiu sendo investigada pela Clavis e foram descobertos alguns padrões nas requisições geradas pelos crawlers, os quais utilizam user agents específicos como:

  • FacebookBot;
  • anthropic-ai;
  • Bytespider;
  • GPTBot.

Apesar desses robôs já executarem esse tipo de atividade há anos, como, por exemplo, para serviços de SEO, há muitas suspeitas que esses dados estão sendo utilizados para coletar dados expostos na Internet em massa para utilizá-los no treinamento de modelos de inteligência artificial. Embora esta atividade não seja, por si só, maliciosa, ela pode levar a uma negação de serviço, quando o número de requisições é muito elevado em um curto período, sobrecarregando, assim, os servidores. Já foram relatados diversos casos de empresas que sofreram danos ou perdas financeiras devido ao excesso de carga gerado por estes crawlers. Um empresário citou que seu site ficou fora do ar devido ao flood de requisições do GPTBot: “Cerca de 200 requisições por segundo”.

Tendo em vista estes relatos, buscamos estudar mais afundo os casos para identificar pontos de melhoria que poderiam ser aplicados aos nossos clientes, e assim mitigar ou diminuir o impacto destes crawlers. Uma das principais soluções propostas é o uso de bloqueios específicos no arquivo robots.txt, o qual pode ser utilizado para alertar aos bots que tal site não deve ser visitado. Esta é uma solução manual, pois ainda não são todos os provedores de WAF que fornecem soluções para bloquear crawlers de IA. Contudo, identificamos outros relatos, datados de junho e julho de 2024, de que esta medida não estava sendo respeitada pelos bots, ou seja, estavam burlando o robots.txt. Criado em meados dos anos 90, o Robots Exclusion Protocol foi criado justamente para prevenir a navegação de crawlers pelas páginas nele definidas, tornando-se um padrão na área de tecnologia. Este protocolo não possui, contudo, respaldo legal algum, não havendo obrigação de ser seguido. Sendo assim, foi necessário continuar estudando outras medidas de contenção que podem ser utilizadas em conjunto para mitigar o impacto.

Por se tratar de um assunto relativamente novo, essa questão ainda esbarra em princípios como legislação e ética digital no que concerne a proteção dos usuários e suas propriedades intelectuais: apesar de a informação estar publicamente disponível na Internet, isto dá a empresas de Inteligência Artificial o direito de abusar de seus servidores, coletando indiscriminadamente seu conteúdo para treinamento de modelos que serão usados para fins privados? Situações como esta já foram levadas a tribunais, como no caso de processos movidos por jornais norte-americanos contra a OpenAI e Microsoft. Os requerentes afirmam que estas empresas de tecnologia vêm usando material proprietário para treinar seus modelos sem a devida permissão, acusando-as de violação de direitos autorais e plágio. Os requeridos, por sua vez, afirmam ter o direito de utilizar esses materiais, mesmo que protegido por direitos autorais, para fins educacionais, de pesquisa ou para comentários.

Analisamos os casos individualmente para identificar pontos em comum que poderiam ser bloqueados de forma simples, mas até o momento não foi identificada uma medida de contenção geral a ser utilizada. Do ponto de vista da segurança da informação, é importante ressaltar que não se tratam especificamente de ataques, mas sim de bots buscando dados expostos na Internet para utilizar no treinamento dos seus modelos de linguagem, sem preocupação quanto à sobrecarga que podem estar acarretando aos websites acessados.

O que fazer para evitar que meu site seja bombardeado por estas requisições?

Mesmo que não se possa garantir o bloqueio de todos os bots, mas a maioria, recomendamos adicionar, seja manualmente ou de forma automatizada, no seu robots.txt o bloqueio de todos os user-agents conhecidos utilizados por IA, conforme a lista a seguir:

  • User-agent: AI2Bot
  • User-agent: Ai2Bot-Dolma
  • User-agent: Amazonbot
  • User-agent: anthropic-ai
  • User-agent: Applebot
  • User-agent: Applebot-Extended
  • User-agent: Bytespider
  • User-agent: CCBot
  • User-agent: ChatGPT-User
  • User-agent: Claude-Web
  • User-agent: ClaudeBot
  • User-agent: cohere-ai
  • User-agent: cohere-training-data-crawler
  • User-agent: Crawlspace
  • User-agent: Diffbot
  • User-agent: DuckAssistBot
  • User-agent: FacebookBot
  • User-agent: FriendlyCrawler
  • User-agent: Google-Extended
  • User-agent: GoogleOther
  • User-agent: GoogleOther-Image
  • User-agent: GoogleOther-Video
  • User-agent: GPTBot
  • User-agent: iaskspider/2.0
  • User-agent: ICC-Crawler
  • User-agent: ImagesiftBot
  • User-agent: img2dataset
  • User-agent: ISSCyberRiskCrawler
  • User-agent: Kangaroo Bot
  • User-agent: Meta-ExternalAgent
  • User-agent: Meta-ExternalFetcher
  • User-agent: OAI-SearchBot
  • User-agent: omgili
  • User-agent: omgilibot
  • User-agent: PanguBot
  • User-agent: PerplexityBot
  • User-agent: PetalBot
  • User-agent: Scrapy
  • User-agent: SemrushBot
  • User-agent: Sidetrade indexer bot
  • User-agent: Timpibot
  • User-agent: VelenPublicWebCrawler
  • User-agent: Webzio-Extended
  • User-agent: YouBot

Sempre irão surgir novos user-agents, dessa forma recomendamos sempre manter o arquivo atualizado. Identificamos diversas ferramentas proprietárias utilizadas para bloquear os acessos realizados por bots de IA numa tentativa de diminuir o número de requisições realizadas por eles, como novas soluções desenvolvidas pela Cloudflare e Akamai, as quais apresentam contenções mais robustas como prova de humanidade (CAPTCHA). Além disso, existe o plugin para WordPress DarkVisitors, o qual atualiza automaticamente o robots.txt com os principais user agents utilizados por bots de IA.

Compartilhe

Sumário

Leia também...

O papel do encarregado (DPO) em incidentes de violação de dados: da triagem à notificação

Ler Mais

Técnicas de OSINT e elicitação em pesquisa digital: extraindo dados ocultos em investigações

Ler Mais

CIS Controls x ISO 27001 x Normas do Bacen: o que ainda falta para estar em conformidade?

Ler Mais

SOMOS ESPECIALISTAS EM SEGURANÇA

Trabalhamos por um mundo digital mais seguro

Fale com nossos Especialistas

Leia também

O papel do encarregado (DPO) em incidentes de violação de dados: da triagem à notificação

2 de março de 2026
Leia mais >

Técnicas de OSINT e elicitação em pesquisa digital: extraindo dados ocultos em investigações

26 de fevereiro de 2026
Leia mais >

CIS Controls x ISO 27001 x Normas do Bacen: o que ainda falta para estar em conformidade?

23 de fevereiro de 2026
Leia mais >

Somos especialistas em segurança

Trabalhamos por um mundo digital mais seguro

Fale com um especialista
Início » Uso de bots para treinamento de IA tem causado indisponibilidade em servidores

Praia do Flamengo, 66, Sala 1607, Bloco B
Flamengo – Rio de Janeiro/ RJ
Rio de Janeiro – RJ – Brasil – CEP 22210-030

Rua Aloísio Teixeira, 278 – Prédio 3 – Sala 307
Parque Tecnológico da UFRJ
Ilha do Fundão – Cidade Universitária
Rio de Janeiro – RJ – Brasil – CEP 21941-850

+55 4020-1702
+55 (21) 2210-6061 | +55 (21) 2561-0867
Horário de atendimento de 8h às 17h

Soluções

Centro de Operações de Segurança (SOC)

Clavis SIEM

Gestão de Vulnerabilidades

Plataforma

Serviços

Pentest

Perícia Forense Computacional

Desenvolvimento Seguro de Software

Inteligência contra ameaças cibernéticas

Treinamento e conscientização em Segurança

Gap Analysis

Consultoria ISO 27001 e 27002

Norma BACEN

PCI DSS

Adequação á LGPD

MSS

Conteúdos

Portal SegInfo

SegInfoCast

Materiais para Downloads

Blog

Livros

Política de Privacidade

Newsletter Segurança da Informação

Descubra mais sobre Clavis Segurança da Informação

Assine agora mesmo para continuar lendo e ter acesso ao arquivo completo.

Continue reading

SOC

Clavis SIEM

Superfície de ataques

Gestão de Vulnerabilidade

Conheça mais sobre a plataforma

Teste de Invasão (Pentest)

Inteligência contra Ameaças Cibernéticas

Resposta a Incidentes e Computação Forense

Treinamento e Conscientização em Segurança

Desenvolvimento Seguro de Software

Cloud Security

Governança, Risco e Compliance

MSS

ISO/EC 27002 e 27002
Norma BACEN
PCI DSS
Adequação à LGPD
Avaliação de Conformidade

E-books

Webinars

Livros

SeginfoCast

Portal Seginfo

Acesse o nosso Blog

Certificações Clavis

Certificações Internacionais

Combos

Dúvidas Frequentes

Empresa Estratégica de Defesa

Clavis na Mídia

Parceiros

Trabalhe Conosco

Contato

Sobre a Clavis