Como bloquear o novo rastreador da web de treinamento de IA da OpenAI de ingerir seus dados

Bloqueie o novo rastreador da web da OpenAI que treina IA para evitar o acesso aos seus dados.

O OpenAI, criador do ChatGPT, lançou um novo web crawler — chamado GPTBot — junto com instruções de como bloqueá-lo.

O ChatGPT é um dos sistemas de IA mais capazes já construídos, apesar dos recentes relatos de sua inteligência vacilante. A OpenAI, empresa por trás do chatbot de IA, continua treinando seus grandes modelos de linguagem (LLMs), como o GPT-3.5 e o GPT-4.

Também: O ChatGPT está recebendo uma série de atualizações esta semana. Veja o que você precisa saber

Web crawlers, usados por mecanismos de busca como o Google e o Bing para escanear sites e indexar conteúdo, também são usados por empresas de IA para treinar LLMs. Esses modelos aprendem a partir do conteúdo dos sites e de quaisquer outros dados escolhidos pelos desenvolvedores para treiná-los. O uso de um web crawler agiliza esse processo, permitindo que os LLMs sejam treinados em grandes quantidades de dados.

“Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e a melhorar suas capacidades gerais e segurança”, observa a OpenAI em sua documentação do GPTBot. A empresa afirma estar filtrando páginas da web que exigem acesso por paywall, coletam informações de identificação pessoal e têm texto que viola as políticas da OpenAI.

Os desenvolvedores têm a opção de bloquear o GPTBot para que ele não acesse seus sites e use suas informações para treinar sistemas de IA.

A OpenAI explica como impedir ou personalizar o acesso do GPTBot ao seu site.

Para bloquear completamente o acesso do GPTBot a um site, o proprietário do site pode adicionar o token GPTBot ao arquivo robots.txt do site e “Disallow: /”.

A OpenAI também permite que os usuários personalizem o acesso do GPTBot, permitindo que ele rastreie apenas partes específicas de seus sites. Para bloquear o acesso do GPTBot a partes de um site, adicione o GPTBot ao arquivo robots.txt do site e “Allow: /diretório-1/” e “Disallow: /diretório-2/” e personalize conforme necessário.

Também: A Nvidia aumenta seu ‘superchip’ Grace-Hopper com memória mais rápida para IA

A OpenAI não havia anunciado anteriormente o uso de web crawlers para treinar o GPT-3.5, o LLM por trás da versão gratuita do ChatGPT, ou o GPT-4, seu mais novo LLM disponível para assinantes do ChatGPT Plus e que alimenta a IA do Bing.

Embora não esteja claro se o GPTBot foi usado para treinar os LLMs atualmente disponíveis da OpenAI, ele poderia ser o web crawler que está treinando o GPT-5, especialmente porque a empresa solicitou o registro da marca em julho. Embora a OpenAI não tenha anunciado uma data de lançamento para o GPT-5, espera-se que o novo LLM seja mais poderoso e maior que o GPT-4, que é atualmente o maior LLM disponível.

Também: Os bots de IA em breve poderão se tornar seus novos agentes de atendimento ao cliente

Desde o lançamento do ChatGPT, a OpenAI tem enfrentado vários processos alegando que a ferramenta de IA está roubando dados dos usuários, incluindo um caso de violação de direitos autorais que levou a empresa a ser alvo de uma investigação da FTC. Sites como Stack Overflow, Reddit e Twitter afirmaram que planejam começar a cobrar das empresas de IA para acessar seus dados.