A OpenAI lança o GPTBot, um webcrawler, e instruções sobre como bloqueá-lo.

OpenAI launches GPTBot, a webcrawler, and instructions on how to block it.

A OpenAI lançou um rastreador da web para melhorar modelos de inteligência artificial como o GPT-4.

Chamado de GPTBot, o sistema percorre a internet para treinar e aprimorar as capacidades da IA. O uso do GPTBot tem o potencial de melhorar os modelos de IA existentes em aspectos como precisão e segurança, de acordo com uma postagem no blog da OpenAI.

“As páginas da web rastreadas com o agente do usuário GPTBot podem ser potencialmente usadas para melhorar modelos futuros e são filtradas para remover fontes que exigem acesso por paywall, são conhecidas por coletar informações de identificação pessoal (PII) ou têm texto que viola nossas políticas”, diz a postagem.

Os sites podem optar por restringir o acesso ao rastreador da web e impedir que o GPTBot acesse seus sites, parcialmente ou totalmente. A OpenAI afirmou que os operadores de sites podem impedir o acesso do rastreador bloqueando seu endereço IP ou usando o arquivo Robots.txt do site.

Anteriormente, a OpenAI enfrentou problemas por causa da maneira como coleta dados e por coisas como violação de direitos autorais e violações de privacidade. Em junho passado, a plataforma de IA foi processada por “roubar” dados pessoais para treinar o ChatGPT.

Suas funções de exclusão recentemente foram implementadas, com recursos como desabilitar o histórico de bate-papo permitindo que os usuários tenham mais controle sobre quais dados pessoais podem ser acessados.

O ChatGPT 3.5 e 4 foram treinados com dados online e textos até setembro de 2021. Atualmente, não há como remover conteúdo desse conjunto de dados.

Como evitar que o GPTBot use o conteúdo do seu site

De acordo com a OpenAI, você pode impedir o GPTBot adicionando-o ao arquivo Robots.txt do seu site, que é essencialmente um arquivo de texto que instrui os rastreadores da web sobre o que eles podem ou não podem acessar em um site.

Você também pode personalizar quais partes um rastreador da web pode usar, permitindo certas páginas e impedindo outras.