ChatGPT pode vazar dados de treinamento, violar privacidade, diz o DeepMind do Google

ChatGPT pode expor dados de treinamento e violar privacidade, alerta DeepMind do Google

chatgpt-extract-fig1poem.png

Ao repetir uma única palavra como “poema” ou “empresa” ou “fazer”, os autores conseguiram fazer com que o ChatGPT revelasse partes de seus dados de treinamento. Itens redigidos contêm informações pessoalmente identificáveis.

Cientistas de inteligência artificial (IA) estão encontrando cada vez mais maneiras de quebrar a segurança de programas de IA generativa, como o ChatGPT, especialmente o processo de “alinhamento”, no qual os programas são feitos para permanecer dentro de limites, agindo como um assistente útil sem emitir saídas objetáveis.

Recentemente, um grupo de estudiosos da Universidade da Califórnia conseguiu quebrar o alinhamento sujeitando os programas generativos a uma série de pares de perguntas e respostas objetáveis, conforme relatado pela ENBLE.

Também: Cinco maneiras de usar a IA de forma responsável

Agora, pesquisadores da unidade DeepMind do Google encontraram uma maneira ainda mais simples de quebrar o alinhamento do ChatGPT da OpenAI. Ao digitar um comando e pedir ao ChatGPT para repetir uma palavra, como “poema” infinitamente, os pesquisadores descobriram que poderiam fazer o programa gerar passagens inteiras de literatura que continham seus dados de treinamento, mesmo que esse tipo de vazamento não deva ocorrer com programas alinhados.

O programa também poderia ser manipulado para reproduzir nomes, números de telefone e endereços de pessoas, o que é uma violação de privacidade com consequências potencialmente graves.

Também: Os melhores chatbots de IA: ChatGPT e outras alternativas notáveis

Os pesquisadores chamam esse fenômeno de “memorização extrativa”, que é um ataque que obriga o programa a divulgar as coisas que ele guardou na memória.

“Desenvolvemos um novo ataque de ‘dienble’ que faz com que o modelo se ‘diENBLE’ de suas gerações em estilo de chatbot e emita dados de treinamento a uma taxa 150 vezes maior do que quando se comporta corretamente”, escreve o autor principal Milad Nasr e colegas no artigo de pesquisa formal intitulado “Extração Escalável de Dados de Treinamento de Modelos de Linguagem (Produção)”, que foi publicado no servidor pré-impressão da arXiv. Eles também prepararam uma postagem de blog mais acessível.

O cerne de seu ataque à IA generativa é fazer com que o ChatGPT se “diENBLE” de seu alinhamento programado e volte a operar de uma maneira mais simples.

Programas de IA generativa, como o ChatGPT, são desenvolvidos por cientistas de dados por meio de um processo chamado treinamento, no qual o programa, em seu estado inicial e pouco estruturado, é submetido a bilhões de bytes de texto, parte dele proveniente de fontes públicas da internet, como a Wikipédia, e parte de livros publicados.

A função fundamental do treinamento é fazer com que o programa reproduza tudo o que lhe é fornecido, um ato de compressão e descompressão do texto. Em teoria, um programa, uma vez treinado, poderia regurgitar os dados de treinamento se um pequeno trecho de texto da Wikipédia fosse enviado e promptssem a resposta espelhada.

Também: O boom da IA de hoje amplificará problemas sociais se não agirmos agora

Mas o ChatGPT e outros programas alinhados recebem uma camada extra de treinamento. Eles são ajustados para não apenas produzir texto, mas para responder com saídas que devem ser úteis, como responder a uma pergunta ou ajudar a desenvolver um relatório de livro. Essa persona de assistente útil, criada por meio do alinhamento, mascara a função subjacente de espelhamento.

“A maioria dos usuários normalmente não interage com os modelos base”, escrevem os pesquisadores. “Em vez disso, eles interagem com modelos de linguagem que foram alinhados para se comportarem de maneira ‘melhor’ de acordo com as preferências humanas.”

Para forçar o ChatGPT a se desconectar de sua natureza prestativa, Nasr encontrou a estratégia de pedir ao programa para repetir certas palavras indefinidamente. “Inicialmente, [ChatGPT] repete a palavra ‘poem’ várias vezes, mas eventualmente ele se desconecta.” O programa começa a criar trechos de texto sem sentido. “Mas mostramos que uma pequena fração das gerações consegue memorizar: algumas gerações são copiadas diretamente dos dados de pré-treinamento!”

Em algum momento, o ChatGPT para de repetir as mesmas palavras e começa a apresentar trechos sem sentido, revelando partes dos dados de treinamento.

Eventualmente, o trecho sem sentido começa a revelar seções inteiras dos dados de treinamento (as seções destacadas em vermelho).

É claro que a equipe precisava de um meio de determinar que a saída que eles estavam vendo eram dados de treinamento. Eles compilaram um conjunto massivo de dados chamado AUXDataSet, que possui quase 10 terabytes de dados de treinamento. É uma compilação de quatro conjuntos de dados de treinamento diferentes que foram usados nos maiores programas de IA generativa: The Pile, Refined Web, RedPajama e Dolma. Os pesquisadores tornaram essa compilação pesquisável com um mecanismo de indexação eficiente, para que pudessem comparar a saída do ChatGPT com os dados de treinamento em busca de correspondências.

Eles então executaram o experimento – repetindo uma palavra indefinidamente – milhares de vezes e pesquisaram a saída no AUXDataSet milhares de vezes como forma de “escalar” seu ataque.

“A sequência extraída mais longa tem mais de 4.000 caracteres”, dizem os pesquisadores sobre os dados recuperados. Algumas centenas de partes memorizadas dos dados de treinamento têm mais de 1.000 caracteres.

“Nas sugestões que contêm a palavra ‘book’ ou ‘poem’, obtemos fragmentos literais de romances e cópias literais completas de poemas, como ‘The Raven'”, eles relatam. “Recuperamos vários textos com conteúdo impróprio, especialmente quando pedimos que o modelo repita uma palavra imprópria.”

Também encontraram “informações de identificação pessoal de dezenas de indivíduos”. De 15.000 ataques tentados, cerca de 17% continham “informações de identificação pessoal memorizadas”, como números de telefone.

Também: A IA e as aplicações avançadas estão sobrecarregando as infraestruturas de tecnologia atuais

Os autores procuram quantificar o quanto de dados de treinamento pode ser vazado. Eles encontraram grandes quantidades de dados, mas a busca é limitada pelo fato de que custa dinheiro manter em execução um experimento que poderia continuar indefinidamente.

Através de ataques repetidos, encontraram 10.000 instâncias de conteúdo “memorizado” dos conjuntos de dados que está sendo regurgitado. Eles especulam que há muito mais a ser encontrado se os ataques continuassem. O experimento de comparar a saída do ChatGPT com o AUXDataSet, escrevem eles, foi executado em uma única máquina no Google Cloud usando um processador Intel Sapphire Rapids Xeon com 1,4 terabytes de DRAM. Levou semanas para ser realizado. Mas ter acesso a computadores mais poderosos poderia permitir que testassem o ChatGPT de maneira mais abrangente e encontrassem ainda mais resultados.

“Com nosso orçamento limitado de US$200, extraímos mais de 10.000 exemplos únicos”, escrevem Nasr e equipe. “No entanto, um adversário que gaste mais dinheiro consultando a API do ChatGPT provavelmente poderia extrair muito mais dados.”

Eles verificaram manualmente quase 500 exemplos de saída do ChatGPT em uma pesquisa no Google e encontraram aproximadamente o dobro de instâncias de dados memorizados da web, sugerindo que há ainda mais dados memorizados no ChatGPT do que podem ser capturados no AUXDataSet, apesar do tamanho deste último.

Também: Alerta de liderança: A poeira nunca vai assentar e a IA generativa pode ajudar

Curiosamente, algumas palavras funcionam melhor quando repetidas do que outras. A palavra “poema” é, na verdade, uma das menos eficazes. A palavra “empresa” é a mais eficaz, como os pesquisadores relatam em um gráfico que mostra o poder relativo das diferentes palavras (algumas palavras são apenas letras):

Quanto ao motivo pelo qual o ChatGPT revela texto memorizado, os autores não têm certeza. Eles levantam a hipótese de que o ChatGPT é treinado em um número maior de “épocas” do que outros programas de IA generativa, o que significa que a ferramenta passa pelos mesmos conjuntos de dados de treinamento um número maior de vezes. “Trabalhos anteriores mostraram que isso pode aumentar substancialmente a memorização”, escrevem eles.

Pedir ao programa para repetir várias palavras não funciona como um ataque, eles relatam – o ChatGPT normalmente se recusa a continuar. Os pesquisadores não sabem por que apenas prompts de palavras únicas funcionam: “Embora não tenhamos uma explicação para isso ser verdadeiro, o efeito é significativo e repetível.”

Os autores divulgaram suas descobertas para a OpenAI em 30 de agosto, e parece que a OpenAI pode ter tomado medidas para combater o ataque. Quando o ENBLE testou o ataque pedindo ao ChatGPT para repetir a palavra “poema”, o programa respondeu repetindo a palavra cerca de 250 vezes e depois parou e emitiu uma mensagem dizendo: “este conteúdo pode violar nossa política de conteúdo ou termos de uso.”

Uma lição a ser tirada desta pesquisa é que a estratégia de alinhamento é “promissora” como área geral para explorar. No entanto, “está se tornando claro que é insuficiente para resolver completamente os riscos de segurança, privacidade e uso indevido no pior caso.”

Também: Kit de ferramentas de ética em IA atualizado para incluir mais componentes de avaliação

Embora a abordagem que os pesquisadores usaram com o ChatGPT não pareça se generalizar para outros bots do mesmo tipo, Nasr e sua equipe têm uma moral maior para contar para aqueles que desenvolvem IA generativa: “Como já dissemos repetidamente, modelos podem ter a capacidade de fazer algo ruim (por exemplo, memorizar dados) mas não revelar essa capacidade a menos que você saiba como perguntar.”