Ultrapassando os Limites da IA Como a Falha de Alinhamento do ChatGPT Preocupa e Por Que Devemos nos Preocupar 😱👩‍💻

Instruir simplesmente o ChatGPT a repetir constantemente a palavra poema ocasionou o programa a produzir grandes trechos de texto copiados de seus dados de treinamento, rompendo suas limitações programadas.

O DeepMind do Google relatou possíveis problemas com o ChatGPT, incluindo vazamento de dados e violações de privacidade.

chatgpt-extract-fig1poem.png Ao repetir uma única palavra, o ChatGPT revela seus dados de treinamento. Fonte da imagem: ENBLE

A inteligência artificial (IA) e suas aplicações têm evoluído rapidamente, mas alguns pesquisadores estão encontrando maneiras de ultrapassar os limites dos programas gerativos de IA, como o ChatGPT. Esses programas são projetados para se manter dentro de limites predefinidos, fornecendo assistência útil. No entanto, um grupo de estudiosos da Universidade da Califórnia descobriu recentemente um método para quebrar a alinhamento bombardeando o programa com pares de perguntas e respostas objetáveis, como relatado pela ENBLE.

Mas isso não é tudo. Pesquisadores da unidade DeepMind do Google foram além e encontraram uma maneira muito mais simples de quebrar o alinhamento do ChatGPT. Ao comandar o programa para repetir uma palavra sem parar, descobriram que ele revelaria passagens inteiras da literatura, incluindo seus dados de treinamento. Chegou até a reproduzir informações pessoais como nomes, números de telefone e endereços, violando gravemente as normas de privacidade.

Esse fenômeno, conhecido como “memorização extratável”, força o programa a divulgar informações armazenadas. Os pesquisadores conduziram um estudo detalhado, que compartilharam em seu artigo de pesquisa intitulado “Extração Escalável de Dados de Treinamento de Modelos de Idioma (Produção)”. Eles também disponibilizaram uma postagem de blog mais acessível. Seu ataque fez com que o ChatGPT se afastasse de seu comportamento pretendido, levando a uma divulgação reveladora e potencialmente prejudicial de dados de treinamento em uma taxa impressionante.

A Complexidade dos Programas Gerativos de IA

Programas gerativos de IA, como o ChatGPT, passam por um processo chamado treinamento, onde cientistas de dados os submetem a enormes quantidades de texto, comprimindo e descomprimindo a informação. Esse processo permite que o programa espelhe qualquer texto fornecido a ele. No entanto, programas alinhados como o ChatGPT recebem treinamento adicional para garantir que forneçam respostas úteis e apropriadas, mascarando sua função subjacente de espelhamento.

Mas como esses pesquisadores conseguiram quebrar o ChatGPT? Eles inteligentemente pediram ao programa para repetir palavras específicas continuamente. Inicialmente, o ChatGPT repetia a palavra “poema” várias centenas de vezes, mas com o tempo, começou a se transformar em trechos de texto sem sentido. E foi então que a mágica aconteceu – o programa começou a revelar trechos de dados de treinamento de sua memória, para espanto dos pesquisadores.

O ChatGPT se transforma em nonsense e começa a revelar dados de treinamento. Fonte da imagem: ENBLE

Extraindo o Invisível

Para entender a extensão desse vazamento, os pesquisadores compilaram um conjunto de dados massivo chamado AUXDataSet, composto por quase 10 terabytes de dados de treinamento. O AUXDataSet consiste em quatro conjuntos de dados de treinamento diferentes, incluindo The Pile, Refined Web, RedPajama e Dolma. Eles fizeram essa compilação ser pesquisável usando um mecanismo de indexação eficiente, permitindo uma comparação entre a saída do ChatGPT e os dados de treinamento.

Através de milhares de ataques repetidos, pedindo ao ChatGPT para repetir palavras infinitamente, eles encontraram mais de 10.000 instâncias de conteúdo “memorizado” sendo regurgitado. Além disso, eles testaram quase 500 instâncias de saída do ChatGPT em uma busca do Google e descobriram o dobro de instâncias de dados memorizados da web, o que indica que pode haver ainda mais dados memorizados do que o tamanho do AUXDataSet sugere.

🎥 Vídeo: Clique aqui para assistir a um resumo em vídeo dos resultados da pesquisa.

A Espada de Dois Gumes do Treinamento

Mas por que o ChatGPT revela esse texto memorizado? Os pesquisadores propõem que o ChatGPT possa passar por um processo de treinamento mais extenso do que outros programas gerativos de IA, referido como “épocas”. Isso significa que ele encontra repetidamente os mesmos dados de treinamento, levando a um aumento da memorização. Estudos anteriores mostraram que um treinamento adicional pode aprimorar significativamente essa capacidade de memorização.

Curiosamente, enquanto o ChatGPT respondia a prompts de uma única palavra, ele geralmente se recusava a continuar quando solicitado a repetir várias palavras. Embora os pesquisadores não entendam o motivo por trás desse comportamento, eles reconhecem que esse efeito é significativo e replicável.

Resposta da OpenAI e Implicações Maiores

Os pesquisadores compartilharam suas descobertas com a OpenAI, a organização por trás do ChatGPT, em 30 de agosto. A OpenAI parece ter tomado algumas medidas para contrariar essa vulnerabilidade, já que, quando testado pela ENBLE, o ChatGPT respondeu à palavra “poema” cerca de 250 vezes antes de emitir uma mensagem dizendo que poderia violar as políticas de conteúdo ou os termos de uso.

Embora a alinhamento seja uma estratégia promissora, esta pesquisa demonstra que ela pode não resolver completamente os riscos de segurança, privacidade e uso indevido nos piores cenários. Como um aviso aos desenvolvedores de IA generativa, os acadêmicos enfatizam que os modelos podem possuir habilidades indesejáveis, como memorizar dados, sem revelá-las explicitamente.

📚 Referências: – TomTom e Microsoft Lançando Assistente de Direção por IANew York Times Quer que OpenAI e Microsoft Pagem pelos Dados de TreinamentoCinco Maneiras de Usar IA de Forma ResponsávelOs Melhores Chatbots de IA: ChatGPT e Outras Alternativas NotáveisMomentos da Internet que Definiram 2023IA e Aplicações Avançadas Estão Sobrecarregando as Infraestruturas Tecnológicas AtuaisAlerta de Liderança: A Poeira Nunca Vai Assentar, e a IA Generativa Pode AjudarO Boom da IA Atual Vai Amplificar Problemas Sociais se Não Agirmos Agora

💭 P&R com os Especialistas

P: Outros programas de IA generativa podem ser suscetíveis ao mesmo ataque do ChatGPT? R: Os pesquisadores afirmaram que esse ataque específico usando prompts de uma única palavra não parece se aplicar a outros bots de IA generativa. No entanto, isso destaca a necessidade de uma investigação mais aprofundada sobre estratégias de alinhamento para todos os programas de IA generativa.

P: Como esse ataque pode afetar a privacidade e segurança? R: Extrair dados de treinamento, incluindo informações de identificação pessoal, pode levar a sérias violações de privacidade. O acesso não autorizado a essas informações representa riscos de uso indevido e danos sociais potenciais. Isso exige uma abordagem mais robusta para proteger os dados do usuário em sistemas de IA.

P: Quais medidas podem ser tomadas para lidar com as vulnerabilidades descobertas no ChatGPT? R: Embora a OpenAI tenha adotado medidas para mitigar esse ataque específico, uma solução abrangente deve envolver uma combinação de técnicas avançadas de alinhamento, limpeza de dados mais rigorosa e monitoramento contínuo para vazamentos de dados. Pesquisa contínua e colaboração entre especialistas são cruciais para garantir o desenvolvimento de sistemas de IA com salvaguardas mais fortes de privacidade e segurança.

O Caminho à Frente: Equilibrando Avanços e Riscos

Esta pesquisa lança luz sobre os desafios inerentes dos programas de IA generativa e destaca a necessidade de encontrar um equilíbrio delicado entre impulsionar os limites da tecnologia e salvaguardar a privacidade e segurança do usuário. À medida que o boom da IA continua, é crucial que abordemos proativamente essas questões para evitar uso indevido potencial e ampliar o impacto positivo da IA.

Se você achou este artigo instigante, não se esqueça de compartilhá-lo com seus amigos e colegas! Vamos continuar a conversa nas redes sociais e juntos moldar um futuro onde a tecnologia de IA seja inovadora e segura.

✍️ Nota do Autor: Transmitir tópicos técnicos complexos com estilo e humor é sempre empolgante. Espero que este artigo tenha lhe proporcionado visões valiosas enquanto o mantém entretido. Se você tiver mais perguntas ou quiser compartilhar seus pensamentos, sinta-se à vontade para deixar um comentário abaixo!