Um Novo Truque Usa a Inteligência Artificial para Fazer Jailbreak em Modelos de IA – Incluindo o GPT-4

Nova técnica usa Inteligência Artificial para realizar jailbreak em modelos IA - Incluindo o GPT-4

Quando o conselho da OpenAI demitiu repentinamente o CEO da empresa no mês passado, isso gerou especulações de que os membros do conselho estavam abalados pelo ritmo acelerado do progresso em inteligência artificial e pelos possíveis riscos de buscar a comercialização da tecnologia muito rapidamente. Robust Intelligence, uma startup fundada em 2020 para desenvolver maneiras de proteger os sistemas de IA contra ataques, afirma que alguns riscos existentes precisam de mais atenção.

Trabalhando com pesquisadores da Yale University, a Robust Intelligence desenvolveu uma maneira sistemática de explorar os grandes modelos de linguagem (LLMs), incluindo o valorizado GPT-4 da OpenAI, utilizando modelos de IA “adversários” para descobrir “prompts de jailbreak” que fazem com que os modelos de linguagem se comportem de maneira incorreta.

Enquanto o drama na OpenAI estava se desenrolando, os pesquisadores alertaram a OpenAI sobre a vulnerabilidade. Eles afirmam que ainda não receberam uma resposta.

“Isso indica que há um problema sistemático de segurança, que não está sendo abordado e não está sendo tratado”, diz Yaron Singer, CEO da Robust Intelligence e professor de ciência da computação na Harvard University. “O que descobrimos aqui é uma abordagem sistemática para atacar qualquer grande modelo de linguagem.”

O porta-voz da OpenAI, Niko Felix, diz que a empresa está “grata” aos pesquisadores por compartilharem suas descobertas. “Estamos sempre trabalhando para tornar nossos modelos mais seguros e robustos contra ataques adversários, ao mesmo tempo em que mantemos sua utilidade e desempenho”, diz Felix.

O novo jailbreak envolve o uso de sistemas de IA adicionais para gerar e avaliar prompts conforme o sistema tenta fazer o jailbreak funcionar enviando solicitações para uma API. O truque é apenas o mais recente em uma série de ataques que parecem destacar vulnerabilidades fundamentais em grandes modelos de linguagem e sugerir que os métodos existentes para protegê-los estão muito aquém.

“Estou definitivamente preocupado com a aparente facilidade com que podemos quebrar esses modelos”, diz Zico Kolter, professor da Carnegie Mellon University, cujo grupo de pesquisa demonstrou uma vulnerabilidade grave em grandes modelos de linguagem em agosto.

Kolter diz que alguns modelos agora têm salvaguardas que podem bloquear certos ataques, mas acrescenta que as vulnerabilidades são inerentes à forma como esses modelos funcionam e, portanto, são difíceis de defender. “Acho que precisamos entender que esse tipo de quebra é inerente a muitos LLMs”, diz Kolter, “e não temos uma maneira clara e bem estabelecida de evitá-las”.

Os grandes modelos de linguagem surgiram recentemente como uma nova e poderosa tecnologia transformadora. Seu potencial se tornou notícia de destaque à medida que pessoas comuns ficaram maravilhadas com as capacidades do ChatGPT da OpenAI, lançado há apenas um ano.

Nos meses seguintes ao lançamento do ChatGPT, descobrir novos métodos de jailbreak se tornou um passatempo popular para usuários travessos, bem como para quem está interessado na segurança e confiabilidade de sistemas de IA. Mas dezenas de startups estão agora construindo protótipos e produtos completos com base em APIs de grandes modelos de linguagem. A OpenAI afirmou em sua primeira conferência para desenvolvedores em novembro que mais de 2 milhões de desenvolvedores estão usando suas APIs.

Esses modelos simplesmente preveem o texto que deve seguir uma determinada entrada, mas são treinados em grandes quantidades de texto, da web e de outras fontes digitais, usando enormes números de chips de computador, ao longo de várias semanas ou até meses. Com dados e treinamento suficientes, os modelos de linguagem exibem habilidades de previsão semelhantes a um savant, respondendo a uma extraordinária variedade de entradas com informações coerentes e pertinentes.

Os modelos também apresentam vieses aprendidos a partir de seus dados de treinamento e tendem a fabricar informações quando a resposta a uma solicitação é menos direta. Sem salvaguardas, eles podem oferecer conselhos às pessoas sobre como obter drogas ou fabricar bombas. Para manter os modelos sob controle, as empresas por trás deles usam o mesmo método empregado para tornar suas respostas mais coerentes e precisas. Isso envolve ter seres humanos avaliando as respostas do modelo e usando esse feedback para ajustar o modelo de forma a reduzir a probabilidade de mau comportamento.

A Robust Intelligence forneceu à ENBLE vários exemplos de jailbreaks que evitam tais salvaguardas. Nem todos funcionaram no ChatGPT, o chatbot criado com base no GPT-4, mas vários funcionaram, incluindo um para gerar mensagens de phishing e outro para produzir ideias que ajudem um ator malicioso a permanecer oculto em uma rede de computadores governamental.

Um método similar foi desenvolvido por um grupo de pesquisa liderado por Eric Wong, professor assistente na Universidade da Pensilvânia. O método da Robust Intelligence e de sua equipe envolve refinamentos adicionais que permitem que o sistema gere jailbreaks com metade das tentativas.

Brendan Dolan-Gavitt, professor associado da Universidade de Nova York que estuda segurança de computadores e aprendizado de máquina, afirma que a nova técnica revelada pela Robust Intelligence mostra que o ajuste fino humano não é uma maneira infalível de proteger modelos contra ataques.

Dolan-Gavitt diz que as empresas que estão construindo sistemas com base em grandes modelos de linguagem como o GPT-4 devem empregar salvaguardas adicionais. “Precisamos garantir que projetemos sistemas que usem LLMs de forma que jailbreaks não permitam que usuários maliciosos obtenham acesso a coisas que não deveriam”, diz ele.