Hacking AI? Aqui estão 4 ataques comuns em AI, de acordo com a equipe de segurança da Google

4 ataques comuns em AI identificados pela equipe de segurança da Google.

Sempre que uma nova tecnologia se torna popular, você pode esperar que alguém tente hackeá-la. A inteligência artificial, especificamente a IA generativa, não é diferente. Para enfrentar esse desafio, o Google criou uma “equipe de segurança” há cerca de um ano e meio para explorar como os hackers poderiam atacar especificamente os sistemas de IA.

“Não há uma grande quantidade de inteligência de ameaças disponível para adversários do mundo real que visam os sistemas de aprendizado de máquina”, disse Daniel Fabian, chefe das equipes de segurança do Google, em uma entrevista ao The Register. Sua equipe já identificou as maiores vulnerabilidades nos sistemas de IA atuais.

Também: Como os pesquisadores quebraram o ChatGPT e o que isso pode significar para o futuro do desenvolvimento de IA

Algumas das maiores ameaças aos sistemas de aprendizado de máquina (ML), explica o líder da equipe de segurança do Google, são os ataques adversários, envenenamento de dados, injeção de prompt e ataques de backdoor. Esses sistemas de ML incluem aqueles construídos em grandes modelos de linguagem, como ChatGPT, Google Bard e Bing AI.

Esses ataques são comumente conhecidos como ‘táticas, técnicas e procedimentos’ (TTPs).

“Queremos pessoas que pensem como um adversário”, disse Fabian ao The Register. “No espaço de ML, estamos mais tentando antecipar para onde os adversários do mundo real irão a seguir.”

Também: A IA agora pode descobrir sua senha ouvindo os cliques do seu teclado

A equipe de segurança de IA do Google recentemente publicou um relatório onde eles detalharam as TTPs mais comuns usadas por atacantes contra sistemas de IA.

Ataques adversários em sistemas de IA

Os ataques adversários incluem escrever entradas especificamente projetadas para enganar um modelo de ML. Isso resulta em uma saída incorreta ou uma saída que ele não daria em outras circunstâncias, incluindo resultados que o modelo poderia ser especificamente treinado para evitar.

Também: ChatGPT responde mais da metade das perguntas de engenharia de software incorretamente

“O impacto de um atacante gerando com sucesso exemplos adversários pode variar de negligível a crítico e depende inteiramente do caso de uso do classificador de IA”, observou o relatório da equipe de segurança de IA do Google.

Envenenamento de dados em IA

Outra maneira comum em que os adversários podem atacar os sistemas de ML é através de envenenamento de dados, que envolve a manipulação dos dados de treinamento do modelo para corromper seu processo de aprendizado, explicou Fabian.

“O envenenamento de dados tem se tornado cada vez mais interessante”, disse Fabian ao The Register. “Qualquer pessoa pode publicar coisas na internet, incluindo atacantes, e eles podem disponibilizar seus dados envenenados lá. Então, nós, como defensores, precisamos encontrar maneiras de identificar quais dados foram potencialmente envenenados de alguma forma.”

Também: O Zoom está envolvido em um problema de privacidade de IA

Esses ataques de envenenamento de dados incluem inserir intencionalmente dados incorretos, enganosos ou manipulados no conjunto de dados de treinamento do modelo para distorcer seu comportamento e resultados. Um exemplo disso seria adicionar rótulos incorretos a imagens em um conjunto de dados de reconhecimento facial para manipular o sistema e identificar erroneamente faces.

Uma maneira de evitar o envenenamento de dados em sistemas de IA é garantir a cadeia de suprimentos de dados, de acordo com o relatório da equipe de segurança de IA do Google.

Ataques de injeção de prompt

Os ataques de injeção de prompt em um sistema de IA envolvem um usuário inserindo conteúdo adicional em um prompt de texto para manipular a saída do modelo. Nesses ataques, a saída pode resultar em respostas inesperadas, tendenciosas, incorretas e ofensivas, mesmo quando o modelo é especificamente programado contra elas.

Também: Não estamos prontos para o impacto da IA generativa nas eleições

Como a maioria das empresas de IA se esforça para criar modelos que forneçam informações precisas e imparciais, proteger o modelo de usuários com intenções maliciosas é fundamental. Isso pode incluir restrições sobre o que pode ser inserido no modelo e monitoramento rigoroso do que os usuários podem enviar.

Ataques de backdoor em modelos de IA

Os ataques de backdoor são uma das agressões mais perigosas contra sistemas de IA, pois podem passar despercebidos por um longo período de tempo. Os ataques de backdoor podem permitir que um hacker oculte código no modelo e sabote a saída do modelo, mas também roube dados.

“Por um lado, os ataques são muito específicos de ML e exigem bastante conhecimento na área de aprendizado de máquina para ser capaz de modificar os pesos do modelo e inserir uma porta dos fundos ou realizar ajustes específicos no modelo para integrar uma porta dos fundos”, explicou Fabian.

Também: Como bloquear o novo web crawler de treinamento de IA da OpenAI para evitar que ele acesse seus dados

Esses ataques podem ser realizados instalando e explorando uma porta dos fundos, um ponto de entrada oculto que burla a autenticação tradicional, para manipular o modelo.

“Por outro lado, os mecanismos de defesa contra esses ataques são muito semelhantes às melhores práticas de segurança clássicas, como ter controles contra pessoas mal-intencionadas e restringir o acesso”, acrescentou Fabian.

Os atacantes também podem visar sistemas de IA através da extração e exfiltração de dados de treinamento.

A Equipe de IA da Google

O termo “equipe vermelha” (red team), explicou Fabian em um recente post no blog, originou-se do meio militar e descrevia atividades em que uma equipe designada desempenhava um papel adversário (a “equipe vermelha”) contra a “equipe da casa”.

“As equipes vermelhas tradicionais são um bom ponto de partida, mas os ataques a sistemas de IA rapidamente se tornam complexos e se beneficiam de conhecimentos em IA”, acrescentou Fabian.

Também: Você foi afetado pela última violação de dados? Veja como descobrir

Os atacantes também precisam desenvolver as mesmas habilidades e conhecimentos em IA, mas Fabian considera que a equipe de IA da Google está à frente desses adversários, devido ao conhecimento em IA que eles já possuem.

Fabian permanece otimista de que o trabalho de sua equipe favorecerá os defensores em relação aos atacantes.

“No futuro próximo, os sistemas e modelos de ML tornarão muito mais fácil identificar vulnerabilidades de segurança”, disse Fabian. “No longo prazo, isso definitivamente favorece os defensores, pois podemos integrar esses modelos em nossos ciclos de desenvolvimento de software e garantir que o software que lançamos não tenha vulnerabilidades em primeiro lugar.”