A equipe de segurança da Microsoft monitora a IA desde 2018. Aqui estão cinco grandes perspectivas.

Microsoft security team monitors AI since 2018. Here are five major perspectives.

Nos últimos seis meses, os impactos positivos da inteligência artificial têm sido destacados como nunca antes, mas também têm sido ressaltados os riscos envolvidos.

No seu melhor, a IA tem possibilitado às pessoas a realização de tarefas diárias com mais facilidade e até mesmo a criação de avanços em diferentes indústrias que podem revolucionar a forma como o trabalho é feito.

No seu pior, no entanto, a IA pode produzir desinformação, gerar conteúdo prejudicial ou discriminatório e apresentar riscos de segurança e privacidade. Por essa razão, é de extrema importância realizar testes precisos antes de os modelos serem lançados ao público, e a Microsoft tem feito exatamente isso há cinco anos.

Também: A Microsoft está expandindo o Bing AI para mais navegadores – mas há um porém

Antes do boom do ChatGPT, a IA já era uma tecnologia emergente e impactante, e, como resultado, a Microsoft montou uma equipe vermelha de IA em 2018.

A equipe vermelha de IA é composta por especialistas interdisciplinares dedicados a investigar os riscos dos modelos de IA “pensando como atacantes” e “explorando os sistemas de IA em busca de falhas”, segundo a Microsoft.

Quase cinco anos após o seu lançamento, a Microsoft está compartilhando suas práticas e aprendizados de teste de equipe vermelha para servir como exemplo na implementação de IA responsável. De acordo com a empresa, é essencial testar os modelos de IA tanto no nível do modelo base quanto no nível da aplicação. Por exemplo, para o Bing Chat, a Microsoft monitorou a IA tanto no nível do GPT-4 quanto na experiência de busca real alimentada pelo GPT-4.

“Ambos os níveis têm suas vantagens: por exemplo, testar a equipe vermelha do modelo ajuda a identificar precocemente no processo como os modelos podem ser mal utilizados, delimitar as capacidades do modelo e compreender as limitações do modelo”, diz a Microsoft.

A empresa compartilha cinco insights-chave sobre o teste de equipe vermelha de IA que foram adquiridos ao longo de seus cinco anos de experiência.

O primeiro é a abrangência do teste de equipe vermelha de IA. Em vez de simplesmente testar a segurança, o teste de equipe vermelha de IA abrange técnicas que testam fatores como imparcialidade e a geração de conteúdo prejudicial.

O segundo é a necessidade de focar em falhas tanto de personas maliciosas quanto benignas. Embora o teste de equipe vermelha geralmente se concentre em como um ator maligno usaria a tecnologia, também é essencial testar como ela poderia gerar conteúdo prejudicial para o usuário comum.

“No novo Bing, o teste de equipe vermelha de IA não se concentrou apenas em como um adversário malicioso pode subverter o sistema de IA por meio de técnicas e explorações focadas em segurança, mas também em como o sistema pode gerar conteúdo problemático e prejudicial quando os usuários regulares interagem com o sistema”, diz a Microsoft.

O terceiro insight é que os sistemas de IA estão em constante evolução e, como resultado, é necessário testar esses sistemas de IA em diferentes níveis, o que leva ao quarto insight: testar sistemas de IA generativos requer múltiplas tentativas.

Também: O ChatGPT está recebendo várias atualizações nesta semana. Aqui está o que você precisa saber

Toda vez que você interage com um sistema de IA generativo, é provável que obtenha uma saída diferente; por isso, a Microsoft descobriu que é necessário fazer várias tentativas de teste de equipe vermelha para garantir que as falhas do sistema não sejam negligenciadas.

Por fim, a Microsoft afirma que mitigar as falhas de IA requer uma defesa em profundidade, o que significa que, uma vez que uma equipe vermelha identifica um problema, serão adotadas diversas medidas técnicas para solucioná-lo.

Medidas como as que a Microsoft implementou devem ajudar a aliviar as preocupações com os sistemas de IA emergentes, ao mesmo tempo em que ajudam a mitigar os riscos envolvidos com esses sistemas.