Medindo a confiança Por que todo modelo de IA precisa de uma pontuação FICO

Medindo confiança modelos de IA e pontuação FICO

A IA generativa em breve se tornará mainstream, dizem 9 em cada 10 líderes de TI, de acordo com a pesquisa “Estado de TI 2023” da Salesforce.

A McKinsey relata que 50% das organizações usaram IA em 2022. A IDC prevê que os gastos globais com IA aumentarão impressionantes 26,9% apenas em 2023. Uma pesquisa recente com profissionais de atendimento ao cliente descobriu que a adoção de IA aumentou 88% entre 2020 e 2022. Pesquisas mostram que 86% dos líderes de TI acreditam que a IA generativa terá um papel proeminente em suas organizações num futuro próximo.

Também: Dois terços dos profissionais acreditam que a IA aumentará o valor de suas habilidades

E, no entanto, 64% dos líderes de TI estão preocupados com a ética da IA generativa e 62% estão preocupados com seus impactos em suas carreiras. Em uma pesquisa recente com líderes de TI, as preocupações com a IA generativa incluíram riscos de segurança (79%), viés (73%) e pegada de carbono (71%). Outro relatório descobriu que 23% dos clientes não confiam na IA e 56% são neutros. Esse déficit de confiança pode variar dependendo de como as empresas utilizam e fornecem serviços impulsionados pela IA.

A pesquisa mais recente da McKinsey estima que a IA generativa poderia adicionar o equivalente a US$ 2,6 trilhões a US$ 4,4 trilhões anualmente nos 63 casos de uso analisados pela McKinsey – em comparação, o PIB total do Reino Unido em 2021 foi de US$ 3,1 trilhões. Isso aumentaria o impacto de toda a inteligência artificial em 15 a 40%. O maior obstáculo para o crescimento e adoção da IA é a confiança. A lacuna de habilidades dos funcionários e a confiança são os maiores impedimentos para a adoção de IA generativa nos negócios.

Também: IA generativa e a quarta pergunta: Construindo confiança com seu cliente

Para obter uma melhor perspectiva de como os provedores de soluções de IA podem ganhar a confiança de todas as partes interessadas – funcionários, clientes, parceiros e comunidades que eles atendem -, tive uma discussão fascinante com Richie Etwaru, um especialista em privacidade de dados, análise avançada, IA e transformação digital. Etwaru, co-fundador e diretor criativo da Mobeus, possui inúmeras patentes, livros, palestras TEDx e inovações pioneiras na indústria.

Como podemos construir confiança com todos os modelos fundamentais usados para IA generativa e além? Aqui está o que Etwaru propôs.

A declaração de Arthur C. Clarke, “Qualquer tecnologia suficientemente avançada é indistinguível de mágica”, escrita em seu livro de 1962 “Profiles of the Future: An Inquiry into the Limits of the Possible”, resistiu ao teste do tempo.

Avançando 60 anos para 20 de novembro de 2022, a OpenAI apresentou o ChatGPT, uma maravilha tecnológica tão avançada que parecia borrar as fronteiras entre mágica e feitiçaria. Isso não era apenas mágico; era perturbador. O relacionamento da humanidade com a magia é de equilíbrio. Nos deliciamos com a magia quando ela é cativante e inspiradora, mas quando transcende nossa compreensão, cruzando um limite de entendimento, ela se torna intimidadora. O momento em que a magia parece muito poderosa, ela nos afasta de nossas zonas de conforto e nos leva a uma dimensão desconcertante. O desconforto surge ao confrontar fenômenos que escapam de explicação lógica ou científica.

Também: Os melhores chatbots de IA: ChatGPT e outras alternativas notáveis No cenário tecnológico, tanto o ChatGPT quanto seus contemporâneos – grandes modelos de linguagem criados para interação e exemplos como o DALL-E com habilidades para gerar texto para mídia – oferecem algo inesperado. Eles apresentam avanços que Clarke talvez não tenha imaginado e alcançam um nível de sofisticação que vai além de mera “magia”, evocando preocupação instintiva porque introduzem conceitos e capacidades que lutamos para compreender.

A psique humana é delicada. Quando confrontados com fenômenos inexplicáveis, nossa resposta inata, moldada pela evolução, muitas vezes tende ao medo. É por isso que uma criatura minúscula e desconhecida pode ser mais intimidante do que uma fera massiva e conhecida. O ChatGPT e seus pares ultrapassaram essa barreira de “além da mera magia”, e suas capacidades inspiradoras de fato estão causando alvoroço.

A inteligência artificial não nos assusta por causa de suas capacidades, mas sim porque temos pouco entendimento de como ela funciona e alcança o que faz. Nossa falta de compreensão nos faz imaginar todas as coisas adicionais que a IA poderia “potencialmente fazer”.

Também: Como escrever melhores prompts para o ChatGPT para obter os melhores resultados de IA generativa

No artigo “Apenas se acalme sobre o GPT-4”, Rodney Brooks argumenta que devemos “parar de confundir desempenho com competência”. Brooks explica que se um modelo de IA consegue fazer X, não devemos presumir que ele também consiga fazer Y só porque os humanos que conseguem fazer X geralmente conseguem fazer Y. Nosso medo surge ao imaginarmos habilidades ilimitadas da IA quando, na verdade, estamos superestimando a competência geral de sistemas que mostram eficácia surpreendente em aplicações específicas. Desmistificar o funcionamento interno da IA pode reduzir significativamente o medo que a cerca. Se pudermos transformar a IA de uma “caixa preta” opaca em um “cubo de vidro” transparente, podemos reajustar a forma como, como espécie, adotamos a tecnologia.

Em sua palestra “Além do ChatGPT: Dentro das Mentes da IA Generativa”, o Dr. Michael Wu explica como uma simples pergunta como “Qual é a cor do céu?” realmente funciona. Wu faz um ótimo trabalho ao desmistificar modelos generativos, demonstrando que suas respostas surpreendentes são produzidas usando “apenas matemática” e estatísticas – não inteligência consciente. Revelar as bases matemáticas por trás das respostas da IA confirma para o público que os sistemas não possuem consciência como os humanos.

Também: Quase caí em um golpe de fatura de criptomoeda gerada por IA, e sou um profissional de segurança Embora estejamos começando a entender melhor a IA hoje, o caminho à frente ainda é longo. Em junho, o CEO da AWS, Adam Selipsky, disse à CNBC que estamos apenas “três passos adiante, e é uma corrida de 10 mil metros”. À medida que a IA avança, os modelos irão além de suas capacidades atuais. O domínio aprimorado de dados, o gerenciamento aprimorado de modelos, uma maior integração ecossistêmica, uma maior qualificação humana e a inovação matemática/estatística contínua podem melhorar significativamente a IA ao longo do tempo, se não de forma exponencial. Enquanto regulamos nossos medos de tecnologias passadas como eletricidade, voo, automóveis e internet, é improvável que possamos regular completamente nossos medos em relação à IA. Isso ocorre porque a IA tem uma exponencialidade composta, enquanto tudo o que veio antes é linear no máximo. Em sua essência, nossa ansiedade decorre de como a IA pode afetar a capacidade da humanidade de continuar prosperando como espécie. Em um cenário extremo, imaginamos a IA levando à extinção humana. Mas o resultado provavelmente será menos binário, como uma vitória total ou uma derrota total. Em vez de enquadrar o futuro como uma vitória ou derrota da humanidade, devemos encontrar maneiras de coexistir de forma duradoura e sustentável com a inteligência artificial.

Também: Os 5 maiores riscos da IA generativa, segundo um especialista

Com a coexistência como princípio orientador, precisamos de um mecanismo para avaliar o quanto um modelo de IA está alinhado com esse objetivo. Ao ser apresentado a um sistema de IA, devemos ser capazes de julgar imediatamente se é uma “boa IA” que apoia a coexistência entre humanos e IA e atende às necessidades humanas, ou se desconsidera a coexistência e não pode ser confiável. Precisamos de algum tipo de sistema de pontuação fácil de entender que sinalize a confiabilidade e o serviço a humanidade de um modelo de IA.

Sem um mecanismo assim, podemos ficar cada vez mais desconfiados de toda IA, o que pode gerar desconfiança em relação a qualquer empresa que a utilize. Um framework coerente para avaliar o alinhamento da IA com a coexistência cooperativa entre humanos e IA é fundamental para construir confiança pública e extrair valor dessa tecnologia. A AI Act da União Europeia deu os primeiros passos em direção a um sistema de pontuação para a IA, exigindo uma marcação CE e um número de modelo único para cada modelo de IA, remontando aos dados de avaliação de conformidade. No entanto, as informações subjacentes a essa marcação CE revelam apenas como um modelo foi treinado e criado. Isso não sinaliza se o modelo pode ser confiável. Um modelo pode estar em conformidade com os regulamentos aplicáveis, mas ainda assim não conquistar a confiança do público, impactando a percepção de consumidores, empresas ou países que utilizam o modelo em produtos e serviços. Atender aos requisitos não significa necessariamente estar alinhado com a coexistência. Precisamos de um framework de pontuação de IA que vá além de métricas técnicas para avaliar explicitamente o benefício humano, a transparência e o potencial de coexistência.

Também: Ética da IA: Benefícios e riscos da inteligência artificial Empresas como Google e OpenAI começaram a usar “cartões de modelo” para reunir e apresentar informações sobre o design, dados, treinamento, desempenho e limitações de seus modelos. Por exemplo, o modelo de IA BlazeFace do MediaPipe do Google possui um cartão de modelo que segue as seções, dados e formatação prescritas em um artigo escrito principalmente por funcionários do Google. Por outro lado, a OpenAI possui um “cartão de sistema” para o GPT-4 que segue as seções, dados e formatação prescritas em um artigo da Universidade de Stanford.

Embora ambos os cartões de modelo/sistema sejam um passo na direção certa, o fato de cada um seguir um formato independente e uma arquitetura de informações é apenas um dos muitos desafios. O desafio principal é que a maioria dos consumidores não terá tempo, paciência ou aptidão para ler e entender esses cartões de modelo/sistema, e, portanto, mesmo que os cartões estejam disponíveis para consumo público, eles são um tanto inúteis para os consumidores. Muito longos para ler e muito difíceis de entender.

Também: 40% dos trabalhadores terão que adquirir novas habilidades nos próximos três anos devido à IA, diz estudo da IBM

Como exercício, vamos definir um escore simples e fácil de entender que sinaliza a compatibilidade de um modelo de IA com as necessidades humanas e a coexistência humano-IA. Para imaginar como um escore indicaria a confiabilidade de um modelo para a coexistência, vamos imaginar um “escore de Coexistência Humano & IA” (também conhecido como HAICO). Como isso poderia funcionar? Quais dados sobre cada modelo de IA precisariam ser coletados, com que frequência e qual fórmula seria usada para calcular o escore HAICO? O framework precisaria destilar informações complexas em um escore facilmente compreensível que sinalizasse a compatibilidade de coexistência de um modelo para o público em geral.

Embora complexo, trazer um framework de pontuação como esse à vida não é impossível. Imagine nosso escore ilustrativo HAICO composto por 50 atributos de um modelo de IA agrupados em cinco camadas da Hierarquia de Necessidades de Maslow (Figura 1).

Figura 1: Uma visão geral do nosso escore ilustrativo HAICO

Cada um dos 50 atributos mediria algo alinhado à coexistência humano-IA. Os dados dos atributos seriam coletados em todo o pipeline do modelo, desde a transparência das rotinas incorporadas ao silício usado nos chips, passando pelo consentimento e propriedade dos dados de treinamento, design do modelo, desempenho da inferência, retrabalho e redistribuição.

Exemplos de atributos do modelo incluiriam itens como se o modelo é robusto, disponível, justo, respeita a autonomia humana, orientado a consenso, aprendizado contínuo e agrega valor à vida humana. Cada atributo receberia uma pontuação de 0 a 5, e então uma fórmula os combinaria em um escore HAICO geral de 0 a 100 para cada modelo (Figura 2).

Também: O boom atual da IA amplificará problemas sociais se não agirmos agora, diz ético de IA

O sistema de pontuação HAICO final de três níveis:

  • Não Coexistente (0-59 pontos): Não confiável para atender às necessidades humanas.
  • Coexistente (60-79 pontos): Confiável para atender às necessidades humanas.
  • Muito Coexistente (80+ pontos): Altamente confiável para atender às necessidades humanas.

Figura 2: Um modelo de IA ilustrativo com escores de 0-5 para cada um dos 50 atributos, somados em cada camada.

Isso ilustra como detalhes técnicos multiníveis podem ser mapeados para um modelo simples de três níveis de coexistência e escore de confiabilidade. O framework ilustrativo HAICO fornece um ponto de partida. Transformá-lo em um framework eficaz voltado para o público exigiria desenvolvimento inclusivo e refinamento contínuo. Mas demonstra a viabilidade de um mecanismo de pontuação de coexistência humano-IA sutil.

Nosso mecanismo de pontuação HAICO ilustrativo está longe de estar concluído; há muito trabalho a ser feito. Por exemplo, a ponderação de cada camada e o intervalo que categorizaria um modelo de IA como não coexistente poderiam mudar para diferentes públicos. A fórmula para calcular o escore HAICO poderia mudar para modelos de IA classificados para audiências de PG-13 versus modelos classificados para audiências de Rated R. Essa ilustração demonstra que podemos estabelecer um sistema de pontuação para modelos de IA que introduz uma maneira fácil e confiável de determinar se os modelos podem ser confiáveis para se alinharem com a coexistência humano-IA ou não (Figura 3).

Também: À frente da IA, essa outra onda de tecnologia está avançando rapidamente

Precisamos ir além do debate de “quem vai vencer” e seguir um caminho de coexistência. A IA está aqui para ficar, assim como nós. O trabalho à frente deve ser feito como uma comunidade colaborativa. Se não for feito, a ausência de um framework como nosso escore ilustrativo HAICO cada vez mais colocará em questão a confiabilidade dos consumidores, corporações ou países que usam modelos de IA para construir produtos ou fornecer serviços. Como sociedade, correríamos o risco de aumentar exponencialmente a desconfiança em relação à IA e àqueles que a usam, eventualmente ultrapassando um limite em que poderíamos nos privar da oportunidade de aproveitar o poder da tecnologia para melhorar a condição humana.

Figura 3: O uso de uma fórmula para calcular a pontuação final HAICO de um modelo de IA, classificando-o como COEXISTENTE com uma pontuação de 76

Aqui está a boa notícia: Além dos participantes no ecossistema de IA em desenvolvimento – como fornecedores de hardware (NVIDIA, Intel, Apple, AMD, SambaNova), Nuvens (AWS, Google, Azure, Oracle, Alibaba, Salesforce), modelos, mercados (Cohere, Hugging Face), aplicativos (OpenAI, Antrophic, Stability.ai) e empresas de estratégia e serviços (Deloitte, Accenture, IBM, Cognizant e outros) – existe um grupo emergente de ferramentas de “medição de modelos” em desenvolvimento.

Por exemplo, o TensorFlow Data Validation pode ajudar a entender as características do conjunto de dados, detectar anomalias e comparar as diferenças entre os conjuntos de dados usados para treinar um modelo. CleverHans ou Adversarial Robustness Toolbox (ART) podem ser usados para simular ataques adversários ao modelo ao calcular a robustez. Ferramentas como o Google’s Fairness Indicators, AI Fairness 360 da IBM ou Fairlearn podem ser usadas para medir, visualizar e mitigar vieses em modelos de aprendizado de máquina. Ferramentas como o Google’s TFX, Seldon ou Fiddler podem ser usadas para monitorar o desempenho do modelo ao longo do tempo, alertando quando houver uma mudança ou degradação significativa.

Também: A adoção em massa de ferramentas de IA generativas está desviando um fator muito importante, diz o MIT

As peças estão começando a se juntar. A Estrela do Norte é a coexistência. Estamos agora no momento em que podemos estabelecer colaborativamente uma pontuação de confiança para cada modelo de IA, sinalizando o alinhamento do modelo com a coexistência humano-IA, uma pontuação fácil de entender, semelhante à pontuação FICO que usamos para sinalizar a confiabilidade financeira de um humano. A pontuação HAICO ilustrada compartilhada neste artigo é um aperitivo para iniciar a conversa. Não há momento melhor do que agora.


Este artigo foi co-escrito por Richie Etwaru, co-fundador da Mobeus. Etwaru é um executivo multidisciplinar, empreendedor em série e líder de pensamento global. Em colaboração com diretores executivos e conselhos, ele projetou e liderou transformações globais em serviços financeiros e saúde. Etwaru inventou computação espacial habilitada por software e foi pioneiro no 31º Direito Humano. Ele escreveu três livros, fez três palestras TED e falou em mais de 100 conferências.