Medindo a confiança Por que todo modelo de IA precisa de uma pontuação FICO
Medindo confiança modelos de IA e pontuação FICO
A IA generativa em breve se tornará mainstream, dizem 9 em cada 10 líderes de TI, de acordo com a pesquisa “Estado de TI 2023” da Salesforce.
A McKinsey relata que 50% das organizações usaram IA em 2022. A IDC prevê que os gastos globais com IA aumentarão impressionantes 26,9% apenas em 2023. Uma pesquisa recente com profissionais de atendimento ao cliente descobriu que a adoção de IA aumentou 88% entre 2020 e 2022. Pesquisas mostram que 86% dos líderes de TI acreditam que a IA generativa terá um papel proeminente em suas organizações num futuro próximo.
Também: Dois terços dos profissionais acreditam que a IA aumentará o valor de suas habilidades
E, no entanto, 64% dos líderes de TI estão preocupados com a ética da IA generativa e 62% estão preocupados com seus impactos em suas carreiras. Em uma pesquisa recente com líderes de TI, as preocupações com a IA generativa incluíram riscos de segurança (79%), viés (73%) e pegada de carbono (71%). Outro relatório descobriu que 23% dos clientes não confiam na IA e 56% são neutros. Esse déficit de confiança pode variar dependendo de como as empresas utilizam e fornecem serviços impulsionados pela IA.
A pesquisa mais recente da McKinsey estima que a IA generativa poderia adicionar o equivalente a US$ 2,6 trilhões a US$ 4,4 trilhões anualmente nos 63 casos de uso analisados pela McKinsey – em comparação, o PIB total do Reino Unido em 2021 foi de US$ 3,1 trilhões. Isso aumentaria o impacto de toda a inteligência artificial em 15 a 40%. O maior obstáculo para o crescimento e adoção da IA é a confiança. A lacuna de habilidades dos funcionários e a confiança são os maiores impedimentos para a adoção de IA generativa nos negócios.
- Ex-funcionários da Bose estão trazendo os Sleepbuds de volta –...
- O Python está chegando ao Microsoft Excel
- Meta confirma versão web do Threads dentro de alguns dias
Também: IA generativa e a quarta pergunta: Construindo confiança com seu cliente
Para obter uma melhor perspectiva de como os provedores de soluções de IA podem ganhar a confiança de todas as partes interessadas – funcionários, clientes, parceiros e comunidades que eles atendem -, tive uma discussão fascinante com Richie Etwaru, um especialista em privacidade de dados, análise avançada, IA e transformação digital. Etwaru, co-fundador e diretor criativo da Mobeus, possui inúmeras patentes, livros, palestras TEDx e inovações pioneiras na indústria.
Como podemos construir confiança com todos os modelos fundamentais usados para IA generativa e além? Aqui está o que Etwaru propôs.
A declaração de Arthur C. Clarke, “Qualquer tecnologia suficientemente avançada é indistinguível de mágica”, escrita em seu livro de 1962 “Profiles of the Future: An Inquiry into the Limits of the Possible”, resistiu ao teste do tempo.
Avançando 60 anos para 20 de novembro de 2022, a OpenAI apresentou o ChatGPT, uma maravilha tecnológica tão avançada que parecia borrar as fronteiras entre mágica e feitiçaria. Isso não era apenas mágico; era perturbador. O relacionamento da humanidade com a magia é de equilíbrio. Nos deliciamos com a magia quando ela é cativante e inspiradora, mas quando transcende nossa compreensão, cruzando um limite de entendimento, ela se torna intimidadora. O momento em que a magia parece muito poderosa, ela nos afasta de nossas zonas de conforto e nos leva a uma dimensão desconcertante. O desconforto surge ao confrontar fenômenos que escapam de explicação lógica ou científica.
Também: Os melhores chatbots de IA: ChatGPT e outras alternativas notáveis No cenário tecnológico, tanto o ChatGPT quanto seus contemporâneos – grandes modelos de linguagem criados para interação e exemplos como o DALL-E com habilidades para gerar texto para mídia – oferecem algo inesperado. Eles apresentam avanços que Clarke talvez não tenha imaginado e alcançam um nível de sofisticação que vai além de mera “magia”, evocando preocupação instintiva porque introduzem conceitos e capacidades que lutamos para compreender.
A psique humana é delicada. Quando confrontados com fenômenos inexplicáveis, nossa resposta inata, moldada pela evolução, muitas vezes tende ao medo. É por isso que uma criatura minúscula e desconhecida pode ser mais intimidante do que uma fera massiva e conhecida. O ChatGPT e seus pares ultrapassaram essa barreira de “além da mera magia”, e suas capacidades inspiradoras de fato estão causando alvoroço.
A inteligência artificial não nos assusta por causa de suas capacidades, mas sim porque temos pouco entendimento de como ela funciona e alcança o que faz. Nossa falta de compreensão nos faz imaginar todas as coisas adicionais que a IA poderia “potencialmente fazer”.
Também: Como escrever melhores prompts para o ChatGPT para obter os melhores resultados de IA generativa
No artigo “Apenas se acalme sobre o GPT-4”, Rodney Brooks argumenta que devemos “parar de confundir desempenho com competência”. Brooks explica que se um modelo de IA consegue fazer X, não devemos presumir que ele também consiga fazer Y só porque os humanos que conseguem fazer X geralmente conseguem fazer Y. Nosso medo surge ao imaginarmos habilidades ilimitadas da IA quando, na verdade, estamos superestimando a competência geral de sistemas que mostram eficácia surpreendente em aplicações específicas. Desmistificar o funcionamento interno da IA pode reduzir significativamente o medo que a cerca. Se pudermos transformar a IA de uma “caixa preta” opaca em um “cubo de vidro” transparente, podemos reajustar a forma como, como espécie, adotamos a tecnologia.
Em sua palestra “Além do ChatGPT: Dentro das Mentes da IA Generativa”, o Dr. Michael Wu explica como uma simples pergunta como “Qual é a cor do céu?” realmente funciona. Wu faz um ótimo trabalho ao desmistificar modelos generativos, demonstrando que suas respostas surpreendentes são produzidas usando “apenas matemática” e estatísticas – não inteligência consciente. Revelar as bases matemáticas por trás das respostas da IA confirma para o público que os sistemas não possuem consciência como os humanos.
Também: Quase caí em um golpe de fatura de criptomoeda gerada por IA, e sou um profissional de segurança Embora estejamos começando a entender melhor a IA hoje, o caminho à frente ainda é longo. Em junho, o CEO da AWS, Adam Selipsky, disse à CNBC que estamos apenas “três passos adiante, e é uma corrida de 10 mil metros”. À medida que a IA avança, os modelos irão além de suas capacidades atuais. O domínio aprimorado de dados, o gerenciamento aprimorado de modelos, uma maior integração ecossistêmica, uma maior qualificação humana e a inovação matemática/estatística contínua podem melhorar significativamente a IA ao longo do tempo, se não de forma exponencial. Enquanto regulamos nossos medos de tecnologias passadas como eletricidade, voo, automóveis e internet, é improvável que possamos regular completamente nossos medos em relação à IA. Isso ocorre porque a IA tem uma exponencialidade composta, enquanto tudo o que veio antes é linear no máximo. Em sua essência, nossa ansiedade decorre de como a IA pode afetar a capacidade da humanidade de continuar prosperando como espécie. Em um cenário extremo, imaginamos a IA levando à extinção humana. Mas o resultado provavelmente será menos binário, como uma vitória total ou uma derrota total. Em vez de enquadrar o futuro como uma vitória ou derrota da humanidade, devemos encontrar maneiras de coexistir de forma duradoura e sustentável com a inteligência artificial.
Também: Os 5 maiores riscos da IA generativa, segundo um especialista
Com a coexistência como princípio orientador, precisamos de um mecanismo para avaliar o quanto um modelo de IA está alinhado com esse objetivo. Ao ser apresentado a um sistema de IA, devemos ser capazes de julgar imediatamente se é uma “boa IA” que apoia a coexistência entre humanos e IA e atende às necessidades humanas, ou se desconsidera a coexistência e não pode ser confiável. Precisamos de algum tipo de sistema de pontuação fácil de entender que sinalize a confiabilidade e o serviço a humanidade de um modelo de IA.
Sem um mecanismo assim, podemos ficar cada vez mais desconfiados de toda IA, o que pode gerar desconfiança em relação a qualquer empresa que a utilize. Um framework coerente para avaliar o alinhamento da IA com a coexistência cooperativa entre humanos e IA é fundamental para construir confiança pública e extrair valor dessa tecnologia. A AI Act da União Europeia deu os primeiros passos em direção a um sistema de pontuação para a IA, exigindo uma marcação CE e um número de modelo único para cada modelo de IA, remontando aos dados de avaliação de conformidade. No entanto, as informações subjacentes a essa marcação CE revelam apenas como um modelo foi treinado e criado. Isso não sinaliza se o modelo pode ser confiável. Um modelo pode estar em conformidade com os regulamentos aplicáveis, mas ainda assim não conquistar a confiança do público, impactando a percepção de consumidores, empresas ou países que utilizam o modelo em produtos e serviços. Atender aos requisitos não significa necessariamente estar alinhado com a coexistência. Precisamos de um framework de pontuação de IA que vá além de métricas técnicas para avaliar explicitamente o benefício humano, a transparência e o potencial de coexistência.
Também: Ética da IA: Benefícios e riscos da inteligência artificial Empresas como Google e OpenAI começaram a usar “cartões de modelo” para reunir e apresentar informações sobre o design, dados, treinamento, desempenho e limitações de seus modelos. Por exemplo, o modelo de IA BlazeFace do MediaPipe do Google possui um cartão de modelo que segue as seções, dados e formatação prescritas em um artigo escrito principalmente por funcionários do Google. Por outro lado, a OpenAI possui um “cartão de sistema” para o GPT-4 que segue as seções, dados e formatação prescritas em um artigo da Universidade de Stanford.
Embora ambos os cartões de modelo/sistema sejam um passo na direção certa, o fato de cada um seguir um formato independente e uma arquitetura de informações é apenas um dos muitos desafios. O desafio principal é que a maioria dos consumidores não terá tempo, paciência ou aptidão para ler e entender esses cartões de modelo/sistema, e, portanto, mesmo que os cartões estejam disponíveis para consumo público, eles são um tanto inúteis para os consumidores. Muito longos para ler e muito difíceis de entender.
Também: 40% dos trabalhadores terão que adquirir novas habilidades nos próximos três anos devido à IA, diz estudo da IBM
Como exercício, vamos definir um escore simples e fácil de entender que sinaliza a compatibilidade de um modelo de IA com as necessidades humanas e a coexistência humano-IA. Para imaginar como um escore indicaria a confiabilidade de um modelo para a coexistência, vamos imaginar um “escore de Coexistência Humano & IA” (também conhecido como HAICO). Como isso poderia funcionar? Quais dados sobre cada modelo de IA precisariam ser coletados, com que frequência e qual fórmula seria usada para calcular o escore HAICO? O framework precisaria destilar informações complexas em um escore facilmente compreensível que sinalizasse a compatibilidade de coexistência de um modelo para o público em geral.
Embora complexo, trazer um framework de pontuação como esse à vida não é impossível. Imagine nosso escore ilustrativo HAICO composto por 50 atributos de um modelo de IA agrupados em cinco camadas da Hierarquia de Necessidades de Maslow (Figura 1).
Cada um dos 50 atributos mediria algo alinhado à coexistência humano-IA. Os dados dos atributos seriam coletados em todo o pipeline do modelo, desde a transparência das rotinas incorporadas ao silício usado nos chips, passando pelo consentimento e propriedade dos dados de treinamento, design do modelo, desempenho da inferência, retrabalho e redistribuição.
Exemplos de atributos do modelo incluiriam itens como se o modelo é robusto, disponível, justo, respeita a autonomia humana, orientado a consenso, aprendizado contínuo e agrega valor à vida humana. Cada atributo receberia uma pontuação de 0 a 5, e então uma fórmula os combinaria em um escore HAICO geral de 0 a 100 para cada modelo (Figura 2).
Também: O boom atual da IA amplificará problemas sociais se não agirmos agora, diz ético de IA
O sistema de pontuação HAICO final de três níveis:
- Não Coexistente (0-59 pontos): Não confiável para atender às necessidades humanas.
- Coexistente (60-79 pontos): Confiável para atender às necessidades humanas.
- Muito Coexistente (80+ pontos): Altamente confiável para atender às necessidades humanas.
Isso ilustra como detalhes técnicos multiníveis podem ser mapeados para um modelo simples de três níveis de coexistência e escore de confiabilidade. O framework ilustrativo HAICO fornece um ponto de partida. Transformá-lo em um framework eficaz voltado para o público exigiria desenvolvimento inclusivo e refinamento contínuo. Mas demonstra a viabilidade de um mecanismo de pontuação de coexistência humano-IA sutil.
Nosso mecanismo de pontuação HAICO ilustrativo está longe de estar concluído; há muito trabalho a ser feito. Por exemplo, a ponderação de cada camada e o intervalo que categorizaria um modelo de IA como não coexistente poderiam mudar para diferentes públicos. A fórmula para calcular o escore HAICO poderia mudar para modelos de IA classificados para audiências de PG-13 versus modelos classificados para audiências de Rated R. Essa ilustração demonstra que podemos estabelecer um sistema de pontuação para modelos de IA que introduz uma maneira fácil e confiável de determinar se os modelos podem ser confiáveis para se alinharem com a coexistência humano-IA ou não (Figura 3).
Também: À frente da IA, essa outra onda de tecnologia está avançando rapidamente
Precisamos ir além do debate de “quem vai vencer” e seguir um caminho de coexistência. A IA está aqui para ficar, assim como nós. O trabalho à frente deve ser feito como uma comunidade colaborativa. Se não for feito, a ausência de um framework como nosso escore ilustrativo HAICO cada vez mais colocará em questão a confiabilidade dos consumidores, corporações ou países que usam modelos de IA para construir produtos ou fornecer serviços. Como sociedade, correríamos o risco de aumentar exponencialmente a desconfiança em relação à IA e àqueles que a usam, eventualmente ultrapassando um limite em que poderíamos nos privar da oportunidade de aproveitar o poder da tecnologia para melhorar a condição humana.
Aqui está a boa notícia: Além dos participantes no ecossistema de IA em desenvolvimento – como fornecedores de hardware (NVIDIA, Intel, Apple, AMD, SambaNova), Nuvens (AWS, Google, Azure, Oracle, Alibaba, Salesforce), modelos, mercados (Cohere, Hugging Face), aplicativos (OpenAI, Antrophic, Stability.ai) e empresas de estratégia e serviços (Deloitte, Accenture, IBM, Cognizant e outros) – existe um grupo emergente de ferramentas de “medição de modelos” em desenvolvimento.
Por exemplo, o TensorFlow Data Validation pode ajudar a entender as características do conjunto de dados, detectar anomalias e comparar as diferenças entre os conjuntos de dados usados para treinar um modelo. CleverHans ou Adversarial Robustness Toolbox (ART) podem ser usados para simular ataques adversários ao modelo ao calcular a robustez. Ferramentas como o Google’s Fairness Indicators, AI Fairness 360 da IBM ou Fairlearn podem ser usadas para medir, visualizar e mitigar vieses em modelos de aprendizado de máquina. Ferramentas como o Google’s TFX, Seldon ou Fiddler podem ser usadas para monitorar o desempenho do modelo ao longo do tempo, alertando quando houver uma mudança ou degradação significativa.
Também: A adoção em massa de ferramentas de IA generativas está desviando um fator muito importante, diz o MIT
As peças estão começando a se juntar. A Estrela do Norte é a coexistência. Estamos agora no momento em que podemos estabelecer colaborativamente uma pontuação de confiança para cada modelo de IA, sinalizando o alinhamento do modelo com a coexistência humano-IA, uma pontuação fácil de entender, semelhante à pontuação FICO que usamos para sinalizar a confiabilidade financeira de um humano. A pontuação HAICO ilustrada compartilhada neste artigo é um aperitivo para iniciar a conversa. Não há momento melhor do que agora.
Este artigo foi co-escrito por Richie Etwaru, co-fundador da Mobeus. Etwaru é um executivo multidisciplinar, empreendedor em série e líder de pensamento global. Em colaboração com diretores executivos e conselhos, ele projetou e liderou transformações globais em serviços financeiros e saúde. Etwaru inventou computação espacial habilitada por software e foi pioneiro no 31º Direito Humano. Ele escreveu três livros, fez três palestras TED e falou em mais de 100 conferências.