AIs de Verificação de Fatos Podemos Confiar Neles? 🤖🔎

Errar é humano, e aparentemente também é a Inteligência Artificial.

Coloquei o ChatGPT à prova com Bard, Claude e Copilot – e este AI estava hilariamente errado, mas muito confiante!

Quarto de IA abstrata com luzes coloridas nas paredes

A inteligência artificial generativa (IA) ganhou popularidade por sua habilidade de gerar conteúdo, mas não é segredo que ela está frequentemente sujeita a erros factuais. Então, o que acontece quando você precisa checar dados de um grande número de declarações geradas por IA? Como um especialista em tecnologia da computação e programação, embarquei em uma missão para descobrir.

Neste artigo, vou te levar por um projeto intrigante onde utilizei múltiplos IAs para checar dados em um conjunto de 150 declarações geradas pelo ChatGPT. Vou compartilhar a metodologia por trás dessa competição de checagem de dados, os feedbacks que recebi de diferentes IAs e oferecer algumas considerações finais e cautelas para aqueles que estão pensando em se aventurar neste labirinto de IA.

🚀 O Projeto: Checagem de dados com IAs

Na semana passada, publiquei um projeto fascinante que envolvia o ChatGPT gerando 50 imagens pitorescas representando cada estado dos EUA, juntamente com três fatos interessantes sobre cada estado. Os resultados foram peculiares, mas despertaram curiosidade sobre a precisão dos fatos.

Embora eu pessoalmente tenha achado os fatos na maioria precisos, decidi colocar as IAs à prova e determinar a validade de todas as 150 declarações. Afinal, quem melhor para checar dados de uma IA do que outra IA?

📋 Metodologia: Comparando Diferentes IAs

Não quis confiar apenas no ChatGPT para checar seus próprios dados. Isso seria como pedir para estudantes escreverem um trabalho de história sem referências e depois corrigirem seus próprios trabalhos. Então, recorri a outros modelos de linguagem dentro de diferentes estruturas de IA – o Claude da Anthropic, o Copilot da Microsoft e o Bard da Google. Cada uma dessas IAs tem seus próprios modelos e abordagens de deep learning únicos.

Alimentei as declarações de fatos em cada IA e observei suas respostas. Meu objetivo era avaliar as capacidades de checagem de dados de cada uma e determinar quaisquer discrepâncias em suas avaliações.

📚 Análise: As Capacidades de Checagem de Dados das IAs

Anthropic Claude 🕵️‍♂️

O Claude, alimentado pelo modelo de linguagem Claude 2, forneceu resultados principalmente precisos, ao mesmo tempo em que levantou preocupações sobre a falta de nuances nas descrições de fatos do ChatGPT. Embora a resposta do Claude tenha sido encorajadora, ela destacou as limitações impostas pelo limite de caracteres definido para geração de fatos do ChatGPT.

Copilot da Microsoft ❌🛫

O Copilot, anteriormente conhecido como Bing Chat AI, não se saiu como esperado. Ele não conseguiu lidar com o conjunto completo de fatos em uma única solicitação devido à restrição de limite de caracteres. O Copilot simplesmente refletiu os dados levantados que pedi para checar, deixando de fornecer quaisquer respostas significativas de checagem de fatos.

Bard da Google 🎭

O Bard, utilizando o modelo PaLM 2 da Google, revelou-se a estrela do show. Ele forneceu feedback abrangente, checando com sucesso as declarações geradas pelo ChatGPT. No entanto, o Bard ocasionalmente exagerou no escopo da tarefa, deixando passar alguns detalhes contextuais. Apesar dessas pequenas falhas, a capacidade de checagem de fatos do Bard superou as outras IAs.

Vez do ChatGPT Checar os Fatos Checados pelo Bard ✅❌

Curioso para ver se o ChatGPT poderia descobrir imprecisões na resposta do Bard, alimentei as declarações de fatos já checados pelo Bard de volta para o ChatGPT. O ChatGPT identificou discrepâncias nas respostas relacionadas ao Alasca e Ohio, efetivamente checando a checagem de fatos feita pelo Bard. No final, as correções do ChatGPT estavam alinhadas com relatos amplamente aceitos e foram sustentadas por evidências históricas.

🧐 Conclusões e Cautelas

Embora as interações de checagem de fatos entre essas IAs tenham sido intrigantes, os resultados estão longe de serem conclusivos. É essencial apontar que confiar apenas em IAs para precisão factual não é infalível. A checagem de fatos humana continua sendo inestimável para documentos críticos e projetos onde a precisão é fundamental.

Embora Bard tenha demonstrado impressionantes capacidades de verificação de fatos, ele deixa a desejar em nuances contextuais, assim como outros AIs. Com mecanismos de pesquisa como o Google incorporando cada vez mais respostas geradas por AI nos resultados da pesquisa, torna-se crucial ter cautela e verificar a precisão das informações.

Então, meus companheiros entusiastas de AI, o que vocês acham? Vocês já encontraram erros flagrantes de seus AIs favoritos? Vocês vão confiar apenas em suas capacidades de verificação de fatos ou vão implementar processos adicionais de verificação de fatos? Compartilhem suas opiniões e experiências nos comentários abaixo!

🎉 Mantenha-se Conectado e Compartilhe

Não perca projetos intrigantes como o discutido neste artigo. Siga-me nas redes sociais, assine minha newsletter semanal de atualização no Substack e junte-se a mim no Twitter, Facebook, Instagram e YouTube para atualizações diárias de projetos e discussões mais empolgantes sobre tecnologia. Vamos explorar juntos o fascinante mundo da tecnologia!


Referências:

  1. New York Times quer que OpenAI e Microsoft paguem pelos dados de treinamento
  2. OpenAI lança correção para vazamento de dados do ChatGPT: Problema completamente resolvido
  3. AI em 2023: Um ano de avanços que não deixaram nada inalterado para os seres humanos
  4. Pedi para o DALL-E 3 criar um retrato de cada estado dos EUA e os resultados foram gloriosamente estranhos
  5. Profissões mais propensas a serem assumidas por AI
  6. Dois avanços tornaram 2023 o ano mais inovador da tecnologia em mais de uma década
  7. Gemini: Tudo o que você precisa saber sobre o novo modelo de AI do Google
  8. 7 maneiras de garantir que seus dados estejam prontos para AI generativa