Eu verifiquei os fatos do ChatGPT com Bard, Claude e Copilot – e esta IA foi a mais confiantemente incorreta.

Eu analisei os dados do ChatGPT com Bard, Claude e Copilot - e esta inteligência artificial foi a mais claramente imprecisa.

Sala abstrata de IA com luzes coloridas nas paredes

A inteligência artificial generativa (IA) é notoriamente propensa a erros factuais. Então, o que você faz quando pediu ao ChatGPT para gerar 150 fatos presumidos e não quer passar um fim de semana inteiro verificando cada um manualmente?

Também: IA em 2023: Um ano de avanços que não deixou nada humano inalterado

Bem, no meu caso, recorri a outras inteligências artificiais. Neste artigo, vou explicar o projeto, analisar o desempenho de cada IA em uma competição de verificação de fatos e fornecer algumas considerações finais e precauções se você também quiser se aventurar neste labirinto de corredores tortuosos e todos iguais.

O projeto

Na semana passada, publicamos um projeto bem divertido em que tínhamos o DALL-E 3, funcionando dentro do ChatGPT, gerando 50 imagens pitorescas que ele achava que representavam cada estado dos EUA. Também pedi ao ChatGPT para listar “os três fatos mais interessantes que você conhece sobre o estado”. Os resultados foram, como meu editor colocou no título do artigo, “gloriosamente estranhos”.

O ChatGPT colocou a Ponte Golden Gate em algum lugar do Canadá. A ferramenta colocou a Estátua da Liberdade tanto no meio-oeste dos EUA quanto em algum lugar na ilha de Manhattan. E gerou duas Empire State Buildings. Resumindo, o ChatGPT entrou no clima do expressionismo abstrato, mas os resultados foram bem legais.

Também: Pedi ao DALL-E 3 para criar um retrato de cada estado dos EUA, e os resultados foram gloriosamente estranhos

Quanto aos fatos individuais, eles estavam em sua maioria corretos. Eu sou bom em geografia e história dos EUA, e achei que poucos dos fatos gerados pelo ChatGPT se destacaram como completamente errados. Mas eu não verifiquei os fatos de forma independente. Apenas li os resultados e os considerei bons o suficiente.

Mas e se realmente queremos saber a precisão desses 150 pontos de fato? Esse tipo de pergunta parece um projeto ideal para uma IA.

Metodologia

Aqui está a questão. Se o GPT-4, o modelo de linguagem grande da OpenAI utilizado pelo ChatGPT Plus, gerou as afirmações de fato, eu não estava totalmente convencido de que ele deveria verificá-las. Isso é como pedir a estudantes do ensino médio para escreverem um trabalho de história sem usar qualquer referência e, em seguida, corrigirem seu próprio trabalho. Eles já estão começando com informações suspeitas – e então você está deixando-os se corrigirem? Não, isso não parece certo para mim.

Também: Dois avanços tornaram 2023 o ano mais inovador da tecnologia em mais de uma década

Mas e se alimentarmos esses fatos para outros LLMs dentro de outros AIs? Tanto o Bard do Google quanto o Claude da Anthropic possuem seus próprios LLMs. O Bing usa o GPT-4, mas decidi testar suas respostas apenas para ser completista.

Como você verá, recebi o melhor feedback do Bard, então alimentei suas respostas de volta para o ChatGPT em uma perversão round-robin da ordem natural do universo. Foi um projeto legal.

Anthropic Claude

Claude usa o Claude 2 LLM, que também é usado dentro da implementação de IA da Notion. Claude me permitiu alimentá-lo com um PDF contendo o conjunto completo de fatos (sem as imagens). Aqui está o que recebi em retorno:

No geral, Claude considerou a lista de fatos na maioria das vezes precisa, mas teve algumas clarificações para três itens. Eu limitei o tamanho dos fatos do ChatGPT, e esse limite inibiu nuances nas descrições dos fatos. A verificação de fatos de Claude teve problemas com a falta de nuances.

No geral, foi uma resposta encorajadora.

Copilot… ou nopilot?

Então chegamos ao Copilot da Microsoft, o renomeado Bing Chat AI. O Copilot não permite o upload de PDFs, então tentei colar o texto de todos os 50 fatos sobre os estados. Essa abordagem falhou imediatamente, pois o Copilot aceita apenas prompts com até 2.000 caracteres:

Perguntei ao Copilot o seguinte:

O seguinte texto contém nomes de estados seguidos por três fatos sobre cada estado. Por favor, examine os fatos e identifique quaisquer erros para cada estado.

Aqui está o que recebi em retorno:

Basicamente, ele repetiu os dados de fato que pedi para verificar. Então, tentei orientá-lo com um prompt mais enfático:

Mais uma vez, recebi de volta os dados que pedi para verificar. Achei essa saída muito estranha, pois o Copilot usa o mesmo LLM do ChatGPT. Claramente, a Microsoft o ajustou de forma diferente do ChatGPT.

Eu desisti e fui para o Bard.

Bard

O Google acabou de anunciar seu novo LLM Gemini. Ainda não tenho acesso ao Gemini, então executei esses testes no modelo Google PaLM 2.

Também: O que é o Gemini? Tudo que você precisa saber sobre o novo modelo de IA do Google

Em comparação com Claude e Copilot, o Bard arrasou, ou, de forma mais shakespeariana, “cavalga o estreito mundo como um gigante”.

Confira os resultados abaixo:

É importante notar que muitos fatos sobre os estados nem sequer são concordados pelos próprios estados ou têm nuances. Como mostrarei na próxima seção, alimentei esta lista de volta para o ChatGPT e encontrei duas discrepâncias nas respostas do Alasca e de Ohio.

Mas há outras falhas aqui. De certa forma, o Bard compensou demais a tarefa. Por exemplo, o Bard afirmou corretamente que outros estados, além do Maine, produzem lagostas. Mas o Maine se dedica totalmente à produção de lagostas. Nunca estive em outro estado que tenha mini-armadilhas para lagostas como um dos souvenires de armadilha turística mais populares.

Também: Passei um fim de semana com os cursos gratuitos de IA da Amazon e recomendo fortemente que você também faça

Ou vamos escolher Nevada e a Área 51. ChatGPT disse: “Base militar ultrassecreta, avistamentos de OVNIs rumorados.” Bard tentou corrigir, dizendo “A Área 51 não é apenas rumores de avistamentos de OVNIs. É uma instalação militar ultrassecreta real, e seu propósito é desconhecido.” Eles estão basicamente dizendo a mesma coisa. Bard apenas não percebeu a nuance que vem quando há um limite de palavras apertado.

Outro lugar em que Bard pegou o ChatGPT sem entender o contexto foi Minnesota. Sim, Wisconsin também tem muitos lagos. Mas Bard não afirmou que Minnesota tinha a maioria dos lagos. Ele apenas descreveu Minnesota como a “Terra dos 10.000 lagos”, que é um dos slogans mais comuns de Minnesota.

Bard se prendeu a Kansas também. ChatGPT disse que Kansas é “Casa do centro geográfico dos Estados Unidos contíguos”. Bard afirmou que era Dakota do Sul. E isso seria verdade se você considerar Alasca e Havaí. Mas ChatGPT disse “contíguos”, e essa honra vai para um ponto perto de Lebanon, Kansas.

Também: Esses são os empregos mais propensos a serem substituídos pela IA

Poderia continuar, e vou na próxima seção, mas você entendeu o ponto. O fato de Bard verificar parece impressionante, mas muitas vezes perde o ponto e se equivoca tanto quanto qualquer outra IA.

Antes de prosseguirmos para a verificação de fatos limitada do ChatGPT sobre a verificação de fatos de Bard, deixe-me salientar que a maioria das entradas de Bard estava errada ou equivocada. E mesmo assim, o Google coloca as respostas de sua IA na frente da maioria dos resultados de pesquisa. Isso preocupa você? Com certeza, me preocupa.

Tão maravilhoso, meus senhores e senhoras, não deve ser mencionado.

ChatGPT

Logo de cara, percebi que Bard errou um de seus fatos – Alasca é muito maior que o Texas. Então, pensei, vamos ver se o ChatGPT pode verificar os fatos de Bard. Por um momento, pensei que essa perseguição de IA pudesse tirar a lua da órbita da Terra, mas então decidi que arriscaria toda a estrutura de nosso universo porque sabia que você gostaria de saber o que aconteceu:

Aqui está o que eu alimentei o ChatGPT:

E aqui está o que ChatGPT disse (e, para esclarecer, a lua continua em órbita):

Como você pode ver, ChatGPT discordou da afirmação errônea de Bard de que o Texas é o estado maior. Também teve um pequeno ataque nervoso em relação à disputa entre Ohio e Kansas sobre o nascimento da aviação, o que é mais controverso do que a maioria das escolas ensina.

Também: 7 maneiras de garantir que seus dados estejam prontos para IA generativa

É geralmente aceito que Wilbur e Orville Wright foram os primeiros a voar em um avião (na verdade, em Kitty Hawk, Carolina do Norte), embora tenham construído seu Wright Flyer em Dayton, Ohio. Dito isso, Sir George Cayley (1804), Henri Giffard (1852), Félix du Temple (1874), Clément Ader (1890), Otto Lilienthal (1891), Samuel Langley (1896), Gustave Whitehead (1901) e Richard Pearse (1902) – da Nova Zelândia, Reino Unido, França, Alemanha e outras partes dos EUA – todos têm reivindicações um tanto legítimas de serem os primeiros no voo.

Mas daremos o ponto ao ChatGPT, porque ele tem apenas 10 palavras para fazer uma afirmação, e Ohio foi onde os irmãos Wright tinham sua oficina de bicicletas.

Conclusões e observações

Vamos esclarecer uma coisa desde já: se você está apresentando um trabalho ou um documento em que seus fatos precisam estar corretos, faça sua própria verificação de fatos. Caso contrário, suas ambições do tamanho do Texas podem ser enterradas sob um problema do tamanho do Alasca.

Como vimos em nossos testes, os resultados (assim como com Bard) podem parecer impressionantes, mas estão completamente ou parcialmente errados. No geral, foi interessante pedir às várias IA que se verificassem mutuamente, e este é um processo que eu provavelmente explorarei mais, mas os resultados foram apenas conclusivos na sua inconclusividade.

O Copilot desistiu completamente e simplesmente pediu para voltar a dormir. Claude discordou da nuance de algumas respostas. Bard criticou duramente uma série de respostas – mas, aparentemente, errar não é apenas humano, é também IA.

Também: Esses 5 grandes avanços tecnológicos de 2023 foram os maiores game-changers

Em conclusão, devo citar o verdadeiro Bard e dizer: “Confusão agora fez sua obra-prima!”

O que você acha? Quais erros gritantes você já viu do seu AI favorito? Você está satisfeito em confiar nos AIs para fatos, ou agora fará seus próprios processos de verificação de fatos? Deixe-nos saber nos comentários abaixo.

Você pode acompanhar as atualizações diárias do meu projeto nas redes sociais. Certifique-se de se inscrever em minha newsletter de atualização semanal no Substack, e me siga no Twitter em @DavidGewirtz, no Facebook em Facebook.com/DavidGewirtz, no Instagram em Instagram.com/DavidGewirtz e no YouTube em YouTube.com/DavidGewirtzTV.

Eu verifiquei os fatos do ChatGPT com Bard, Claude e Copilot – e esta IA foi a mais confiantemente incorreta.

Eu analisei os dados do ChatGPT com Bard, Claude e Copilot - e esta inteligência artificial foi a mais claramente imprecisa.

O projeto

Metodologia

Anthropic Claude

Copilot… ou nopilot?

Bard

ChatGPT

Conclusões e observações

TikTok investe $1,5 bilhão no mercado de co...

A Apple adia o lançamento colaborativo de p...

James Webb fornece imagem impressionante em...

Compre hoje Apple AirPods estão de volta ao...

Startup de pagamentos SumUp ganha €285M em ...

Economize $80 ao comprar o Google Nest Door...

News