Como o Google e a OpenAI incentivaram o GPT-4 a fornecer respostas mais pontuais

Como o Google e a OpenAI impulsionaram o GPT-4 para fornecer respostas mais precisas

exclamation-gettyimages-171158764

Uma característica marcante de programas populares de inteligência artificial generativa, como o ChatGPT, é que eles têm um limite de tempo em termos de quais fatos eles absorveram. Por exemplo, recentemente a OpenAI atualizou seu programa GPT-4 para ter acesso a dados sobre eventos que ocorreram até abril de 2023; antes dessa atualização, a ferramenta era treinada apenas com dados tão recentes quanto 2021.

No entanto, cientistas de IA estão trabalhando em maneiras de permitir que programas de IA generativa acessem de forma confiável dados em constante mudança sobre questões atuais e urgentes, como “Qual é o álbum mais recente de King Gizzard?” (Resposta: The Silver Cord).

Também: O ChatGPT não está mais tão desinformado sobre eventos recentes

Nesse sentido, o Google e a OpenAI publicaram este mês um esforço conjunto chamado FreshLLM, que induz o GPT-4 a usar informações obtidas por meio de pesquisas no Google. O cerne do FreshLLM é um novo método para provocar um modelo de linguagem, chamado “FreshPrompt”, que inclui resultados de um mecanismo de busca.

Ao incluir na prompt de entrada do GPT-4 os principais resultados de pesquisa do Google e, em seguida, mostrar uma resposta válida a uma consulta com base nesses resultados de pesquisa, o GPT-4 foi induzido a usar evidências da pesquisa na Web para criar sua saída. O resultado melhorou significativamente a resposta do programa a perguntas sobre informações atuais.

“O FreshPrompt melhora significativamente o desempenho em relação a abordagens concorrentes que usam mecanismos de busca”, escrevem o autor principal Tu Vu do Google e seus colegas, no artigo de pesquisa “FreshLLMs: Refreshing large language models with search engine augmentation”, que está publicado no servidor de pré-impressão arXiv.

A técnica FreshPrompt, no entanto, é apenas parte da história. Para testar como o GPT-4 e programas concorrentes se saem ao usar dados da Web, Vu e seus colegas tiveram que criar uma lista de perguntas que representassem um desafio com fatos do mundo real e atualizados.

Também: A IA generativa pode facilmente se tornar maliciosa apesar das precauções, dizem acadêmicos

Para isso, a equipe – com a ajuda de colegas e freelancers online – escreveu perguntas sobre “desenvolvimentos no mundo” que foram formuladas para incluir o que eles chamam de “conhecimento atual” – ou seja, “conhecimento que mudou recentemente ou novos eventos” – e que também eram perguntas “plausíveis para uma pessoa real digitar em um mecanismo de busca”.

Exemplos de algumas das 600 perguntas criadas por acadêmicos do Google e da OpenAI para testar o conhecimento da IA generativa sobre fatos em rápida mudança.

Foram criadas 600 perguntas, chamadas FreshAQ, que variam desde perguntas que nunca mudam – “O romance de Virginia Woolf sobre a família Ramsay entrou em domínio público nos Estados Unidos?” – até perguntas que mudam rapidamente – como “Qual é o filme mais recente de Brad Pitt como ator?” A maioria, mas nem todas as respostas são obtidas da Wikipedia.

O código no GitHub do projeto contém um link para um planilha do Google Docs com o banco de dados completo de perguntas do FreshQA. Ler a lista de 600 perguntas é uma imersão instantânea em trivia. “Qual autor teve mais romances mais vendidos nos Estados Unidos no ano passado, de acordo com a Publishers Weekly?” (Resposta: Colleen Hoover). “Quantas contas ultrapassaram 100 milhões de seguidores no Instagram?” (Resposta: 38).

Também: AWS apresenta um chatbot de IA para empresas – veja como experimentá-lo gratuitamente

Os autores também compilaram perguntas de falsa premissa, pois você deve saber que o que é afirmado na própria pergunta não é realmente o caso, como “Em que ano o primeiro humano pousou em Marte?”

Previsivelmente, o GPT-4 e outros grandes modelos de linguagem testados, como o Modelo de Linguagem de Caminhos do Google, PaLM, tiveram dificuldades com as perguntas do FreshQA e se saíram melhor quando receberam a ajuda do FreshPrompt. “Isso se deve principalmente à falta de acesso a informações atualizadas, pois eles produzem respostas ‘desatualizadas'”, observam Vu e sua equipe. Muitos programas se recusarão a fornecer uma resposta.

A adição do FreshPrompt, eles relatam, “melhora significativamente a precisão do FreshQA” no GPT-4. A técnica “diminui drasticamente a presença de respostas desatualizadas e alucinadas”, acrescentam. Em perguntas sobre fatos posteriores a 2022, a precisão do GPT-4 passa de uma precisão abismal de 8% para 70,2%. Em todas as perguntas do FreshQA, incluindo fatos mais antigos, a precisão aumenta de 28,6% para 75,6%.

Quanto às perguntas de falsa premissa, a diferença é enorme. O modelo de linguagem tem que afirmar que a pergunta é falsa para receber crédito. Usando o FreshPrompt, o GPT-4 passou de uma precisão de 33,9% em perguntas de falsa premissa para 71%. É verdade que isso significa que o GPT-4 ainda pode ser enganado e aceitar uma pergunta de falsa premissa quase um terço das vezes.

Também: A IA está mentindo para nós? Esses pesquisadores criaram um detector de mentiras do tipo LLM para descobrir

Os autores descobriram que o FreshPrompt foi capaz de superar outras pesquisas que também usam consultas de mecanismo de busca para “aumentar” modelos de linguagem. Isso inclui, por exemplo, o Perplexity.ai, uma combinação do GPT-3.5 e do Bing Search. A precisão média no Perplexity, em todas as perguntas do FreshQA, foi de 52,2% de precisão, apenas um pouco melhor do que a chance aleatória. Novamente, para o GPT-4, usando o FreshPrompt, os autores conseguiram obter 75,6% de precisão.

Uma diferença importante, observam, é quantos fragmentos de evidência estão incluídos no FreshPrompt a partir da pesquisa na Web. Em geral, mais é melhor. “Nossos resultados sugerem que a quantidade de evidências recuperadas para cada pergunta é o ingrediente mais importante para alcançar a maior precisão.”

Os autores observam que há alguns desafios reais no futuro. Uma coisa é que é demorado manter o FreshPrompt atualizado, o que envolve verificar se as respostas ainda são relevantes. A equipe expressa a esperança de que a comunidade de código aberto possa ajudar, ou que a atualização possa ser automatizada por meio de IA generativa. Por enquanto, Vu e sua equipe se comprometeram a manter o FreshQA atualizado.


Divulgação: Tiernan Ray não possui ações em nada sobre o que ele escreve, e não há relação comercial entre a Tiernan Ray LLC, editora do The Technology Letter, e nenhuma das empresas abordadas.