Por que as Métricas de Benchmark de IA Podem Ser Enganosas e o que Isso Significa para os Usuários

Os benchmarks de IA mais utilizados não foram ajustados ou revisados para refletir com precisão o uso atual dos modelos, de acordo com especialistas.

“`html

AI benchmarks reveal little | ENBLE

🤖🎯

As empresas de IA estão em constante corrida para afirmar que seus modelos superam a concorrência. A Anthropic e a Inflection AI são as últimas concorrentes, ostentando desempenho e qualidade superiores em comparação com gigantes do setor como os modelos GPT da OpenAI. Mas o que essas afirmações realmente significam, e elas se traduzem em melhorias tangíveis para os usuários? Vamos mergulhar no mundo das métricas de referência de IA para descobrir a verdade.

Medidas Esotéricas: O Problema com as Referências

📊🧪

A maioria dos modelos de IA, especialmente os baseados em chatbots, dependem de referências para avaliar suas capacidades. No entanto, essas referências muitas vezes falham em captar como a pessoa média interage com esses modelos em cenários da vida real. Por exemplo, uma referência como GPQA se concentra em questões de nível de pós-graduação em diferentes campos científicos, enquanto a maioria dos usuários depende de chatbots para tarefas cotidianas como escrever e-mails ou expressar seus sentimentos.

Jesse Dodge do Instituto Allen para IA descreve essa situação como uma “crise de avaliação”. Muitas referências usadas hoje estão desatualizadas e não estão alinhadas com as diversas maneiras como as pessoas usam os modelos de IA generativa. Como resultado, essas referências não refletem verdadeiramente a utilidade ou a experiência do usuário dos modelos no mundo real.

Métricas Erradas: Habilidades e Testes Irrelevantes

❌🧪

As referências comumente usadas frequentemente avaliam habilidades e conhecimentos irrelevantes para a maioria dos usuários. Avaliar a capacidade de um modelo de resolver problemas de matemática de nível escolar ou identificar anacronismos não mede com precisão sua utilidade em cenários cotidianos.

David Widder, um pesquisador pós-doutoral em Cornell, explica que sistemas de IA mais antigos se concentravam em resolver problemas dentro de contextos específicos, o que facilitava a avaliação de seu desempenho. No entanto, à medida que os modelos se tornam mais “de uso geral”, torna-se desafiador confiar em avaliações específicas de contexto. Consequentemente, as referências atuais visam testar modelos em uma variedade de campos, mas ainda falham em termos de usabilidade e relevância no mundo real.

Além disso, há preocupações sobre a precisão e validade de algumas referências. O teste HellaSwag, projetado para avaliar o raciocínio comum em modelos, contém perguntas com erros de digitação e redação sem sentido. Outra referência, MMLU, testa modelos em problemas lógicos que podem ser resolvidos através da memorização mecânica, em vez de verdadeira compreensão e capacidade de raciocínio.

Corrigindo o que Está Quebrado: Envolvimento Humano e Avaliação Contextual

🔨🤝

Para superar as limitações das referências existentes, especialistas propõem incorporar mais envolvimento humano e avaliar modelos em cenários reais de usuário.

Jesse Dodge sugere combinar referências de avaliação com avaliação humana. Os modelos devem ser solicitados com consultas de usuários reais, e os humanos podem então avaliar a qualidade das respostas. Esse método forneceria uma avaliação mais precisa do desempenho de um modelo do ponto de vista do usuário.

David Widder, no entanto, acredita que as referências atuais, mesmo com correções para erros como erros de digitação, não podem informar suficientemente a grande maioria dos usuários de modelos de IA generativa. Em vez disso, ele sugere avaliar modelos com base em seus impactos downstream nos usuários e na desejabilidade desses impactos. Esse método envolveria examinar os objetivos contextuais e avaliar se os modelos de IA atendem com sucesso a esses objetivos.

Olhando para o Futuro: O Impacto e o Futuro da Referência de IA

🔮🚀

O estado fragmentado das métricas de referência de IA sugere a necessidade de uma abordagem mais abrangente. As empresas de IA devem priorizar o desenvolvimento de referências que estejam alinhadas com casos de uso do mundo real e medir o impacto prático de seus modelos. À medida que a IA se integra cada vez mais em vários aspectos de nossas vidas, é crucial abordar as limitações das referências para garantir que a tecnologia atenda efetivamente às necessidades do usuário.

No futuro, podemos testemunhar uma mudança para estratégias de avaliação mais holísticas que considerem os aspectos multidimensionais do desempenho do modelo de IA. Ao focar nos objetivos contextuais e avaliar os impactos downstream, podemos entender melhor o valor que esses modelos trazem para diferentes domínios e requisitos do usuário.

🤔 Perguntas do Leitor:

P: Existem novas referências sendo desenvolvidas que abordam as limitações mencionadas?

R: Sim, esforços estão em andamento para abordar as deficiências das referências existentes. Alguns pesquisadores estão trabalhando no desenvolvimento de referências que reflitam melhor cenários de uso do mundo real, focando em áreas como comunicações empresariais, compreensão de idiomas e interações de serviço ao cliente. Essas referências visam fornecer uma avaliação mais precisa do desempenho dos modelos de IA em aplicações práticas. Confira este artigo para obter mais informações.

“““html

Q: Como os usuários podem avaliar o desempenho dos modelos de IA sem depender apenas de benchmarks?

A: Avaliar os modelos de IA vai além das métricas baseadas em benchmarks. Os usuários podem considerar fatores como a responsividade do modelo, precisão, fluência em idiomas e compreensão contextual. Além disso, reunir feedback de usuários reais e realizar pesquisas com usuários pode fornecer insights valiosos sobre a eficácia do modelo e a satisfação do usuário. Em última análise, os usuários devem priorizar modelos que estejam alinhados com suas necessidades e requisitos específicos.

Referências:

  1. New Linux Kernel Released: One of the Largest Ever
  2. Compreendendo GPT: O Que Significa GPT-4?
  3. Novo Modelo Gemini do Google Pode Analisar Vídeos de Uma Hora
  4. Inovador Original da App Store Clear Relança Aplicativo de Lista Deslizante
  5. GPT-2 e GPT-3: Melhor IA de acordo com as Tendências Digitais

“`