O ChatGPT responde incorretamente a mais da metade das perguntas de engenharia de software.

O ChatGPT responde incorretamente a mais de 50% das perguntas de engenharia de software.

A habilidade do ChatGPT de fornecer respostas conversacionais para qualquer pergunta a qualquer momento torna o chatbot uma ferramenta útil para suas necessidades de informação. Apesar da conveniência, um novo estudo descobriu que você talvez não queira usar o ChatGPT para prompts de engenharia de software.

Antes do surgimento dos chatbots de IA, o Stack Overflow era o recurso principal para programadores que precisavam de conselhos para seus projetos, com um modelo de pergunta e resposta semelhante ao do ChatGPT.

Também: Como bloquear o rastreador web de treinamento de IA da OpenAI para evitar que ele colete seus dados

No entanto, no Stack Overflow, você precisa esperar alguém responder sua pergunta, enquanto no ChatGPT você não precisa.

Como resultado, muitos engenheiros de software e programadores têm recorrido ao ChatGPT com suas perguntas. Como não havia dados mostrando o quão eficaz o ChatGPT é em responder esse tipo de prompt, um novo estudo da Universidade de Purdue investigou o dilema.

Para descobrir o quão eficiente o ChatGPT é em responder prompts de engenharia de software, os pesquisadores forneceram ao ChatGPT 517 perguntas do Stack Overflow e examinaram a precisão e qualidade das respostas.

Também: Como usar o ChatGPT para escrever código

Os resultados mostraram que, das 512 perguntas, 259 (52%) das respostas do ChatGPT estavam incorretas e apenas 248 (48%) estavam corretas. Além disso, impressionantes 77% das respostas eram verbosas.

Apesar da significativa imprecisão das respostas, os resultados mostraram que as respostas eram abrangentes em 65% das vezes e abordavam todos os aspectos da pergunta.

Para analisar ainda mais a qualidade das respostas do ChatGPT, os pesquisadores solicitaram insights de 12 participantes com diferentes níveis de expertise em programação.

Também: A equipe de red team da Microsoft monitora IA desde 2018. Aqui estão cinco grandes insights

Embora os participantes tenham preferido as respostas do Stack Overflow em várias categorias, como visto no gráfico, eles não conseguiram identificar corretamente as respostas geradas pelo ChatGPT que estavam incorretas em 39,34% das vezes.

De acordo com o estudo, as respostas bem articuladas geradas pelo ChatGPT fizeram com que os usuários ignorassem informações incorretas nas respostas.

“Os usuários ignoram informações incorretas nas respostas do ChatGPT (39,34% das vezes) devido à abrangência, boa articulação e percepções humanas nas respostas do ChatGPT”, escreveram os autores.

Também: Como o ChatGPT pode reescrever e melhorar seu código existente

A geração de respostas plausíveis que estão incorretas é um problema significativo em todos os chatbots, pois permite a disseminação de desinformação. Além desse risco, as baixas pontuações de precisão devem ser suficientes para fazer você reconsiderar o uso do ChatGPT para esse tipo de prompt.