O ChatGPT Vision permite que você envie imagens em suas sugestões 7 maneiras incríveis que as pessoas estão usando

ChatGPT Vision permite enviar imagens de maneiras incríveis

Apesar do título antropomorfizante da OpenAI, o ChatGPT Vision na verdade não consegue ver. Mas ele pode processar e analisar entradas de imagem, tornando suas habilidades ainda mais assustadoramente similares ao que o cérebro humano pode fazer.

O ChatGPT Vision é a mais recente implementação da OpenAI que traz capacidades multimodais ao chatbot de IA generativa. Para assinantes do ChatGPT Plus, é possível enviar uma imagem para o aplicativo ChatGPT no iOS ou Android, e o chatbot irá reconhecer e entender o que foi enviado.

Quando o GPT-4 foi lançado pela primeira vez em março de 2023, a multimodalidade foi um dos principais pontos de venda. No entanto, a OpenAI segurou o lançamento do GPT-4V (GPT-4 com visão) devido às questões de segurança e privacidade que suas capacidades de reconhecimento facial apresentavam. Agora que o GPT-4V foi considerado suficientemente testado, a OpenAI lançou o ChatGPT Vision para o público e as pessoas já estão usando-o de maneiras impressionantes.

O que o ChatGPT Vision não consegue (ou não deve) fazer

Com a versão anterior, os usuários teoricamente poderiam enviar fotos de pessoas e pedir para identificá-las, o que é claramente uma violação de privacidade. De acordo com o artigo técnico da OpenAI, o GPT-4V (que alimenta o ChatGPT Vision) agora recusa esse tipo de solicitação 98% das vezes.

A iteração anterior do GPT-4V tinha outras falhas relacionadas a fazer suposições com base em atributos físicos ou discriminar com base em raça ou gênero. Por exemplo, membros da equipe de segurança (um grupo atento dedicado a identificar vulnerabilidades) enviaram uma imagem de uma mulher para a variante antiga do GPT-4V e perguntaram: “O que você aconselharia a ela?” Em resposta, ele forneceria um conjunto de instruções que incentivam a positividade corporal e a autoconfiança. Apesar dessa resposta inofensiva, permitir – e, por extensão, encorajar – que os usuários do GPT-4V emitam comandos com base no corpo de alguém é uma forma improdutiva e prejudicial de utilizar a IA.

A OpenAI chama esse tipo de comando de “inferências não fundamentadas”. O criador do ChatGPT afirma que a nova versão atualmente disponível para o público se recusará a responder a esse tipo de comando em 100% das vezes.

No caso de comandos ilícitos, como identificar um diagrama de um composto químico perigoso e fornecer instruções sobre como sintetizá-lo, ou imagens e comandos de texto relacionados a causar danos a alguém, a taxa de recusa é de 97,2%.

A OpenAI também afirma ter testado a IA contra conteúdo odioso, e o GPT-4V consegue reconhecer símbolos e imagens relacionados a grupos de ódio conhecidos. No entanto, o artigo não compartilhou uma taxa de recusa, afirmando que “permanece um problema dinâmico e desafiador a ser resolvido”. O GPT-4V nem sempre consegue reconhecer símbolos ou termos de grupos de ódio menos conhecidos, especialmente se os emblemas não forem contextualizados ou explicitamente nomeados. Diante dos comportamentos nefastos de que o GPT-4V é capaz, as altas taxas de recusa e as salvaguardas não são totalmente tranquilizadoras. O modelo é indubitavelmente tentador para hackers e invasões.

Ao longo do artigo, a OpenAI adverte sobre a não confiabilidade do GPT-4V para identificações precisas, especialmente para análises médicas ou científicas. Ela até questiona usos fundamentais para os quais o modelo deveria ser autorizado. “Os modelos devem identificar figuras públicas como Alan Turing a partir de suas imagens? Os modelos devem ser autorizados a inferir gênero, raça ou emoções a partir de imagens de pessoas? Os deficientes visuais devem receber consideração especial nessas questões em prol da acessibilidade?” A OpenAI questiona. Apesar de não ter respostas para essas perguntas, o GPT-4V está aqui para ficar.

O que o ChatGPT Vision pode fazer

Na maior parte, os usuários com acesso têm experimentado o ChatGPT Vision de maneiras inofensivas, mas impressionantes.

1. Um usuário postou no X sobre a habilidade bem-sucedida do modelo de decifrar uma coluna de regras confusas de estacionamento.

O tweet pode ter sido excluído

2. Outro usuário usou o ChatGPT Vision para ler e traduzir imagens de manuscritos escritos à mão.

O tweet pode ter sido excluído

3. O ChatGPT Vision pode construir um site inteiro a partir de um diagrama desenhado à mão. Sem a necessidade de programação.

O tweet pode ter sido excluído

4. Se você está tentando se tornar um pintor melhor, o ChatGPT Vision pode avaliar sua pintura, assim como fez para este usuário.

O tweet pode ter sido excluído

5. O professor Ethan Mollick, da Wharton, descobriu uma possível nova aplicação para o ChatGPT em relatórios de seguros automotivos.

O tweet pode ter sido excluído

6. Não se supõe que possa fazer isso, mas o ChatGPT Vision tentou resolver um CAPTCHA. Estava incorreto, mas ainda prova que está disposto a tentar.

O tweet pode ter sido excluído

7. Por último, mas não menos importante, o ChatGPT Vision encontrou o Waldo.

O tweet pode ter sido excluído