O ChatGPT agora suporta chats de voz e consultas baseadas em imagens

ChatGPT agora suporta chats de voz e imagens.

O ChatGPT está recebendo algumas atualizações significativas que permitirão ao chatbot lidar com comandos de voz e consultas baseadas em imagens. Os usuários poderão ter uma conversa por voz com o ChatGPT no Android e iOS e enviar imagens para ele em todas as plataformas. A OpenAI está lançando esses recursos agora. Eles estarão disponíveis inicialmente para usuários do plano Plus e Enterprise, com outras pessoas ganhando acesso aos recursos baseados em imagens posteriormente.

Você precisará optar por conversas por voz no aplicativo ChatGPT (vá para Configurações e depois Novos Recursos) se quiser experimentá-las. Ao tocar no botão do microfone, você poderá escolher entre cinco vozes diferentes.

A OpenAI diz que as conversas de voz bidirecionais são alimentadas por um novo modelo de texto para fala que pode gerar “áudio humano a partir de apenas texto e alguns segundos de gravação de fala”. A empresa criou as cinco vozes com a ajuda de atores profissionais. No sentido contrário, o sistema de reconhecimento de fala Whisper da empresa converte as palavras faladas pelo usuário em texto.

As funções baseadas em imagens também são intrigantes. A OpenAI diz que você pode, por exemplo, mostrar ao chatbot uma foto da sua churrasqueira e perguntar por que ela não está funcionando, fazer com que ele ajude a planejar uma refeição com base em uma foto do que está na sua geladeira ou pedir para resolver um problema matemático que você fotografou. Curiosamente, a Microsoft destacou a capacidade do AI Copilot de resolver problemas matemáticos no Windows durante o evento Surface na semana passada.

A OpenAI está usando o GPT-3.5 e o GPT-4 para alimentar os recursos de reconhecimento de imagem. Para usar as funções baseadas em imagens do ChatGPT, toque no botão de foto (você precisará tocar primeiro no botão de adição no iOS ou Android) para tirar uma foto ou escolher uma imagem existente no seu dispositivo. Você pode fazer perguntas ao ChatGPT sobre várias fotos e usar uma ferramenta de desenho para focar em uma parte específica da imagem.

Em um post no blog anunciando as atualizações, a OpenAI observou o potencial de danos. É possível que pessoas mal-intencionadas imitem as vozes de figuras públicas (e pessoas comuns) e talvez cometam fraudes. É por isso que a OpenAI está focando em conversas por voz do ChatGPT com essa tecnologia e trabalhando com parceiros selecionados em outros casos de uso limitados (mais sobre isso em um momento).

Quanto às imagens, a OpenAI trabalhou com o Be My Eyes, um aplicativo gratuito que pessoas cegas e com baixa visão podem usar para ajudá-las a entender melhor o ambiente graças a voluntários que fazem chamadas de vídeo com elas. “Os usuários nos disseram que acham valioso ter conversas gerais sobre imagens que contêm pessoas ao fundo, como quando alguém aparece na TV enquanto você está tentando configurar as configurações do controle remoto”, disse a OpenAI. A empresa observou que também limitou como o ChatGPT pode analisar e fazer afirmações diretas sobre pessoas que aparecem em imagens, “pois o ChatGPT nem sempre é preciso e esses sistemas devem respeitar a privacidade das pessoas”. Ela publicou um artigo sobre as propriedades de segurança da funcionalidade baseada em imagens, que ela chama de GPT-4 com visão.

O ChatGPT é mais eficaz na compreensão de texto em inglês em imagens do que em outros idiomas. A OpenAI diz que o chatbot “tem um desempenho ruim” em outros idiomas por enquanto, especialmente quando se trata daqueles que usam scripts não romanos. Portanto, sugere que os usuários não-ingleses evitem usar o ChatGPT para lidar com texto em imagens por enquanto.

Enquanto isso, o Spotify se uniu à OpenAI para usar a tecnologia baseada em voz para um propósito interessante. A empresa anunciou um piloto de uma ferramenta chamada Voice Translation para podcasters. Isso pode traduzir podcasts para diferentes idiomas usando as vozes das pessoas que aparecem no programa. O Spotify diz que a ferramenta pode manter as características da fala do orador original após converter sua voz em outros idiomas.

Para começar, o Spotify está convertendo alguns programas em inglês para alguns idiomas. As versões em espanhol de alguns episódios de Armchair Expert e The Diary of a CEO com Steven Bartlett já estão disponíveis, e versões em francês e alemão virão em breve.