Agora você pode ter conversas por voz com o ChatGPT. Aqui está como

Converse por voz com o ChatGPT. Veja como.

Quando a OpenAI lançou o GPT-4 em março, uma de suas maiores vantagens foram suas capacidades multimodais, que permitiriam que o ChatGPT recebesse inputs de imagens. No entanto, a capacidade multimodal não estava pronta para ser implantada – até agora.

Na segunda-feira, a OpenAI anunciou que o ChatGPT agora pode “ver, ouvir e falar”, aludindo às novas habilidades do popular chatbot de receber inputs tanto de imagens quanto de voz e responder em conversas de voz.

Também: Amazon aumenta a aposta em IA generativa com investimento de $4 bilhões na Anthropic

A funcionalidade de input de imagem pode ser útil para obter assistência com coisas que você pode ver, como resolver um problema de matemática em uma folha de exercícios, identificar o nome de uma planta ou olhar os itens em sua despensa e fornecer receitas.

Em todas as instâncias acima, tudo o que o usuário precisa fazer é tirar uma foto do que está olhando e adicionar a pergunta à qual gostaria de obter uma resposta. A OpenAI revela que a capacidade de compreensão de imagem é alimentada pelo GPT-3.5 e GPT-4.

A funcionalidade de input e output de voz dá ao ChatGPT a mesma funcionalidade de uma assistente de voz. Agora, para fazer uma solicitação ao ChatGPT, tudo o que os usuários precisam fazer é usar a voz deles e, uma vez que ele tenha processado sua solicitação, ele verbalmente dirá sua resposta de volta para você.

No demo compartilhado pela OpenAI, um usuário pede verbalmente ao ChatGPT para contar uma história de ninar sobre um ouriço. O ChatGPT responde contando uma história, semelhante ao funcionamento de assistentes de voz como a Alexa da Amazon.

Também: Por que o código aberto é o berço da inteligência artificial

A corrida por assistentes de IA com suporte de IA está em andamento, pois na semana passada a Amazon anunciou que estava potencializando a Alexa com um novo LLM que lhe daria capacidades semelhantes às do ChatGPT, essencialmente transformando-a em uma assistente de IA hands-free. A integração de voz do ChatGPT em sua plataforma alcança o mesmo resultado final.

Para suportar a funcionalidade de voz, a OpenAI usa o Whisper, seu sistema de reconhecimento de voz, para transcrever as palavras faladas do usuário em texto e um novo modelo de texto para fala que pode gerar áudio semelhante ao humano a partir do texto com apenas alguns segundos de fala.

Para criar todas as cinco vozes do ChatGPT das quais os usuários podem selecionar, a empresa colaborou com atores de voz profissionais.

Tanto a funcionalidade de voz quanto a de imagem estarão disponíveis apenas para ChatGPT Plus e Enterprise nas próximas duas semanas. No entanto, a OpenAI diz que expandirá o acesso à funcionalidade para outros usuários, como desenvolvedores, em breve.

Também: Meus dois plugins favoritos do ChatGPT Plus e as coisas notáveis que posso fazer com eles

Se você é um usuário Plus ou Enterprise, para acessar a funcionalidade de input de imagem, tudo o que você precisa fazer é tocar no botão de foto na interface de chat e fazer upload de uma imagem. Para acessar a funcionalidade de voz, vá para Configurações < Novos Recursos e opte por conversas de voz.

O Bing Chat, que é suportado pelo GPT-4, suporta inputs de imagem e voz e é completamente gratuito. Portanto, se você quiser testar esses recursos, mas ainda não tem acesso a eles, o Bing Chat é uma boa alternativa.