O ChatGPT lança recursos de voz e imagem

ChatGPT lança recursos de voz e imagem' - 'ChatGPT launches voice and image features

O chatbot favorito de todos agora pode ver, ouvir e falar. Na segunda-feira, a OpenAI anunciou novas capacidades multimodais para o ChatGPT. Os usuários agora podem ter conversas de voz ou compartilhar imagens com o ChatGPT em tempo real.

Recursos de áudio e multimodais se tornaram a próxima fase na acirrada competição de IA generativa. A Meta lançou recentemente o AudioCraft para gerar música com IA e o Google Bard e o Microsoft Bing ambos implantaram recursos multimodais para suas experiências de chat. Apenas na semana passada, a Amazon apresentou uma versão renovada da Alexa que será alimentada por seu próprio LLM (modelo de linguagem grande), e até a Apple está experimentando com voz gerada por IA, com o Personal Voice.

As capacidades de voz estarão disponíveis no iOS e Android. Como a Alexa ou Siri, você pode tocar para falar com o ChatGPT e ele falará de volta para você em uma das cinco opções de voz preferidas. Ao contrário dos assistentes de voz atuais, o ChatGPT é alimentado por LLMs mais avançados, então o que você ouvirá é o mesmo tipo de resposta conversacional e criativa que o GPT-4 e o GPT-3.5 da OpenAI são capazes de criar com texto. O exemplo que a OpenAI compartilhou no anúncio é a geração de uma história de dormir a partir de um comando de voz. Assim, pais exaustos no final de um longo dia podem terceirizar sua criatividade para o ChatGPT.

O tweet pode ter sido excluído

O reconhecimento multimodal é algo que tem sido previsto há um tempo e agora está sendo lançado de forma amigável para o ChatGPT. Quando o GPT-4 foi lançado em março passado, a OpenAI demonstrou sua capacidade de entender e interpretar imagens e texto manuscrito. Agora isso fará parte do uso cotidiano do ChatGPT. Os usuários podem fazer upload de uma imagem de algo e perguntar ao ChatGPT sobre isso – identificar uma nuvem ou fazer um plano de refeições com base em uma foto do conteúdo da sua geladeira. O multimodal estará disponível em todas as plataformas.

Como em qualquer avanço de IA generativa, existem sérias questões éticas e de privacidade a serem consideradas. Para mitigar os riscos de deepfakes de áudio, a OpenAI diz que está usando sua tecnologia de reconhecimento de áudio apenas para o caso de uso específico de “chat por voz”. Além disso, foi criado com atores de voz com os quais eles “trabalharam diretamente”. Dito isso, o anúncio não menciona se as vozes dos usuários podem ser usadas para treinar o modelo quando você optar pelo chat por voz. Quanto às capacidades multimodais do ChatGPT, a OpenAI diz que tomou “medidas técnicas para limitar significativamente a capacidade do ChatGPT de analisar e fazer declarações diretas sobre pessoas, uma vez que o ChatGPT nem sempre é preciso e esses sistemas devem respeitar a privacidade dos indivíduos”. Mas o verdadeiro teste de usos nefastos só será conhecido quando for lançado ao público.

O chat por voz e as imagens serão lançados para os usuários do ChatGPT Plus e Enterprise nas próximas duas semanas, e para todos os usuários “em breve”.