O Google Assistant finalmente recebe um brilho de IA generativa

O Google Assistant recebe brilho de IA generativa

O Google foi ousado quando lançou sua resposta à inteligência artificial generativa da OpenAI, o ChatGPT, em maio. A empresa adicionou geração de texto por inteligência artificial ao seu famoso mecanismo de busca, apresentou uma versão personalizada do sistema operacional Android e ofereceu seu próprio chatbot, o Bard. Mas um produto do Google não recebeu uma infusão de IA generativa: o Google Assistant, a resposta da empresa para Siri e Alexa.

Hoje, no evento de hardware Pixel em Nova York, o Google Assistant finalmente recebeu sua atualização para a era do ChatGPT. Sissie Hsiao, vice-presidente e gerente geral do Google Assistant, revelou uma nova versão do assistente de IA que combina o Google Assistant com o Bard.

Hsiao diz que o Google imagina esse novo assistente “multimodal” como uma ferramenta que vai além das consultas por voz, incluindo a compreensão de imagens. Ele pode lidar com “grandes tarefas e pequenas tarefas da sua lista de afazeres, desde planejar uma nova viagem até resumir sua caixa de entrada ou escrever uma legenda divertida para uma foto nas redes sociais”, disse ela em entrevista ao ENBLE no início desta semana.

Cortesia do Google

A nova experiência de IA generativa está em estágio tão inicial de implementação que Hsiao disse que ainda não se qualifica como um “aplicativo”. Quando questionados sobre mais informações sobre como ele pode aparecer no telefone de alguém, os representantes da empresa foram geralmente vagos sobre a forma final que ele pode ter. (Será que o Google apressou o anúncio para coincidir com seu evento de hardware? É bastante provável.)

Independentemente da forma em que ele apareça, o Google Assistant inspirado pelo Bard usará IA generativa para processar consultas de texto, voz ou imagem e responder de acordo, seja em texto ou voz. Ele está disponível apenas para usuários aprovados por um período de tempo desconhecido, funcionará apenas em dispositivos móveis, não em alto-falantes inteligentes, e exigirá que os usuários optem por usá-lo. No Android, ele pode funcionar como um aplicativo em tela cheia ou como uma sobreposição, semelhante ao funcionamento atual do Google Assistant. No iOS, provavelmente estará dentro de um dos aplicativos do Google.

O aprimoramento generativo do Google Assistant vem logo após a Alexa da Amazon se tornar mais conversacional e o ChatGPT da OpenAI também se tornar multimodal, sendo capaz de responder usando uma voz sintética e descrever o conteúdo de imagens compartilhadas com o aplicativo. Uma capacidade aparentemente única do assistente atualizado do Google é a habilidade de conversar sobre a página da web que um usuário está visitando em seu telefone.

Para o Google em particular, a introdução de IA generativa em seu assistente virtual levanta questões sobre quão rapidamente o gigante das buscas começará a usar modelos de linguagem grandes em mais de seus produtos. Isso pode mudar fundamentalmente como alguns deles funcionam e como o Google os monetiza.

Ganho de Função

Os últimos anos foram marcados pelo Google destacando as capacidades do Google Assistant, que foi introduzido pela primeira vez em smartphones em 2016, e pelos últimos meses destacando as capacidades do Bard, que a empresa posicionou como um tipo de colaborador falante alimentado por IA. Então, o que a combinação deles – dentro do aplicativo Assistant já existente – realmente faz?

Hsiao disse que a ação combina a ajuda personalizada do Assistant com as capacidades de raciocínio e geração do Bard. Um exemplo: devido à forma como o Bard agora funciona nos aplicativos de produtividade do Google, ele pode ajudar a encontrar e resumir e-mails e responder a perguntas sobre documentos de trabalho. Essas mesmas funções agora teoricamente seriam acessadas por meio do Google Assistant – você poderia solicitar informações sobre seus documentos ou e-mails usando a voz e ter esses resumos lidos em voz alta para você.

Sua nova conexão com o Bard também dá ao Google Assistant novas capacidades de compreensão de imagens. O Google já possui uma ferramenta de reconhecimento de imagem, o Google Lens, que pode ser acessada por meio do Google Assistant ou do aplicativo abrangente do Google. Mas se você tirar uma foto de uma pintura ou de um par de tênis e alimentá-la para o Lens, o Lens simplesmente identificará a pintura ou tentará vender os tênis – mostrando links para comprá-los – e isso é tudo.

A versão do Assistant inspirada pelo Bard, por outro lado, entenderá o conteúdo da foto que você compartilhou com ele, afirma Hsiao. No futuro, isso poderá permitir uma integração profunda com outros produtos do Google. “Digamos que você esteja rolando o Instagram e veja uma foto de um belo hotel. Você deveria ser capaz de pressionar um único botão, abrir o Assistant e perguntar: ‘Mostre-me mais informações sobre este hotel e me diga se ele está disponível no fim de semana do meu aniversário'”, disse ela. “E ele deveria não apenas descobrir qual hotel é, mas também verificar a disponibilidade no Google Hotels.”

Um fluxo de trabalho similar poderia transformar o novo Google Assistant em uma poderosa ferramenta de compras se ele pudesse conectar produtos em imagens com lojas online. Hsiao disse que o Google ainda não integrou listagens de produtos comerciais aos resultados do Bard, mas não negou que isso possa acontecer no futuro.

“Se os usuários realmente desejarem isso, se estiverem procurando comprar coisas através do Bard, isso é algo que podemos analisar”, disse ela. “Precisamos analisar como as pessoas querem fazer compras com o Bard e realmente explorar isso e incorporar ao produto.” (Embora Hsiao tenha apresentado isso como algo que os usuários podem querer, isso também pode proporcionar novas oportunidades para os negócios de anúncios do Google.)

Prossiga com cautela

Quando o Google anunciou o Assistant pela primeira vez em 2016, as habilidades de linguagem da IA eram muito menos avançadas. A complexidade e ambiguidade da linguagem impossibilitaram os computadores de responder de forma útil a mais do que comandos simples, e mesmo assim às vezes falhavam.

O surgimento de grandes modelos de linguagem nos últimos anos – modelos poderosos de aprendizado de máquina treinados com uma grande quantidade de texto de livros, da web e de outras fontes – trouxe uma revolução na capacidade da IA de lidar com a linguagem escrita e falada. Os mesmos avanços que permitem que o ChatGPT responda de forma impressionante a consultas complexas também permitem que os assistentes de voz participem de diálogos mais naturais.

David Ferrucci, CEO da empresa de IA Elemental Cognition e anteriormente responsável pelo projeto Watson da IBM, diz que os modelos de linguagem removeram grande parte da complexidade na construção de assistentes úteis. Analisar comandos complexos anteriormente exigia uma grande quantidade de codificação manual para cobrir as diferentes variações de linguagem, e os sistemas finais muitas vezes eram irritantemente frágeis e propensos a falhas. “Grandes modelos de linguagem dão um grande impulso”, diz ele.

Ferrucci diz, no entanto, que como os modelos de linguagem não são adequados para fornecer informações precisas e confiáveis, fazer com que um assistente de voz seja realmente útil ainda exigirá muita engenharia cuidadosa.

Assistentes de voz mais capazes e realistas podem ter efeitos sutis nos usuários. A enorme popularidade do ChatGPT tem sido acompanhada por confusão sobre a natureza da tecnologia por trás dele, bem como seus limites.

Motahhare Eslami, professora assistente da Universidade Carnegie Mellon que estuda as interações dos usuários com os assistentes de IA, diz que os grandes modelos de linguagem podem alterar a maneira como as pessoas percebem seus dispositivos. A confiança impressionante exibida por chatbots como o ChatGPT faz com que as pessoas confiem mais neles do que deveriam, diz ela.

As pessoas também podem ser mais propensas a antropomorfizar um agente fluente que tem uma voz, diz Eslami, o que poderia confundir ainda mais sua compreensão do que a tecnologia pode ou não pode fazer. Também é importante garantir que todos os algoritmos usados não propaguem vieses prejudiciais em relação à raça, o que pode acontecer de maneiras sutis com assistentes de voz. “Eu sou fã da tecnologia, mas ela vem com limitações e desafios”, diz Eslami.

Tom Gruber, que co-fundou a Siri, a startup que a Apple adquiriu em 2010 por sua tecnologia de assistente de voz do mesmo nome, espera que grandes modelos de linguagem produzam avanços significativos nas capacidades dos assistentes de voz nos próximos anos, mas diz que eles também podem introduzir novas falhas.

“O maior risco – e a maior oportunidade – é a personalização com base em dados pessoais”, diz Gruber. Um assistente com acesso aos e-mails, mensagens do Slack, chamadas de voz, navegação na web e outros dados de um usuário poderia ajudar a lembrar informações úteis ou descobrir insights valiosos, especialmente se um usuário puder participar de uma conversa natural. Mas esse tipo de personalização também criaria um novo repositório potencialmente vulnerável de dados privados sensíveis.

“É inevitável que vamos construir um assistente pessoal que será a sua memória pessoal, que pode rastrear tudo o que você já experimentou e aumentar sua cognição”, diz Gruber. “Apple e Google são as duas plataformas confiáveis, e eles poderiam fazer isso, mas precisam fazer algumas garantias bastante fortes.”

Hsiao diz que sua equipe está certamente pensando em maneiras de avançar o Assistant ainda mais com a ajuda do Bard e da IA generativa. Isso pode incluir o uso de informações pessoais, como as conversas em um e-mail do usuário, para tornar as respostas às consultas mais individualizadas. Outra possibilidade é que o Assistant assuma tarefas em nome de um usuário, como fazer uma reserva de restaurante ou reservar um voo.

Hsiao enfatiza, no entanto, que o trabalho em tais recursos ainda não começou. Ela diz que levará um tempo para que um assistente virtual esteja pronto para executar tarefas complexas em nome de um usuário e usar seu cartão de crédito. “Talvez em um certo número de anos, essa tecnologia tenha se tornado tão avançada e confiável que sim, as pessoas estarão dispostas a fazer isso, mas teríamos que testar e aprender o caminho a seguir”, diz ela.