A Amazon atualiza a Alexa para a era do ChatGPT

A Amazon atualiza a Alexa com ChatGPT.

Quando a Amazon lançou a assistente virtual Alexa há nove anos, sua habilidade de decodificar comandos de voz para definir um temporizador ou tocar uma música parecia quase mágica. Hoje, o padrão para habilidades impressionantes de linguagem é muito mais alto, graças ao ChatGPT da OpenAI. A Amazon está dando um novo começo à sua assistente de voz, aproveitando a tecnologia por trás da nova onda de chatbots que podem se envolver em conversas surpreendentemente realistas.

A Amazon anunciou a atualização da Alexa em um evento realizado em sua segunda sede em Arlington, Virginia. A assistente responderá a perguntas muito mais complexas e se envolverá em conversas mais fluidas e abertas, eliminando a necessidade dos usuários dizerem “Alexa…” a cada vez.

Em algumas semanas, os usuários que disserem “Alexa, vamos conversar” terão acesso à nova assistente de voz, mais capaz. A Amazon chama isso de “prévia inicial” porque as novas capacidades ainda estão em andamento.

As demonstrações realizadas no palco na quarta-feira mostraram a Alexa exibindo uma personalidade mais simulada com sua entonação e esforços de humor. Vídeos mostraram pessoas pedindo à Alexa para escrever poemas sobre um tema, gerar ideias para um encontro à noite e criar uma história sobre Jell-O. Dispositivos equipados com câmeras, como o Echo Show, tentarão detectar quando uma pessoa espera que a Alexa continue a conversa e quando a conversa acabou.

A nova Alexa também modulará sua própria voz para criar um diálogo mais natural. “Se eu perguntar à Alexa como os Red Sox estão se saindo, e eles acabaram de perder, ela responderá com um tom empático”, diz Rohit Prasad, que lidera o desenvolvimento de IA na Amazon e está baseado em Cambridge, Massachusetts.

Prasad diz que aprimorar as habilidades de linguagem da Alexa exigiu engenharia extensa, porque os grandes modelos de linguagem que alimentam serviços como o ChatGPT podem inventar fatos, falar bobagens e serem completamente inadequados. “Especialmente dadas certas limitações dos modelos de linguagem, isso é um salto enorme”, diz Prasad.

Justine Cassell, professora da Universidade Carnegie Mellon que estuda a forma como os humanos interagem com agentes de IA, diz que será fascinante ver como as pessoas responderão a um chatbot ativado por voz capaz de respostas mais ricas. “Os objetivos são ótimos, e estou animada para ver o que eles fazem”, diz ela.

No entanto, Cassell diz que algumas das coisas que a Amazon está prometendo, como responder à linguagem corporal, continuam extremamente desafiadoras. “Não existe uma gramática da linguagem corporal, como existe para a linguagem falada e escrita”, diz ela. Se a Alexa interpretar erroneamente a postura ou os movimentos de alguém e responder incorretamente, as coisas podem ficar constrangedoras. Cassell diz que mesmo que a Alexa ganhe mais fluência semelhante ao ChatGPT, seus esforços para imitar a personalidade e o sentimento humano por meio de características como entonação provavelmente não alcançarão as capacidades humanas por algum tempo ainda. Espere que a nova Alexa pareça às vezes constrangedora em suas respostas.

A Amazon diz que os usuários poderão se inscrever para obter acesso a um teste adicional de sua nova tecnologia, onde as novas capacidades da Alexa podem ser usadas para controlar outros dispositivos, incluindo alguns que não são fabricados pela Amazon. Com o tempo, a empresa planeja adicionar novos recursos à Alexa, potencialmente incluindo a capacidade de discutir e recomendar produtos do vasto inventário da empresa.

Se a Alexa puder responder a consultas mais complexas evitando erros embaraçosos, isso poderia representar uma atualização mais ampla – e muito necessária – nas capacidades dos assistentes de voz.

Quando a Amazon lançou a Alexa em 2014, ela ajudou a criar uma nova categoria em computação pessoal baseada em interação por voz, estimulando previsões de que as interfaces de voz logo dominariam. Alexa e Siri da Apple se beneficiaram dos avanços em aprendizado de máquina que finalmente tornaram viável para os dispositivos reconhecerem e responderem de forma confiável à voz de um usuário. No entanto, a complexidade da linguagem limitou esses dispositivos apenas a comandos simples e os deixou incapazes de se envolver em qualquer coisa que se assemelhe a uma conversa real. Mesmo assim, a Amazon diz que mais de meio bilhão de dispositivos com Alexa foram vendidos em todo o mundo.

O surgimento de grandes modelos de linguagem treinados em grandes quantidades de texto finalmente criou algoritmos capazes de lidar com diálogos mais complexos. O ChatGPT e outros chatbots têm surpreendido tanto especialistas quanto o público com sua flexibilidade e conversação, mesmo que sejam propensos a produzir declarações falsas, tendenciosas ou até mesmo ofensivas.

Prasad diz que a Amazon desenvolveu um novo modelo de linguagem de ponta para revitalizar a Alexa. Ele diz que a empresa ajustou esse modelo para frases apropriadas para conversas vocais e utiliza algoritmos adicionais para ajudar no reconhecimento da linguagem corporal e entonação.

Um dos grandes desafios para a Amazon pode ser lidar com os erros surpreendentes que surgem ao usar grandes modelos de linguagem. Quando a Microsoft adicionou um chatbot de IA avançada ao seu mecanismo de busca Bing, os usuários rapidamente descobriram alguns comportamentos estranhos. “Ele é 100% perfeito? Não”, diz Prasad. “Por isso é uma prévia inicial, porque haverá erros ocasionais.”

O Prasad diz que a Amazon já desenvolveu medidas de segurança para evitar que a Alexa se desvie do caminho. Ele acrescenta que alguns vão lembrar as pessoas de que estão conversando com uma máquina e tentar evitar que o assistente se apresente muito parecido com uma pessoa. Alguns usuários de chatbots formam laços emocionais fortes e até românticos com as personalidades simuladas com as quais interagem. Prasad acrescenta que a Amazon está fazendo pesquisas sobre os riscos de longo prazo que podem surgir com avanços adicionais na IA.