O novo Gemini AI do Google irá entender suas fotos e vídeos, não apenas o texto

O novo Gemini AI do Google irá compreender suas fotos e vídeos, e não apenas o texto

O Google começou a trazer uma compreensão nativa de vídeo, áudio e fotos para seu chatbot Bard AI com um novo modelo chamado Gemini.

As primeiras encarnações da nova tecnologia chegaram na quarta-feira em dezenas de países, mas apenas em inglês, fornecendo habilidades de chat baseado em texto que o Google diz melhorar as habilidades do AI em tarefas complexas como resumir documentos, raciocinar e escrever código de programação. A maior mudança com habilidades multimídia, por exemplo, entender os dados subjacentes a um gráfico ou descobrir o resultado de um quebra-cabeça de ligar os pontos de uma criança, chegará “em breve”, disse o Google.

A nova versão representa uma mudança dramática para a IA. O chat baseado em texto é importante, mas os humanos precisam processar informações muito mais ricas enquanto habitamos nosso mundo tridimensional e em constante mudança. E respondemos com habilidades complexas de comunicação, como fala e imagens, não apenas palavras escritas. Gemini é uma tentativa de chegar mais perto da nossa própria compreensão plena do mundo.

Gemini possui três versões adaptadas para diferentes níveis de capacidade de computação, disse o Google:

  • Gemini Nano é executado em telefones celulares, com duas variedades disponíveis construídas para diferentes níveis de memória disponível. Ele alimentará novos recursos nos telefones Pixel 8 do Google, como resumir conversas em seu aplicativo Recorder ou sugerir respostas em mensagens no WhatsApp digitadas com o Gboard do Google.
  • Gemini Pro, ajustado para respostas rápidas, é executado nos data centers do Google e alimentará uma nova versão do Bard, a partir de quarta-feira.
  • Gemini Ultra, limitado a um grupo de testes por enquanto, estará disponível em um novo chatbot do Bard Advanced que será lançado no início de 2024. O Google se recusou a revelar detalhes de preços, mas espere pagar um valor adicional por essa capacidade superior.

A nova versão destaca o ritmo acelerado de avanço no novo campo de IA generativa, onde os chatbots criam suas próprias respostas para estímulos que escrevemos em linguagem simples, em vez de instruções de programação arcanas. O principal concorrente do Google, a OpenAI, deu um passo à frente com o lançamento do ChatGPT há um ano, mas o Google já está na terceira grande revisão do modelo de IA e espera disponibilizar essa tecnologia por meio de produtos que bilhões de pessoas usam, como busca, Chrome, Google Docs e Gmail.

“Por muito tempo, desejamos construir uma nova geração de modelos de IA inspirados na forma como as pessoas entendem e interagem com o mundo – uma IA que se sinta mais como um colaborador útil e menos como um software inteligente”, disse Eli Collins, vice-presidente de produto da divisão DeepMind do Google. “Gemini nos aproxima um passo mais dessa visão.”

A OpenAI também fornece a base para a tecnologia de IA Copilot da Microsoft, incluindo o modelo AI GPT-4 Turbo mais recente que a OpenAI lançou em novembro. A Microsoft, assim como o Google, possui produtos importantes como Office e Windows nos quais está adicionando recursos de IA.

A IA está ficando mais inteligente, mas ainda não é perfeita

O multimídia provavelmente será uma grande mudança em relação ao texto quando chegar. Mas o que não mudou são os problemas fundamentais dos modelos de IA treinados reconhecendo padrões em enormes quantidades de dados do mundo real. Eles podem transformar estímulos cada vez mais complexos em respostas cada vez mais sofisticadas, mas ainda não se pode confiar que eles não apenas forneceram uma resposta plausível em vez de realmente correta. Como o chatbot do Google adverte quando você o usa, “o Bard pode exibir informações imprecisas, inclusive sobre pessoas, então verifique as respostas”.

Gemini é a próxima geração do grande modelo de linguagem do Google, uma sequência do PaLM e PaLM 2 que têm sido a base do Bard até agora. Mas ao treinar o Gemini simultaneamente em texto, código de programação, imagens, áudio e vídeo, é capaz de lidar de forma mais eficiente com entrada multimídia do que com modelos de IA separados mas interligados para cada modo de entrada.

Exemplos das habilidades do Gemini, de acordo com um artigo de pesquisa do Google, são diversos.

Ao analisar uma série de formas consistindo de um triângulo, quadrado e pentágono, ele pode acertar que a próxima forma na série é um hexágono. Apresentado com fotos da lua e uma mão segurando uma bola de golfe e perguntado para encontrar a conexão, ele aponta corretamente que os astronautas da Apollo acertaram duas bolas de golfe na lua em 1971. Ele converteu quatro gráficos de barras mostrando técnicas de disposição de resíduos país por país em uma tabela rotulada e identificou um ponto de dados atípico, ou seja, que os EUA jogam muito mais plástico no lixo do que outras regiões.

A empresa também mostrou Gemini processando um problema de física escrito à mão envolvendo um esboço simples, descobrindo onde estava o erro do aluno e explicando a correção. Um vídeo de demonstração mais envolvente mostrou Gemini reconhecendo um pato azul, fantoches de mão, truques de prestidigitação e outros vídeos. No entanto, nenhuma das demonstrações foi ao vivo e não está claro com que frequência Gemini falha em tais desafios.

Gemini Ultra aguarda mais testes antes de aparecer no próximo ano.

“Red teaming”, em que um fabricante de produtos contrata pessoas para encontrar vulnerabilidades de segurança e outros problemas, está em andamento para Gemini Ultra. Tais testes são mais complicados com dados de entrada multimídia. Por exemplo, uma mensagem de texto e uma foto podem parecer inócuas por si só, mas quando combinadas podem transmitir significados dramaticamente diferentes.

“Estamos abordando esse trabalho de forma ousada e responsável”, afirmou Sundar Pichai, CEO do Google, em um post no blog. Isso significa uma combinação de pesquisa ambiciosa com grandes recompensas potenciais, mas também adicionando salvaguardas e trabalhando de forma colaborativa com governos e outros “para resolver os riscos à medida que a IA se torna mais capaz.”

Nota dos Editores: ENBLE está usando um mecanismo de IA para ajudar na criação de algumas histórias. Para saber mais, consulte esta postagem.