O Google Gemini AI tenta superar o ChatGPT com habilidades de foto e vídeo

O Google Gemini AI busca ultrapassar o ChatGPT com recursos de imagem e vídeo

O Google começou a trazer uma compreensão nativa de vídeo, áudio e fotos para seu chatbot Bard AI com um novo modelo chamado Gemini. Os proprietários do telefone Google Pixel 8 serão os primeiros a aproveitar suas novas habilidades de inteligência artificial.

As primeiras encarnações da nova tecnologia chegaram na quarta-feira em dezenas de países através da atualização Gemini do Google Bard, mas apenas em inglês. Ele pode fornecer habilidades de chat baseadas em texto que, segundo o Google, melhoram as habilidades de IA em tarefas complexas como resumir documentos, raciocinar e escrever código de programação. A maior mudança com habilidades multimídia – por exemplo, entender gestos de mão em um vídeo ou descobrir o resultado de um quebra-cabeça em pontilhado de uma criança – chegará “em breve”, afirmou o Google.

Assista a isso:

Gemini é uma partida dramática para IA. O chat baseado em texto é importante, mas os humanos precisam processar informações muito mais ricas enquanto habitamos nosso mundo tridimensional e em constante mudança. E respondemos com habilidades complexas de comunicação, como fala e imagens, não apenas palavras escritas. Gemini é uma tentativa de chegar mais perto de nossa própria compreensão completa do mundo.

Gemini vem em três versões adaptadas para diferentes níveis de potência de computação, afirmou o Google:

  • O Gemini Nano roda em telefones celulares, com duas variedades disponíveis construídas para diferentes níveis de memória disponível. Ele alimentará novos recursos nos telefones Pixel 8 do Google, como resumir conversas em seu aplicativo Recorder ou sugerir respostas de mensagens no WhatsApp digitadas com o Gboard do Google.
  • O Gemini Pro, ajustado para respostas rápidas, roda nos centros de dados do Google e irá alimentar uma nova versão do Bard, a partir de quarta-feira.
  • O Gemini Ultra, limitado a um grupo de teste por enquanto, estará disponível em uma nova versão do chatbot avançado do Bard, previsto para o início de 2024. O Google se recusou a revelar detalhes de preços, mas espere pagar um valor extra por essa capacidade superior.

A nova versão destaca o ritmo acelerado de avanço no campo da nova IA generativa, onde chatbots criam suas próprias respostas para estímulos que escrevemos em linguagem comum, em vez de instruções de programação arcanas. O principal concorrente do Google, OpenAI, teve uma vantagem com o lançamento do ChatGPT há um ano, mas o Google já está em sua terceira grande revisão de modelo de AI e espera disponibilizar essa tecnologia através de produtos usados por bilhões de nós, como busca, Chrome, Google Docs e Gmail.

“Há muito tempo, queríamos construir uma nova geração de modelos de IA inspirada na forma como as pessoas entendem e interagem com o mundo – uma IA que pareça mais um colaborador útil e menos como um software inteligente”, disse Eli Collins, vice-presidente de produto da divisão DeepMind do Google. “Gemini nos aproxima um passo dessa visão.”

O OpenAI também fornece a tecnologia por trás da inteligência artificial Copilot da Microsoft, incluindo o novo modelo GPT-4 Turbo AI que a OpenAI lançou em novembro. A Microsoft, assim como o Google, possui produtos importantes como Office e Windows aos quais estão adicionando recursos de IA.

IA fica mais inteligente, mas ainda não é perfeita

A multimídia provavelmente será uma grande mudança em comparação com o texto quando chegar. Porém, o que não mudou são os problemas fundamentais dos modelos de IA treinados ao reconhecer padrões em grandes quantidades de dados do mundo real. Eles podem transformar estímulos cada vez mais complexos em respostas cada vez mais sofisticadas, mas você ainda não pode confiar que eles não forneceram apenas uma resposta plausível em vez de correta de fato. Como o chatbot do Google adverte ao usá-lo, “Bard pode exibir informações imprecisas, incluindo sobre pessoas, então verifique as respostas duplamente”.

Gemini é a próxima geração do grande modelo de linguagem do Google, uma sequência do PaLM e PaLM 2 que têm sido a base do Bard até agora. No entanto, ao treinar o Gemini simultaneamente em texto, código de programação, imagens, áudio e vídeo, ele é capaz de lidar mais eficientemente com entrada multimídia do que com modelos de IA separados, mas interligados, para cada modo de entrada.

Exemplos das habilidades do Gemini, de acordo com um artigo de pesquisa do Google (PDF), são diversos.

Ao analisar uma série de formas consistindo em um triângulo, quadrado e pentágono, ele pode acertar corretamente que a próxima forma na série é um hexágono. Apresentado com fotos da lua e de uma mão segurando uma bola de golfe e solicitado a encontrar a conexão, ele aponta corretamente que os astronautas da Apollo bateram duas bolas de golfe na lua em 1971. Ele converteu quatro gráficos de barras mostrando técnicas de descarte de resíduos país por país em uma tabela rotulada e identificou um ponto atípico, ou seja, que os EUA jogam muitoplástico no lixo em comparação com outras regiões.

A empresa também mostrou o Gemini processando um problema de física escrito à mão envolvendo um esboço simples, descobrindo onde estava o erro do aluno e explicando uma correção. Um vídeo demo mais envolvido mostrou o Gemini reconhecendo um pato azul, marionetas de mão, truques de ilusionismo e outros vídeos. Nenhum dos demos era ao vivo, no entanto, e não está claro com que frequência o Gemini tem dificuldades com esses desafios.

O Gemini Ultra aguarda mais testes antes de ser lançado no próximo ano.

O “red teaming”, no qual um fabricante de produtos contrata pessoas para encontrar vulnerabilidades de segurança e outros problemas, está em andamento para o Gemini Ultra. Esses testes são mais complicados com dados de entrada multimídia. Por exemplo, uma mensagem de texto e uma foto podem ser inofensivas separadamente, mas quando combinadas podem transmitir significados dramaticamente diferentes.

“Estamos abordando esse trabalho de forma ousada e responsável”, disse o CEO do Google, Sundar Pichai, em uma postagem no blog. Isso significa uma combinação de pesquisa ambiciosa com grandes retornos potenciais, mas também adicionando salvaguardas e trabalhando colaborativamente com governos e outros “para abordar os riscos à medida que a IA se torna mais capaz”.

Nota dos editores: A ENBLE está usando um mecanismo de IA para ajudar a criar algumas histórias. Para mais informações, veja esta postagem.