O Google Gemini tenta superar o ChatGPT com IA para fotos e vídeos

O Google Gemini busca superar o ChatGPT com inteligência artificial para fotos e vídeos

O Google começou a trazer uma compreensão nativa de vídeo, áudio e fotos para seu chatbot Bard AI, com um novo modelo chamado Gemini. Os proprietários do telefone Google Pixel 8 serão os primeiros a aproveitar suas novas habilidades de inteligência artificial.

As primeiras versões dessa nova tecnologia chegaram na quarta-feira em dezenas de países através da atualização Gemini do Google Bard, mas apenas em inglês. Ele pode fornecer habilidades de chat baseado em texto que, segundo o Google, melhoram as habilidades em tarefas complexas, como resumir documentos, raciocinar e escrever código de programação. A mudança maior com habilidades multimídia, por exemplo, entender gestos de mão em um vídeo ou descobrir o resultado do quebra-cabeça de ligar pontos de uma criança, chegará “em breve”, segundo o Google.

Gemini é uma mudança dramática para a IA. O chat baseado em texto é importante, mas os humanos precisam processar informações muito mais ricas enquanto habitam nosso mundo tridimensional e em constante mudança. E respondemos com habilidades complexas de comunicação, como fala e imagens, e não apenas palavras escritas. Gemini é uma tentativa de nos aproximar de nossa própria compreensão mais completa do mundo.

Gemini vem em três versões adaptadas para diferentes níveis de poder de computação, segundo o Google:

  • Gemini Nano funciona em telefones celulares, com duas variedades disponíveis construídas para diferentes níveis de memória disponível. Ele alimentará novos recursos nos telefones Pixel 8 do Google, como resumir conversas em seu aplicativo Gravador ou sugerir respostas de mensagens no WhatsApp digitadas com o Gboard do Google.
  • Gemini Pro, ajustado para respostas rápidas, roda nos centros de dados do Google e alimentará uma nova versão do Bard, a partir de quarta-feira.
  • Gemini Ultra, limitado a um grupo de teste por enquanto, estará disponível em um novo chatbot Bard Advanced previsto para o início de 2024. O Google se recusou a revelar detalhes de preços, mas espere pagar um preço mais alto por essa capacidade superior.

A nova versão destaca o ritmo acelerado de avanço no novo campo da IA generativa, onde chatbots criam suas próprias respostas para prompts que escrevemos em linguagem simples, em vez de instruções de programação arcanas. O principal concorrente do Google, OpenAI, lançou o ChatGPT há um ano, mas o Google já está em sua terceira grande revisão do modelo de IA e espera entregar essa tecnologia por meio de produtos que bilhões de nós usamos, como busca, Chrome, Google Docs e Gmail.

“Há muito tempo queríamos construir uma nova geração de modelos de IA inspirados na maneira como as pessoas entendem e interagem com o mundo – uma IA que pareça mais um colaborador útil e menos uma peça inteligente de software”, disse Eli Collins, vice-presidente de produto da divisão DeepMind do Google. “Gemini nos aproxima um passo desse objetivo.”

A OpenAI também fornece o cérebro por trás da tecnologia AI Copilot da Microsoft, incluindo o novo modelo de IA GPT-4 Turbo que a OpenAI lançou em novembro. A Microsoft, assim como o Google, tem grandes produtos como Office e Windows aos quais está adicionando recursos de IA.

A IA fica mais inteligente, mas não é perfeita

Multimídia provavelmente será uma grande mudança em comparação com o texto quando chegar. Mas o que não mudou são os problemas fundamentais dos modelos de IA treinados reconhecendo padrões em vastas quantidades de dados do mundo real. Eles podem transformar prompts cada vez mais complexos em respostas cada vez mais sofisticadas, mas você ainda não pode confiar que eles não forneceram apenas uma resposta plausível em vez de realmente correta. Como o chatbot do Google avisa quando você o usa, “Bard pode exibir informações incorretas, inclusive sobre pessoas, então verifique suas respostas”.

Gemini é a próxima geração do grande modelo de linguagem do Google, uma sequência do PaLM e PaLM 2, que foram a base do Bard até agora. Mas, ao treinar o Gemini simultaneamente em texto, código de programação, imagens, áudio e vídeo, ele é capaz de lidar de maneira mais eficiente com entradas multimídia do que com modelos de IA separados, mas interligados, para cada modo de entrada.

Exemplos das habilidades do Gemini, de acordo com um artigo de pesquisa do Google, são diversos.

Olhando para uma série de formas consistindo de um triângulo, quadrado e pentágono, ele pode adivinhar corretamente que a próxima forma na série é um hexágono. Apresentado com fotos da lua e de uma mão segurando uma bola de golfe e perguntado para encontrar a ligação, ele corretamente aponta que os astronautas da Apollo acertaram duas bolas de golfe na lua em 1971. Ele converteu quatro gráficos de barras mostrando técnicas de disposição de resíduos país por país em uma tabela rotulada e identificou um ponto de dados divergente, ou seja, que os EUA jogam muito mais plástico na lixeira do que outras regiões.

A empresa também mostrou Gemini processando um problema de física escrito à mão envolvendo um esboço simples, descobrindo onde estava o erro de um estudante e explicando uma correção. Um vídeo de demonstração mais complexo mostrou Gemini reconhecendo um pato azul, marionetes, truques de mão e outros vídeos. No entanto, nenhuma das demonstrações foi ao vivo e não está claro com que frequência Gemini falha em tais desafios.

Gemini Ultra aguarda mais testes antes de ser lançado no próximo ano.

O “teste de invasão”, no qual um fabricante de produtos contrata pessoas para encontrar falhas de segurança e outros problemas, está em andamento para Gemini Ultra. Esses testes são mais complicados com dados de entrada de multimídia. Por exemplo, uma mensagem de texto e uma foto podem ser inofensivas por si só, mas quando combinadas podem transmitir significados dramaticamente diferentes.

“Estamos encarando esse trabalho com audácia e responsabilidade”, disse Sundar Pichai, CEO do Google, em um postagem em blog. Isso significa combinar pesquisa ambiciosa com grandes retornos potenciais, mas também adicionar salvaguardas e trabalhar colaborativamente com governos e outros “para lidar com os riscos à medida que a IA se torna mais capaz”.

Nota dos editores: A ENBLE está usando um mecanismo de IA para ajudar a criar algumas histórias. Para mais informações, veja esta postagem.