O Google acaba de lançar o Gemini, sua resposta há muito aguardada ao ChatGPT.

O Google acaba de lançar o Gemini, sua tão aguardada resposta ao ChatGPT.

As discussões cada vez mais frequentes sobre o desenvolvimento da inteligência artificial com velocidade potencialmente perigosa não parecem estar diminuindo as coisas. Um ano depois que a OpenAI lançou o ChatGPT e desencadeou uma nova corrida para desenvolver tecnologia de AI, o Google revelou hoje um projeto de IA destinado a restabelecer a gigante da busca como líder mundial em IA.

Gemini, um novo tipo de modelo de IA que pode trabalhar com texto, imagens e vídeo, pode ser o algoritmo mais importante da história do Google depois do PageRank, que projetou o mecanismo de busca na consciência pública e criou uma gigante corporativa.

Uma versão inicial do Gemini começa a ser lançada hoje dentro do chatbot Bard do Google para o idioma inglês. Ele estará disponível em mais de 170 países e territórios. O Google diz que o Gemini estará disponível para desenvolvedores por meio da API do Google Cloud a partir de 13 de dezembro. Uma versão mais compacta do modelo será usada a partir de hoje para alimentar respostas de mensagens sugeridas no teclado dos smartphones Pixel 8. O Gemini será introduzido em outros produtos do Google, incluindo pesquisa generativa, anúncios e Chrome nos “próximos meses”, diz a empresa. A versão mais poderosa do Gemini de todas será lançada em 2024, sujeito a “extensas verificações de confiança e segurança”, informa o Google.

“É um momento importante para nós”, disse Demis Hassabis, CEO do Google DeepMind, à ENBLE antes do anúncio de hoje. “Estamos realmente animados com seu desempenho e também felizes em ver o que as pessoas farão com base nisso”.

O Google descreve o Gemini como “nativamente multimodal”, porque ele foi treinado com imagens, vídeo e áudio, em vez de apenas texto, como os grandes modelos de linguagem no centro do recente boom de AI generativa. “É nosso modelo maior e mais capaz; é também o nosso mais geral”, disse Eli Collins, vice-presidente de produtos do Google DeepMind, em uma coletiva de imprensa anunciando o Gemini.

Cortesia do Google

O Google diz que há três versões do Gemini: Ultra, o maior e mais capaz; Nano, que é significativamente menor e mais eficiente; e Pro, de tamanho médio e capacidades medianas.

A partir de hoje, o Bard do Google, um chatbot semelhante ao ChatGPT, será alimentado pelo Gemini Pro, uma mudança que, segundo a empresa, o tornará capaz de raciocínio e planejamento mais avançados. Hoje, uma versão especializada do Gemini Pro está sendo incorporada a uma nova versão do AlphaCode, uma ferramenta “de pesquisa” para codificação do Google DeepMind. A versão mais poderosa do Gemini, Ultra, será colocada dentro do Bard e disponibilizada por meio de uma API em nuvem em 2024.

Sissy Hsiao, vice-presidente do Google e gerente geral do Bard, diz que as capacidades multimodais do modelo deram ao Bard novas habilidades e o tornaram melhor em tarefas como resumir conteúdo, brainstorming, redação e planejamento. “Essas são as maiores melhorias de qualidade do Bard desde o lançamento”, diz Hsiao.

O Google mostrou várias demonstrações ilustrando a capacidade do Gemini de lidar com problemas envolvendo informações visuais. Em uma delas, o modelo de IA respondeu a um vídeo em que alguém desenhou imagens, criou quebra-cabeças simples e pediu ideias de jogos com um mapa do mundo. Dois pesquisadores do Google também mostraram como o Gemini pode ajudar na pesquisa científica respondendo a perguntas sobre um artigo de pesquisa com gráficos e equações.

Collins diz que o Gemini Pro, o modelo que está sendo lançado esta semana, teve melhor desempenho que o modelo anterior que impulsionou inicialmente o ChatGPT, chamado GPT-3.5, em seis dos oito benchmarks comumente usados para testar as habilidades do software de IA.

O Google diz que o Gemini Ultra, o modelo que estreará no próximo ano, tem pontuação de 90%, maior do que qualquer outro modelo, incluindo o GPT-4, no benchmark Massive Multitask Language Understanding (MMLU), desenvolvido por pesquisadores acadêmicos para testar modelos de linguagem em perguntas sobre tópicos como matemática, história dos EUA e direito.

“O Gemini é de última geração em uma ampla gama de benchmarks – 30 dos 32 mais usados pela comunidade de pesquisa em aprendizado de máquina”, disse Collins. “E, portanto, vemos que ele está estabelecendo fronteiras em todas as áreas”.

O GPT-4 da OpenAI, que atualmente alimenta a versão mais capaz do ChatGPT, impressionou as pessoas quando estreou em março deste ano. Também levou alguns pesquisadores a revisar suas expectativas sobre quando a IA rivalizaria com a amplitude da inteligência humana. A OpenAI descreveu o GPT-4 como multimodal e em setembro atualizou o ChatGPT para processar imagens e áudio, mas não informou se o modelo principal do GPT-4 foi treinado diretamente em algo além de texto. O ChatGPT também pode gerar imagens com a ajuda de outro modelo da OpenAI chamado DALL-E 2.

Como evitar outro colapso da OpenAI

Paresh Dave

To represent the Portuguese text for this guideline, I took source material that I wrote for OpenAI

Paresh Dave

Como a estrutura bizarra da OpenAI deu poder a 4 pessoas para demitir Sam Altman

Paresh Dave

O Google divulgou hoje um relatório técnico que fornece detalhes sobre o funcionamento interno do Gemini. Não revela especificidades sobre a arquitetura, tamanho do modelo de IA ou a coleta de dados usada para treiná-lo.

O processo extenso e caro de treinar grandes modelos de IA em chips de computador poderosos significa que é provável que o Gemini tenha custado centenas de milhões de dólares, segundo especialistas em IA. Espera-se que o Google tenha desenvolvido um design novo para o modelo e uma nova combinação de dados de treinamento. A empresa acelerou o lançamento de sua tecnologia de IA e investiu recursos em vários novos esforços de IA na tentativa de diminuir o ruído em torno do ChatGPT da OpenAI e se posicionar novamente como a principal empresa de IA do mundo.

“Estamos em uma espécie de corrida armamentista de olho por olho”, diz Oren Etzioni, professor emérito na Universidade de Washington e ex-CEO do Allen Institute for AI. “Não há motivo para duvidar de que o Gemini se saia melhor que o GPT-4 nesses benchmarks, mas a próxima versão, GPT-5, será ainda melhor.”

Etzioni diz que modelos gigantes como o Gemini são estimados em custar centenas de milhões de dólares para serem construídos, mas o prêmio final poderia chegar a bilhões ou até trilhões de dólares em receita para a empresa que domina o fornecimento de IA por meio da nuvem. “Esta é uma guerra em que não se pode brincar, uma guerra que precisa ser vencida”, diz ele.

O Google desenvolveu algumas técnicas-chave utilizadas no ChatGPT, mas demorou para lançar sua própria tecnologia de chatbot antes do lançamento da OpenAI cerca de um ano atrás, em parte devido à preocupação de que o sistema pudesse dizer coisas impróprias ou até perigosas. A empresa afirma ter realizado os testes de segurança mais abrangentes até o momento com o Gemini, devido às capacidades mais gerais do modelo.

O Gemini foi testado usando um conjunto de dados de prompts tóxicos desenvolvido pelo Allen Institute for AI. Collins diz que a empresa está colaborando com pesquisadores externos para “testar nos bastidores” o modelo, incentivando-o a se comportar mal e descobrir seus pontos fracos. Sem fornecer detalhes, Collins disse que o maior poder do Gemini exige que o Google “eleve o nível dos testes de qualidade e segurança que precisamos fazer”.

Muito está em jogo com o novo algoritmo para o Google e sua empresa mãe, a Alphabet, que desenvolveu capacidades de pesquisa em IA formidáveis ​​nos últimos dez anos. Com milhões de desenvolvedores construindo em cima dos algoritmos da OpenAI, e a Microsoft usando a tecnologia para adicionar novos recursos aos seus sistemas operacionais e software de produtividade, o Google foi forçado a repensar seu foco como nunca antes.

Primeiro, a empresa de busca anunciou que estava trabalhando no Gemini em sua conferência I/O em maio, já que a empresa se apressou para adicionar IA generativa à busca para combater a popularidade do ChatGPT e a ameaça de que a tecnologia da OpenAI pudesse impulsionar o mecanismo de busca Bing, da Microsoft. A participação estimada do Google no mercado global de busca ainda ultrapassa 90%, mas o lançamento do Gemini parece mostrar que a empresa continua aumentando sua resposta ao ChatGPT.

O Google DeepMind, a divisão que liderou o desenvolvimento do Gemini, foi criado como parte dessa resposta, fundindo o principal grupo de pesquisa de IA do Google, o Google Brain, com sua unidade de IA sediada em Londres, DeepMind, em abril. Mas o projeto Gemini contou com pesquisadores e engenheiros de todo o Google nos últimos meses. Ele fez uso de uma versão recentemente atualizada dos chips de silício personalizados do Google para treinar modelos de IA, conhecidos como Tensor Processing Units (TPUs).

O nome Gemini foi escolhido para marcar a união dos dois principais laboratórios de IA do Google e como referência ao Projeto Gemini da NASA, que pavimentou o caminho para as missões Apollo na Lua.

Alexei Efros, professor da UC Berkeley especializado nas capacidades visuais da IA, afirma que a abordagem geral do Google com o Gemini parece promissora. “Qualquer coisa que utilize outras modalidades é certamente um passo na direção certa”, diz ele.

Efros suspeita que o Gemini ainda terá, assim como o GPT-4, limitações marcantes em sua capacidade de entender as complexidades do mundo real. Mas ele e outros pesquisadores provavelmente não saberão tudo o que gostariam sobre a criação do Google. “Esse é o problema com todos esses modelos proprietários”, diz Efros. “Nós realmente não sabemos o que há por dentro”.