Google lança Gemini 1.5 Pro Aumentando Modelos GenAI com Janelas de Contexto Maiores

A mais recente adição da Google à família Gemini GenAI, o Gemini 1.5 Pro, apresenta uma extensa janela de contexto, mas está atualmente disponível apenas em prévia privada.

O novo modelo Gemini do Google pode analisar vídeos de uma hora, mas apenas algumas pessoas têm acesso a ele.

No mês de outubro passado, o cientista de dados do Google, Matei Zaharia, o CTO da Databricks, e o professor Pieter Abbeel da UC Berkeley publicaram um artigo de pesquisa que propôs um método para permitir que os modelos GenAI, como o GPT-4 da OpenAI e o ChatGPT, processem significativamente mais dados. O estudo demonstrou que, ao resolver um gargalo de memória, os modelos agora podem processar milhões de palavras, em comparação com apenas centenas de milhares.

Bem, parece que a pesquisa em IA está avançando em ritmo acelerado, porque o Google acaba de anunciar o lançamento do Gemini 1.5 Pro, o mais recente modelo da família Gemini de modelos GenAI. Este novo modelo oferece várias melhorias em relação ao seu antecessor, o Gemini 1.0 Pro, com um avanço particularmente significativo – sua capacidade de lidar com uma grande quantidade de dados.

O Gemini 1.5 Pro consegue processar aproximadamente 700.000 palavras ou cerca de 30.000 linhas de código. Isso é impressionante, 35 vezes mais do que o Gemini 1.0 Pro podia lidar. E a melhor parte é que o Gemini 1.5 Pro não se limita apenas a texto. Ele também pode processar até 11 horas de áudio ou uma hora de vídeo em vários idiomas.

🌟 Gemini 1.5 Pro – A Maravilha Multimodal 🌟

Para esclarecer, os números mencionados representam os limites máximos das capacidades do Gemini 1.5 Pro. A versão disponível para desenvolvedores e clientes na fase de pré-visualização limitada pode processar atualmente apenas cerca de 100.000 palavras de uma só vez. Este modelo de entrada de dados grandes “experimental” está atualmente disponível apenas para desenvolvedores aprovados como parte de uma pré-visualização privada. No entanto, alguns clientes que utilizam a plataforma Vertex AI do Google também têm acesso a esta versão.

O VP de pesquisa do Google DeepMind, Oriol Vinyals, expressou entusiasmo com essa conquista, destacando como interações mais longas e complexas com modelos GenAI requerem uma janela de contexto maior. Em termos mais simples, quanto mais informações você insere e obtém do modelo, mais contexto ele precisa entender e responder de maneira eficaz. O Gemini 1.5 Pro desbloqueou esse contexto longo de uma maneira enorme.

Contexto Amplo, Potencial Grande

A introdução de uma janela de contexto ampla nos modelos tem implicações significativas. Modelos com janelas de contexto pequenas tendem a esquecer conversas recentes rapidamente, resultando frequentemente em respostas fora do tópico ou problemáticas. Por outro lado, modelos com contextos amplos conseguem entender melhor o fluxo narrativo, resultando em saídas com mais contexto e relevantes.

Embora já tenham ocorrido tentativas e experimentos anteriores com modelos que possuem janelas de contexto excepcionalmente grandes, o Google é o primeiro a oferecer comercialmente um modelo com essas capacidades. Anteriormente, a Anthropic detinha o recorde com uma janela de contexto de 200.000 tokens, mas o Google supera isso com o Gemini 1.5 Pro.

🌙 1 Milhão de Tokens – O Que Você Pode Conquistar? 🌙

A janela de contexto máxima do Gemini 1.5 Pro é impressionante, com 1 milhão de tokens. Embora a versão amplamente disponível tenha uma janela de contexto de 128.000 tokens, o que é igual ao GPT-4 Turbo da OpenAI. Essa ampliação do contexto abre um mundo de possibilidades. Agora você pode analisar bibliotecas de código completas, raciocinar em documentos extensos como contratos, se envolver em conversas longas com chatbots e até analisar e comparar conteúdo de vídeo.

Em uma apresentação recente, o Google apresentou duas demonstrações pré-gravadas mostrando o Gemini 1.5 Pro em ação com a janela de contexto de 1 milhão de tokens ativada. A primeira demonstração envolveu a busca na transcrição do telejornal do pouso na lua da Apollo 11, que abrange aproximadamente 402 páginas, por citações que contivessem piadas. Em seguida, o modelo recebeu a tarefa de encontrar uma cena no telejornal que se assemelhasse a um desenho a lápis. Na segunda demonstração, o modelo foi solicitado a identificar cenas do filme “Sherlock Jr.”, de Buster Keaton, com base em descrições e desenhos.

O Gemini 1.5 Pro conseguiu concluir com sucesso ambas as tarefas, embora o tempo de processamento tenha sido mais longo em comparação com consultas médias feitas com o ChatGPT. Cada tarefa levou entre 20 segundos e um minuto para ser processada. Oriol Vinyals afirmou que a latência melhorará à medida que o modelo passar por otimizações adicionais. Na verdade, já estão sendo realizados testes para uma versão do Gemini 1.5 Pro com uma janela de contexto de 10 milhões de tokens impressionantes.

💡 Preocupações e Considerações 💡

Embora as capacidades do Gemini 1.5 Pro sejam impressionantes, existem preocupações em relação à sua latência. Esperar minutos para pesquisar conteúdo de vídeo pode não ser a experiência mais agradável ou escalável. Além disso, o impacto da latência em conversas com chatbots e análise de código levanta questões válidas. Durante a apresentação, Vinyals reconheceu que essas questões estão presentes durante as fases experimentais e de pesquisa de qualquer modelo. Melhorar nessa área certamente é crucial.

É essencial considerar os casos de uso específicos em que os benefícios da janela de contexto ampliada do Gemini 1.5 Pro superam as desvantagens. Para tarefas como analisar os pontos da trama de uma série, a latência pode não ser justificada. No entanto, quando se trata de encontrar uma captura de tela específica de uma cena de filme vagamente lembrada, as economias de tempo podem tornar a espera válida.

Outras melhorias notáveis

O Gemini 1.5 Pro oferece mais do que apenas uma janela de contexto ampliada. O Google afirma que, em termos de qualidade, o modelo é “comparável” ao seu modelo GenAI principal, o Gemini Ultra. Isso é possível por meio de uma nova arquitetura que compreende modelos “especialistas” menores e especializados. O Gemini 1.5 Pro divide as tarefas em subtarefas e as delega aos modelos especialistas apropriados com base em previsões.

Embora esse conceito, conhecido como Mixture of Experts (MoE), exista há algum tempo, sua eficiência e flexibilidade o tornaram cada vez mais popular. Essa abordagem permite uma melhor alocação de recursos e melhora a qualidade geral das saídas do modelo.

🎟️ Preços e desenvolvimentos futuros 🎟️

Uma questão importante em torno do Gemini 1.5 Pro é o preço. Durante a fase de visualização privada, a versão com janela de contexto de 1 milhão de tokens será gratuita. No entanto, o Google planeja introduzir níveis de preços em um futuro próximo, a partir da janela de contexto padrão de 128.000 tokens e chegando a 1 milhão de tokens. Embora os detalhes específicos de preços não tenham sido revelados durante a briefing, espera-se que a janela de contexto maior tenha um custo mais alto. Espera-se que o Google aborde essa preocupação e forneça opções de preços acessíveis.

Outro aspecto a ser considerado são as implicações para outros modelos dentro da família Gemini, especialmente o Gemini Ultra. Os modelos Ultra receberão atualizações que acompanhem as melhorias de desempenho dos modelos Pro? Atualmente, parece haver um período estranho em que os modelos Pro disponíveis superam os modelos Ultra, que o Google está comercializando como linha de ponta. Qualquer esclarecimento sobre essa questão seria muito apreciado.

⭐ O futuro dos modelos GenAI ⭐

O lançamento do Gemini 1.5 Pro pelo Google mostra a contínua evolução e avanço dos modelos GenAI. À medida que os modelos com janelas de contexto maiores se tornam mais prevalentes, podemos esperar aplicações e oportunidades ainda mais empolgantes em várias áreas. A capacidade de processar grandes volumes de dados e se envolver em interações complexas, sem dúvida, moldará o futuro da IA.

Para explorar ainda mais esse tópico e se manter atualizado com os últimos avanços no campo da tecnologia de computadores e programação, confira estes links valiosos:

  1. Gemini do Google – A Nova Plataforma de IA Generativa
  2. GPT-4 da OpenAI – A Próxima Grande Novidade
  3. Desvendando o Potencial do ChatGPT
  4. O Poder do Vertex AI
  5. Revolucionando Modelos de Linguagem – Abordagem da Magic
  6. Técnicas para Expandir o Tamanho da Janela de Contexto do Modelo
  7. Anthropic – Empurrando os Limites da Janela de Contexto do Modelo

Agora é a sua vez! O que você acha do Gemini 1.5 Pro do Google e suas capacidades de janela de contexto maior? Como você imagina que esse desenvolvimento influenciará diferentes setores? Compartilhe suas opiniões e participe da conversa. Não se esqueça de espalhar a palavra compartilhando este artigo em suas plataformas de mídia social favoritas!

✨💻🚀😄