IA multimodal se torna acessível novo modelo roda em seu laptop

Um novo modelo de IA multimodal acessível agora está disponível em seu laptop

Uma nova modelo de inteligência artificial de código aberto chamada Obsidian, anunciada em uma postagem no Reddit em 30 de outubro, representa um avanço na acessibilidade da AI multimodal. Obsidian é o primeiro modelo multimodal de AI com 3 bilhões de parâmetros – o que o torna compacto o suficiente para ser executado eficientemente em um laptop comum.

A AI multimodal se refere a sistemas de AI que podem processar e conectar dados de diferentes modos, como texto, imagens, áudio e vídeo – neste caso, o modelo aceita texto e imagens como entrada, assim como a mais recente versão do GPT-4V da OpenAI. Embora modelos de AI multimodal como DALL-E 3 e GPT-4 tenham mostrado habilidades impressionantes, seu tamanho enorme os torna intensivos em recursos para serem executados, exigindo hardware caro de ponta – e seus modelos são um segredo muito bem guardado, então você nunca poderia executá-los mesmo se tivesse o hardware especializado necessário.

O modelo de inteligência AI, Obsidian, integra inteligência multimodal na memória de um laptop comum

Obsidian muda isso ao integrar inteligência multimodal em um modelo pequeno o suficiente para caber na memória de um laptop comum e ser executado em velocidades práticas. Com 3 bilhões de parâmetros, Obsidian se baseia na arquitetura do modelo Capybara-3B, que alcança desempenho de ponta em comparação com modelos do mesmo tamanho. O desenvolvedor também anunciou no Reddit que um modelo multimodal baseado no altamente elogiado modelo open-source Mistral 7B será lançado em breve.

O tamanho compacto do Obsidian é graças a técnicas adaptadas da arquitetura do modelo LLaMA. De acordo com o post no Reddit anunciando o Obsidian, ele foi pré-treinado em um conjunto diversificado de dados multimodais sintetizados, incluindo texto emparelhado com imagens correspondentes. Essa metodologia de treinamento permitiu que ele desenvolvesse habilidades fortes em linguagem e visão, apesar de seus parâmetros reduzidos.

O resultado é um assistente de AI com habilidades de conversação e compreensão visual que cabe em sua mochila. O Obsidian quebra barreiras para acessar a AI, abrindo novas possibilidades para a inteligência em dispositivos.

Ainda em uma versão inicial, o formato eficiente do Obsidian estabelece um precedente emocionante. Ele demonstra que a AI multimodal não precisa ficar restrita em grandes centros de dados, mas pode ser compacta o suficiente para ser distribuída amplamente.

Crédito da imagem destacada: De Criação de Imagem na Aimesoft; Obrigado!