Silo AI lança checkpoint na missão de democratizar LLMs

Silo AI anuncia medida chave para impulsionar a democratização dos LLMs

Já se passou um ano desde que a OpenAI liberou o ChatGPT no mundo e popularizou termos como modelo fundamentacional, LLM e GenAI. No entanto, os benefícios prometidos da tecnologia de IA gerativa ainda são mais prováveis de serem obtidos por aqueles que falam inglês, em relação a outros idiomas.

Há mais de 7.000 idiomas no mundo. No entanto, a maioria dos grandes modelos de linguagem (LLMs) funciona de forma muito mais eficaz em inglês. Naturalmente, isso ameaça amplificar o preconceito linguístico quando se trata de acesso ao conhecimento, pesquisa, inovação – e vantagem competitiva para as empresas.

Em novembro, a Silo AI da Finlândia lançou seu LLM multilíngue aberto europeu, o Poro 34B, desenvolvido em colaboração com a Universidade de Turku. Poro, que significa rena em finlandês, foi treinado no LUMI, o supercomputador mais poderoso da Europa, em Kajani, Finlândia. (Interessantemente, o LUMI roda na arquitetura AMD, ao contrário do Nvidia, que é a sensação em treinamento de LLM.)

Junto com Poro 1, a empresa lançou um programa de checkpoint de pesquisa que irá liberar checkpoints à medida que o modelo for concluindo-os (os primeiros três pontos foram anunciados junto com o modelo no mês passado).

Agora, a empresa, por meio de seu ramo SiloGen, treinou mais de 50% do modelo e acaba de publicar os próximos dois checkpoints do programa. Com esses cinco checkpoints agora completos, o Poro 34B mostrou desempenho de ponta para línguas com recursos limitados, como o finlandês (em comparação com Llama, Mistral, FinGPT, etc) – sem comprometer o desempenho em inglês.

O pesquisador Sampo Pyysalo, da TurkuNLP, diz que eles esperam ter treinado o modelo completamente nas próximas semanas. Como próximo passo, o modelo adicionará suporte para outros idiomas nórdicos, incluindo sueco, norueguês, dinamarquês e islandês.

“É imperativo para a soberania digital da Europa ter acesso a modelos de linguagem alinhados com valores, cultura e idiomas europeus. Temos orgulho de ver que o Poro mostra desempenho de ponta em um idioma com recursos limitados como o finlandês”, disse Peter Sarlin, co-fundador e CEO da Silo AI, à TNW. “Em linha com a intenção de cobrir todos os idiomas europeus, é um passo natural começar com uma extensão para os idiomas nórdicos.”

Além disso, a SiloGen iniciou o treinamento do Poro 2. Por meio de uma parceria com a organização sem fins lucrativos LAION (Rede Aberta de Inteligência Artificial em Escala), ele adicionará multimodalidade ao modelo.

“É igualmente natural estender o Poro com visão”, acrescentou Sarlin. “Assim como dados textuais, vemos um potencial ainda maior para a IA generativa consolidar grandes quantidades de dados de diferentes modalidades.”

A LAION diz que está “apaixonada por avançar no campo da aprendizagem de máquina para o bem maior”. De acordo com as intenções da Silo AI de construir seu modelo GenAI e a missão geral da LAION de aumentar o acesso a modelos ML em grande escala e conjuntos de dados, o Poro 2 estará disponível gratuitamente sob a Licença Apache 2.0. Isso significa que os desenvolvedores também poderão construir soluções proprietárias em cima dele.

A Silo AI, que se autodenomina o “maior laboratório de IA privado da Europa”, foi lançada em 2017 com a ideia de que a Europa precisava de um líder em IA. A empresa tem sede em Helsinque, Finlândia, e desenvolve soluções e produtos impulsionados por IA para dispositivos inteligentes, veículos autônomos, indústria 4.0 e cidades inteligentes. Atualmente, a Silo AI conta com mais de 300 funcionários e também possui escritórios na Suécia, Dinamarca, Países Baixos e Canadá.