Pioneiro da IA, a Cerebras está tendo ‘um ano monstruoso’ na computação híbrida de IA

Vanguardista da Inteligência Artificial, a Cerebras está tendo 'um ano impressionante' na computação híbrida de IA

cerebras-ceo-andrew-feldman-with-packaged-condor-galaxy

O fundador da Cerebras, Andrew Feldman, nas caixas de embalagem para o Condor Galaxy 1, ou “CG-1”, um computador de IA em paralelo massivo construído para o cliente G42.

O mundo está faminto pelos chips GPU do principal fornecedor de inteligência artificial, a Nvidia. Até agora, isso não gerou um aumento significativo nas vendas de chips por parte dos concorrentes Advanced Micro Devices e Intel. Mas pode estar ajudando a construir um novo tipo de modelo computacional.

“Cada vez mais, é o caso de que há, digamos, uma alternativa à Nvidia”, disse Andrew Feldman, co-fundador e CEO da startup de computação de IA Cerebras Systems, que vende um computador de IA massivo, o CS-2, executando o maior chip do mundo.

Também: Nvidia melhora seu ‘superchip’ Grace-Hopper com memória mais rápida para IA

Feldman e sua equipe começaram a vender computadores para competir com as GPUs da Nvidia há quatro anos. Algo engraçado aconteceu no caminho para o mercado. Feldman está percebendo cada vez mais que seu negócio é híbrido, onde há algumas vendas de sistemas individuais, mas vendas muito maiores de sistemas em paralelo massivos que a Cerebras constrói ao longo de meses e depois executa em nome dos clientes como um serviço dedicado de computação em nuvem de IA.

O negócio “mudou completamente” para a Cerebras, disse Feldman à ENBLE. “Em vez de comprar uma ou duas máquinas e executar um trabalho em uma máquina por uma semana, os clientes preferem tê-lo em 16 máquinas por algumas horas” como um modelo de serviço em nuvem.

O resultado para a Cerebras é que, “para vendas de hardware, você pode fazer menos negócios maiores e vai gastar muito tempo e esforço no gerenciamento de sua própria nuvem”.

Nesta segunda-feira, em uma conferência de supercomputação em Denver chamada SC23, Feldman e sua equipe revelaram a conquista mais recente dessa expansão da nuvem de IA.

Também: Cerebras acaba de construir um gigantesco sistema de computador com 27 milhões de ‘núcleos’ de IA

A empresa anunciou que concluiu a construção de um computador de IA massivo, o Condor Galaxy 1, ou “CG-1”, construído para o cliente G42, uma empresa de investimentos com cinco anos de existência com sede em Abu Dhabi, Emirados Árabes Unidos.

“Agora temos tanta capacidade de supercomputação que outras pessoas estão usando nosso sistema de várias maneiras criativas”, disse Feldman sobre o Condor Galaxy.

O Condor Galaxy, anunciado no início deste ano, recebeu esse nome em homenagem a uma galáxia espiral localizada a 212 milhões de anos-luz da Terra. A máquina é uma coleção de 64 CS-2s da Cerebras. O valor total do CG-1 equivale, segundo Feldman, a um pouco menos do que o custo de um número equivalente de chips GPU da Nvidia, na ordem de US $150 milhões, com base no preço do computador “DGX” de 8 vias da Nvidia.

“Este é um negócio muito bom”, disse Feldman sobre essas vendas de alto valor. “Estamos tendo um ano monstruoso” em termos de vendas, disse ele.

Também: Por que a Nvidia está ensinando robôs a girar canetas e como a IA generativa está ajudando

A máquina Condor Galaxy não está fisicamente em Abu Dhabi, mas sim instalada nas instalações da Colovore, uma empresa sediada em Santa Clara, Califórnia, que compete no mercado de serviços em nuvem junto com empresas como Equinix. 

A Cerebras está iniciando a construção da segunda versão do Condor Galaxy, número dois, ou “CG-2”, que adicionará mais 64 computadores e mais quatro “exaFLOPS” de poder computacional. (Um exaFLOP é um bilhão de bilhões de operações de ponto flutuante por segundo, veja a Wikipedia), totalizando 8 exaFLOPS para o sistema Condor Galaxy. 

Espera-se que o sistema Condor Galaxy, em sua configuração final, atinja 36 exaFLOPS, utilizando 576 computadores CS-2, supervisionados por 654.000 núcleos de CPU AMD.

No novo modelo de negócios híbrido, disse Feldman, a medida de sucesso não é apenas as vendas do sistema, mas também a taxa de novos clientes alugando capacidade na nuvem da Cerebras sem necessidade de compras antecipadas. “Antes, você enviava o hardware para eles e eles o configuravam, e você fazia um teste ou prova nas instalações deles. Agora, nós apenas fornecemos um login”, explicou Feldman sobre o novo modo de vendas.

O gigante farmacêutico GlaxoSmithKline, um dos primeiros clientes a adquirir o hardware CS-2, também está alugando capacidade na nuvem da Cerebras, segundo Feldman. “Eles têm nosso equipamento em suas instalações, e quando desejam realizar grandes processamentos, eles vêm para a nossa nuvem”, explicou. “E isso é um modelo muito interessante.”

Também: A pesquisa biológica da Glaxo com a máquina Cerebras mostra que o hardware pode mudar a forma como a IA é feita

“Agora temos uma capacidade de supercomputação tão grande que outras pessoas estão usando nosso sistema de maneiras criativas”, disse Feldman. “Na área de IA, estão desenvolvendo modelos interessantes e, na área de supercomputação, estão realizando trabalhos interessantes – e isso não acontece com mais ninguém.”

Feldman citou como trabalho de IA “incrivelmente interessante” realizado no Condor Galaxy o desenvolvimento de um modelo de linguagem grande de código aberto, semelhante ao GPT da OpenAI. Esse programa é o modelo com melhor desempenho, com 3 bilhões de “parâmetros” de rede neural, no repositório de aprendizado de máquina Hugging Face, observou Feldman, com mais de um bilhão de downloads. Esse programa é pequeno o suficiente para ser executado em um smartphone para realizar inferência de IA, que é a intenção, disse Feldman. 

Como exemplo de trabalho científico, Feldman mencionou um artigo de pesquisa de estudiosos da King Abdullah University of Science and Technology na Arábia Saudita, que foi finalista do prestigiado Prêmio Gordon Bell, concedido pela Association for Computing Machinery, organizadora do evento SC23.

“Nós lhes concedemos tempo no Condor Galaxy para que eles pudessem bater recordes em processamento sísmico”, observou Feldman.

A primeira versão do Condor Galaxy, CG-1, levou 70 dias para ser concluída, disse Feldman. A máquina CG-2 será finalizada “no início do próximo ano”. A empresa já está planejando o Condor Galaxy-3, que adicionará mais 64 máquinas e mais 4 exaFLOPS, totalizando 12 exaFLOPS no sistema.

Uma das principais vantagens de uma máquina como o Condor Galaxy, tanto a versão 1 quanto a 2, disse Feldman, é a engenharia do sistema. Montar um número equivalente de chips GPU é extremamente difícil, segundo ele. “O número de pessoas capazes de interconectar mil GPUs é muito pequeno”, disse Feldman. “São, talvez, 25 empresas.”

Também: O Snapdragon X Elite da Qualcomm traz mais potência de IA para o seu próximo PC

“É muito difícil obter uso eficiente de tanto poder de computação distribuída, é um problema muito, muito difícil”, disse Feldman. “Esse é um dos problemas que solucionamos fundamentalmente.”

Cada computador CS-2 no Condor Galaxy 1 e 2 contém um dos novos chips de IA da Cerebras, o “Wafer-Scale-Engine” ou WSE. Esses chips, os maiores do mundo, cada um contém 850.000 núcleos individuais para processar instruções de IA em paralelo, tornando-os equivalentes a vários chips de GPU.

Além disso, os computadores CS-2 são complementados pelo “switch” de “tecido” de propósito especial da Cerebras, o Swarm-X, e seu hub de memória dedicado, o Memory-X, que são usados para agrupar os CS-2s.