Cerebras revela WSE-3 O Maior Chip de IA do Mundo para Treinar Modelos 🚀

O desempenho de um único chip do tamanho de uma pastilha semicondutora duplicou, permitindo que ele gerencie eficientemente modelos de linguagem grandes com dezenas de trilhões de parâmetros'.

“`html

A startup de IA Cerebras revela o maior chip, WSE-3, para IA generativa.

A corrida por modelos de IA maiores e melhores está esquentando, e a Cerebras Systems, um importante concorrente da Nvidia, acaba de revelar sua última criação – o Wafer Scale Engine 3 (WSE-3). Este chip de IA de terceira geração, o maior semicondutor do mundo, está pronto para revolucionar a indústria.

Introdução

A demanda por modelos de IA mais poderosos continua a empurrar os limites da tecnologia de chip. A Cerebras Systems, conhecida por sua inovação no campo, acaba de apresentar o WSE-3, o maior chip de IA do mundo. Este chip inovador é projetado especificamente para treinar modelos de IA, otimizando seus pesos neurais para melhorar a funcionalidade. Neste artigo, vamos explorar as características do WSE-3, analisar seu impacto na indústria e discutir suas perspectivas futuras.

O Gigante WSE-3

Com impressionantes melhorias de desempenho, o WSE-3 estabelece um novo padrão para chips de IA. Com uma duplicação da taxa de instrução, de 62,5 petaFLOPs para impressionantes 125 petaFLOPs, este chip possui uma capacidade impressionante. Seu número de transistores também teve um aumento significativo, com 4 trilhões de transistores em comparação com os 2,6 trilhões de seu antecessor. Construído usando a tecnologia de 5 nanômetros, o WSE-3 utiliza a experiência em fabricação da TSMC, um dos principais fabricantes de chips do mundo.

Um Verdadeiro Passo de Moore’s Law

Andrew Feldman, co-fundador e CEO da Cerebras Systems, enfatizou a importância do WSE-3 em termos da Lei de Moore. A Lei de Moore afirma que a circuitaria do chip dobra aproximadamente a cada 18 meses. Feldman declarou que o WSE-3 representa um verdadeiro passo na Lei de Moore, oferecendo o dobro do desempenho mantendo o mesmo consumo de energia e preço. Este avanço era esperado há muito tempo na indústria.

O Tamanho Importa

Quando se trata de tamanho do chip, o WSE-3 supera seus concorrentes, em particular a GPU H100 da Nvidia. Feldman comparou os dois, destacando a grande diferença de potência. O WSE-3 é colossal, sendo 57 vezes maior que a oferta da Nvidia, com 52 vezes mais núcleos, 800 vezes mais memória no chip e mais de 3.700 vezes mais largura de banda de tecido. Essas estatísticas impressionantes lançam as bases para o desempenho excepcional do WSE-3.

O Equilíbrio Perfeito

A Cerebras atingiu o equilíbrio perfeito entre computação e memória no WSE-3. Ao aumentar ligeiramente o conteúdo de memória e o número de núcleos de computação, eles criaram um chip que otimiza ambos os aspectos. Feldman afirma que eles acreditam ter alcançado a síntese ideal de computação e memória, proporcionando o melhor desempenho para treinamento de IA.

Reescrevendo o Livro de Regras sobre Tempos de Treinamento

O WSE-3 oferece enormes capacidades computacionais, capazes de lidar com um grande modelo de linguagem teórico com impressionantes 24 trilhões de parâmetros. Isso é uma ordem de magnitude maior do que as principais ferramentas de IA gerativa como o GPT-4 da OpenAI, que é rumores ter apenas 1 trilhão de parâmetros. A máquina da Cerebras permite a execução dos 24 trilhões de parâmetros em um único dispositivo. Em comparação, as GPUs exigem programação consideravelmente mais complexa e significativamente mais linhas de código para obter resultados semelhantes.

P&R

P: Como o WSE-3 se compara a outros chips de IA em termos de tamanho?

R: O WSE-3 é o maior chip de IA disponível, superando seus concorrentes. Comparado com a GPU H100 da Nvidia, ele é 57 vezes maior e oferece significativamente mais núcleos, memória no chip e largura de banda de tecido.

P: Qual é a importância das capacidades aumentadas de computação e memória do WSE-3?

R: Ao encontrar o equilíbrio certo entre computação e memória, o WSE-3 alcança um desempenho ótimo para o treinamento de IA. Isso garante que os modelos possam ser treinados mais rapidamente e de forma mais eficiente.

P: Como o WSE-3 simplifica a programação em comparação com as GPUs?

R: A máquina da Cerebras é mais fácil de programar do que as GPUs. Enquanto as GPUs exigem programação complexa, o WSE-3 reduz o número de linhas de código necessárias para obter resultados semelhantes, tornando-o mais acessível e amigável ao usuário.

“““html

Q: Como se compara o desempenho do WSE-3 com outros chips de IA?

A: O WSE-3 oferece um desempenho sem igual, atingindo 125 petaFLOPs de throughput de instruções. Essa imensa potência computacional permite lidar com grandes modelos de linguagem com até 24 trilhões de parâmetros, destacando-se de seus concorrentes.

Uma Parceria para Inferência Aprimorada

Além das notáveis capacidades de treinamento do WSE-3, a Cerebras se associou com o gigante dos chips, Qualcomm, para aprimorar o processo de inferência. Ao utilizar o processador de IA 100 da Qualcomm, a Cerebras visa reduzir o custo de execução de modelos de IA generativa em produção. Através de técnicas como esparsidade, decodificação especulativa e busca de arquitetura de rede, Cerebras e Qualcomm alcançaram melhorias significativas no desempenho de inferência.

Olhando para o Futuro

A introdução do WSE-3 marca um momento crucial no desenvolvimento de chips de IA. Com seu desempenho inovador e eficiência, esse chip estabelece novos padrões para a indústria. À medida que os modelos de IA continuam a crescer em tamanho e complexidade, chips como o WSE-3 desempenharão um papel crucial no avanço do campo.

Conclusão

O WSE-3 da Cerebras é um testemunho da busca contínua por modelos de IA mais poderosos. Com seu tamanho, desempenho e otimização sem precedentes para treinamento, o WSE-3 está pronto para revolucionar a indústria. Esse chip representa um grande salto adiante, fornecendo capacidades computacionais aprimoradas que impulsionarão os avanços na pesquisa e desenvolvimento de IA.

Lembre-se de compartilhar este artigo e nos contar suas opiniões nos comentários abaixo! 💬


Referências:

  1. A Corrida de Vídeos Generativos da China se Intensifica
  2. Obtenha o Microsoft Project 2021 e Visio 2021 com 30% de Desconto
  3. Como os Firewalls de IA irão Segurar Suas Novas Aplicações Comerciais
  4. AlphaTheta (anteriormente Pioneer DJ Corp) Lança o Primeiro Controlador e Alto-falante DJ sem Fio
  5. A AI de Ambição Lunar da China Dispara para uma Valoração de $25B, Levantando $1B para Contexto Longo Focado em LLM
  6. A Pioneer de AI Cerebras Está Tendo “Um Ano Monstruoso” em Computação de IA Híbrida
  7. airfocus Embolsa $75M para Concorrer com Software de Gerenciamento de Projetos
  8. Tornando o GenAI Mais Eficiente com um Novo Tipo de Chip

“`