O Windows 11 em breve aproveitará sua GPU para inteligência artificial generativa | ENBLE

O Windows 11 em breve utilizará sua GPU para aprimorar a inteligência artificial generativa | ENBLE

Após a introdução do Copilot, seu mais recente assistente inteligente para o Windows 11, a Microsoft mais uma vez avança a integração da IA generativa com o Windows. Na conferência de desenvolvedores Ignite 2023 em Seattle, a empresa anunciou uma parceria com a Nvidia no TensorRT-LLM, que promete elevar a experiência do usuário em desktops e laptops com RTX GPUs.

O novo lançamento pretende adicionar suporte para novos modelos de linguagem grandes, tornando as cargas de trabalho de IA mais acessíveis. Destaca-se sua compatibilidade com a API de Chat da OpenAI, que permite execução local (em vez da nuvem) em PCs e estações de trabalho com RTX GPUs a partir de 8GB de VRAM.

A biblioteca TensorRT-LLM da Nvidia foi lançada no mês passado e dizem ajudar a melhorar o desempenho de grandes modelos de linguagem (LLMs) usando os Tensor Cores das placas gráficas RTX. Ela fornece aos desenvolvedores uma API em Python para definir LLMs e construir engines TensorRT de forma mais rápida, sem necessidade de conhecimento profundo em C++ ou CUDA.

Com o lançamento do TensorRT-LLM v0.6.0, a navegação pelas complexidades de projetos customizados de IA generativa será simplificada graças à introdução do AI Workbench. Trata-se de um conjunto de ferramentas unificadas que facilita a criação, teste e personalização rápidas de modelos de IA generativa e LLMs pré-treinados. A plataforma também deve permitir aos desenvolvedores otimizar colaboração e implantação, garantindo um desenvolvimento eficiente e escalável de modelos.

Um gráfico mostrando o desempenho de inferência do TensorRT-LLM no Windows 11.
Nvidia

Reconhecendo a importância de apoiar os desenvolvedores de IA, a Nvidia e a Microsoft também estão lançando melhorias no DirectML. Essas otimizações aceleram modelos de IA fundamentais, como Llama 2 e Stable Diffusion, proporcionando aos desenvolvedores mais opções para implantação multiplataforma e estabelecendo novos padrões de desempenho.

A atualização da biblioteca TensorRT-LLM também promete uma melhoria substancial no desempenho de inferência, com velocidades até cinco vezes mais rápidas. Essa atualização também expande o suporte para LLMs populares adicionais, incluindo Mistral 7B e Nemotron-3 8B, e estende as capacidades de LLMs locais rápidos e precisos para uma gama mais ampla de dispositivos portáteis com Windows.

A integração do TensorRT-LLM para Windows com a API de Chat da OpenAI por meio de um novo wrapper permitirá que centenas de projetos e aplicativos de IA sejam executados localmente em PCs equipados com RTX. Isso potencialmente elimina a necessidade de depender de serviços em nuvem e garante a segurança de dados privados e proprietários nos PCs com Windows 11.

O futuro da IA nos PCs com Windows 11 ainda tem um longo caminho pela frente. Com modelos de IA cada vez mais disponíveis e desenvolvedores continuando a inovar, aproveitar o poder das GPUs RTX da Nvidia pode ser um divisor de águas. No entanto, ainda é cedo para dizer se essa será a peça final do quebra-cabeça que a Microsoft precisa desesperadamente para desbloquear totalmente as capacidades de IA nos PCs com Windows.