Você poderia em breve executar tarefas de IA diretamente no seu smartphone? A MediaTek diz que sim.

A MediaTek diz que será possível executar tarefas de IA no smartphone em breve.

A Inteligência Artificial Generativa, uma das tecnologias de crescimento mais rápido, é usada pelo ChatGPT da OpenAI e pelo Google Bard para bate-papo, e por sistemas de geração de imagens como Stable Diffusion e DALL-E. No entanto, ela possui certas limitações, pois essas ferramentas requerem o uso de centros de dados baseados em nuvem com centenas de GPUs para realizar os processos de computação necessários para cada consulta.

Mas um dia você poderá executar tarefas de IA generativa diretamente no seu dispositivo móvel. Ou no seu carro conectado. Ou na sua sala de estar, quarto e cozinha, em alto-falantes inteligentes como Amazon Echo, Google Home ou Apple HomePod.

Também: Seu próximo telefone poderá executar ferramentas de IA generativa (mesmo no Modo Avião)

A MediaTek acredita que esse futuro está mais próximo do que imaginamos. Hoje, a empresa de semicondutores sediada em Taiwan anunciou que está trabalhando com a Meta para portar o Lllama 2 LLM da gigante social – em combinação com as últimas gerações de APUs da empresa e a plataforma de desenvolvimento de software NeuroPilot – para executar tarefas de IA generativa em dispositivos sem depender de processamento externo.

É claro que há um porém: isso não eliminará completamente o centro de dados. Devido ao tamanho dos conjuntos de dados do LLM (o número de parâmetros que eles contêm) e ao desempenho necessário do sistema de armazenamento, ainda é necessário um centro de dados, embora muito menor.

Por exemplo, o conjunto de dados “pequeno” do Llama 2 possui 7 bilhões de parâmetros, ou cerca de 13 GB, o que é adequado para algumas funções rudimentares de IA generativa. No entanto, uma versão muito maior com 72 bilhões de parâmetros requer muito mais armazenamento proporcionalmente, mesmo usando compressão avançada de dados, o que está além das capacidades práticas dos smartphones de hoje. Nos próximos anos, os LLMs em desenvolvimento serão facilmente 10 a 100 vezes maiores que o Llama 2 ou o GPT-4, com requisitos de armazenamento na casa das centenas de gigabytes ou mais.

Isso é difícil para um smartphone armazenar e ter IOPS suficientes para o desempenho do banco de dados, mas certamente não para dispositivos de cache projetados especialmente com armazenamento flash rápido e terabytes de RAM. Portanto, para o Llama 2, é possível hoje hospedar um dispositivo otimizado para atender dispositivos móveis em uma única unidade de rack, sem todo o poder computacional pesado. Não é um telefone, mas é bastante impressionante mesmo assim!

Também: Os melhores chatbots de IA de 2023: ChatGPT e alternativas

A MediaTek espera que aplicativos de IA baseados no Llama 2 fiquem disponíveis para smartphones com o SoC flagship de próxima geração, previsto para ser lançado no final do ano.

Para que a IA generativa no dispositivo acesse esses conjuntos de dados, as operadoras móveis teriam que contar com redes de borda de baixa latência – pequenos centros de dados/depósitos de equipamentos com conexões rápidas para as torres 5G. Esses centros de dados estariam localizados diretamente na rede das operadoras, para que os LLMs executados nos smartphones não precisem passar por muitos “saltos” de rede antes de acessar os dados dos parâmetros.

Além de executar cargas de trabalho de IA em dispositivos usando processadores especializados como os da MediaTek, os LLMs específicos de domínio podem ser movidos mais próximos à carga de trabalho do aplicativo, executando-os de forma híbrida com esses dispositivos de cache dentro do minicentro de dados – em um cenário de “borda de dispositivo limitado”.

Também: Estas são as minhas 5 ferramentas de IA favoritas para o trabalho

Então, quais são os benefícios do uso de IA generativa no dispositivo?

  • Latência reduzida: Porque os dados são processados no próprio dispositivo, o tempo de resposta é significativamente reduzido, especialmente se forem utilizadas metodologias de cache localizadas para as partes frequentemente acessadas do conjunto de dados de parâmetros.
  • Melhoria na privacidade dos dados: Mantendo os dados no dispositivo, esses dados (como uma conversa em um chat ou treinamento enviado pelo usuário) não são transmitidos pelo centro de dados; apenas os dados do modelo são.
  • Melhoria na eficiência de largura de banda: Atualmente, tarefas de IA generativa exigem que todos os dados da conversa do usuário sejam enviados e recebidos pelo centro de dados. Com o processamento localizado, uma grande quantidade disso ocorre no dispositivo.
  • Aumento da resiliência operacional: Com a geração no dispositivo, o sistema pode continuar funcionando mesmo se a rede for interrompida, especialmente se o dispositivo tiver um cache de parâmetros grande o suficiente.
  • Eficiência energética: Não requer tantos recursos intensivos em computação no centro de dados, nem tanta energia para transmitir esses dados do dispositivo para o centro de dados.

No entanto, alcançar esses benefícios pode envolver a divisão de cargas de trabalho e o uso de outras técnicas de balanceamento de carga para aliviar os custos de computação centralizada do centro de dados e a sobrecarga de rede.

Além da necessidade contínua de um centro de dados de borda conectado rapidamente (embora com requisitos computacionais e energéticos muito reduzidos), há outra questão: quão poderoso um LLM você realmente pode executar no hardware atual? E, embora haja menos preocupação com dados no dispositivo sendo interceptados pela rede, há o risco adicional de segurança de dados sensíveis serem penetrados no dispositivo local se não forem devidamente gerenciados – bem como o desafio de atualizar os dados do modelo e manter a consistência dos dados em um grande número de dispositivos de armazenamento em cache de borda distribuídos.

Também: Como a conexão entre a borda e a nuvem está impulsionando a próxima etapa da transformação digital

E, finalmente, há o custo: quem pagará a conta por todos esses mini data centers de borda? A rede de borda é usada hoje por provedores de serviços de borda (como a Equinix), que são necessários por serviços como Netflix e iTunes da Apple, tradicionalmente não por operadoras de rede móvel como AT&T, T-Mobile ou Verizon. Provedores de serviços de IA generativa, como OpenAI/Microsoft, Google e Meta, precisariam chegar a acordos semelhantes.

Há muitas considerações com relação à IA generativa em dispositivos, mas está claro que as empresas de tecnologia estão pensando sobre isso. Dentro de cinco anos, seu assistente inteligente no dispositivo poderá estar pensando por si só. Pronto para ter IA no seu bolso? Ela está chegando – e muito mais cedo do que a maioria das pessoas esperava.