Menos é muito mais quando se trata de IA, diz o DeepMind do Google

Less is much more when it comes to AI, says Google's DeepMind.

Os cientistas estão descobrindo que é possível alcançar mais removendo três quartos de uma rede neural.

Uma grande busca na ciência da inteligência artificial (IA) é o equilíbrio entre o tamanho de um programa e a quantidade de dados que ele utiliza. Afinal, custa dinheiro real, dezenas de milhões de dólares, comprar chips Nvidia GPU para executar IA e reunir bilhões de bytes de dados para treinar redes neurais – e a quantidade necessária tem implicações práticas muito importantes. 

A unidade DeepMind do Google codificou exatamente o equilíbrio entre a potência de computação e os dados de treinamento como uma espécie de lei da IA. Essa regra, que ficou conhecida como “Lei do Chinchilla”, diz que você pode reduzir o tamanho de um programa para apenas um quarto de seu tamanho inicial se também aumentar a quantidade de dados em quatro vezes o tamanho inicial. 

Também: A IA generativa pode resolver o maior problema não resolvido da ciência da computação?

O ponto do Chinchilla, e é um ponto importante, é que programas podem alcançar um resultado ótimo em termos de precisão sendo menos gigantes. Construa programas menores, mas treine-os por mais tempo nos dados, diz Chinchilla. Menos é mais, em outras palavras, na IA de aprendizado profundo, por razões ainda não completamente compreendidas. 

Em um artigo publicado este mês, a DeepMind e seus colaboradores ampliam essa percepção sugerindo ser possível fazer ainda melhor, removendo partes inteiras da rede neural, empurrando o desempenho ainda mais quando uma rede neural atinge um limite.

Também: A IA generativa superará em muito o que o ChatGPT pode fazer. Aqui está o motivo

De acordo com o autor principal Elias Frantar do Instituto de Ciência e Tecnologia da Áustria, e colaboradores da DeepMind, é possível obter os mesmos resultados em termos de precisão de uma rede neural que é a metade do tamanho de outra se você utilizar uma técnica chamada “esparsidade”. 

A esparsidade, um elemento obscuro das redes neurais que tem sido estudado há anos, é uma técnica que se inspira na própria estrutura dos neurônios humanos. A esparsidade se refere a desligar algumas das conexões entre os neurônios. Nos cérebros humanos, essas conexões são conhecidas como sinapses. 

A grande maioria das sinapses humanas não se conecta. Como observaram o cientista Torsten Hoefler e sua equipe no ETH Zurich em 2021, “Os cérebros biológicos, especialmente o cérebro humano, são estruturas hierárquicas, esparsas e recorrentes”, acrescentando: “quanto mais neurônios um cérebro tem, mais esparsa ele se torna.”

A ideia é que, se você pudesse aproximar esse fenômeno natural do número muito pequeno de conexões, você poderia fazer muito mais com qualquer rede neural com um esforço muito menor – e com muito menos tempo, dinheiro e energia. 

Também: A Microsoft e o TikTok dão à IA generativa uma espécie de memória

Em uma rede neural artificial, como um modelo de IA de aprendizado profundo, o equivalente às conexões sinápticas são “pesos” ou “parâmetros”. Sinapses que não têm conexões seriam pesos com valores zero – eles não calculam nada, portanto, não consomem energia de computação. Os cientistas de IA se referem à esparsidade, portanto, como zerar os parâmetros de uma rede neural. 

No novo artigo da DeepMind, publicado no servidor pré-impressão arXiv, Frantar e sua equipe perguntam, se redes menores podem igualar o trabalho de redes maiores, como mostrou o estudo anterior, até que ponto a esparsidade pode ajudar a impulsionar o desempenho ainda mais removendo alguns pesos? 

Os pesquisadores descobriram que se você zerar três quartos dos parâmetros de uma rede neural – tornando-a mais esparsa – ela pode fazer o mesmo trabalho que uma rede neural com mais que o dobro de seu tamanho. 

Como eles colocam: “A principal conclusão desses resultados é que, à medida que se treina significativamente mais tempo do que o Chinchilla (cálculo denso ótimo), modelos mais e mais esparsos começam a se tornar ótimos em termos de perda para o mesmo número de parâmetros não nulos.” O termo “modelo de cálculo denso” refere-se a uma rede neural sem esparsidade, de modo que todas as suas sinapses estejam operando. 

“Isso ocorre porque os ganhos de treinar ainda mais modelos densos começam a diminuir significativamente em algum ponto, permitindo que os modelos esparsos os ultrapassem.” Em outras palavras, modelos normais, não esparsos – modelos densos – começam a falhar onde as versões esparsas assumem o controle.

Também: Veremos um tipo completamente novo de computador, diz pioneiro em IA Geoff Hinton

A implicação prática dessa pesquisa é impressionante. Quando uma rede neural começa a atingir seu limite em termos de desempenho, na verdade, reduzir a quantidade de seus parâmetros neurais que funcionam – zerando-os – estenderá ainda mais o desempenho da rede neural à medida que você a treina por um tempo cada vez maior.

“Os níveis ideais de esparsidade aumentam continuamente com um treinamento mais longo”, escrevem Frantar e equipe. “Portanto, a esparsidade fornece um meio de melhorar ainda mais o desempenho do modelo para um custo final fixo de parâmetros.”

Para um mundo preocupado com o custo energético de redes neurais cada vez mais ávidas por energia, a boa notícia é que os cientistas estão descobrindo que ainda mais pode ser feito com menos.