A onda de visão múltipla da IA está chegando, e será poderosa.

A onda de visão múltipla da IA está chegando e será poderosa

Maçãs múltiplas

O chamado multi-view é uma forma de vincular dois sinais diferentes considerando as informações que eles compartilham sobre o mesmo objeto, apesar das diferenças. A multi-view pode abrir um caminho para máquinas que podem ter uma compreensão mais rica da estrutura do mundo, talvez contribuindo para o objetivo de máquinas que podem “raciocinar” e “planejar”.

A inteligência artificial em sua forma mais bem-sucedida – coisas como ChatGPT ou AlphaFold da DeepMind para prever proteínas – tem estado presa em uma dimensão notavelmente estreita: a IA vê as coisas apenas de um lado, como uma palavra, como uma imagem, como uma coordenada no espaço – como qualquer tipo de dado, mas apenas um de cada vez.

Em muito pouco tempo, redes neurais estão prestes a se expandir dramaticamente com uma fusão de formas de dados que olharão para a vida de muitos ângulos. É um desenvolvimento importante, pois pode dar às redes neurais uma base maior nas formas como o mundo se coesa, nas formas como as coisas se mantêm juntas, o que pode ser uma etapa importante no movimento em direção a programas que possam um dia realizar o que você chamaria de “raciocínio” e “planejamento” sobre o mundo.

Também: Meta apresenta o tradutor de fala para fala ‘Seamless’

A próxima onda de dados multifacetados tem suas raízes em anos de estudo por cientistas de aprendizado de máquina e geralmente é conhecida como “multi-view” ou, alternativamente, fusão de dados. Há até mesmo um periódico acadêmico dedicado ao tema, chamado Information Fusion, publicado pela editora acadêmica Elsevier.

A ideia fundamental da fusão de dados é que qualquer coisa no mundo que se esteja tentando examinar tem muitos lados ao mesmo tempo. Uma página da web, por exemplo, tem tanto o texto que você vê a olho nu quanto o texto do link que leva a essa página, ou até mesmo uma terceira coisa, o código HTML e CSS subjacente que é a estrutura da página.

Uma imagem de uma pessoa pode ter tanto uma etiqueta com o nome da pessoa quanto os pixels da imagem. Um vídeo possui um quadro de vídeo, mas também o áudio que acompanha esse quadro.

Os programas de IA atuais tratam esses dados variados como peças separadas de informações sobre o mundo, com pouca ou nenhuma conexão entre eles. Mesmo quando redes neurais lidam com vários tipos de dados, como texto e áudio, no máximo eles processam esses conjuntos de dados simultaneamente – não vinculam explicitamente vários tipos de dados com a compreensão de que são diferentes visualizações do mesmo objeto.

Por exemplo, a Meta Properties – proprietária do Facebook, Instagram e WhatsApp – revelou na terça-feira seu último esforço em tradução automática, um tour de force no uso de múltiplas modalidades de dados. O programa, SeamlessM4T, é treinado tanto em dados de fala quanto em dados de texto ao mesmo tempo e pode gerar tanto texto quanto áudio para qualquer tarefa.

Mas o SeamlessM4T não percebe cada unidade de cada sinal como uma faceta do mesmo objeto.

Também: Gerador de imagens de IA da Meta diz que a linguagem pode ser tudo o que você precisa

Essa visão fragmentada das coisas está começando a mudar. Em um artigo publicado recentemente pelo professor assistente da Universidade de Nova York e membro do corpo docente Ravid Shwartz-Ziv, e pelo principal cientista de IA da Meta, Yann LeCun, a dupla discute o objetivo de usar o multi-view para enriquecer as redes neurais de aprendizado profundo, representando objetos de múltiplas perspectivas.

Maçã em reflexão

Objetos são fragmentados em sinais não relacionados nas redes neurais profundas de hoje em dia. A próxima onda de multimodalidade, empregando imagens mais sons, textos, nuvens de pontos, redes gráficas e muitos outros tipos de sinais, pode começar a criar um modelo mais rico da estrutura das coisas.

No altamente técnico e bastante teórico artigo, publicado no servidor de preprints arXiv em abril, Shwartz-Ziv e LeCun escrevem que “o sucesso da aprendizagem profunda em diversos domínios de aplicação tem levado a um crescente interesse em métodos de multivisão profunda, que têm mostrado resultados promissores.”

A multivisão está caminhando para um momento de destino, à medida que as redes neurais cada vez maiores de hoje – como o SeamlessM4T – assumem mais e mais modalidades, conhecidas como IA “multimodal”.

Também: Os melhores chatbots de IA de 2023: ChatGPT e alternativas

O futuro da chamada IA generativa, programas como o ChatGPT e o Stable Diffusion, combinará uma infinidade de modalidades em um único programa, incluindo não apenas texto, imagens e vídeo, mas também nuvens de pontos, grafos de conhecimento, até mesmo dados de bioinformática e muitas outras visões de uma cena ou de um objeto.

As muitas modalidades diferentes oferecem potencialmente milhares de “visões” das coisas, visões que podem conter informações mútuas, o que pode ser uma abordagem muito rica para entender o mundo. Mas também apresenta desafios.

A chave para a multivisão em redes neurais profundas é um conceito que Shwartz-Ziv e outros têm teorizado conhecido como um “gargalo de informação”. O gargalo de informação se torna problemático à medida que o número de modalidades aumenta.

Maçãs através de uma garrafa

O gargalo de informação é um conceito-chave na aprendizagem de máquina. Nas camadas ocultas de uma rede profunda, pensa-se que a entrada da rede é reduzida às coisas mais essenciais para produzir uma reconstrução da entrada, uma forma de compressão e descompressão.

Em um gargalo de informação, múltiplas entradas são combinadas em uma “representação” que extrai os detalhes relevantes compartilhados pelas entradas como diferentes visões do mesmo objeto. Em uma segunda etapa, essa representação é então reduzida a uma forma comprimida que contém apenas os elementos essenciais da entrada necessários para prever uma saída que corresponda a esse objeto. Esse processo de acumular informações mútuas e depois remover ou compactar tudo, exceto o essencial, é o gargalo de informação.

O desafio para a multivisão em redes multimodais grandes é saber quais informações de todas as diferentes visões são essenciais para as muitas tarefas que uma rede neural gigante executará com todas essas diferentes modalidades.

Também: Você pode construir seu próprio chatbot de IA com essa ferramenta de arrastar e soltar

Como exemplo simples, uma rede neural realizando uma tarefa baseada em texto, como o ChatGPT, produzindo frases de texto, pode falhar quando também precisa, por exemplo, produzir imagens, se os detalhes relevantes para a última tarefa tiverem sido descartados durante a etapa de compressão.

Como escrevem Shwartz-Ziv e LeCun, “[S]eparar informações em componentes relevantes e irrelevantes se torna desafiador, muitas vezes levando a um desempenho subótimo.”

Ainda não há uma resposta clara para esse problema, declaram os estudiosos. Será necessário mais pesquisa; em particular, redefinir a multivisão de algo que inclui apenas duas visões diferentes de um objeto para possivelmente várias visões.

“Para garantir a otimalidade desse objetivo, devemos expandir a suposição de multivisão para incluir mais de duas visões”, escrevem eles. Em particular, a abordagem tradicional de multivisão assume “que informações relevantes são compartilhadas entre todas as diferentes visões e tarefas, o que pode ser excessivamente restritivo”, acrescentam. Pode ser que as visões compartilhem apenas algumas informações em alguns contextos.

Também: Assim a IA generativa mudará a economia no estilo freelancer para melhor

“Como resultado”, concluem eles, “definir e analisar uma versão mais refinada dessa solução ingênua é essencial.”

Sem dúvida, o aumento da multimodalidade impulsionará a ciência da multivisão a desenvolver novas soluções. A explosão da multimodalidade na prática levará a novos avanços teóricos para a IA.