A onda de visão múltipla da IA está chegando, e será poderosa.

A onda de visão múltipla da IA está chegando e será poderosa

Maçãs múltiplas — O chamado multi-view é uma forma de vincular dois sinais diferentes considerando as informações que eles compartilham sobre o mesmo objeto, apesar das diferenças. A multi-view pode abrir um caminho para máquinas que podem ter uma compreensão mais rica da estrutura do mundo, talvez contribuindo para o objetivo de máquinas que podem “raciocinar” e “planejar”.

A inteligência artificial em sua forma mais bem-sucedida – coisas como ChatGPT ou AlphaFold da DeepMind para prever proteínas – tem estado presa em uma dimensão notavelmente estreita: a IA vê as coisas apenas de um lado, como uma palavra, como uma imagem, como uma coordenada no espaço – como qualquer tipo de dado, mas apenas um de cada vez.

Em muito pouco tempo, redes neurais estão prestes a se expandir dramaticamente com uma fusão de formas de dados que olharão para a vida de muitos ângulos. É um desenvolvimento importante, pois pode dar às redes neurais uma base maior nas formas como o mundo se coesa, nas formas como as coisas se mantêm juntas, o que pode ser uma etapa importante no movimento em direção a programas que possam um dia realizar o que você chamaria de “raciocínio” e “planejamento” sobre o mundo.

Também: Meta apresenta o tradutor de fala para fala ‘Seamless’

A próxima onda de dados multifacetados tem suas raízes em anos de estudo por cientistas de aprendizado de máquina e geralmente é conhecida como “multi-view” ou, alternativamente, fusão de dados. Há até mesmo um periódico acadêmico dedicado ao tema, chamado Information Fusion, publicado pela editora acadêmica Elsevier.

A ideia fundamental da fusão de dados é que qualquer coisa no mundo que se esteja tentando examinar tem muitos lados ao mesmo tempo. Uma página da web, por exemplo, tem tanto o texto que você vê a olho nu quanto o texto do link que leva a essa página, ou até mesmo uma terceira coisa, o código HTML e CSS subjacente que é a estrutura da página.

Uma imagem de uma pessoa pode ter tanto uma etiqueta com o nome da pessoa quanto os pixels da imagem. Um vídeo possui um quadro de vídeo, mas também o áudio que acompanha esse quadro.

Os programas de IA atuais tratam esses dados variados como peças separadas de informações sobre o mundo, com pouca ou nenhuma conexão entre eles. Mesmo quando redes neurais lidam com vários tipos de dados, como texto e áudio, no máximo eles processam esses conjuntos de dados simultaneamente – não vinculam explicitamente vários tipos de dados com a compreensão de que são diferentes visualizações do mesmo objeto.

Por exemplo, a Meta Properties – proprietária do Facebook, Instagram e WhatsApp – revelou na terça-feira seu último esforço em tradução automática, um tour de force no uso de múltiplas modalidades de dados. O programa, SeamlessM4T, é treinado tanto em dados de fala quanto em dados de texto ao mesmo tempo e pode gerar tanto texto quanto áudio para qualquer tarefa.

Mas o SeamlessM4T não percebe cada unidade de cada sinal como uma faceta do mesmo objeto.

Também: Gerador de imagens de IA da Meta diz que a linguagem pode ser tudo o que você precisa

Essa visão fragmentada das coisas está começando a mudar. Em um artigo publicado recentemente pelo professor assistente da Universidade de Nova York e membro do corpo docente Ravid Shwartz-Ziv, e pelo principal cientista de IA da Meta, Yann LeCun, a dupla discute o objetivo de usar o multi-view para enriquecer as redes neurais de aprendizado profundo, representando objetos de múltiplas perspectivas.

Maçã em reflexão — Objetos são fragmentados em sinais não relacionados nas redes neurais profundas de hoje em dia. A próxima onda de multimodalidade, empregando imagens mais sons, textos, nuvens de pontos, redes gráficas e muitos outros tipos de sinais, pode começar a criar um modelo mais rico da estrutura das coisas.

No altamente técnico e bastante teórico artigo, publicado no servidor de preprints arXiv em abril, Shwartz-Ziv e LeCun escrevem que “o sucesso da aprendizagem profunda em diversos domínios de aplicação tem levado a um crescente interesse em métodos de multivisão profunda, que têm mostrado resultados promissores.”

A multivisão está caminhando para um momento de destino, à medida que as redes neurais cada vez maiores de hoje – como o SeamlessM4T – assumem mais e mais modalidades, conhecidas como IA “multimodal”.

Também: Os melhores chatbots de IA de 2023: ChatGPT e alternativas

O futuro da chamada IA generativa, programas como o ChatGPT e o Stable Diffusion, combinará uma infinidade de modalidades em um único programa, incluindo não apenas texto, imagens e vídeo, mas também nuvens de pontos, grafos de conhecimento, até mesmo dados de bioinformática e muitas outras visões de uma cena ou de um objeto.

As muitas modalidades diferentes oferecem potencialmente milhares de “visões” das coisas, visões que podem conter informações mútuas, o que pode ser uma abordagem muito rica para entender o mundo. Mas também apresenta desafios.

A chave para a multivisão em redes neurais profundas é um conceito que Shwartz-Ziv e outros têm teorizado conhecido como um “gargalo de informação”. O gargalo de informação se torna problemático à medida que o número de modalidades aumenta.

Maçãs através de uma garrafa — O gargalo de informação é um conceito-chave na aprendizagem de máquina. Nas camadas ocultas de uma rede profunda, pensa-se que a entrada da rede é reduzida às coisas mais essenciais para produzir uma reconstrução da entrada, uma forma de compressão e descompressão.

Em um gargalo de informação, múltiplas entradas são combinadas em uma “representação” que extrai os detalhes relevantes compartilhados pelas entradas como diferentes visões do mesmo objeto. Em uma segunda etapa, essa representação é então reduzida a uma forma comprimida que contém apenas os elementos essenciais da entrada necessários para prever uma saída que corresponda a esse objeto. Esse processo de acumular informações mútuas e depois remover ou compactar tudo, exceto o essencial, é o gargalo de informação.

O desafio para a multivisão em redes multimodais grandes é saber quais informações de todas as diferentes visões são essenciais para as muitas tarefas que uma rede neural gigante executará com todas essas diferentes modalidades.

Também: Você pode construir seu próprio chatbot de IA com essa ferramenta de arrastar e soltar

Como exemplo simples, uma rede neural realizando uma tarefa baseada em texto, como o ChatGPT, produzindo frases de texto, pode falhar quando também precisa, por exemplo, produzir imagens, se os detalhes relevantes para a última tarefa tiverem sido descartados durante a etapa de compressão.

Como escrevem Shwartz-Ziv e LeCun, “[S]eparar informações em componentes relevantes e irrelevantes se torna desafiador, muitas vezes levando a um desempenho subótimo.”

Ainda não há uma resposta clara para esse problema, declaram os estudiosos. Será necessário mais pesquisa; em particular, redefinir a multivisão de algo que inclui apenas duas visões diferentes de um objeto para possivelmente várias visões.

“Para garantir a otimalidade desse objetivo, devemos expandir a suposição de multivisão para incluir mais de duas visões”, escrevem eles. Em particular, a abordagem tradicional de multivisão assume “que informações relevantes são compartilhadas entre todas as diferentes visões e tarefas, o que pode ser excessivamente restritivo”, acrescentam. Pode ser que as visões compartilhem apenas algumas informações em alguns contextos.

Também: Assim a IA generativa mudará a economia no estilo freelancer para melhor

“Como resultado”, concluem eles, “definir e analisar uma versão mais refinada dessa solução ingênua é essencial.”

Sem dúvida, o aumento da multimodalidade impulsionará a ciência da multivisão a desenvolver novas soluções. A explosão da multimodalidade na prática levará a novos avanços teóricos para a IA.

A onda de visão múltipla da IA está chegando, e será poderosa.

A onda de visão múltipla da IA está chegando e será poderosa

Esta é a melhor régua de energia que já use...

O Google pagará uma taxa anual de €3,2 milh...

X de Elon Musk está sendo investigado por s...

Replicas de voz de IA estão saindo de contr...

A Maldição da Economia do Criador

Os novos anúncios disfarçados da X podem se...

News