O RT-2 da DeepMind torna o controle de robôs uma questão de conversa de IA

DeepMind's RT-2 makes robot control an AI conversation

A versão 2 do transformador de robótica da DeepMind é um grande modelo de linguagem que é treinado não apenas em imagens e texto, mas também em dados de coordenadas do movimento de um robô no espaço. Uma vez treinado, ele pode receber uma imagem e um comando e gerar tanto um plano de ação quanto as coordenadas necessárias para executar o comando.

Um elemento-chave do futuro da robótica será como os humanos podem instruir máquinas em tempo real. Mas que tipo de instrução é uma questão em aberto na robótica.

Novas pesquisas da unidade DeepMind do Google propõem que um grande modelo de linguagem, semelhante ao ChatGPT da OpenAI, quando fornecido uma associação entre palavras e imagens, e um pouco de dados gravados de um robô, cria uma maneira de digitar instruções para uma máquina tão simplesmente como se conversa com o ChatGPT.

Também: Os melhores chatbots de IA

O artigo da DeepMind, “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”, escrito por Anthony Brohan e colegas e publicado em um post no blog, introduz o RT-2, o que eles chamam de modelo “visão-linguagem-ação”. (Há também um repositório complementar no GitHub.) A sigla RT significa “transformador de robótica”.

O desafio é como obter um programa que consome imagens e texto para produzir como saída uma série de ações que sejam significativas para um robô. “Para permitir que os modelos de visão-linguagem controlem um robô, eles devem ser treinados para gerar ações”, como eles colocam.

O insight chave do trabalho é que “representamos as ações do robô como outra linguagem”, escrevem Brohan e equipe. Isso significa que as ações gravadas de um robô podem se tornar a fonte de novas ações da mesma forma que ser treinado em texto da internet faz com que o ChatGPT gere novo texto.

Também: Esse cão do exército faz parte de uma tecnologia de interface cérebro-máquina maior

As ações do robô são codificadas no transformador de robótica como coordenadas no espaço, conhecidas como graus de liberdade.

“O espaço de ação consiste em deslocamentos posicionais e rotacionais de 6 graus de liberdade do efetuador final do robô, bem como no nível de extensão do agarrador do robô e um comando discreto especial para encerrar o episódio, que deve ser acionado pela política para sinalizar a conclusão bem-sucedida.”

Os tokens são alimentados no programa durante o treinamento na mesma frase que os tokens de linguagem das palavras e os tokens de imagem das imagens. As coordenadas do robô se tornam apenas mais uma parte de uma frase.

As ações do robô são codificadas no transformador de robótica como coordenadas no espaço, conhecidas como graus de liberdade. Os tokens são alimentados no programa durante o treinamento na mesma frase que os tokens de linguagem das palavras e os tokens de imagem das imagens. As coordenadas do robô se tornam apenas mais uma parte de uma frase.

O uso de coordenadas é um marco significativo. Normalmente, a física dos robôs é especificada por meio de programação de baixo nível que é diferente das redes neurais de linguagem e imagem. Aqui, tudo está misturado.

O programa RT se baseia em dois esforços anteriores do Google, chamados PaLI-X e PaLM-E, ambos conhecidos como modelos de visão-linguagem. Como o nome sugere, os modelos de visão-linguagem são programas que misturam dados de texto com dados de imagens, de modo que o programa desenvolve a capacidade de relacionar os dois, como atribuir legendas a imagens ou responder a uma pergunta sobre o que há em uma imagem.

Também: O que é o Google Bard? Aqui está tudo o que você precisa saber

Enquanto o PaLI-X se concentra apenas em tarefas de imagem e texto, o PaLM-E, introduzido recentemente pelo Google, leva um passo adiante, usando a linguagem e a imagem para controlar um robô, gerando comandos como saída. O RT vai além do PaLM-E, gerando não apenas o plano de ação, mas também as coordenadas de movimento no espaço.

O RT-2 “é um avanço significativo”, disse Sergey Levine, professor associado no departamento de engenharia elétrica da Universidade da Califórnia em Berkeley, em correspondência por e-mail com ENBLE. “Essencialmente, o RT-2 pode ser considerado uma versão de ponta a ponta do que o PaLM-E + RT1 realizam, em um único modelo”, disse Levine, que trabalhou no projeto PaLM-E. “Isso torna a transferência de conhecimento em escala da internet para robôs mais direta e pode fornecer uma classe mais escalável de abordagens no futuro.”

No caso do RT-2, ele é um sucessor da versão do ano passado, RT-1. A diferença entre o RT-1 e o RT-2 é que o primeiro RT era baseado em um pequeno programa de linguagem e visão, o EfficientNet-B3. Mas o RT-2 é baseado no PaLI-X e no PaLM-E, chamados de modelos de linguagem grandes. Isso significa que eles têm muitos mais pesos neurais, ou parâmetros, o que tende a tornar os programas mais proficientes. O PaLI-X tem 5 bilhões de parâmetros em uma versão e 55 bilhões em outra. O PaLM-E tem 12 bilhões.

O treinamento do RT-2 incorpora combinações de imagem e texto, e ações extraídas de dados de robôs gravados.

Uma vez que o RT-2 tenha sido treinado, os autores executam uma série de testes, nos quais o robô precisa pegar coisas, movê-las, soltá-las, etc., digitando comandos em linguagem natural e uma imagem, no prompt, assim como pedir para o ChatGPT compor algo.

Também: 7 dicas avançadas de escrita de prompts do ChatGPT que você precisa saber

Por exemplo, quando apresentado com um prompt, onde a imagem mostra uma mesa com várias latas e uma barra de chocolate:

Dado  Instrução: Pegue o objeto que é diferente de todos os outros objetos

O robô vai gerar uma ação acompanhada de coordenadas para pegar a barra de chocolate:

Predição: Plano: pegue rxbar chocolate. Ação: 1 128 129 125 131 125 128 127

Os números de três dígitos são chaves para um livro de códigos de movimentos de coordenadas.

O RT-2, dado um prompt, vai gerar tanto um plano de ação quanto uma série de coordenadas em spacer para executar essas ações.

Um aspecto chave é que muitos elementos das tarefas podem ser objetos completamente novos, nunca antes vistos. “O RT-2 é capaz de generalizar para uma variedade de situações do mundo real que exigem raciocínio, compreensão de símbolos e reconhecimento humano”, eles relatam.

“Observamos várias capacidades emergentes”, como resultado. “O modelo é capaz de reutilizar habilidades de pegar e colocar aprendidas a partir de dados de robôs para colocar objetos próximos a locais semanticamente indicados, como números ou ícones específicos, apesar dessas dicas não estarem presentes nos dados do robô. O modelo também pode interpretar relações entre objetos para determinar qual objeto pegar e onde colocá-lo, apesar de nenhuma relação desse tipo ser fornecida nas demonstrações do robô.”

Também: 4 maneiras de detectar exageros em IA generativa em relação à realidade

Em testes contra o RT-1 e outros programas, o RT-2 usando o PaLI-X ou o PaLM-E é muito mais proficiente em completar tarefas, em média alcançando cerca de 60% das tarefas com objetos nunca antes vistos, em comparação com menos de 50% para os programas anteriores.

Também existem diferenças entre o PaLI-X, que não é desenvolvido especificamente para robôs, e o PaLM-E, que é. “Também observamos que, embora o modelo baseado no PaLI-X maior resulte em melhor entendimento de símbolos, raciocínio e desempenho de reconhecimento de pessoas em média, o modelo baseado no PaLM-E menor tem uma vantagem em tarefas que envolvem raciocínio matemático.” Os autores atribuem essa vantagem ao “diferente pré-treinamento usado no PaLM-E, que resulta em um modelo mais capaz de fazer cálculos matemáticos do que o PaLI-X, que foi treinado principalmente visualmente.”

Os autores concluem que o uso de programas de linguagem-visão-ação pode “colocar o campo de aprendizado de robôs em uma posição estratégica para melhorar ainda mais com avanços em outros campos”, para que a abordagem possa se beneficiar à medida que a linguagem e o processamento de imagens melhorarem.

Também: Relatório sobre o estado da TI: IA generativa em breve se tornará mainstream, dizem 9 em cada 10 líderes de TI

Porém, há uma ressalva, que volta à ideia de controle do robô em tempo real. Os modelos de linguagem grandes são muito intensivos em computação, o que se torna um problema para obter respostas.

“O custo computacional desses modelos é alto, e à medida que esses métodos são aplicados em ambientes que exigem controle de alta frequência, a inferência em tempo real pode se tornar um grande gargalo”, eles escrevem. “Uma direção empolgante para pesquisas futuras é explorar técnicas de quantização e destilação que possam permitir que esses modelos sejam executados em taxas mais altas ou em hardware de custo mais baixo.”