Google revela novas maneiras de ensinar robôs usando vídeos e modelos de linguagem expansivos. #ENBLE

Artigo do blog do Google de hoje destaca a pesquisa em andamento visando aprimorar a compreensão robótica.

2024 está se configurando como um ano monumental para a interseção entre IA generativa e robótica. Há uma empolgação em torno das potenciais aplicações dessa fusão, que vão desde aprendizado até design de produtos. Uma equipe em particular, os pesquisadores de robótica do DeepMind da Google, estão mergulhando nesse espaço e exibindo pesquisas em andamento em uma postagem recente no blog. Eles estão focados em capacitar os robôs a terem uma melhor compreensão de nossos desejos como seres humanos.

Tradicionalmente, os robôs foram programados para realizar tarefas repetitivas ao longo de sua vida útil. Embora eles se destaquem nessas funções específicas, eles enfrentam dificuldades quando confrontados com mudanças ou erros não intencionais. Surge o AutoRT, um novo projeto anunciado pelo DeepMind que visa utilizar grandes modelos fundamentais para diversos fins. O sistema combina um Modelo de Linguagem Visual (VLM) com uma frota de robôs equipados com câmeras para obter uma visão abrangente de seu entorno e dos objetos nele presentes.

Em paralelo, um modelo de linguagem substancial (LLM) sugere tarefas que os robôs podem realizar usando seu hardware, incluindo seus efetores finais. Os LLMs são vistos como a chave para desbloquear robôs capazes de entender comandos de linguagem natural, reduzindo a necessidade de habilidades extensas de codificação rígida. O sistema AutoRT já passou por extensos testes nos últimos meses, orquestrando até 20 robôs simultaneamente e um total de 52 dispositivos distintos. O DeepMind registrou impressionantes 77.000 tentativas, abrangendo mais de 6.000 tarefas.

Além disso, a equipe apresentou o RT-Trajectory, que utiliza vídeos como meio de aprendizado robótico. Muitos grupos de pesquisa exploraram o uso de vídeos do YouTube para treinar robôs em uma escala ampla, mas o RT-Trajectory traz uma reviravolta única. Ele sobrepõe um esboço bidimensional do braço do robô em ação ao vídeo, fornecendo indicações visuais práticas para aprimorar a compreensão do modelo.

O DeepMind revela que seu treinamento com o RT-Trajectory alcançou o dobro da taxa de sucesso do treinamento anterior, com uma taxa de sucesso de 63%, comparada a apenas 29% em 41 tarefas. A equipe comenta sobre a subutilização das informações ricas de movimentação robótica presentes em conjuntos de dados existentes. O RT-Trajectory não apenas representa mais um passo em direção à construção de robôs capazes de movimentos eficientes e precisos em situações novas, mas também desbloqueia conhecimento desses conjuntos de dados.

💡 Análise de Especialistas: A integração de AI generativa e modelos fundamentais com a robótica possui um potencial inexplorado em várias indústrias. Com a capacidade de entender comandos de linguagem natural e se adaptar a ambientes em constante mudança, os robôs podem se tornar ativos inestimáveis em áreas como manufatura, saúde e até mesmo assistência pessoal. Ao aproveitar o poder de modelos visuais e conjuntos de dados extensos, os pesquisadores estão avançando significativamente na redução da lacuna entre a intenção humana e as ações robóticas.

🔍 Mais Insights: 1. Como a integração de grandes modelos fundamentais do AutoRT pode beneficiar outras indústrias além da robótica? 2. Quais são os desafios potenciais de depender de AI generativa para aprendizado e tomada de decisão em robótica? 3. Existem preocupações éticas a serem consideradas ao implantar robôs com capacidade de compreender e executar comandos de linguagem natural? 4. Como a melhoria na taxa de sucesso do RT-Trajectory em comparação com métodos anteriores impacta a viabilidade do uso de entrada de vídeo para treinamento robótico? 5. O conhecimento desbloqueado por meio do RT-Trajectory em conjuntos de dados existentes pode contribuir para outras áreas de pesquisa, como visão computacional ou inteligência artificial?

🔗 Recursos Relevantes: 1. Seja real: obtenha quatro novos recursos, um deles vai tornar a postagem mais real 2. AutoRT – Site oficial

Ao nos aproximarmos de 2024, a fusão de AI generativa e robótica está pronta para revolucionar como as máquinas interagem com o mundo. A pesquisa contínua do DeepMind oferece esperança para um futuro em que os robôs se integrem perfeitamente às nossas vidas cotidianas, entendendo nossas necessidades e realizando tarefas ao nosso lado com eficiência e flexibilidade surpreendentes.

👥 Participe da conversa: O que você pensa sobre a convergência entre AI generativa e robótica? Compartilhe suas opiniões e previsões nos comentários abaixo! Não se esqueça de clicar no botão de compartilhamento e espalhar a empolgação nas plataformas de mídia social. Vamos tornar 2024 o ano dos robôs movidos por AI!