Eureka A descoberta revolucionária da Nvidia usando o GPT-4 para treinar robôs

Eureka A revolucionária descoberta da Nvidia ao usar o GPT-4 para treinamento de robôs

A Nvidia revelou hoje o Eureka, um agente de Inteligência Artificial para treinar robôs que utiliza o poder do GPT-4 da OpenAI. Esse agente inovador promete mudar a forma como os robôs aprendem, capacitando-os a lidar com tarefas complexas com maior precisão e autonomia.

A abordagem única do Eureka envolve a geração autônoma de algoritmos de recompensa para instruir os robôs. Talvez um pouco assustador, mas mesmo assim impressionante, esse método permitiu que os robôs aprendessem uma variedade de tarefas, incluindo abrir armários e manipular tesouras, por exemplo. No total, os robôs foram treinados em quase 30 tarefas diferentes usando o Eureka, mostrando seu vasto potencial.

Este ano, a comunidade de IA viu o surgimento de agentes como o Auto-GPT e o BabyAGI. Agora, o Eureka avança essa tendência, e sua integração com o GPT-4 destaca a dedicação da Nvidia à pesquisa em IA.

GPT-4: O motor por trás do Eureka

Ao integrar aprendizado generativo e por reforço, o Eureka enfrenta desafios que têm assolado o setor de IA há muito tempo. Especificamente, o aprendizado por reforço tradicional muitas vezes lutava com o design das recompensas. Anima Anandkumar, diretora sênior de pesquisa em IA da Nvidia, destaca o avanço no design de recompensas, afirmando: “O Eureka é o primeiro passo para desenvolver novos algoritmos que integram métodos de aprendizado generativo e por reforço para resolver tarefas difíceis”.

Os programas de recompensa do Eureka, que facilitam a aprendizagem por tentativa e erro dos robôs, aparentemente superam em mais de 80% os programas escritos por humanos em tarefas diversas. Isso resultou em um aumento de desempenho de mais de 50% para os robôs, de acordo com a equipe da Nvidia. Esses resultados são devido ao agente de IA aproveitando o GPT-4 da OpenAI e a IA generativa para criar código de software, recompensando os robôs durante o aprendizado por reforço.

Utilizando a simulação acelerada por GPU no Isaac Gym da Nvidia, o Eureka pode avaliar eficientemente a qualidade de vários candidatos a recompensa, agilizando o treinamento. A IA continua sendo refinada, guiando vários robôs, desde mãos habilidosas até robôs bípedes, no domínio de tarefas diversas.

Falando sobre destreza, o cientista sênior de pesquisa da Nvidia, Linxi “Jim” Fan, destacou a combinação do GPT-4 com as tecnologias de simulação acelerada por GPU da Nvidia no Eureka. Fan afirmou: “Acreditamos que o Eureka permitirá o controle habilidoso de robôs e oferecerá uma nova forma de produzir animações fisicamente realistas para artistas”.

O artigo de pesquisa da equipe fornece informações adicionais sobre o Eureka, como seu uso de processos evolucionários para otimizar o código de recompensa.

A combinação da Nvidia de grandes modelos de linguagem com tecnologias de simulação acelerada por GPU no Eureka destaca a visão da empresa para o futuro da IA. Dependendo da perspectiva, com o Eureka treinando robôs para superar os humanos, as possibilidades podem ser infinitas ou talvez possam ser o fim.