Essas pistas sugerem a verdadeira natureza do misterioso Projeto Q* da OpenAI

Essas pistas apontam para a real natureza do misterioso Projeto Q* da OpenAI

Na semana passada, depois que o ex-CEO Sam Altman foi reinstalado na OpenAI após um breve período de destituição, dois relatórios afirmaram que um projeto ultra-secreto na empresa havia deixado alguns pesquisadores abalados com seu potencial para resolver problemas intratáveis de uma maneira poderosa e inovadora.

“Com vastos recursos de computação, o novo modelo conseguiu resolver certos problemas matemáticos”, relatou a Reuters, citando uma única fonte não identificada. “Embora faça apenas operações matemáticas no nível de estudantes do ensino fundamental, a capacidade de passar em tais testes deixou os pesquisadores muito otimistas em relação ao sucesso futuro de Q*”, afirmou a reportagem da Reuters. O The Information disse que Q* era considerado uma inovação que levaria a “modelos de inteligência artificial muito mais poderosos”, e acrescentou que “a velocidade de desenvolvimento preocupava alguns pesquisadores focados na segurança da IA”, citando uma única fonte não identificada.

Inscreva-se hoje

Boletim informativo Fast Forward da ENBLEWill Knight

A Reuters também informou que alguns pesquisadores enviaram uma carta expressando preocupações sobre o potencial poder de Q* ao conselho sem fins lucrativos que havia destituído Altman, embora uma fonte da ENBLE familiarizada com o pensamento do conselho tenha afirmado que isso não era verdade. E talvez, em parte graças ao seu nome evocativo de teorias conspiratórias, a especulação sobre Q* aumentou durante o feriado de Ação de Graças, criando uma reputação temível para um projeto sobre o qual sabemos quase nada. O próprio Altman pareceu confirmar a existência do projeto quando questionado sobre Q* em uma entrevista à ENBLE ontem, dizendo “Não farei comentários específicos sobre esse vazamento infeliz”.

O que poderia ser Q*? Ao combinar uma leitura atenta dos relatórios iniciais com a consideração dos problemas mais quentes da IA atualmente, sugere-se que possa estar relacionado a um projeto que a OpenAI anunciou em maio, afirmando resultados inovadores a partir de uma técnica chamada “supervisão de processos”.

O projeto envolveu Ilya Sutskever, cientista-chefe e co-fundador da OpenAI, que ajudou a destituir Altman, mas posteriormente voltou atrás – segundo The Information, ele liderou o trabalho em Q*. O trabalho de maio estava focado em reduzir os erros lógicos cometidos por grandes modelos de linguagem (LLMs). A supervisão de processos, que envolve treinar um modelo de IA para decompor as etapas necessárias para resolver um problema, pode melhorar as chances de um algoritmo obter a resposta correta. O projeto mostrou como isso poderia ajudar os LLMs, que frequentemente cometem erros simples em questões matemáticas elementares, a enfrentar tais problemas de forma mais eficaz.

Andrew Ng, um professor da Universidade Stanford que liderou laboratórios de IA tanto no Google quanto no Baidu e que apresentou muitas pessoas ao aprendizado de máquina por meio de suas aulas na Coursera, afirma que melhorar os grandes modelos de linguagem é o próximo passo lógico para torná-los mais úteis. “Os LLMs não são tão bons em matemática, mas os humanos também não são”, diz Ng. “No entanto, se você me der papel e caneta, sou muito melhor em multiplicação, e acho que não é tão difícil ajustar um LLM com memória para ser capaz de seguir o algoritmo de multiplicação”.

Há outras pistas sobre o que Q* poderia ser. O nome pode ser alusão ao Q-learning, uma forma de aprendizado por reforço que envolve um algoritmo aprendendo a resolver um problema por meio de feedback positivo ou negativo, e que vem sendo usado para criar bots de jogos e aprimorar o ChatGPT para ser mais útil. Alguns sugeriram que o nome também pode estar relacionado ao algoritmo de busca A*, amplamente usado para que um programa encontre o caminho ótimo para um objetivo.

A informação lança mais uma pista no meio: “A descoberta de Sutskever permitiu que a OpenAI superasse as limitações de obter dados de alta qualidade suficientes para treinar novos modelos”, diz a matéria. “A pesquisa envolveu o uso de dados gerados por computador, em vez de dados do mundo real, como texto ou imagens retiradas da internet, para treinar novos modelos”. Isso parece ser uma referência à ideia de treinar algoritmos com dados de treinamento sintéticos, conhecidos como dados sintéticos, que surgiram como uma maneira de treinar modelos de IA mais poderosos.

Subbarao Kambhampati, professor da Universidade do Estado do Arizona que está pesquisando as limitações de raciocínio de LLMs, acredita que Q* pode envolver o uso de grandes quantidades de dados sintéticos, combinados com aprendizado por reforço, para treinar LLMs para tarefas específicas, como aritmética simples. Kambhampati observa que não há garantia de que a abordagem generalize para algo que possa descobrir como resolver qualquer problema matemático possível.

Para mais especulações sobre o que Q* poderia ser, leia este post de um cientista de aprendizado de máquina que reúne o contexto e as pistas de maneira impressionante e lógica. A versão TLDR é que Q* poderia ser um esforço para usar aprendizado por reforço e algumas outras técnicas para melhorar a capacidade de um modelo de linguagem grande de resolver tarefas, raciocinando por etapas ao longo do caminho. Embora isso possa fazer com que o ChatGPT seja melhor em quebra-cabeças matemáticos, não está claro se isso automaticamente sugere que os sistemas de IA possam escapar do controle humano.

Que a OpenAI tentaria usar o aprendizado por reforço para melhorar os LLMs parece plausível, pois muitos dos primeiros projetos da empresa, como robôs que jogam videogame, eram centrados na técnica. O aprendizado por reforço também foi fundamental para a criação do ChatGPT, pois pode ser usado para fazer com que os LLMs produzam respostas mais coerentes, solicitando aos humanos que forneçam feedback enquanto conversam com um chatbot. Quando ENBLE conversou com Demis Hassabis, CEO do Google DeepMind, no início deste ano, ele deu a entender que a empresa estava tentando combinar ideias do aprendizado por reforço com avanços observados em modelos de linguagem grandes.

Reunindo as pistas disponíveis sobre Q*, dificilmente parece ser uma razão para entrar em pânico. Mas, então, tudo depende do seu valor pessoal de P(doom) – a probabilidade que você atribui à possibilidade de a IA destruir a humanidade. Muito antes do ChatGPT, cientistas e líderes da OpenAI ficaram inicialmente tão assustados com o desenvolvimento do GPT-2, um gerador de texto de 2019 que agora parece ridiculamente insignificante, que disseram que não poderiam lançá-lo publicamente. Agora a empresa oferece acesso gratuito a sistemas muito mais poderosos.

A OpenAI se recusou a comentar sobre Q*. Talvez tenhamos mais detalhes quando a empresa decidir que é hora de compartilhar mais resultados de seus esforços para fazer com que o ChatGPT não seja apenas bom em conversar, mas também em raciocinar.