Ilya Sutskever da OpenAI tem um plano para manter a IA superinteligente sob controle

Ilya Sutskever, da OpenAI, propõe um plano para controlar a IA superinteligente

OpenAI foi fundada com a promessa de construir inteligência artificial que beneficia toda a humanidade, mesmo quando essa IA se torna consideravelmente mais inteligente do que seus criadores. Desde a estreia do ChatGPT no ano passado e durante a recente crise de governança da empresa, suas ambições comerciais têm se destacado mais. Agora, a empresa diz que um novo grupo de pesquisa, trabalhando com IA superinteligentes do futuro, está começando a dar resultados.

“A AGI está se aproximando rapidamente,” diz Leopold Aschenbrenner, pesquisador do OpenAI envolvido com a equipe de pesquisa de Superalinhamento estabelecida em julho. “Vamos ver modelos super-humanos, eles terão vastas capacidades e podem ser muito, muito perigosos, e ainda não temos os métodos para controlá-los.” A OpenAI anunciou que dedicará um quinto de sua capacidade de computação ao projeto de Superalinhamento.

Um artigo de pesquisa divulgado pela OpenAI hoje destaca resultados de experimentos projetados para testar um modo de permitir que um modelo de IA inferior guie o comportamento de um modelo muito mais inteligente sem torná-lo menos inteligente. Embora a tecnologia envolvida ainda esteja longe de superar a flexibilidade dos seres humanos, o cenário foi projetado para representar um futuro em que os humanos devem trabalhar com sistemas de IA mais inteligentes do que eles mesmos.

Os pesquisadores da OpenAI examinaram o processo, chamado supervisão, que é utilizado para ajustar sistemas como o GPT-4, o grande modelo de linguagem por trás do ChatGPT, para ser mais útil e menos prejudicial. Atualmente, isso envolve os seres humanos fornecendo feedback ao sistema de IA sobre quais respostas são boas e quais são ruins. Conforme a IA avança, os pesquisadores estão explorando como automatizar esse processo para economizar tempo, mas também porque acreditam que pode se tornar impossível para os seres humanos fornecerem feedback útil à medida que a IA se torna mais poderosa.

Em um experimento de controle usando o gerador de texto GPT-2 da OpenAI, lançado pela primeira vez em 2019, para treinar o GPT-4, o sistema mais recente se tornou menos capaz e semelhante ao sistema inferior. Os pesquisadores testaram duas ideias para corrigir isso. Um envolvia treinar modelos progressivamente maiores para reduzir o desempenho perdido a cada etapa. No outro, a equipe adicionou um ajuste algorítmico ao GPT-4 que permitia que o modelo mais forte seguisse a orientação do modelo mais fraco sem prejudicar tanto seu desempenho quanto normalmente ocorreria. Isso foi mais eficaz, embora os pesquisadores admitam que esses métodos não garantem que o modelo mais forte se comportará perfeitamente, e eles o descrevem como um ponto de partida para pesquisas futuras.

“É ótimo ver a OpenAI abordando proativamente o problema de controlar IA super-humanas,” diz Dan Hendryks, diretor do Centro de Segurança de IA, uma organização sem fins lucrativos em San Francisco dedicada a gerenciar riscos de IA. “Precisaremos de muitos anos de esforço dedicado para enfrentar esse desafio.”

Aschenbrenner e outros dois membros da equipe de Superinteligência que conversaram com a ENBLE, Collin Burns e Pavel Izmailov, dizem estar encorajados pelo que veem como um importante primeiro passo para domar IA super-humanas em potencial. “Mesmo que um aluno do sexto ano saiba menos matemática do que um estudante de matemática universitário, ele ainda pode transmitir o que deseja alcançar ao estudante universitário,” diz Izmailov. “É meio que isso que estamos tentando alcançar aqui.”

O grupo de Superalinhamento é co-liderado por Ilya Sutskever, cofundador e cientista-chefe da OpenAI e um dos membros do conselho que votou pela demissão do CEO Sam Altman antes de recuar ameaçando renunciar se ele não fosse reintegrado. Sutskever é coautor do artigo divulgado hoje, mas a OpenAI se recusou a disponibilizá-lo para discutir o projeto.

Depois que Altman retornou à OpenAI no mês passado, em um acordo que fez a maioria do conselho renunciar, o futuro de Sutskever na empresa parecia incerto.

“Somos muito gratos a Ilya,” diz Aschenbrenner. “Ele tem sido uma grande motivação e força motriz no projeto.”

Os pesquisadores da OpenAI não são os primeiros a tentar usar a tecnologia de IA de hoje para testar técnicas que podem ajudar a controlar os sistemas de IA do amanhã. Assim como trabalhos anteriores em laboratórios corporativos e acadêmicos, é impossível saber se ideias que funcionam em experimentos cuidadosamente projetados serão práticas no futuro. Os pesquisadores descrevem a capacidade de ter um modelo de IA mais fraco treinar um modelo mais forte que eles estão tentando aperfeiçoar como “um bloco fundamental para o problema mais amplo do superalinhamento.”

Experiências na chamada “alinhamento de IA” também levantam questões sobre quanto uma sistema de controle pode ser confiável. O cerne das novas técnicas da OpenAI depende do sistema de IA mais poderoso decidir por si só que orientações do sistema mais fraco podem ser ignoradas, uma decisão que pode fazer com que ele ignore informações que evitariam seu comportamento inseguro no futuro. Para que tal sistema seja útil, será necessário avançar na garantia do alinhamento. “Você precisará de um grau muito alto de confiança”, diz Burns, o terceiro membro da equipe da OpenAI.

Stuart Russell, professor da UC Berkeley que trabalha com segurança de IA, diz que a ideia de usar um modelo de IA menos poderoso para controlar um mais avançado existe há algum tempo. Ele também diz que não está claro se os métodos que atualmente existem para ensinar a IA a se comportar são o caminho a seguir, pois até agora eles não conseguiram fazer com que os modelos atuais se comportem de maneira confiável.

Embora a OpenAI esteja divulgando um primeiro passo em direção ao controle de IA mais avançada, a empresa também está ansiosa para buscar ajuda externa. A empresa anunciou hoje que oferecerá US$ 10 milhões em bolsas em parceria com Eric Schmidt, o influente investidor e ex-CEO do Google, para pesquisadores externos que apresentem mais avanços sobre temas como supervisão fraca a forte, interpretabilidade de modelos avançados e fortalecimento de modelos contra comandos projetados para quebrar suas restrições. A OpenAI também realizará uma conferência no próximo ano sobre superalinhamento, dizem os pesquisadores envolvidos no novo artigo.

Sutskever, cofundador da OpenAI e co-líder da equipe de Superalinhamento, liderou grande parte do trabalho técnico mais importante da empresa e é umas das figuras proeminentes em IA cada vez mais preocupadas com o controle da IA à medida que ela se torna mais poderosa. A questão de como controlar a tecnologia de IA no futuro ganhou nova atenção este ano, em grande parte graças ao ChatGPT. Sutskever estudou para seu doutorado sob a orientação de Geoffrey Hinton, pioneiro das redes neurais profundas, que deixou o Google em maio deste ano para alertar sobre a velocidade com a qual a IA agora parece estar atingindo níveis humanos em algumas tarefas.