A OpenAI busca melhorar a IA com dados de treinamento mais abrangentes

A OpenAI está em busca de aprimorar a Inteligência Artificial com dados de treinamento mais amplos e abrangentes

A empresa de pesquisa em inteligência artificial OpenAI anunciou uma nova iniciativa esta semana com o objetivo de diversificar e expandir os dados usados para treinar modelos de IA chamada Parcerias de Dados. Através do programa, a OpenAI planeja colaborar com organizações de terceiros para criar conjuntos de dados públicos e privados para treinamento em IA.

Visando ser mais justa e precisa, a OpenAI quer apresentar melhores dados

De acordo com a OpenAI, o objetivo é criar modelos mais justos, precisos e benéficos, expondo-os a uma variedade maior de dados que reflitam melhor idiomas, culturas e assuntos diversificados. Conjuntos de dados de IA atuais tendem a ter problemas como ocidentalismo, falta de diversidade e inclusão de conteúdo tóxico ou tendencioso.

“Para, em última análise, fazer [IA] que seja segura e benéfica para toda a humanidade, gostaríamos que modelos de IA compreendessem profundamente todos os assuntos, indústrias, culturas e idiomas, o que requer um conjunto de dados de treinamento o mais amplo possível”, disse a OpenAI em um post de blog anunciando o programa.

Modelos e entendimento em várias plataformas podem ocorrer com treinamento

Ao trabalhar com parceiros para coletar conjuntos de dados em grande escala em modalidades como texto, imagens, áudio e vídeo, a OpenAI espera melhorar o entendimento do modelo além do que pode ser facilmente raspado da internet hoje em dia. A empresa afirma que trabalhará para remover qualquer informação sensível ou pessoal e oferecerá opções para manter os conjuntos de dados privados.

A OpenAI já firmou parcerias com organizações como o governo islandês, Free Law Project e Miðeind ehf em versões iniciais do programa. No entanto, alguns especialistas expressam ceticismo sobre se o esforço será bem-sucedido em minimizar os vieses arraigados que têm impactado modelos de IA até agora.

“No geral, estamos procurando parceiros que queiram nos ajudar a ensinar IA a entender nosso mundo para ser tão útil quanto possível para todos”, disse a OpenAI.

Diversificação dos dados de treinamento de IA para o aprimoramento do GPT-4

Embora a diversificação dos dados de treinamento de IA seja essencial, o programa também claramente beneficia modelos da OpenAI, como o GPT-4, comercialmente. Essa percepção de motivação dupla, junto com a falta de compensação da OpenAI para parceiros de dados, tem recebido críticas diante de acusações sobre o uso de dados pela empresa sem permissão.

Maior transparência em relação à coleta de conjuntos de dados da OpenAI, esforços de mitigação de vieses e interesses comerciais serão essenciais para avaliar o impacto das Parcerias de Dados no panorama geral de IA. Mas o programa sinaliza uma conscientização de que melhorar a IA futura requer começar com dados melhores e mais representativos.

Crédito da Imagem Destacada: Foto por Andrew Neel; Pexels; Obrigado!