O sombrio mundo dos conjuntos de dados de treinamento de IA expostos

O obscuro universo dos conjuntos de dados de treinamento de IA revelados

Um novo estudo da Iniciativa de Proveniência de Dados revela práticas preocupantes na criação e compartilhamento de conjuntos de dados usados para treinar sistemas de inteligência artificial. Esses conjuntos de dados são cruciais para desenvolver capacidades avançadas de IA, mas muitos deles não creditam corretamente as fontes ou não possuem informações de licenciamento, levantando preocupações legais e éticas.

Segundo um relatório do The Washington Post de 25 de outubro, a pesquisa auditou mais de 1.800 conjuntos de dados populares de sites líderes de IA, como Hugging Face, GitHub e Papers With Code. Surpreendentemente, cerca de 70% não especificaram termos de licenciamento ou rotularam incorretamente as permissões em relação às intenções dos criadores. Isso deixa os desenvolvedores de IA no escuro em relação a possíveis limitações de direitos autorais ou requisitos ao usar esses conjuntos de dados – mais informações são necessárias.

“As pessoas não conseguem fazer a coisa certa, mesmo que queiram”, disse Sara Hooker, co-autora do relatório. O licenciamento obscuro demonstra problemas mais amplos no mundo acelerado do desenvolvimento de IA, onde os pesquisadores sentem pressão para pular etapas, como documentar fontes, enquanto se apressam para lançar novos conjuntos de dados.

Procedimentos incorretos têm consequências de longo alcance em relação aos termos de licenciamento e permissões dos criadores

As implicações são de longo alcance, pois esses conjuntos de dados alimentam sistemas avançados de IA, como chatbots e modelos de linguagem, incluindo o modelo Llama da Meta e os modelos GPT da OpenAI. Gigantes da tecnologia enfrentam processos judiciais por textos extraídos de livros e sites sem permissão. Críticos argumentam que as empresas de IA devem pagar fontes como o Reddit pelos seus dados, mas questões de licenciamento criam obstáculos.

Nos bastidores, os pesquisadores de IA “lavar” dados, obscurecendo suas origens, tentando eliminar restrições. Laboratórios líderes de IA proíbem supostamente o reuso das saídas de seus modelos para AIs concorrentes, mas permitem alguns usos não comerciais. No entanto, a documentação de licenciamento adequada está ausente.

O estudo teve como objetivo espiar esse ecossistema opaco que impulsiona a corrida do ouro da IA. As ferramentas interativas não determinam políticas, mas ajudam a informar desenvolvedores, advogados e formuladores de políticas. A análise revelou que a maioria dos dados vem da academia, com a Wikipedia e o Reddit sendo as principais fontes. No entanto, os dados que representam línguas do Hemisfério Sul ainda vêm principalmente de criadores e sites norte-americanos e europeus.

“A criação de conjuntos de dados geralmente é a parte menos glorificada do ciclo de pesquisa e merece atribuição porque requer muito trabalho”, disse Hooker. A pesquisa avança em direção a uma IA mais transparente e ética, destacando a necessidade de melhores práticas. Mas um trabalho profundo permanece para iluminar o lado obscuro dos dados que impulsionam a marcha implacável da IA no futuro.

Crédito da imagem em destaque: Foto de Shuki Harel; Pexels; Obrigado!