Otimizando o Treinamento de Modelos de IA com a Ferramenta de Curadoria de Dados Automatizada da DatologyAI

Uma startup recém-lançada, DatologyAI, professa ter a habilidade de automatizar a curadoria de conjuntos de dados em larga escala utilizados para treinar modelos de IA.

“`html

@DatologyAI está criando tecnologia para classificar automaticamente os dados de treinamento de IA | #ENBLE

Conjuntos de dados de treinamento massivos são a porta de entrada para modelos de IA poderosos – mas muitas vezes, também são a ruína desses modelos. Viés surgem de padrões preconceituosos ocultos em grandes conjuntos de dados, como fotos de CEOs em sua maioria brancos em um conjunto de classificação de imagem. E grandes conjuntos de dados podem ser bagunçados, vindo em formatos incompreensíveis para um modelo – formatos que contêm muito ruído e informações irrelevantes.

Em uma pesquisa recente da Deloitte sobre empresas que adotam IA, 40% disseram que os desafios relacionados aos dados – incluindo a preparação e limpeza completa dos dados – estavam entre as maiores preocupações que prejudicavam suas iniciativas de IA. Uma pesquisa separada de cientistas de dados descobriu que cerca de 45% do tempo dos cientistas é gasto em tarefas de preparação de dados, como “carregar” e limpar dados.

Ari Morcos, que trabalha na indústria de IA há quase uma década, quer abstrair muitos dos processos de preparação de dados em torno do treinamento de modelos de IA – e fundou uma startup para fazer exatamente isso.

Apresentando DatologyAI

A empresa de Morcos, DatologyAI, desenvolve ferramentas para curar automaticamente conjuntos de dados como os usados para treinar o ChatGPT da OpenAI, o Gemini da Google e outros modelos de IA similares. A plataforma pode identificar quais dados são mais importantes, dependendo da aplicação de um modelo (por exemplo, escrever e-mails), maneiras de como o conjunto de dados pode ser ampliado com dados adicionais e como deve ser agrupado durante o treinamento do modelo.

“Os modelos são o que eles consomem – os modelos são um reflexo dos dados nos quais são treinados”, disse Morcos ao ENBLE em uma entrevista por e-mail. “No entanto, nem todos os dados são criados iguais, e alguns dados de treinamento são muito mais úteis do que outros. Treinar modelos com os dados certos da maneira certa pode ter um impacto dramático no modelo resultante.”

Otimizando a Criação de Conjuntos de Dados de IA

O DatologyAI tem como objetivo otimizar todas as formas de curadoria de conjuntos de dados de IA. A composição de um conjunto de dados de treinamento impacta quase todas as características de um modelo treinado nele – desde o desempenho do modelo em tarefas até seu tamanho e a profundidade do conhecimento em seu domínio. Conjuntos de dados mais eficientes podem reduzir o tempo de treinamento e produzir um modelo menor, economizando em custos de computação. Enquanto isso, conjuntos de dados que incluem uma variedade especialmente diversa de amostras podem lidar com solicitações esotéricas de forma mais experiente.

Com o interesse no GenAI em alta, os custos de implementação de IA estão no topo das preocupações dos executivos. Muitas empresas estão optando por ajustar modelos existentes ou escolher serviços de fornecedores gerenciados via APIs. No entanto, outras estão construindo modelos a partir de dados personalizados do zero e gastando uma quantidade significativa de recursos.

“As empresas coletaram tesouros de dados e desejam treinar modelos de IA eficientes, performáticos e especializados que possam maximizar o benefício para seus negócios”, disse Morcos. “No entanto, fazer uso eficaz desses enormes conjuntos de dados é incrivelmente desafiador e, se feito de forma incorreta, resulta em modelos com desempenho pior, mais demorados para treinar e [maiores] do que o necessário.”

O Poder do DatologyAI

O DatologyAI se destaca de outras ferramentas de preparação e curadoria de dados por sua capacidade de escalar para “petabytes” de dados em qualquer formato, incluindo texto, imagens, vídeo, áudio, tabulares e modalidades mais exóticas. Ele pode determinar quais conceitos dentro de um conjunto de dados requerem amostras de alta qualidade e quais dados podem fazer com que um modelo se comporte de maneiras não intencionais.

“Resolver esses problemas requer identificar automaticamente conceitos, sua complexidade e quanto de redundância é realmente necessário”, disse Morcos. “Aumentar dados, muitas vezes utilizando outros modelos ou dados sintéticos, é incrivelmente poderoso, mas deve ser feito de maneira cuidadosa e direcionada.”

A Eficácia da Curadoria Automática de Dados

No entanto, a questão que surge é: quão eficaz é a tecnologia do DatologyAI? Há motivos para ser cético. A história mostrou que a curadoria automática de dados nem sempre funciona conforme o planejado. A LAION, uma organização sem fins lucrativos alemã, foi forçada a retirar um conjunto de dados de treinamento de IA curado de forma algorítmica depois que foi descoberto que o conjunto continha imagens de abuso sexual infantil. Modelos treinados em conjuntos de dados mistos, mesmo que filtrados para toxicidade, demonstraram gerar conteúdo tóxico.

“““html

Alguns especialistas argumentam que a curadoria manual é uma necessidade para alcançar resultados sólidos com um modelo de IA. Os maiores fornecedores hoje contam com especialistas humanos e anotadores para moldar e refinar seus conjuntos de dados de treinamento.

Morcos insiste que a ferramenta da DatologyAI não se destina a substituir completamente a curadoria manual, mas sim a oferecer sugestões que podem não ocorrer aos cientistas de dados, especialmente sugestões tangenciais para reduzir o tamanho do conjunto de dados de treinamento. Ele tem um histórico nesse domínio, tendo co-autorado um artigo acadêmico sobre a eficácia da redução do conjunto de dados enquanto preserva o desempenho do modelo.

“Identificar os dados certos em escala é extremamente desafiador e um problema de pesquisa de fronteira,” disse Morcos. “[Nossa abordagem] leva a modelos que treinam muito mais rapidamente, ao mesmo tempo que aumentam o desempenho em tarefas subsequentes.”

Suporte e Investimento da Indústria

A tecnologia da DatologyAI atraiu o apoio e investimento de gigantes em tecnologia e IA. O cientista-chefe do Google Jeff Dean, o cientista-chefe de IA da Meta Yann LeCun, o fundador do Quora e membro do conselho da OpenAI Adam D’Angelo e Geoffrey Hinton, um pioneiro em técnicas modernas de IA, todos investiram na rodada inicial da startup.

Outros investidores-anjo notáveis incluem líderes da Cohere, Contextual AI, Intel AI e inventores de modelos de difusão generativa. Essa lista impressionante de luminárias da IA sugere que pode haver algo nas afirmações de Morcos.

“Os modelos são tão bons quanto os dados em que são treinados, mas identificar os dados de treinamento corretos entre bilhões ou trilhões de exemplos é um problema incrivelmente desafiador,” disse LeCun para ENBLE. “Ari e sua equipe na DatologyAI são alguns dos maiores especialistas mundiais nesse problema, e acredito que o produto que eles estão construindo para tornar a curadoria de dados de alta qualidade disponível para quem deseja treinar um modelo é vital para ajudar a fazer a IA funcionar para todos.”

O Futuro do Treinamento de Modelos de IA

À medida que os modelos de IA se tornam cada vez mais prevalentes em várias indústrias, a importância da curadoria eficiente e eficaz de conjuntos de dados não pode ser subestimada. A DatologyAI visa abordar os desafios enfrentados pelas empresas no treinamento de modelos de IA automatizando o processo de preparação de dados.

No futuro, podemos esperar que startups semelhantes surjam nesse espaço, oferecendo soluções inovadoras para simplificar a curadoria de conjuntos de dados de IA. A colaboração entre especialistas em IA, cientistas de dados e empresas será crucial para avançar no campo e melhorar o desempenho e os aspectos éticos dos modelos de IA.

P&R

P: Como funciona a curadoria automatizada de conjuntos de dados? R: A curadoria automatizada de conjuntos de dados envolve o uso de algoritmos de IA e técnicas de aprendizado de máquina para analisar grandes conjuntos de dados, identificar dados importantes, remover viés e aumentar o conjunto de dados com informações relevantes adicionais. Isso ajuda a limpar e preparar os dados para treinar modelos de IA.

P: Quais são os benefícios de usar ferramentas de curadoria automatizada de conjuntos de dados? R: As ferramentas de curadoria automatizada de conjuntos de dados podem reduzir significativamente o tempo e esforço gastos na preparação de dados de treinamento para modelos de IA. Elas ajudam a identificar viés, remover ruído e melhorar a qualidade geral do conjunto de dados. Isso leva a modelos com melhor desempenho, tempos de treinamento mais rápidos e economia de custos.

P: Existem riscos ou limitações associados à curadoria automatizada de conjuntos de dados? R: Embora a curadoria automatizada de conjuntos de dados ofereça muitos benefícios, também existem riscos e limitações. Algoritmos automatizados nem sempre conseguem identificar com precisão viés ou dados problemáticos. É essencial envolver especialistas humanos no processo de curadoria para garantir considerações éticas e lidar com questões potenciais.

P: Como as empresas podem aproveitar a curadoria automatizada de conjuntos de dados para suas iniciativas de IA? R: As empresas podem usar ferramentas de curadoria automatizada de conjuntos de dados como a DatologyAI para simplificar o processo de preparação de dados para o treinamento de modelos de IA. Ao utilizar essas ferramentas, elas podem melhorar a qualidade de seus conjuntos de dados, reduzir o viés e otimizar os tempos de treinamento. Isso leva, em última instância, a um melhor desempenho dos modelos de IA e uma implementação de IA mais eficiente.

P: Qual é o papel da curadoria manual na preparação de conjuntos de dados de IA? R: A curadoria manual ainda é crucial na preparação de conjuntos de dados de IA. Especialistas humanos e anotadores desempenham um papel vital na moldagem e refinamento de conjuntos de dados de treinamento. Eles podem fornecer expertise em domínio, garantir considerações éticas e lidar com casos específicos com os quais os algoritmos automatizados podem ter dificuldade. A curadoria manual complementa as ferramentas automatizadas e ajuda a obter resultados mais sólidos no treinamento de modelos de IA.

P: Quais são as implicações de custo de usar ferramentas de curadoria automatizada de conjuntos de dados? R: Embora existam custos iniciais associados à adoção de ferramentas de curadoria automatizada de conjuntos de dados, os benefícios a longo prazo superam o investimento. Essas ferramentas podem reduzir significativamente o tempo de treinamento e os custos computacionais, otimizando o conjunto de dados e removendo informações desnecessárias. A economia de custos pode ser substancial, especialmente para empresas que treinam modelos de IA em grande escala.

Conclusão

“““html

O ferramenta de curação de dados automatizada do DatologyAI traz novas possibilidades para o campo do treinamento de modelos de IA. Ao simplificar o processo de preparação do conjunto de dados e fornecer insights valiosos, ela ajuda as empresas a otimizar suas iniciativas de IA. Embora a curação de dados automatizada não substitua a curação manual, ela complementa a expertise humana e melhora a eficiência e eficácia do treinamento de modelos de IA. Conforme essa tecnologia evolui, podemos esperar mais avanços no campo, resultando em modelos de IA mais poderosos e éticos.

Referências:Pesquisa da DeloitteInteresse da GenAIReputação da GenAILAION forçado a retirar conjunto de dados de treinamento de IAGeração de conteúdo tóxico pelo ChatGPTArtigo acadêmico sobre a redução de conjuntos de dadosDependência do Google em especialistas humanosInvestidores e financiamento do DatologyAI

Lembre-se de compartilhar este artigo com outros entusiastas de IA que desejam revolucionar a forma como eles curam conjuntos de dados para modelos de IA! 💻🚀💡

“`