Referenciais de testes personalizados e abertura são cruciais à medida que os modelos de IA generativa evoluem.

Referenciais de testes personalizados e abertura são cruciais em IA generativa.

À medida que os modelos de inteligência artificial (IA) generativa continuam a evoluir, a colaboração da indústria e os benchmarks de teste personalizados serão cruciais nos esforços das organizações para encontrar o ajuste certo para seus negócios.

Esse esforço será necessário à medida que as empresas buscam grandes modelos de linguagem (LLMs) treinados em dados específicos de seus setores e à medida que os países procuram garantir que os modelos de IA sejam treinados em dados e princípios baseados em seus próprios valores únicos, de acordo com Ong Cheng Hui, vice-presidente executivo do grupo de negócios e tecnologia da Infocomm Media Development Authority (IMDA).

Também: 40% dos trabalhadores terão que se reciclar nos próximos três anos devido à IA, diz estudo da IBM

Ela questionou se um único modelo de base realmente é o caminho a seguir ou se há necessidade de modelos mais especializados, mencionando os esforços da Bloomberg para construir seu próprio modelo de IA generativa em grande escala, o BloombergGPT, que foi especificamente treinado em dados financeiros.

Desde que a expertise, os dados e os recursos computacionais “não estejam bloqueados”, a indústria pode continuar impulsionando os desenvolvimentos, disse Ong, que falou com a imprensa durante o Red Hat Summit desta semana.

O fornecedor de software é membro da AI Verify Foundation de Cingapura, que tem como objetivo aproveitar a comunidade de código aberto para desenvolver ferramentas de teste para orientar o uso responsável e ético da IA. Lançada em junho com outros seis membros principais, além da Red Hat, incluindo Google e Microsoft, a iniciativa é liderada pela IMDA e atualmente conta com mais de 60 membros em geral.

Também: Os melhores chatbots de IA atualmente

Cingapura tem a maior adoção de tecnologias e princípios de código aberto na região da Ásia-Pacífico, de acordo com Guna Chellappan, gerente geral de Cingapura da Red Hat. Citando resultados de uma pesquisa encomendada pelo fornecedor, Chellappan observou que 72% das organizações de Cingapura disseram ter feito “progresso alto ou muito alto” em sua adoção de código aberto.

O operador portuário PSA Singapore e o UOB estão entre os clientes locais da Red Hat, sendo que o primeiro utiliza aplicativos de código aberto para automatizar suas operações. O banco local UOB utiliza o Red Hat OpenShift para suportar seu desenvolvimento em nuvem.

Seguir o caminho do código aberto é fundamental porque a transparência é importante para transmitir a mensagem sobre a ética da IA, disse Ong, observando que seria irônico pedir ao público que confie nas ferramentas de teste da fundação se os detalhes sobre elas não estivessem disponíveis livremente.

Ela também se inspirou em outros campos, em particular, na cibersegurança, onde as ferramentas são frequentemente desenvolvidas em um ambiente de código aberto e onde a comunidade contribui continuamente com atualizações para melhorar esses aplicativos.

“Queremos que o AI Verify seja o mesmo”, disse ela, acrescentando que, se a fundação desenvolvesse as ferramentas em silos, não seria capaz de acompanhar os desenvolvimentos em constante mudança da indústria.

Também: Como essa simples alteração na solicitação do ChatGPT pode ajudar a aprimorar o conteúdo gerado pela IA

Essa colaboração aberta também ajudará a orientar os esforços em direção às melhores e mais eficazes soluções, observou ela. A indústria automotiva passou por um ciclo semelhante em que os cintos de segurança foram projetados, testados e redesenhados para determinar qual poderia proteger melhor os motoristas.

A mesma abordagem agora precisa acontecer com a IA generativa, onde os modelos e aplicativos devem ser continuamente testados e ajustados para garantir que possam ser implantados com segurança dentro das diretrizes da organização.

No entanto, as decisões de grandes players, como a OpenAI, de não divulgar detalhes técnicos por trás de seus LLMs estão preocupando algumas seções da indústria.

Um grupo de acadêmicos liderados por Emanuele La Malfa, da Universidade de Oxford, publicou no mês passado um artigo destacando questões que podem surgir pela falta de informações sobre grandes modelos de IA de linguagem em quatro áreas: acessibilidade, replicabilidade, confiabilidade e confiabilidade (AART).

Os acadêmicos observam que a “pressão comercial” levou os players do mercado a disponibilizar seus modelos de IA como serviço aos clientes, geralmente por meio de uma API. No entanto, informações sobre a arquitetura, implementação, dados de treinamento ou processos de treinamento dos modelos não são fornecidas nem disponibilizadas para inspeção.

Também: Como usar o ChatGPT para criar gráficos e tabelas

Essas restrições de acesso, juntamente com o fato de que LLMs são frequentemente caixas-pretas, vão contra a necessidade do público e da comunidade de pesquisa de entender, confiar e controlar melhor esses modelos, escreveu a equipe de La Malfa. “Isso causa um problema significativo no cerne do campo: os modelos mais potentes e arriscados são também os mais difíceis de analisar”, observaram eles. 

A OpenAI anteriormente defendeu sua decisão de não fornecer detalhes sobre sua iteração GPT-4, apontando para o cenário competitivo e as implicações de segurança de divulgar informações sobre modelos em grande escala, incluindo sua arquitetura, método de treinamento e construção do conjunto de dados.

Perguntado sobre como as organizações devem adotar a IA generativa, Ong disse que surgirão dois grupos na camada do modelo básico, sendo que um deles é composto por alguns modelos de IA em linguagem proprietária, incluindo o ChatGPT-4 da OpenAI, e o outro grupo opta por construir seus modelos em uma arquitetura de código aberto, como o Llama-v2 da Meta. 

Ela sugeriu que as empresas que se preocupam com a transparência podem escolher as alternativas de código aberto. 

São necessários benchmarks de teste personalizados

Ao mesmo tempo, no entanto, as empresas cada vez mais construirão em cima da camada básica para implantar aplicativos de IA generativa que atendem melhor a seus requisitos específicos de domínio, como educação e serviços financeiros.

Também: Um em cada quatro trabalhadores teme ser considerado ‘preguiçoso’ se usar ferramentas de IA

Essa camada de aplicação também precisará ter diretrizes e, portanto, um certo nível de transparência e confiança precisará ser estabelecido aqui, disse Ong. 

Aqui é onde a AI Verify, com suas ferramentas de teste, espera ajudar as empresas a seguirem na direção certa. Com organizações operando em diferentes mercados, regiões e setores, sua preocupação principal não será se um modelo de IA é de código aberto, mas se suas aplicações de IA generativa cumprem seus princípios éticos e de segurança da IA, explicou ela. 

Ong observou que muitas empresas, assim como governos, estão atualmente testando e avaliando ferramentas de IA generativa, tanto para casos de uso voltados para o consumidor quanto para casos de uso não voltados para o consumidor. Muitas vezes, eles começam com os últimos para minimizar riscos potenciais e impacto nos clientes, e expandem seus pilotos de teste para incluir aplicações voltadas para o consumidor quando atingem um certo nível de conforto.

Organizações em setores altamente regulamentados, como serviços financeiros, terão ainda mais cautela com aplicações voltadas para o consumidor, acrescentou ela. 

Países e sociedades também têm valores e culturas diferentes. Os governos querem garantir que os modelos de IA sejam construídos com dados de treinamento e princípios baseados na mistura única de sua população. 

Também: Por que a IA generativa é tão popular: Tudo o que você precisa saber

A demografia de Singapura, por exemplo, é multirracial, multirreligiosa e multilíngue. A harmonia racial é única em sua sociedade, assim como as estruturas e políticas locais, como seu esquema nacional de segurança social, disse Ong.

Observando que os LLMs amplamente utilizados hoje não se saem uniformemente bem quando testados em questões culturais, ela questionou se essa deficiência sugeria a necessidade de Singapura construir seu próprio LLM e, em caso afirmativo, se ela possui dados suficientes – como um país com uma pequena população – para treinar o modelo de IA. 

Com jogadores de mercado em outras regiões, especificamente na China, também lançando seus próprios LLMs treinados em dados locais, a ENBLE perguntou se haveria uma maneira de fundir ou integrar modelos básicos de diferentes regiões, para que se adaptem melhor à mistura populacional de Singapura. 

Ong acredita que pode haver uma possibilidade de diferentes LLMs aprenderem uns com os outros, o que é uma aplicação potencial que pode ser explorada no campo de pesquisa. Os esforços aqui terão que garantir a privacidade dos dados e a proteção de dados sensíveis, disse ela. 

Singapura está atualmente avaliando a viabilidade dessas opções, incluindo o potencial de construir seu próprio LLM, de acordo com Ong.

Também: O boom da IA amplificará os problemas sociais se não agirmos agora, diz ético da IA

Os requisitos para modelos especializados de IA generativa impulsionarão ainda mais a importância de ferramentas e benchmarks personalizados com os quais os modelos de IA são testados e avaliados, disse ela. 

Esses benchmarks serão necessários para testar aplicações de IA generativa, incluindo ferramentas de terceiros e específicas para setores, em conformidade com os princípios de IA de uma organização ou país e para garantir que sua implantação permaneça responsável e ética.