IA e Você Prefeito de Nova York não sabe falar realmente mandarim, a trilha do dinheiro de IA, quem define as regras

Inteligência Artificial e o Senhor Prefeito de Nova York a verdade sobre o seu domínio do mandarim, a trilha do dinheiro da IA e quem estabelece as regras

Uma pergunta que frequentemente faço às pessoas em entrevistas é qual tecnologia elas gostariam de ver inventada. Pedidos populares incluem transportadores, para ir de um lugar para outro em um piscar de olhos; clones, para que possam efetivamente estar em dois lugares ao mesmo tempo; e um robô/inteligência com IA que possa fazer tarefas domésticas, como Rosey dos Jetsons, mas também servir como assistente digital para gerenciar horários e responder perguntas complexas, como Jarvis dos Vingadores.

Porém, quando alguém me pergunta qual tecnologia eu gostaria, eu sempre digo o tradutor universal, que permite entender e falar qualquer idioma.

Quando a IA se tornou algo importante no último ano e o ChatGTP foi disponibilizado em telefones celulares, o fã de Star Trek em mim recebeu de braços abertos essa iteração do tradutor universal. Já traduzi e-mails para outros idiomas (incluindo Klingon e Sindarin Elfico) para amigos e tive textos traduzidos para mim do grego. Agora, com a tecnologia de voz da IA, você pode ter qualquer coisa não apenas traduzida em texto, mas falada, com sua própria voz, em outros idiomas. Bem legal, né?

É claro que a chave para fazer algo assim é a transparência – informando ao destinatário que as palavras são suas, mas a voz que fala não é sua, para que você não os engane pensando que você aprendeu outro idioma. E é aí que as coisas parecem ter dado errado para o prefeito de Nova York, Eric Adams, na semana passada.

Adams e sua equipe de tecnologia enviaram mensagens pelo sistema de robocalls da cidade em vários idiomas usando uma ferramenta de tradução de voz com IA da ElevenLabs. Ele diz que foi em parte para cumprir uma lei de Nova York que exige que “a maioria das agências públicas tenha um ‘coordenador de acesso a idiomas’ e forneça ‘interpretação telefônica’ em cerca de 100 idiomas. Também exige que documentos importantes e serviços diretos sejam traduzidos em 10 idiomas: árabe, urdu, francês, polonês, espanhol, chinês, russo, bengali, haitiano-crioulo e coreano”, de acordo com o serviço de notícias The City.

Adams alcançou mais de “4 milhões de nova-iorquinos através de robocalls e enviou milhares de chamadas em espanhol, mais de 250 em ídiche, mais de 160 em mandarim, 89 chamadas em cantonês e 23 em haitiano-crioulo”, afirmou um porta-voz do prefeito aos repórteres.

“As pessoas me param na rua o tempo todo e dizem: ‘Eu não sabia que você falava mandarim, você sabe?'” disse Adams, segundo a Associated Press. “Estamos usando o robocall para falar diretamente com a diversidade dos nova-iorquinos.”

O problema: ele não revelou que estava usando IA para parecer um falante nativo desses idiomas. E isso provocou a revolta de alguns especialistas em ética. “O prefeito está fazendo deepfakes de si mesmo”, Albert Fox Cahn, diretor executivo do grupo de vigilância Surveillance Technology Oversight Project, disse à AP. “Isso é profundamente antiético, especialmente às custas dos contribuintes. Usar IA para convencer os nova-iorquinos de que ele fala idiomas que não fala é pura Orweliano. Sim, precisamos de anúncios em todos os idiomas nativos dos nova-iorquinos, mas os deepfakes são apenas um projeto vaidoso e assustador.”

Por sua parte, Adams ignorou as questões éticas e disse aos repórteres que está apenas tentando se comunicar com seus diversos constituintes. “Eu tenho uma coisa: tenho que administrar a cidade e tenho que ser capaz de falar com as pessoas nos idiomas que elas entendem, e estou feliz em fazer isso”, disse ele, de acordo com a AP. “Então, a todos, só posso dizer um ‘ni hao’.”

E tudo o que vou dizer a Adams é “ghoHlaHchugh Hutlh NY ghotvam’e’ Hoch tlhInganpu’ je jatlhlaHbe’chugh QaQ yIn ‘e’ chaw'”. Isso é Klingon para “Divulgue para os residentes de NY que você está se comunicando com eles, graças à tecnologia de tradução de voz com IA.” 

Aqui estão outras novidades em IA que valem sua atenção.

A Meta diz que a regulamentação vai frear a inovação. Além disso, a IA ainda não é tão inteligente quanto o seu gato

Yann LeCun, o cientista-chefe de IA da Meta, alertou contra os esforços para regular a IA, afirmando que tais leis seriam “contraproducentes”, pois apenas “serviriam para reforçar o domínio das grandes empresas de tecnologia e sufocar a concorrência”, informou o The Financial Times esta semana. LeCun argumenta que os grandes fabricantes de IA – incluindo empresas como OpenAI, Google e Microsoft – “desejam capturar a regulamentação sob o disfarce de segurança da IA”.

Em vez disso, LeCun acredita que empresas – como a Meta, que tornou seu LLaMA, um modelo de IA generativa de linguagem ampla, de código aberto – seriam incapazes de competir com os grandes players de tecnologia, que têm uma vantagem significativa no mercado. Ele disse ao FT que “argumentos semelhantes sobre a necessidade de controlar uma tecnologia em rápida evolução … foram feitos no início da internet, mas essa tecnologia só floresceu porque permaneceu uma plataforma aberta e descentralizada”.

LeCun reconheceu que alguns esforços regulatórios são motivados por medos de que a IA possa minar a humanidade. Mas ele chamou essas preocupações de “preposterous” e afirmou que os sistemas de IA atuais ainda não são tão inteligentes quanto um gato. Embora as máquinas sejam mais inteligentes que os humanos em algumas áreas no futuro, LeCun acredita que isso é aceitável porque a tecnologia ajudará as pessoas a resolver problemas complexos.

“A questão é: isso é assustador ou emocionante?” LeCun disse ao FT. “Eu acho que é emocionante porque essas máquinas farão nossos pedidos. Elas estarão sob nosso controle”.

Nós esperamos.

Incentivando pessoas comuns a definir regras para o funcionamento de chatbots de IA

Apesar dos avisos de LeCun, reguladores nos EUA e ao redor do mundo estão debatendo a melhor maneira de regular a IA generativa. Enquanto isso, a Anthropic, desenvolvedora do Claude, está tentando algo diferente: solicitando a ajuda de pessoas comuns para escrever regras para seu chatbot de IA.

Seu experimento de governança de IA, conhecido como AI Constitucional Coletiva, expande o trabalho anterior da empresa sediada em San Francisco para criar um “modo de treinar modelos de linguagem ampla que depende de um conjunto escrito de princípios”, informou o The New York Times. “É destinado a fornecer instruções claras para o chatbot sobre como lidar com solicitações sensíveis, quais tópicos estão fora dos limites e como agir de acordo com os valores humanos”.

Houve muitas críticas aos líderes de IA que decidiram lançar sua tecnologia – o ChatGPT da OpenAI fez sua estreia pública em novembro de 2022 – sem antes considerar as implicações de dar acesso a ferramentas tão poderosas a milhões de pessoas. E o Times nos lembra que até agora, um pequeno grupo de líderes empresariais desenvolvendo motores de IA são os únicos decidores de como seus LLMs funcionam “com base em alguma combinação de suas éticas pessoais, incentivos comerciais e pressão externa. Não há verificações desse poder, e os usuários comuns não têm como interferir”.

De acordo com o resumo do AI Constitucional Coletiva postado em 17 de outubro, a Anthropic disse que solicitou a um grupo demograficamente diverso de 1.000 americanos para “redigir uma constituição para um sistema de IA”. A constituição atual que governa o Claude foi curada pelos funcionários da Anthropic e baseada em fontes externas, incluindo a Declaração Universal dos Direitos Humanos das Nações Unidas, acrescentou a empresa.

Você pode ler a constituição preliminar e as descobertas da Anthropic sobre um processo “imperfeito” que, segundo eles, ainda está em andamento. Embora haja uma sobreposição de 50% em conceitos e valores entre a constituição pública e a escrita pela Anthropic, a empresa observou que existem diferenças importantes.

“Os princípios da constituição pública parecem ser em grande parte auto-gerados e não provenientes de publicações existentes; eles se concentram mais na objetividade e imparcialidade; eles enfatizam mais a acessibilidade e, de forma geral, tendem a promover comportamentos desejados em vez de evitar comportamentos indesejados”.

No final do dia, a Anthropic diz “estamos tentando encontrar uma maneira de desenvolver uma constituição que seja desenvolvida por um monte de terceiros, em vez de pessoas que trabalham em um laboratório em San Francisco”, disse Jack Clark, chefe de políticas da Anthropic, ao Times.

Siga o dinheiro – ele leva à IA

Empresas ao redor do mundo devem gastar US $16 bilhões em tecnologia de IA generativa em 2023, com a empresa de pesquisa de mercado IDC prevendo que esse número chegará a US $143 bilhões em apenas quatro anos.

“A IA generativa é mais do que uma tendência passageira ou mera hype. É uma tecnologia transformadora com implicações e impacto comercial de longo alcance”, disse Ritu Jyoti, vice-presidente de grupo da IDC para pesquisa mundial de inteligência artificial e automação. “Com implementação ética e responsável, a GenAI está pronta para remodelar indústrias, mudando a forma como trabalhamos, brincamos e interagimos com o mundo.”

Enquanto isso, Activate Consulting ofereceu três pontos de dados interessantes sobre IA em sua análise de 204 páginas sobre o estado da tecnologia e da mídia. O relatório está disponível aqui em formato PDF.

A empresa descobriu que 13 milhões de pessoas agora iniciam suas pesquisas na web em um serviço de IA. Em quatro anos, a Activate prevê que esse número subirá para 90 milhões. Isso ecoa previsões de outros de que os motores de busca precisam evoluir, o que explica por que o Google e a Microsoft estão investindo pesadamente na atualização de seus produtos de busca respectivos.

Quando se trata de como as pessoas estão usando a IA, a Activate disse que 30% dos consumidores estão usando ferramentas de IA para escrever, 25% a estão usando para criação de conteúdo, 22% dos usuários estão recorrendo à IA para autoajuda e 20% agora estão usando a IA como seus assistentes pessoais.

E quando se trata do interesse de capital de risco em empresas de IA, a Activate viu um aumento de 181% nos investimentos em IA em relação ao ano anterior, em comparação com uma queda de 42% nos dólares de VC investidos em todos os outros segmentos.

O Dall-E 3 da OpenAI pode criar imagens fantasiosas como esta.

Stephen Shankland/CNET

O Dall-E 3 produz imagens mais coloridas

A OpenAI lançou sua tecnologia de imagem de IA Dall-E 3 para clientes pagantes esta semana, com o novo modelo de IA projetado para entender melhor o significado de suas instruções de texto antes de convertê-las em imagens. Ele também tem como objetivo produzir imagens mais detalhadas e evitar a área legalmente complexa de imitar os estilos de artistas vivos, escreve Stephen Shankland da ENBLE.

“Nos meus testes, descobri que o Dall-E 3 é um grande avanço em relação ao Dall-E 2 de 2022. As imagens eram mais vívidas, detalhadas e frequentemente divertidas”, disse Shankland. “Eles eram mais convincentes, com menos casos de esquisitices distrativas. A nova tecnologia de amplificação de instruções pode tornar as imagens mais impressionantes, mas também pode ir longe demais se você não quiser aumentar o volume até 11”, acrescentou.

“Estamos esperando que o modelo seja capaz de entender a linguagem natural de maneira mais profunda”, disse Gabriel Goh, um dos pesquisadores da OpenAI que ajudaram a construir o Dall-E 3. Shankland explica que a ideia é “interpretar melhor frases e descrições, por exemplo, entendendo que você quer um bigode em um homem em uma cena e cabelo vermelho em uma mulher. Também é útil: seguindo uma interface mais conversacional do ChatGPT, você pode solicitar refinamentos adicionais, como ‘agora adicione um fundo psicodélico verde-claro’, e o Dall-E 3 atualizará sua saída anterior”.

Com o Dall-E 3, o sistema de geração de imagens está incorporado diretamente no popular chatbot de IA, ChatGPT, da OpenAI. O Dall-E está disponível para consumidores por US $20 por mês.

Um clipe de voz de 10 segundos pode detectar diabetes tipo 2

Em um novo estudo realizado pelo Klick Labs, publicado pelo Mayo Clinic, pesquisadores utilizaram gravações de voz de smartphones para criar um modelo de IA que tem como objetivo ajudar a identificar pessoas que possam estar em risco de desenvolver diabetes tipo 2.

O Klick Labs pediu a 267 pessoas que gravassem uma frase de seis a dez segundos em seus smartphones seis vezes ao dia durante duas semanas. Utilizando esses dados de voz, juntamente com dados básicos de saúde de cada pessoa, como idade, altura e peso, os cientistas analisaram as 18.000 gravações e identificaram “14 características acústicas que diferenciam indivíduos não diabéticos de indivíduos com diabetes tipo 2”.

Os pesquisadores também observaram que essas diferenças vocais “se manifestam de diferentes maneiras em homens e mulheres”, com o modelo de IA apresentando uma taxa de precisão de 89% para mulheres e 86% para homens.

Por que isso é importante? O Klick Labs aponta que quase metade, ou 240 milhões de adultos que vivem com diabetes em todo o mundo, nem sabem que têm a doença e que quase 90% dos casos de diabetes são do tipo 2. “Os métodos atuais de detecção podem exigir muito tempo, deslocamentos e custos”, disse Jaycee Kaufman, primeiro autor do artigo e cientista de pesquisa no Klick Labs. “A tecnologia de voz tem o potencial de eliminar essas barreiras completamente”.

Decifrando pergaminhos antigos

Ao combinar novas tecnologias de IA com a tecnologia usada em tomografias computadorizadas, o cientista da computação da Universidade do Kentucky, chamado Brent Seales, permitiu que estudiosos decifrassem uma palavra em um pergaminho de quase 2.000 anos que estava muito frágil para desenrolar.

O pergaminho de Herculano revelou “um punhado de letras e uma única palavra: porphyras, o antigo grego para ‘roxo'”, relatou o The New York Times. O pergaminho faz parte de um conjunto de cerca de 800 descobertos em 1752 por trabalhadores que escavavam uma vila próxima a Pompeia, que foi enterrada em lama vulcânica após a erupção do Monte Vesúvio em 79 d.C.

“Ao contrário de muitas tintas antigas que continham metais, a tinta usada pelos escribas de Herculano era feita de carvão e água, e é quase indistinguível do papiro carbonizado em que repousa”, disse o Times, descrevendo os pergaminhos como se parecendo com pedaços de carvão. “Através de constantes aperfeiçoamentos na técnica do Dr. Seales, o mais recente sendo o uso de IA para ajudar a distinguir tinta de papiro, os pergaminhos têm pelo menos começado a revelar algumas letras”.

Se você acha isso legal, você pode encontrar mais informações sobre as descobertas dos especialistas no Desafio Vesúvio aqui.

Palavra da semana em IA: Alinhamento

Dada a discussão em torno do estabelecimento de regras para IA, a palavra da semana aborda a necessidade de ajustar um modelo de IA, processo conhecido como “alinhamento”. Essa definição para alinhamento é cortesia do glossário da CNBC sobre como falar sobre IA como um expert.

“Alinhamento: A prática de ajustar um modelo de IA para que ele produza as saídas desejadas por seus criadores. No curto prazo, alinhamento refere-se à prática de construir software e moderação de conteúdo. Mas também pode se referir à tarefa ainda maior e teórica de garantir que qualquer inteligência artificial geral (AGI) seja amigável para a humanidade.

Exemplo: “A que esses sistemas estão alinhados – quais valores, quais são os limites – isso é de alguma forma estabelecido pela sociedade como um todo, pelos governos. E, portanto, criar esse conjunto de dados, nosso conjunto de dados de alinhamento, pode ser, uma constituição de IA, o que quer que seja, isso tem que vir de maneira muito ampla da sociedade”, disse o CEO da OpenAI, Sam Altman, durante uma audiência do Senado.

Observação dos editores: A ENBLE está usando um motor de IA para ajudar a criar algumas histórias. Para mais informações, veja este post.