Ele renunciou como líder da GenAI em protesto. Agora, ele quer criar sistemas mais justos para artistas.

Ele se demitiu como líder da GenAI em protesto. Agora, ele busca criar sistemas mais justos para artistas.

Ed Newton-Rex tinha atingido um ponto de ruptura. Como vice-presidente de áudio na Stability AI, o jovem de 36 anos estava na vanguarda de uma revolução na criatividade computacional. Mas havia uma crescente inquietação em relação à estratégia do movimento.

A Stability estava se tornando uma potência emergente em IA generativa. A startup sediada em Londres possui a Stability Diffusion, um dos geradores de imagem mais populares do mundo. Recentemente, expandiu-se para geradores de música com o lançamento do Stable Audio em setembro, uma ferramenta desenvolvida pelo próprio Newton-Rex. Mas esses dois sistemas estavam seguindo caminhos conflitantes.

O Stable Audio foi treinado com música licenciada. O modelo recebeu um conjunto de dados com mais de 800.000 arquivos da biblioteca de música stock AudioSparx. Quaisquer materiais protegidos por direitos autorais foram fornecidos com permissão.

O Stable Diffusion seguiu por um caminho diferente. O sistema foi treinado com bilhões de imagens coletadas da web sem o consentimento dos criadores. Muitas delas eram obras protegidas por direitos autorais. Todas foram utilizadas sem pagamento.

Essas imagens ensinaram bem o modelo. As criações do Diffusion impulsionaram a avaliação da Stability para US$ 1 bilhão em uma rodada de financiamento de US$ 101 milhões no ano passado. Mas o sistema estava enfrentando oposição de artistas, incluindo Newton-Rex.

O dilema ético da GenAI

Um pianista e compositor, além de um pioneiro da GenAI, Newton-Rex discordava da coleta não autorizada de dados.

“Eu sempre quis ter certeza de que essas ferramentas são construídas com o consentimento dos criadores por trás dos dados de treinamento”, disse ele à TNW em uma chamada de vídeo de sua casa no Vale do Silício.

A Stability estava longe de ser a única defensora desse método. Os geradores de imagem MidJourney e Dall-E aplicam a mesma abordagem, assim como o gerador de texto ChatGPT da OpenAI e o programador CoPilot. Artes visuais, trabalhos escritos, música e até código agora estão constantemente sendo recriados sem consentimento.

Em resposta, criadores e detentores de direitos autorais moveram numerosos processos judiciais. Eles estão irritados com o fato de que seu trabalho está sendo utilizado, adaptado e monetizado sem permissão ou remuneração. Além disso, estão preocupados com o sustento deles.

“Interessa à indústria de IA fazer as pessoas acreditarem que apenas os grandes players podem fazer isso.”

Os artistas dizem que a IA generativa está roubando seu trabalho. As empresas por trás dos sistemas discordam. Em uma recente declaração ao Escritório de Direitos Autorais dos EUA, a Stability argumentou que o treinamento era “uso justo” porque os resultados são “transformadores” e “socialmente benéficos”.

Consequentemente, a empresa afirmou que não houve violação de direitos autorais. A prática poderia, portanto, continuar sem permissão ou pagamento. Era uma afirmação comum na GenAI, mas uma que Newton-Rex contestava.

“Isso realmente mostrou onde a indústria como um todo está agora, e não é um lugar com o qual estou satisfeito”, diz ele.

A saída não significa que Newton-Rex abandonou a IA generativa. Pelo contrário, ele planeja continuar trabalhando nessa área, mas seguindo um modelo mais justo. Não é uma missão impossível, como podem pintar os gigantes da GenAI. Na verdade, já foi alcançado por uma variedade de empresas.

Existem alternativas disponíveis

Newton-Rex possui uma longa história em criatividade computacional. Depois de estudar música na Universidade de Cambridge, ele fundou a Jukedeck, uma pioneira em composição de IA. O aplicativo usava aprendizado de máquina para compor músicas originais sob demanda. Em 2019, foi adquirido pela Bytedance, dona do TikTok.

Posteriormente, Newton-Rex atuou como diretor de produto no TikTok e diretor de produto da Voicey, um aplicativo de colaboração musical que foi adquirido pelo Snap, antes de ingressar na Stability AI no ano passado. Ele recebeu a tarefa de liderar os esforços da startup na área de áudio.

“Eu queria construir um produto na geração de música que mostrasse o que pode ser feito com dados licenciados reais – onde você concorda com os detentores dos direitos”, ele diz.

Esse objetivo o colocou em conflito com muitos líderes do setor. O GenAI estava se tornando mais comum e as empresas estavam correndo para lançar novos sistemas o mais rápido possível. Extrair conteúdo da web era um atalho atraente.

Também foi demonstravelmente eficaz. Naquela época, ainda havia dúvidas de que os conjuntos de dados licenciados eram grandes o suficiente para treinar modelos de última geração. Também foram levantadas questões sobre a qualidade dos dados. Mas ambas essas suposições agora estão sendo refutadas.

“O que chamamos de dados de treinamento é realmente a saída criativa humana.

A Stable Audio forneceu uma fonte de contraevidência. O modelo subjacente do sistema foi treinado em música licenciada em parceria com os detentores dos direitos. As saídas resultantes receberam aplausos. No mês passado, a Time nomeou a Stable Audio como uma das melhores invenções de 2023.

“Por alguns meses, foi a última geração de música – e foi treinada com música que licenciamos”, diz Newton-Rex. “Para mim, isso mostrou que pode ser feito.”

Na verdade, há agora uma lista crescente de empresas mostrando que pode ser feito. Uma delas é a Adobe, que lançou recentemente um modelo de aprendizado de máquina generativo chamado Firefly. O sistema é treinado em imagens do Creative Commons, Wikimedia e Flickr Commons, além de 300 milhões de fotos e vídeos do Adobe Stock e domínio público.

Como esses dados são fornecidos com permissão, é seguro para uso comercial. A Adobe também enfatizou que os criadores cujo trabalho é usado terão direito a pagamentos.

Uma colagem de imagens geradas pelo Adobe Firefly
As imagens nesta colagem foram geradas pelo Adobe Firefly, que foi treinado em imagens licenciadas. Crédito: Adobe

Outro modelo alternativo vem da Getty Images. Em setembro, a empresa lançou o Generative AI by Getty Images, que é treinado exclusivamente na enorme biblioteca da plataforma. Craig Peters, CEO da empresa, disse que a ferramenta atende às “necessidades comerciais enquanto respeita a propriedade intelectual dos criadores”.

A Nvidia também desenvolveu o GenAI em parceria com detentores de direitos autorais. O serviço Picasso da gigante da tecnologia foi treinado em imagens licenciadas da Getty Images, Shutterstock e Adobe. A Nvidia disse que planeja pagar royalties.

Essas abordagens não funcionarão para todos. Como megaempresas com amplos recursos de conteúdo, as empresas por trás delas têm recursos que poucas empresas podem igualar. No entanto, as startups estão mostrando que também é possível licenciar com um orçamento.

GenAI para as pessoas

Bria AI forneceu um exemplo. A empresa desenvolveu um novo modelo de geração de imagens comerciais de código aberto de alta qualidade. Todo o treinamento é feito em conjuntos de dados licenciados, que foram criados em colaboração com importantes agências de fotos de banco de imagens e artistas. Um modelo de compartilhamento de receita fornece compensação para os criadores e detentores de direitos.

É uma abordagem semelhante à usada por Newton-Rex na Stable Audio – mas não é a única.

As empresas também podem oferecer pagamentos antecipados aos artistas, criar empreendimentos conjuntos que dão aos detentores dos direitos participação acionária no negócio ou usar conteúdo com uma licença Creative Commons, que pode ser livremente reutilizado sem permissão explícita. As empresas de GenAI podem ignorar esses esforços, mas têm motivos ocultos.

“É do interesse da indústria de IA fazer as pessoas pensarem que apenas os grandes jogadores podem fazer isso – mas não é verdade”, diz Newton-Rex.

“Você pode precisar ser um pouco inventivo. Certamente, você precisa fazer algumas negociações e estar disposto a gastar tempo. Mas, no final, o que chamamos de dados de treinamento – e o que é realmente a produção criativa humana – é um recurso para empresas de tecnologia. Eles precisam trabalhar para obtê-lo da mesma forma que precisam trabalhar para obter qualquer recurso”.

Se eles estiverem dispostos a fazer isso, o GenAI pode trabalhar em harmonia com os artistas humanos. E, esperançosamente, permitir que todos nós desfrutemos da criatividade desencadeada por ambos.