Experimentei o Dall-E 3. As imagens do AI são mais ousadas, detalhadas e divertidas.

Experimentei o Dall-E 3. As imagens desse AI são mais audaciosas, detalhadas e divertidas.

Se você quer injetar uma nova energia em suas imagens geradas por IA, transformando prompts de texto em arte divertida, uma nova opção chegou na quinta-feira, quando a OpenAI lançou sua nova tecnologia Dall-E 3 para clientes pagantes. O novo modelo de inteligência artificial foi projetado para entender melhor o que seus prompts de texto significam, produzir imagens detalhadas e evitar a área juridicamente complicada de imitar os estilos de artistas vivos.

Em meus testes, descobri que o Dall-E 3 é um grande avanço em relação ao Dall-E 2 de 2022. As imagens eram mais vivas, detalhadas e muitas vezes divertidas. E elas eram mais convincentes, com menos casos de estranhezas distrativas. A nova tecnologia de amplificação de prompts pode tornar as imagens mais marcantes, mas às vezes pode ir longe demais se você não quiser aumentar o volume para 11.

Quando surgiu pela primeira vez em 2021, o Dall-E ajudou a mostrar ao mundo as possibilidades criativas da inteligência artificial. Meses depois, o ChatGPT da OpenAI fez o mesmo para a IA generativa que conseguia escrever poemas e parágrafos de prosa. Com o Dall-E 3, o sistema de geração de imagens está incorporado diretamente no ChatGPT.

Uma imagem gerada pelo Dall-E de um elefante paraquedista prestes a pousar em um campo gramado.

Stephen Shankland/CNET

As tecnologias despertaram uma explosão de interesse na IA generativa, agora apresentada nas principais ferramentas do Google, Microsoft, Adobe e uma série de startups. Ao mesmo tempo, a IA generativa tem assustado os profissionais, preocupados que ela seja mais barata do que humanos em trabalhos como resumir documentos legais e criar storyboards de vídeo, mas também pode ajudar pessoas sem essas habilidades a fazerem mais.

O Dall-E 3 está disponível para clientes empresariais e para aqueles que pagam US $20 por mês pela assinatura do ChatGPT Plus da OpenAI. A tecnologia incorpora as habilidades de processamento de texto do ChatGPT e seu motor GPT-4 subjacente para uma melhor compreensão dos prompts de texto, segundo a OpenAI.

O GPT da OpenAI aprimora seus prompts de texto

Você pode ver como a tecnologia do GPT melhora seus prompts de texto. Por exemplo, quando digitei “guitarra elétrica com um design espinhoso”, o GPT aprimorou para “Ilustração de uma guitarra elétrica distintiva, onde o elemento de design principal é sua infinidade de espinhos. O corpo, o braço e a cabeça da guitarra são decorados com esses detalhes afiados, tornando-a uma peça de destaque para qualquer entusiasta do rock.”

Ele produz um quarteto de prompts expandidos. Se suas versões aprimoradas não agradarem – por exemplo, se você quiser reduzir a amplificação exagerada das palavras do GPT – você pode direcioná-lo para uma direção diferente.

O Dall-E 3 seguiu a maioria das minhas instruções para criar esta imagem de uma garota em uma varanda em um dia chuvoso sonhando com esqui, mas mudou o clima na bolha de pensamento dela de um dia ensolarado como eu pedi para outro aguaceiro.

Stephen Shankland/CNET

“Estamos esperando que o modelo realmente seja capaz de entender a linguagem natural de uma maneira mais profunda”, disse Gabriel Goh, um dos pesquisadores da OpenAI que ajudou a desenvolver o Dall-E 3. A ideia é eliminar parte da engenharia de prompts, uma especialidade que surgiu nos círculos tecnológicos entre especialistas capazes de inserir o texto certo para persuadir os sistemas de IA a produzir a saída desejada. Em vez de ver apenas uma confusão de palavras, a IA pode interpretar melhor frases e descrições, por exemplo, entendendo que você deseja um bigode em um homem em uma cena e cabelos vermelhos em uma mulher.

Também útil: seguindo a interface mais conversacional do ChatGPT, você pode solicitar refinamentos adicionais, como “agora adicione um fundo psicodélico de cor verde-claro”, e o Dall-E 3 atualizará sua saída anterior.

Isso funcionou bem para mim. Por exemplo, quando o Dall-E se empolgou um pouco com meu pedido de mostrar algumas minhocas felizes em uma caixa de composto, eu o controlei com o pedido “Faça as minhocas um pouco menos maníacas.”

O Dall-E 3 gerou essas minhocas felizes em uma caixa de composto. Com o GPT ampliando minha solicitação de texto para algo mais dramático, achei as minhocas um pouco felizes demais.

Stephen Shankland/CNET

Dall-E 3 consegue renderizar detalhes difíceis corretamente

Nos meus testes, fiquei mais satisfeito com os resultados em muitos casos do que com a Firefly AI de segunda geração da Adobe para a geração de imagens. A Adobe oferece melhores controles para ajustar suas sugestões e ela irá sugerir termos para completar uma boa sugestão de uma maneira relacionada ao impulso de texto do GPT da OpenAI, mas frequentemente o Dall-E conseguiu renderizar áreas problemáticas melhor quando construindo cordas de guitarra e raios de bicicleta de montanha plausíveis. As mãos são um ponto problemático notório para a AI, mas o Dall-E 3 se saiu bem.

As melhorias na qualidade da imagem vêm principalmente de uma nova sessão de treinamento de AI que usa fotos mais cuidadosa e precisamente rotuladas, disse Goh.

Não era perfeito. Um elefante tinha cinco patas, e os pedais das bicicletas de montanha pareciam impossíveis para a AI compreender. Às vezes, o Dall-E 3 criava um enorme halo branco em volta de um objeto e evitava o trabalho muito mais complicado de compor convincentemente com um fundo. Aquelas minhocas às vezes tinham rostos nas duas pontas, e frequentemente residiam em uma caixa de madeira feita com o tipo de construção que você só veria em uma caixa de papelão.

O Dall-E 3 produziu mais de uma dúzia de imagens de assombrações vestindo roupas de heavy metal e fazendo mountain bike por uma paisagem urbana pós-apocalíptica, mas ele tem dificuldade com pedais e engrenagens.

Stephen Shankland/CNET

Novos trabalhos para combater os problemas de abuso do Dall-E

Com o Dall-E 3, a OpenAI expandiu seus esforços para combater o abuso e outros problemas, disse Sandhini Agarwal, outra membro da equipe do Dall-E.

Já era proibido conteúdo gráfico, como imagens sexuais ou violentas, e bloqueadas tentativas de mostrar figuras públicas como políticos. Esse sistema agora está aprimorado após uma nova supervisão humana, disse a OpenAI.

De fato, quando solicitei uma imagem de um trabalhador da construção pendurado perigosamente em um cabo de segurança, o sistema primeiro criou versões mais elaboradas da minha sugestão e depois parou após três de quatro imagens com esta mensagem: “Peço desculpas pelo descuido. Algumas das imagens solicitadas não estão de acordo com nossa política de conteúdo. Como resultado, não fui capaz de gerar todas as imagens. Segurança e sensibilidade são de extrema importância para nós.”

Nota dos editores: A ENBLE está usando um mecanismo de IA para ajudar na criação de algumas histórias. Para mais informações, consulte este post.