DALL-E 3 pode levar a geração de imagens de IA para o próximo nível | ENBLE

DALL-E 3 leva a geração de imagens de IA para o próximo nível | ENBLE

OpenAI

O OpenAI pode estar preparando a próxima versão de seu gerador de texto para imagem AI DALL-E com uma série de testes alpha que vazaram para o público, de acordo com o Decoder.

Um vazador anônimo no Discord compartilhou detalhes sobre sua experiência, tendo acesso ao próximo modelo de imagem da OpenAI, referido como DALL-E 3. Ele apareceu pela primeira vez em maio, informando um canal do Discord baseado em interesses que ele fazia parte de um teste alpha para a OpenAI, experimentando um novo modelo de imagem AI. Ele compartilhou as imagens que gerou na época.

A versão de teste alpha de maio tinha a capacidade de gerar imagens com várias proporções de aspecto dentro do modelo de imagem. O YouTuber MattVidPro AI então mostrou várias das imagens que foram geradas em uma proporção de aspecto 16:9. Essa versão também mostrou a habilidade do modelo de produzir texto de alta qualidade, o que continua sendo um ponto fraco para modelos rivais, mesmo para os principais geradores como o Stable Diffusion e o Midjourney.

Alguns exemplos mostraram imagens, como texto fundido em uma parede de tijolos, um letreiro de neon com palavras, um painel de propaganda em uma cidade, uma decoração de bolo e um nome gravado em uma montanha. O modelo mantém que o DALL-E é bom em gerar pessoas. Uma dessas imagens mostrava uma mulher comendo espaguete em uma festa de um ponto de vista olho de peixe.

O vazador retornou ao canal do Discord em meados de julho com mais detalhes e novas imagens. Ele afirmou fazer parte de uma versão de teste “alpha fechada” que incluía aproximadamente 400 assuntos. Ele acrescentou que foi convidado para o teste por e-mail e também participou do teste do DALL-E original e do DALL-E 2. Isso levou à conclusão de que o teste alpha pode ser para o DALL-E 3, embora isso não tenha sido confirmado.

O modelo foi atualizado consideravelmente entre maio e julho. O vazador demonstrou isso compartilhando imagens geradas com base no mesmo estímulo, mostrando o quão poderoso o DALL-E 3 se tornou ao longo do tempo. O estímulo dizia “uma pintura de um bobo da corte rosa dando um high five para um panda enquanto competem de bicicleta. As bicicletas são feitas de queijo e o chão está muito lamacento. Eles estão dirigindo em uma floresta nebulosa. O panda está bravo”.

O teste alpha de maio produz a cena geral que atinge a maioria dos pontos do estímulo. Há uma pequena distorção nas mãos se conectando, e as rodas das bicicletas são amarelas em vez de serem feitas de queijo. No entanto, o teste alpha de julho é muito mais detalhado, com o bobo da corte rosa e o panda claramente dando high five e as rodas da bicicleta feitas de queijo em várias gerações.

Enquanto isso, no Midjourney, o bobo da corte está ausente da cena, os pandas estão em motocicletas em vez de bicicletas. Existem estradas em vez de lama. Os pandas estão felizes em vez de bravos.

Há uma série de exemplos de imagens do teste alpha de julho do DALL-E 3 que mostram o potencial do modelo. No entanto, com o teste alpha sendo não censurado, o vazador observou que também há potencial para gerar cenas de “violência e nudez ou material protegido por direitos autorais, como logotipos de empresas”.

Alguns exemplos incluem uma garota anime sangrenta, um personagem de Game of Thrones, uma capa do Grand Theft Auto V, um Jesus zumbi comendo um sanduíche do Subway, sugerindo também sangue leve, e Shrek sendo desenterrado de uma escavação arqueológica, entre outros.

O MattVidPro AI observou que o modelo de imagem gera imagens como se fossem de um estilo específico.

O DALL-E 2 foi lançado em abril de 2022, mas foi fortemente regulamentado com uma lista de espera devido à sua popularidade e preocupações com ética e segurança. O gerador de imagem AI se tornou acessível ao público em setembro de 2022.