A OpenAI acaba de revelar o DALL-E 3, seu mais novo gerador de imagens

OpenAI reveals DALL-E 3, their latest image generator.

A OpenAI, empresa mãe do ChatGPT, apresentou pela primeira vez o DALL-E 3, seu mais recente modelo de geração de imagens. Lançado na quarta-feira em um pequeno evento para repórteres, o DALL-E 3 é apresentado como uma ferramenta que compreende plenamente prompts de texto complexos e produz imagens que correspondem a essa complexidade.

Como observa uma nova página de informações sobre o DALL-E 3 no site da OpenAI, “os sistemas modernos de texto para imagem têm a tendência de ignorar palavras ou descrições, obrigando os usuários a aprender engenharia de prompts. O DALL-E 3 representa um salto em frente na nossa capacidade de gerar imagens que se adequam exatamente ao texto fornecido.”

Possíveis imagens de uma versão em andamento do DALL-E 3 foram vazadas no Discord no início deste verão, e essas mostraram um enorme potencial nos moldes representados na prévia para a imprensa. O vazador afirmou ter alimentado o DALL-E 3 com o prompt extenso “pintura de um bobo da corte cor-de-rosa dando um toque de mão a um panda enquanto competem em uma corrida de ciclismo. As bicicletas são feitas de queijo e o chão está muito enlameado. Eles estão dirigindo em uma floresta nebulosa. O panda está zangado.” A imagem resultante foi surpreendentemente fiel a esse pedido.

Geradores de imagens como Midjourney e Stable Diffusion, embora capazes de imitar o fotorrealismo e produzir representações de uma ampla variedade de objetos, estilos e pessoas (com uma boa dose de controvérsia), sem dúvida terão dificuldade em produzir algo tão complexo.

Esses geradores de imagens, assim como as próprias ofertas anteriores da OpenAI nessa área, são famosos por deixar a desejar quando solicitados a produzir imagens com texto, geralmente resultando em absurdos confusos no melhor dos casos e hilariantes malapropismos no pior dos casos. O DALL-E 3 parece ser muito mais capaz de incorporar texto coerente em imagens, como demonstrado em um desenho animado postado no X pelo CEO da OpenAI, Sam Altman.

Esse tweet pode ter sido excluído

A OpenAI afirma que integrará o DALL-E 3 diretamente ao ChatGPT e sugere fortemente que o chatbot fará a transição de um modelo para outro, dependendo do conteúdo do prompt. O ChatGPT, antes apenas uma fonte amigável de saídas de texto do modelo GPT-3.5, está evoluindo rapidamente — incorporando plugins de terceiros com a capacidade de extrair texto de outras fontes, incluindo a web. Esse movimento diversifica ainda mais as capacidades do ChatGPT, ampliando a já esticada definição do termo “chatbot”.

Segundo Altman, o DALL-E 3 “será disponibilizado gradualmente a todos os usuários do ChatGPT+” nas próximas semanas. O site da OpenAI diz que todos os clientes do ChatGPT Plus e ChatGPT Enterprise poderão usá-lo “no início de outubro” e que a OpenAI não fará nenhuma reivindicação de direitos autorais sobre as saídas do modelo. No entanto, se você planeja gerar algo com o DALL-E 3 e depois registrá-lo com direitos autorais, isso é outra história complicada.