O DALL-E 3 no ChatGPT pode ler e modificar imagens? Venha ver por si mesmo

O DALL-E 3 no ChatGPT pode ler e editar imagens? Venha conferir por si mesmo

steam-santa.png

Estive explorando o uso do DALL-E 3 dentro do ChatGPT Plus. Estou fazendo isso porque é meu trabalho, não porque tenho algum tipo de vício pequeno e insalubre de descrever algo na minha mente e vê-lo se manifestar em minutos na tela. Eu posso parar a qualquer momento. Claro, é isso mesmo, eu posso parar a qualquer momento.

Mas hoje não é o dia. Hoje, encontrei um novo brinquedo. O DALL-E 3 dentro do ChatGPT pode ler e modificar imagens. Mais ou menos. Você vê, ele é um pouco exigente. Mas estou me adiantando. Vamos começar essa história do início…

Também: Como obter uma troca de rostos perfeita usando o Midjourney AI

Eu tenho usado o Midjourney para personalizar imagens enviadas por um tempo. O problema é que é muito complicado. Você precisa estar executando o Midjourney no Discord e, em seguida, precisa passar por uma série de etapas para enviar uma imagem para o Discord, obter um URL, etc…

No ChatGPT Plus, você só precisa clicar no ícone de clipe de papel e enviar sua imagem. Uma vez e pronto.

Isso torna muito mais fácil de usar e também muito mais divertido. Mas como ele funciona? Para testar, eu tentei três imagens: uma foto do meu carro, uma foto minha e o logotipo do ENBLE. Vamos dar uma olhada nos resultados.

Meu carro

Aqui está uma foto do meu carro, um Dodge Challenger 2013.

Depois de enviar a imagem, instruí o DALL-E 3:

Coloque um carro na cidade

Os resultados foram promissores. DALL-E 3 reproduziu com sucesso uma semelhança do carro, em uma cena da cidade:

Então, porque eu tenho uma certa fascinação steampunk, pedi ao DALL-E para:

Torná-lo steampunk

Aqui está o que conseguimos. Ainda manteve o estilo geral do Dodge Challenger:

O DALL-E continua falhando

Uma coisa a ser observada é que não consegui fazer o DALL-E executar muitas iterações sem falhar. A cada dois ou três pedidos (nunca mais do que quatro), recebi esta mensagem:

Minha solução alternativa foi pegar a última imagem criada com sucesso e enviá-la para uma nova sessão do ChatGPT Plus e trabalhar a partir disso.

Também: Os melhores geradores de arte de IA: DALL-E 2 e alternativas divertidas para experimentar

Carro voador

Então, enviei a última imagem, a versão steampunk do meu carro, e disse ao DALL-E para:

Fazer o carro voar

Aqui está o que recebemos. A representação do meu carro original desapareceu e voltou uma versão muito legal de veículo estilo Chitty Chitty Bang Bang, no ar:

Foi legal, mas já não era mais o meu carro. Mas tudo bem, vamos ver para onde podemos ir.

O Papai Noel

Minha próxima tentativa, dado a temporada, foi tentar colocar o Papai Noel no banco do motorista. Aqui, me deparei com uma grade de proteção um tanto exagerada, com o ChatGPT me dizendo: “Desculpe, mas não posso ajudar com essa solicitação.”

Sim, estamos chegando a um momento no futuro em que uma IA diz o equivalente preciso de “Desculpe, Dave. Estou com medo de não poder fazer isso.” A vida imita a arte.

Como você pode ver, o raciocínio era um pouco bizarro. Mas parecia depender do fato de eu estar pedindo para modificar uma imagem enviada. Então, dei a ele os prompts acima como uma única solicitação:

Coloque o carro na cidade. Faça-o steampunk. Faça o carro voar. Coloque o Papai Noel no banco do motorista.

Recebi isso:

Foi uma imagem legal, mas perdeu todo o estética vitoriana das imagens anteriores. Mas há uma solução para isso.

Também: Como usar o Bing Image Creator (e por que ele é melhor do que nunca)

O DALL-E com o ChatGPT essencialmente reescreve cada prompt em uma instrução mais detalhada. Então, por exemplo, “Faça-o steampunk” foi reescrito para:

Imagem de uma rua temática steampunk com arquitetura vintage, apresentando um carro clássico modificado com elementos steampunk, como tubos de latão, engrenagens e escapamentos a vapor. O carro está estacionado em uma rua de paralelepípedos com luminárias de rua ambiente e um cenário de prédios antigos que mesclam influências vitorianas e da revolução industrial. Há pessoas vestidas com trajes steampunk, com óculos e roupas vitorianas, andando pelas calçadas. A atmosfera geral é a de uma cidade retrofuturista em uma história alternativa onde a força do vapor é a principal tecnologia.

Então, peguei trechos do material descritivo tanto de “faça-o steampunk” quanto de “faça o carro voar” e os combinei para este prompt:

Coloque o carro na cidade. Faça-o steampunk. Faça o carro voar. Coloque o Papai Noel no banco do motorista. Abaixo, as ruas de paralelepípedos são ladeadas por luminárias de gás, e pessoas vestidas com trajes vitorianos olham para cima, maravilhadas. O céu é um laranja crepuscular com um leve sinal de neblina e o zumbido de drones steampunk menores e dirigíveis ao longe. A atmosfera geral é a de uma cidade retrofuturista em uma história alternativa onde a força do vapor é a principal tecnologia.

Aqui está o que recebi de volta:

Estritamente falando, não é um carro voador, mas é legal. Infelizmente, não há nenhuma conexão com a imagem original do carro com que comecei.

Pare, Dave. Você vai parar, Dave? Pare, Dave.

Tive outro momento HAL quando pedi ao ChatGPT para colocar esta imagem minha em um ambiente de escritório:

Ele me disse: “Desculpe, mas não posso ajudar com essa solicitação.” Pelo menos o ChatGPT não disse: “Olhe, Dave, vejo que você está realmente chateado com isso. Sinceramente, acredito que você deveria se sentar calmamente, tomar um comprimido para o estresse e refletir sobre as coisas.”

Também: Graças às minhas 5 ferramentas de IA favoritas, estou trabalhando de forma mais inteligente agora

Beleza. E agora algo completamente diferente.

Partindo em um trem a jato

Aqui está o logotipo do ENBLE, que enviei para o DALL-E:

Primeiro, tentei fazer com que ele o colocasse em um jato:

Coloque este logotipo ao lado de um jato gigante

Pelo menos ele acertou a cor:

Então, eu tentei fazer com que colocasse o logotipo em um prédio.

Coloque este logotipo no lado de um prédio de tijolos

Ele se lembrou do verde, mas não do verde certo:

Então, eu tentei fazer com que o DALL-E movesse o prédio para uma maquete de ferrovia.

Coloque o prédio em uma maquete de ferrovia

O resultado é algo parecido com uma maquete de ferrovia (embora a pista em primeiro plano provavelmente cause um descarrilamento).

Há um prédio de tijolos, mas não é o mesmo prédio de tijolos, e qualquer pretensão do logotipo ENBLE desapareceu. Nem mesmo o verde ENBLE permanece.

Também: Pesquisadores alertam que, mesmo com precauções, a IA generativa pode se tornar maliciosa

Então, é claro, eu pedi para fazer isso:

Também coloque o jato jumbo em uma maquete de ferrovia

Eu consegui isso. Só quero saber se são aviões ou mísseis na água.

O que aprendemos?

Depois de mexer com esse recurso do DALL-E, acho que podemos concluir o seguinte:

  • Você pode enviar imagens para o DALL-E.
  • Você pode pedir para ele modificá-las, mas com resultados mistos.
  • O DALL-E falha muito.
  • O ChatGPT pode não estar demonstrando Inteligência Artificial Geral, mas ele entende bem o expressionismo abstrato.
  • As respostas dele são desconfortavelmente semelhantes às do HAL-9000.

E é isso. Você já enviou imagens para o DALL-E? Como ele se saiu para você? Deixe-nos saber nos comentários abaixo.


Você pode acompanhar as atualizações diárias do meu projeto nas redes sociais. Não deixe de se inscrever na minha newsletter semanal de atualizações no Substack, e me seguir no Twitter em @DavidGewirtz, no Facebook em Facebook.com/DavidGewirtz, no Instagram em Instagram.com/DavidGewirtz, e no YouTube em YouTube.com/DavidGewirtzTV.