Ilustrador de IA desenha imagens criativas para acompanhar as legendas

Imagens geradas por IA

Imagens de IA geradas a partir do texto mostram “um rabanete bebê em um tutu levando um cachorro para passear” e “uma poltrona em forma de abacate”

OpenAI

Uma rede neural usa legendas de texto para criar imagens estranhas – como poltronas em forma de abacate – demonstrando que entende como a linguagem molda a cultura visual.

A OpenAI, empresa de inteligência artificial que recentemente se associou à Microsoft, desenvolveu a rede neural, que chama de DALL-E. É uma versão do modelo de linguagem GPT-3 da empresa que pode criar obras escritas expansivas com base em mensagens curtas de texto, mas o DALL-E produz imagens em vez disso.

“O mundo não é apenas texto”, diz Ilya Sutskever, cofundador da OpenAI. “Os humanos não apenas falam: nós também vemos. Muito contexto importante vem de olhar. ”

O DALL-E é treinado usando um conjunto de imagens já associadas a prompts de texto e, em seguida, usa o que aprende para tentar construir uma imagem apropriada quando recebe um novo prompt de texto.

Ele faz isso tentando entender o prompt de texto e, em seguida, produzindo uma imagem apropriada. Ele constrói a imagem elemento por elemento com base no que foi entendido do texto. Se ele foi apresentado com partes de uma imagem pré-existente ao lado do texto, também considera os elementos visuais dessa imagem.

“Podemos dar ao modelo um prompt, como ‘um relógio verde pentagonal’, e dado o precedente [elements], o modelo está tentando prever o próximo ”, diz Aditya Ramesh, da OpenAI.

Por exemplo, se for dada uma imagem da cabeça de um T. rex, e o prompt de texto “a T. rex de smoking ”, DALL-E pode desenhar o corpo do T. rex por baixo da cabeça e adicione roupas adequadas.

A rede neural, que é descrita hoje no site da OpenAI, pode tropeçar em solicitações mal formuladas e se esforçar para posicionar objetos em relação uns aos outros – ou para contar.

“Quanto mais conceitos um sistema é capaz de combinar sensivelmente, mais provável é que o sistema de IA entenda a semântica da solicitação e possa demonstrar esse entendimento de forma criativa”, diz Mark Riedl, do Instituto de Tecnologia da Geórgia, nos Estados Unidos.

“Não tenho certeza de como definir o que é criatividade”, diz Ramesh, que admite ter ficado impressionado com a variedade de imagens que o DALL-E produziu.

O modelo produz 512 imagens para cada prompt, que são filtradas usando um modelo de computador separado desenvolvido pela OpenAI, chamado CLIP, no que o CLIP acredita serem os 32 “melhores” resultados.

O CLIP é treinado em 400 milhões de imagens disponíveis online. “Encontramos pares imagem-texto na Internet e treinamos um sistema para prever quais pedaços de texto serão combinados com quais imagens”, diz Alec Radford, da OpenAI, que desenvolveu o CLIP.

“Este é um trabalho realmente impressionante”, disse Serge Belongie, da Cornell University, em Nova York. Ele diz que mais trabalho é necessário para examinar as implicações éticas de tal modelo, como o risco de criar imagens completamente falsas, por exemplo, aquelas envolvendo pessoas reais.

Effie Le Moignan, da Newcastle University, no Reino Unido, também considera o trabalho impressionante. “Mas a coisa com a linguagem natural é que, embora seja inteligente, é muito cultural e apropriado ao contexto”, diz ela.

Por exemplo, Le Moignan se pergunta se DALL-E, confrontado com um pedido para produzir uma imagem do almirante Nelson usando calças de lamê dourado, colocaria o herói militar em leggings ou cuecas – evidência potencial da lacuna entre o inglês britânico e o inglês americano.

Mais sobre esses tópicos:

Leave a Reply

Your email address will not be published. Required fields are marked *