Le générateur d’images DALL-E AI d’OpenAI peut désormais également éditer des images

Le groupe de recherche en intelligence artificielle OpenAI a créé une nouvelle version de DALL-E, son programme de génération de texte en image. DALL-E 2 propose une version à plus haute résolution et à plus faible latence du système d’origine, qui produit des images représentant des descriptions écrites par les utilisateurs. Il inclut également de nouvelles fonctionnalités, comme l’édition d’une image existante. Comme pour les travaux précédents d’OpenAI, l’outil n’est pas directement rendu public. Mais les chercheurs peuvent s’inscrire en ligne pour prévisualiser le système, et OpenAI espère le rendre plus tard disponible pour une utilisation dans des applications tierces.

Le DALL-E original, un portemanteau de l’artiste “Salvador Dalí” et du robot “WALL-E”, a fait ses débuts en janvier 2021. C’était un test limité mais fascinant de la capacité de l’IA à représenter visuellement des concepts, à partir de représentations banales d’un mannequin en chemise de flanelle à “une girafe faite de tortue” ou une illustration d’un radis promenant un chien. À l’époque, OpenAI avait déclaré qu’il continuerait à s’appuyer sur le système tout en examinant les dangers potentiels tels que les biais dans la génération d’images ou la production de désinformation. Il tente de résoudre ces problèmes en utilisant des garanties techniques et une nouvelle politique de contenu tout en réduisant sa charge informatique et en faisant avancer les capacités de base du modèle.

A DALL-E 2 résultats pour “Chien Shiba Inu portant un béret et un col roulé noir.”

L’une des nouvelles fonctionnalités de DALL-E 2, l’inpainting, applique les capacités de conversion texte-image de DALL-E à un niveau plus granulaire. Les utilisateurs peuvent commencer avec une image existante, sélectionner une zone et demander au modèle de la modifier. Vous pouvez bloquer un tableau sur un mur du salon et le remplacer par un autre tableau, par exemple, ou ajouter un vase de fleurs sur une table basse. Le modèle peut remplir (ou supprimer) des objets tout en tenant compte de détails tels que les directions des ombres dans une pièce. Une autre fonctionnalité, les variations, est un peu comme un outil de recherche d’images pour des images qui n’existent pas. Les utilisateurs peuvent télécharger une image de départ, puis créer une gamme de variations similaires à celle-ci. Ils peuvent également mélanger deux images, générant des images contenant des éléments des deux. Les images générées mesurent 1 024 x 1 024 pixels, un bond par rapport aux 256 x 256 pixels fournis par le modèle d’origine.

DALL-E 2 s’appuie sur CLIP, un système de vision par ordinateur qu’OpenAI a également annoncé l’année dernière. “DALL-E 1 vient de prendre notre approche GPT-3 du langage et de l’appliquer pour produire une image : nous avons compressé des images en une série de mots et nous venons d’apprendre à prédire ce qui va suivre”, explique Prafulla Dhariwal, chercheur chez OpenAI, faisant référence à le modèle GPT utilisé par de nombreuses applications d’IA textuelles. Mais la correspondance des mots ne capturait pas nécessairement les qualités que les humains trouvaient les plus importantes, et le processus prédictif limitait le réalisme des images. CLIP a été conçu pour regarder les images et résumer leur contenu comme le ferait un humain, et OpenAI a répété ce processus pour créer “unCLIP” – une version inversée qui commence par la description et se dirige vers une image. DALL-E 2 génère l’image à l’aide d’un processus appelé diffusion, que Dhariwal décrit comme commençant par un “sac de points”, puis remplissant un motif de plus en plus détaillé.

Une image existante d'une pièce avec un flamant rose ajouté dans un coin.

Une image existante d’une pièce avec un flamant rose ajouté dans un coin.

Fait intéressant, un projet de document sur unCLIP dit qu’il résiste en partie à une faiblesse très amusante de CLIP : le fait que les gens peuvent tromper les capacités d’identification du modèle en étiquetant un objet (comme une pomme Granny Smith) avec un mot indiquant quelque chose d’autre (comme un iPod ). L’outil de variations, disent les auteurs, “génère toujours des images de pommes avec une probabilité élevée” même en utilisant une image mal étiquetée que CLIP ne peut pas identifier comme une Granny Smith. À l’inverse, “le modèle ne produit jamais d’images d’iPod, malgré la probabilité relative prédite très élevée de cette légende”.

Le modèle complet de DALL-E n’a jamais été rendu public, mais d’autres développeurs ont perfectionné leurs propres outils qui imitent certaines de ses fonctions au cours de l’année écoulée. L’une des applications grand public les plus populaires est l’application mobile Wombo’s Dream, qui génère des images de tout ce que les utilisateurs décrivent dans une variété de styles artistiques. OpenAI ne publie aucun nouveau modèle aujourd’hui, mais les développeurs pourraient utiliser ses découvertes techniques pour mettre à jour leur propre travail.

Un résultat DALL-E 2 pour

Un résultat DALL-E 2 pour “un bol de soupe qui ressemble à un monstre, tricoté en laine”.

OpenAI a mis en place certaines protections intégrées. Le modèle a été formé sur des données dont certains éléments répréhensibles ont été éliminés, limitant idéalement sa capacité à produire un contenu répréhensible. Il y a un filigrane indiquant la nature du travail généré par l’IA, bien qu’il puisse théoriquement être rogné. En tant que fonction anti-abus préventive, le modèle ne peut pas non plus générer de visages reconnaissables basés sur un nom – même en demandant quelque chose comme le Mona Lisa renverrait apparemment une variante sur le visage réel de la peinture.

DALL-E 2 pourra être testé par des partenaires approuvés avec quelques mises en garde. Il est interdit aux utilisateurs de télécharger ou de générer des images qui ne sont “pas classées G” et “pourraient causer des dommages”, y compris tout ce qui implique des symboles de haine, de la nudité, des gestes obscènes ou “des complots majeurs ou des événements liés à des événements géopolitiques majeurs en cours”. Ils doivent également divulguer le rôle de l’IA dans la génération des images, et ils ne peuvent pas servir d’images générées à d’autres personnes via une application ou un site Web – vous ne verrez donc pas initialement une version alimentée par DALL-E de quelque chose comme Dream. Mais OpenAI espère l’ajouter ultérieurement à l’ensemble d’outils API du groupe, lui permettant d’alimenter des applications tierces. “Notre espoir est de continuer à suivre un processus par étapes ici, afin que nous puissions continuer à évaluer à partir des commentaires que nous recevons comment publier cette technologie en toute sécurité”, déclare Dhariwal.

Reportage supplémentaire de James Vincent.

Leave a Comment