OpenAI lance un outil d’intelligence artificielle capable de produire une image à partir d’un texte

Les chercheurs d’OpenAI ont créé un nouveau système capable de produire une image complète, y compris celle d’un astronaute à cheval, à partir d’une simple phrase en anglais simple.

Connue sous le nom de DALL · E 2, la deuxième génération d’IA texte-image est capable de créer des images et des illustrations réalistes à une résolution plus élevée que son prédécesseur.

Le groupe de recherche sur l’intelligence artificielle ne publiera pas le système au public.

La nouvelle version est capable de créer des images à partir de texte simple, d’ajouter des objets dans des images existantes ou même de fournir différents points de vue sur une image existante.

Les développeurs ont imposé des restrictions sur la portée de l’IA pour s’assurer qu’elle ne puisse pas produire d’images haineuses, racistes ou violentes, ou être utilisée pour diffuser de la désinformation.

Les chercheurs d’OpenAI ont créé un nouveau système capable de produire une image complète, y compris celle d’un astronaute à cheval, à partir d’une simple phrase en anglais simple. Dans ce cas, astronaute à cheval dans un style photoréaliste

Connue sous le nom de DALL · E 2, la deuxième génération d'IA texte-image est capable de créer des images et des illustrations réalistes à une résolution plus élevée que son prédécesseur.

Connue sous le nom de DALL · E 2, la deuxième génération d’IA texte-image est capable de créer des images et des illustrations réalistes à une résolution plus élevée que son prédécesseur.

Sa version originale, nommée d’après l’artiste surréaliste espagnol Salvador Dali et le robot Pixar WALL-E, a été publiée en janvier 2021 en tant que test limité des façons dont l’IA pourrait être utilisée pour représenter des concepts – des descriptions ennuyeuses aux envolées fantaisistes.

Certaines des premières œuvres d’art créées par l’IA comprenaient un mannequin dans une chemise en flanelle, une illustration d’un radis promenant un chien et un bébé pingouin emoji.

Des exemples de phrases utilisées dans la deuxième version – pour produire des images réalistes – incluent “un astronaute à cheval dans un style photoréaliste”.

Sur le site Web DALL-E 2, cela peut être personnalisé, pour produire des images “à la volée”, notamment en remplaçant l’astronaute par un ours en peluche, un cheval par un joueur de basket et en le montrant sous forme de dessin au crayon ou de pop-art de style Andy Warhol. ‘La peinture.

Le groupe de recherche sur l'intelligence artificielle ne publiera pas le système au public, mais espère le proposer en tant que plug-in pour les applications d'édition d'images existantes à l'avenir.

Le groupe de recherche sur l’intelligence artificielle ne publiera pas le système au public, mais espère le proposer en tant que plug-in pour les applications d’édition d’images existantes à l’avenir.

Il peut ajouter ou supprimer des objets d'une image - comme le flamant rose sur la gauche de cette image
Il peut ajouter ou supprimer des objets d'une image - comme le flamant rose qui était sur la gauche

Il peut ajouter ou supprimer des objets d’une image – comme le flamant rose vu dans la première image, et disparu dans la seconde

Satisfaisant même le client le plus difficile, avec des demandes de révision sans fin, l’IA peut produire plusieurs versions de chaque image à partir d’une seule phrase.

L’une des caractéristiques spécifiques de DALL-E 2 permet la “repeinture”, c’est-à-dire qu’il peut prendre une photo existante et ajouter d’autres fonctionnalités – comme un flamant rose à une piscine.

Il est capable de remplir automatiquement les détails, tels que les ombres, lorsqu’un objet est ajouté, ou même de modifier l’arrière-plan pour qu’il corresponde, si un objet est déplacé ou supprimé.

“DALL · E 2 a appris la relation entre les images et le texte utilisé pour les décrire”, a expliqué OpenAI.

“Il utilise un processus appelé” diffusion “, qui commence par un motif de points aléatoires et modifie progressivement ce motif vers une image lorsqu’il reconnaît des aspects spécifiques de cette image.”

La nouvelle version est capable de créer des images à partir de texte simple, d'ajouter des objets dans des images existantes ou même de fournir différents points de vue sur une image existante

La nouvelle version est capable de créer des images à partir de texte simple, d’ajouter des objets dans des images existantes ou même de fournir différents points de vue sur une image existante

La première version de DALL-E était limitée dans sa portée

La nouvelle version est capable de créer des images plus détaillées

La première version de DALL-E était limitée dans sa portée (à gauche), alors que la nouvelle version est capable de créer des images plus détaillées (à droite)

DALL-E 2 est construit sur un système de vision par ordinateur appelé CLIP, développé par OpenAI et annoncé l’année dernière.

“DALL-E 1 vient de prendre notre approche GPT-3 du langage et de l’appliquer pour produire une image : nous avons compressé les images en une série de mots et nous venons d’apprendre à prédire ce qui va suivre”, a déclaré Prafulla Dhariwal, chercheuse chez OpenAI, à The Verge. .

Malheureusement, ce processus a limité le réalisme des images, car il ne capturait pas toujours les qualités que les humains jugeaient les plus nécessaires.

CLIP regarde une image et résume le contenu de la même manière qu’un humain le ferait, et ils ont inversé cela – unCLIP – pour DALL-E 2.

Les développeurs ont imposé des restrictions sur la portée de l'IA pour s'assurer qu'elle ne puisse pas produire d'images haineuses, racistes ou violentes, ou être utilisée pour diffuser de la désinformation

Les développeurs ont imposé des restrictions sur la portée de l’IA pour s’assurer qu’elle ne puisse pas produire d’images haineuses, racistes ou violentes, ou être utilisée pour diffuser de la désinformation

Sa version originale, nommée d'après l'artiste surréaliste espagnol Salvador Dali et le robot Pixar WALL-E, a été publiée en janvier 2021 en tant que test limité des façons dont l'IA pourrait être utilisée pour représenter des concepts - des descriptions ennuyeuses aux envolées fantaisistes.

Sa version originale, nommée d’après l’artiste surréaliste espagnol Salvador Dali et le robot Pixar WALL-E, a été publiée en janvier 2021 en tant que test limité des façons dont l’IA pourrait être utilisée pour représenter des concepts – des descriptions ennuyeuses aux envolées fantaisistes.

OpenAI a entraîné le modèle à l’aide d’images et a éliminé certains éléments répréhensibles, limitant sa capacité à produire du contenu offensant.

Chaque image comprend également un filigrane, pour montrer clairement qu’elle a été produite par l’IA, plutôt qu’une personne, ou qu’il s’agit d’une photo réelle, ce qui réduit le risque de désinformation.

Il ne peut pas non plus générer de visages reconnaissables basés sur un nom, même ceux uniquement reconnaissables à partir d’œuvres d’art telles que Mona Lisa – créant des variations distinctives.

“Nous avons limité la capacité de DALL · E 2 à générer des images violentes, haineuses ou pour adultes”, selon les chercheurs d’OpenAI.

« En supprimant le contenu le plus explicite des données de formation, nous avons minimisé l’exposition de DALL · E 2 à ces concepts.

Certaines des premières œuvres d'art créées par l'IA comprenaient un mannequin dans une chemise en flanelle, une illustration d'un radis promenant un chien et un emoji bébé pingouin - ou un astronaute allongé.

Certaines des premières œuvres d’art créées par l’IA comprenaient un mannequin dans une chemise en flanelle, une illustration d’un radis promenant un chien et un emoji bébé pingouin – ou un astronaute allongé.

Girl in the Pearl Earring, également connue sous le nom de Girl in a Turban par le peintre hollandais de l'âge d'or Johannes Vermeer.  Vers 1665

L'IA a été restreinte pour éviter de copier directement les visages, même ceux des illustrations

L’IA a été restreinte pour éviter de copier directement les visages, même ceux d’œuvres d’art telles que la jeune fille à la perle du peintre néerlandais de l’âge d’or Johannes Vermeer. On voit à droite la version AI du même tableau, modifiée pour ne pas imiter directement le visage

L'IA peut créer des illustrations photoréalistes à partir d'une simple description, telle qu'une

L’IA peut créer des illustrations photoréalistes à partir d’une simple description, telle qu’une “photo de haute qualité de Times Square” (en bas) ou une photo de haute qualité d’un chien jouant dans un champ vert à côté d’un lac (en haut) avec plusieurs versions de chaque image produite

“Nous avons également utilisé des techniques avancées pour empêcher les générations photoréalistes de visages réels d’individus, y compris ceux de personnalités publiques.”

Bien qu’il ne soit pas accessible au public, certains chercheurs y auront accès et, à l’avenir, il pourrait être intégré à d’autres applications, ce qui nécessite des politiques de contenu strictes.

Cela ne permet pas aux utilisateurs de générer du contenu violent, adulte ou politique, entre autres catégories.

“Nous ne générerons pas d’images si nos filtres identifient des invites de texte et des téléchargements d’images susceptibles d’enfreindre nos politiques. Nous avons également des systèmes de surveillance automatisés et humains pour nous prémunir contre les abus », a expliqué un porte-parole.

« Nous avons travaillé avec des experts externes et prévisualisons DALL · E 2 à un nombre limité d’utilisateurs de confiance qui nous aideront à découvrir les capacités et les limites de la technologie.

“Nous prévoyons d’inviter davantage de personnes à prévisualiser cette recherche au fil du temps, à mesure que nous apprenons et améliorons de manière itérative notre système de sécurité.”

COMMENT LES INTELLIGENCES ARTIFICIELLES APPRENNENT EN UTILISANT LES RÉSEAUX DE NEURONES

Les systèmes d’IA reposent sur des réseaux de neurones artificiels (ANN), qui tentent de simuler le fonctionnement du cerveau pour apprendre.

Les ANN peuvent être formés pour reconnaître des modèles d’informations – y compris la parole, les données textuelles ou les images visuelles – et sont à la base d’un grand nombre des développements de l’IA au cours des dernières années.

L’IA conventionnelle utilise des entrées pour “enseigner” un algorithme sur un sujet particulier en lui fournissant d’énormes quantités d’informations.

Les systèmes d'IA reposent sur des réseaux de neurones artificiels (ANN), qui tentent de simuler le fonctionnement du cerveau pour apprendre.  Les ANN peuvent être formés pour reconnaître les modèles d'informations - y compris la parole, les données textuelles ou les images visuelles

Les systèmes d’IA reposent sur des réseaux de neurones artificiels (ANN), qui tentent de simuler le fonctionnement du cerveau pour apprendre. Les ANN peuvent être formés pour reconnaître les modèles d’informations – y compris la parole, les données textuelles ou les images visuelles

Les applications pratiques incluent les services de traduction linguistique de Google, le logiciel de reconnaissance faciale de Facebook et les filtres en direct de modification d’image de Snapchat.

Le processus de saisie de ces données peut prendre énormément de temps et se limiter à un seul type de connaissances.

Une nouvelle race d’ANN appelée Adversarial Neural Networks oppose l’esprit de deux robots IA, ce qui leur permet d’apprendre l’un de l’autre.

Cette approche est conçue pour accélérer le processus d’apprentissage, ainsi que pour affiner le résultat créé par les systèmes d’IA.

.

Leave a Comment