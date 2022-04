La société OpenAI vient de dévoiler la nouvelle version de son programme intitulé DALL-E 2, permettant de générer des images à partir d'une simple description grâce à l'intelligence artificielle. Cette seconde itération apporte de nouvelles fonctionnalités et permet désormais d'éditer des images.

Plus vrai que vrai. Au rayon des prouesses rendues possibles par une intelligence artificielle, OpenAI est sans doute en train de devenir l’un des fers de lance du secteur et ne cesse de bluffer les observateurs.

En 2015, Elon Musk participait à la fondation de cet organisme consacré à l’intelligence artificielle. Ce même organisme auquel on doit notamment un outil baptisé GPT-3 (Generative Pre-trained Transformer), outil capable de générer des écrits semblables à ceux d’un être humain. Il est aussi derrière une IA multimodale du nom de DALL-E (combinaison de l’artiste Salvador Dalí et du personnage Disney Wall-E) qui peut générer des images à partir d’une simple description (par exemple, « tortue en pâte à modeler »).

À peine un an après le lancement de DALL-E, la société a annoncé une nouvelle version du programme qui disposera désormais d’une résolution de sortie plus élevée ainsi que d’une latence réduite, avec de nouvelles fonctionnalités comme l’édition d’images préexistantes.

D’une simple description à l’image

La première version de DALL-E permettait de générer des images, d’en combiner plusieurs, mais aussi de fournir différentes perspectives d’une même image ou encore de déduire des éléments comme la présence d’ombres à partir d’une simple description.

Résultat obtenu pour « Ours en peluche mélangeant des produits chimiques étincelants comme des savants fous, steampunk » // Source : OpenAI Résultat obtenu pour « Chien Shiba Inu portant un béret et un col roulé noir » // Source : OpenAI Résultat obtenu pour « Un bol de soupe qui ressemble à un monstre, tricoté en laine » // Source : OpenAI

Pour ce faire, elle reprenait l’approche utilisée par GTP-3 sur le langage et l’appliquait à la production d’images en comprimant celles-ci en une série de mots pour apprendre par la suite à prédire ce qui allait survenir.

Pour y arriver, les descriptions devaient être intégrées sans ambiguïté et avec tous les détails nécessaires, même si l’IA était tout de même capable de combler certaines zones d’ombres par elle-même lorsque la légende le requérait.

À l’époque, OpenAI déclarait travailler sur ce système tout en s’intéressant aux dangers potentiels que pourrait causer un tel outil afin d’établir une certaine politique de contenu.

Dans quel but et avec quelles limitations ?

DALL-E n’a jamais été conçu dans l’intention de devenir un produit commercial. Ces capacités ont donc été limitées, car le programme est considéré comme un outil de recherche avant tout afin d’éviter tout problème potentiel tel que la désinformation.

Les images pouvant choquer sont de facto retirées des données d’entrainement du logiciel et un filigrane IA est automatiquement appliqué sur les images générées. De plus, le système empêche l’obtention d’images basées sur des noms spécifiques (impossible donc d’avoir un résultat si l’on entre « Emmanuel Macron qui fait le poirier sur les marches de l’Élysée » par exemple).

DALL-E 2 : encore plus de possibilités dans l’image créée

L’une des nouveautés de DALL-E 2 est de laisser la possibilité aux utilisateurs d’utiliser une fonctionnalité appelée l’inpainting pour venir sélectionner et modifier certaines zones spécifiques d’images existantes, puis éventuellement ajouter ou supprimer des éléments ainsi que leurs ombres. Il est également possible de fusionner deux images ou encore d’utiliser la fonctionnalité Variations pour générer des versions différentes d’une image existante. Le logiciel est en outre capable de générer des images carrées de 1024 px contre 256 précédemment.

Une image existante d’une pièce // Source : OpenAI Ajout d’un flamant rose dans l’image // Source : OpenAI

L’image originale du tableau « La Jeune Fille à la perle » de Johannes Vermeer // Source : OpenAI La variation générée par DALL-E 2 // Source : OpenAI

DALL-E 2 utilise ici la technologie de reconnaissance d’images CLIP développée par OpenAI : un système permettant de résumer le contenu d’une image comme le ferait un être humain afin d’identifier les détails les plus importants. Cela améliore le processus de prédiction et permet d’obtenir des images avec plus de réalisme.

À qui se destine cette technologie ?

Cette nouvelle version n’est actuellement disponible en test que pour des partenaires agréés, qui sont eux-mêmes limités quant à ce qu’ils peuvent produire. Il est notamment interdit pour ces utilisateurs de produire des images qui ne seraient pas « family friendly », ce qui comprend des interdictions concernant la nudité, les obscénités, les symboles de haine, le conspirationnisme et d’autres sujets sensibles.

Le résultat avec DALL-E pour « peinture d’un renard assis d’un champ au lever du soleil dans le style de Claude Monet » // Source : OpenAI Le résultat avec DALL-E 2 pour « peinture d’un renard assis d’un champ au lever du soleil dans le style de Claude Monet » // Source : OpenAI

Les testeurs n’ont pas non plus le droit d’exporter les images générées vers une plateforme tierce pour le moment. Mais OpenAI espère tout de même ajouter ultérieurement les fonctionnalités de DALL-E 2 aux API du groupe de sorte à pouvoir alimenter des applications tierces, probablement lorsque le projet sera bien ficelé.

Pour avoir une chance d’utiliser cette technologie pour le moment, il faudra s’inscrire sur la liste d’attente du site d’OpenAI et croiser les doigts.

