Des concepts d’appareils photo délirants mais réalistes créés par l’IA DALL·E 2

Créer de toute pièce des images d’appareils photo au look décalé… grâce à l’intelligence artificielle. C’est le défi très original que s’est lancé Mathieu Stern dans une récente vidéo. Grâce à un nouveau système d’IA, nommé DALL·E 2, il devient possible de créer une image à partir de quelques mots, de modifier le style d’une photo ou d’un tableau, ou encore d’ajouter ou de supprimer des éléments. 

Une manière ludique – et surprenante – de montrer comment l’IA comprend notre monde, et la manière dont elle associe les éléments entre eux. Découverte. 

Creating INSANE Cameras with Artificial intelligence (Dalle.2 demo)

DALL·E 2 : l’IA au service de votre imagination

Avez-vous déjà vu une photo d’un koala faisant un dunk au basket ? Ou celle d’un astronaute faisant du cheval sur la Lune ? Ou encore Mona Lisa avec une crête iroquoise ? Non ? C’est bien normal, puisque ces images n’ont jamais existé

© OpenAI – DALL·E 2

Afin d’ouvrir de nouveaux horizons créatifs au grand public, les chercheurs du laboratoire OpenAI, basé à San Francisco, ont lancé en 2021 une nouvelle intelligence artificielle, baptisée DALL·E. Aujourd’hui dans sa 2e version, elle permet d’obtenir des résultats beaucoup plus réalistes, tant pour des photographes que pour des œuvres d’art. 

« Notre espoir est que DALL·E 2 permette aux gens de s’exprimer de manière créative. DALL·E 2 nous aide également à comprendre comment les systèmes d’IA avancés voient et comprennent notre monde, ce qui est essentiel à notre mission de créer une IA qui profite à l’humanité », indique les concepteurs du projet.

Sur le papier, son fonctionnement est très simple : il suffit d’entrer une description de quelques mots. Et l’IA se charge de créer l’image qui lui correspond, accompagnée d’une dizaine de variantes. Un point qui fait beaucoup penser au projet Imagen de Google, que nous vous présentions il y a quelques jours.

Des appareils photo aux couleurs de Star Wars, Retour vers le futur ou du Seigneur des Anneaux

Le photographe et youtubeur Mathieu Stern a eu l’opportunité de tester DALL·E 2 en avant-première. Tirant parti des capacités de cette IA, il a pu concevoir simplement une série de vrais-faux appareils photo plus vrais que nature, qui reprennent les codes stylistiques des films et séries les plus connus. 

On peut ainsi découvrir un boîtier moyen format ressemblant à R2-D2, à C3-PO ou à Dark Vador. Ou encore un appareil photo de la même couleur que la veste de Marty McFly dans le film Retour vers le Futur

De la même manière, on peut découvrir le design anguleux (voire torturé) d’un boîtier façon Sauron, dans le Seigneur des Anneaux, ainsi qu’un Rolleiflex décoré à la manière de l’Anneau unique. 

Autant d’exemples très créatifs, qui illustrent ce que permet de créer l’IA grâce à quelques mots. Cela étant, il est probable que Mathieu a dû procéder par tâtonnements, affinant le résultat obtenu à chaque itération. 

Malgré tout, cette démonstration est particulièrement intéressante, puisqu’elle montre la manière dont l’IA fait l’association entre différents concepts et les assemble dans une image a priori cohérente et réaliste du point de vue d’un humain. 

Certes, rien n’empêche de donner vie à ces concepts via Photoshop, mais l’opération est considérablement plus longue – et nécessite des connaissances très poussées du logiciel. Ici, l’intérêt est d’ouvrir cette possibilité au plus grand nombre, en quelques secondes seulement.

DALL·E 2 : une IA surentraînée pour des résultats ultraréalistes

Pour parvenir à un tel résultat, les chercheurs d’OpenAI ont fait appel au Deep Learning. Dans la pratique, l’IA analyse une base de données de plusieurs millions d’images dite « labellisée ». 

Chaque image étant accompagnée de sa légende en quelques mots, l’IA devient capable de « comprendre » ce que représente le visuel, et de tisser des liens logiques entre plusieurs éléments (le cavalier et sa monture, par exemple). 

Au-delà de l’aspect sémantique, l’IA apprend aussi à reconnaître le style d’une image ou d’un tableau. De cette façon, l’utilisateur peut demander à l’IA de transformer la Joconde en un tableau impressionniste, par exemple. 

Particulièrement puissant, cette illustration du « text-to-image » donne aussi la possibilité d’éditer une image existante. Dans la photo d’exemple citée, on peut ainsi remplacer le caniche assis sur un canapé par un chat. 

« DALL·E 2 a appris la relation entre les images et le texte utilisé pour les décrire », indiquent les chercheurs d’Open AI. « Il utilise un processus appelé « diffusion », qui commence par un motif de points aléatoires et modifie progressivement ce motif vers une image lorsqu’il reconnaît des aspects spécifiques de cette image ».

Ainsi, le système commence par générer une « bouillie de points », qui sont assemblés afin de former un ensemble réaliste – et en haute définition. 

Quelles limites pour cette nouvelle intelligence artificielle ?

Comme toute intelligence artificielle, DALL·E 2 rencontre plusieurs limites. D’une part, si les légendes des images-sources sont incorrectes, l’IA va commettre quelques erreurs. 

De même, les relations entre les objets, les concepts et les styles sont parfois très complexes. Comme le montre Mathieu Stern, il convient parfois d’affiner à plusieurs reprises la requête désirée, car l’IA ne peut comprendre immédiatement ce que l’utilisateur a en tête

Plus largement, DALL·E 2 (et ses concurrents) posent un certain nombre de questions éthiques. D’une part, il existe un risque non-négligeable de conforter ou de reproduire certains stéréotypes – ce que les concepteurs du projet disent vouloir éviter à tout prix. 

D’autre part, DALL·E 2 a été entraîné à partir d’une sélection d’images excluant volontairement tout contenu de nature violente ou sexuelle, afin que l’IA ne soit pas capable de générer ce type de contenus. De la même manière, l’IA a été « inhibée » afin de ne pas pouvoir créer de visages humains – et notamment de personnalités publiques. 

En effet, le risque est grand que l’IA de DALL·E 2 (et de ses concurrents) ne soit utilisée afin de créer des deep fakes, ces photos (et vidéos) truquées parfois très réalistes.

Jim Carrey DeepFake [VFX Comparison]

Dès lors, les chercheurs d’OpenAI ont opté pour une solution radicale. Ainsi, DALL·E 2 est seulement disponible à un nombre restreint d’utilisateurs triés sur le volet. Dans un 2e temps, l’IA sera disponible sur invitation – mais avec un double-système de surveillance (humain et automatisé) pour éviter toute forme d’abus.

DALL·E 2 : un formidable outil au service des esprits créatifs ?

Certains projets liés à la manipulation des images peuvent susciter l’inquiétude – et souvent à juste titre. Dans un contexte de prolifération des fake news, l’arrivée d’outils permettant de créer en quelques secondes seulement des photos (ou des vidéos) « truquées » plus vraies que nature peut être préoccupant. 

Malgré tout, l’initiative des chercheurs d’OpenAI montre comme l’intelligence artificielle peut être pertinente. D’un point de vue créatif, DALL·E 2 permet de donner vie aux idées plus ou moins farfelues, avec pour seule limite notre imagination – ce que Mathieu Stern vient justement illustrer avec brio.

De la même manière, l’IA peut être utilisée de manière très pertinente pour transformer nos gribouillis en décors photoréalistes, pour restaurer des vidéos anciennes, ou encore pour donner vie aux portraits de nos ancêtres.

D’un point de vue technique, DALL·E 2 nous montre comment l’IA perçoit et interprète notre monde. Un point crucial pour développer des intelligences artificielles au service de l’humanité. 

Pour plus d’informations sur DALL·E 2, rendez-vous sur le site Internet du projet. Et retrouvez les autres vidéos de Mathieu Stern sur sa chaîne Youtube