iGPT : un nouveau mécanisme d'IA capable de reconstituer une image à partir de quelques pixels seulement

Reconstituer une image entière à partir d’un fragment incomplet, grâce à l’intelligence artificielle. Voici la prouesse de chercheurs du laboratoire OpenAI, basé à San Francisco. Nommée iGPT, cette solution prometteuse permettrait de retrouver des portions d’images abîmées ou perdues. Retour sur ce nouveau mécanisme d’IA novateur.

Une étape supplémentaire franchie pour l’intelligence artificielle

Le programme d’intelligence artificielle GPT-2 avait brillamment réussi en février dernier à concevoir et rédiger un essai cohérent grâce à son algorithme textuel. De prime abord, il ressemble à un mécanisme d’autocomplétion, semblable à la barre de recherche de Google : entrez le début d’une phrase, et le programme se charge de créer une suite cohérente, aussi bien au niveau du contenu que du style.

Pour aller plus loin, les chercheurs d’OpenAI ont cherché à utiliser ce mécanisme d’autocomplétion pour des images. Renommé iGPT, le programme est ainsi parvenu à effectuer ses prédictions grâce à quelques pixels seulement. Le but : générer une photographie complète à partir d’une section de l’image.

Sur les exemples ci-dessous, la colonne de gauche correspond aux images présentées au mécanisme d’IA – et dont la moitié inférieure est manquante. La colonne de droite montre l’image d’origine (non tronquée). Enfin, les images du milieu sont autant de propositions générées par l’IA dans sa tentative de « compléter » la moitié basse de l’image.

iGPT : des résultats surprenants de réalisme

La lecture des pixels de photos en deux dimensions permet au programme d’offrir une représentation plausible d’une photographie à partir de la moitié de l’image originale. Animaux, toiles de maître, architecture, paysages mais aussi aliments et drapeaux ont été reconstitués avec succès par iGPT. Le logiciel propose plusieurs versions de l’image, toutes s’approchent relativement près de la photo initiale.

Vers l’autonomie du machine learning

Pour parvenir à ce résultat, les chercheurs d’OpenAI ont « nourri » le programme de millions d’images disponibles sur Internet. Mais contrairement à bon nombre d’initiatives similaires, iGPT exploite le machine learning non-supervisé.

Fonctionnant en toute autonomie, le programme GPT n’a pas besoin qu’un humain applique manuellement des tags pour indiquer à l’IA la nature de l’image (un chien, un arbre, une voiture, etc). Ainsi, le GPT n’a pas besoin d’être « nourri » à partir d’une base de donnée précise (et forcément limitée) : en parcourant le web, le programme visualise un nombre illimité d’images de toute nature, et déduit la suite logique des pixels.

Ce faisant, il s’affranchit de l’une des failles principales du machine learning : trop souvent, l’application dispose d’images peu variées… au risque de reproduire certains stéréotypes.

Ceci représente un grand pas pour l’IA. En effet, le fonctionnement autonome (ou unsupervised machine learning) représente l’un des défis les plus difficiles à relever dans le domaine de l’intelligence artificielle.

Face Depixelizer : transformer des images pixelisées en véritables photos grâce à l’intelligence artificielle

Les limites d’iGPT

Cette nouvelle application du machine learning pourrait s’avérer très utile pour la photographie… mais pas seulement. Si un ensemble d’images a été abîmé, l’IA devrait permettre de les reconstituer rapidement et à moindre frais. Naturellement, l’objectif de ce mécanisme n’est pas d’imaginer une nouvelle image, mais de tenter de répliquer l’image d’origine le plus fidèlement possible.

Ce nouveau mécanisme d’IA semble extrêmement prometteur, et les champs d’application de cette technologie n’en sont qu’à leurs premiers balbutiements. OpenAI vient d’ailleurs de lever le voile sur GPT-3, troisième itération de son IA d’autocomplétion. Encore plus puissante que la version 2 (sur laquelle était basée iGPT), l’IA parcourt les milliards de textes disponibles sur Internet et peut ainsi répondre instantanément répondre à une question, analyser des structures complexes du langage, écrire du code informatique et même de la musique.

I made a fully functioning search engine on top of GPT3.

For any arbitrary query, it returns the exact answer AND the corresponding URL.

Look at the entire video. It's MIND BLOWINGLY good.

cc: @gdb @npew @gwern pic.twitter.com/9ismj62w6l

— Paras Chopra (@paraschopra) July 19, 2020

Malgré tout, iGPT pose quelques questions. Ainsi, il risque d’intégrer une conception préétablie d’associations qui peuvent limiter le résultat final : l’association du marron et du vert a de fortes chances de suggérer un arbre, par exemple. Au-delà, iGPT risque potentiellement de faciliter la fabrication de Deep fakes, ces images truquées ultra-réalistes. Certains experts redoutent également l’arrivée de vidéos « deep fakes », générées en quelques secondes seulement.

Comme souvent avec l’IA, les possibilités offertes par GPT sont aussi intéressantes qu’illimitées. L’utilisation du machine learning non-supervisé ouvre de nouvelles portes pour la conception d’une intelligence artificielle plus efficace, au fonctionnement analogue à celui du cerveau humain. Mais en termes d’usages, la plus grande vigilance s’impose afin que ces mécanismes ultra-novateurs ne servent pas à la désinformation.

Guide d’achat photo 2025 : les meilleurs appareils photo hybrides APS-C et Micro 4/3

Guide d’achat photo 2025 : les meilleurs appareils photo hybrides plein format

Guide d’achat photo 2025 : les meilleurs smartphones photo

Guide d’achat photo 2025 : les meilleurs compacts experts

Edward Weston : 60 ans après, The Flame of Recognition réédité chez Aperture

5 livres photo à ne pas manquer – mai 2025

Paolo Pellegrin à la Galerie de l’Instant : Chaos calme, une photographie de la tension

Bon plan : jusqu’à -46 % sur les caméras Insta360

De la 3D à partir de simples photos : les projets de Canon et Apple

Test Fujifilm GFX 100RF : entre ambition technique et compromis

MP #218 : la qualité d’image de mes photos se dégrade-t-elle à chaque copie ? Entres mythes et réalités

Lundi Basique : comment faire des photos moches ?

MP #217 : capteur global shutter, une petite révolution pour nos boîtiers

iGPT : un nouveau mécanisme d’IA capable de reconstituer une image à partir de quelques pixels seulement

Une étape supplémentaire franchie pour l’intelligence artificielle

iGPT : des résultats surprenants de réalisme

Vers l’autonomie du machine learning

Les limites d’iGPT

Veo 3 : l’IA de Google capable de créer très facilement des vidéos ultra réalistes, et avec du son

Nik Collection 8 : intégration plus poussée à Photoshop et plugin Silver Efex réinventé

Creative Cloud Pro : Adobe rebat ses cartes avec l’IA… mais à quel prix ?

Bon plan : jusqu’à -46 % sur les caméras Insta360

De la 3D à partir de simples photos : les projets de Canon et Apple

Sunday Links

Bon plan : jusqu’à -46 % sur les caméras Insta360

De la 3D à partir de simples photos : les projets de Canon et Apple

Sunday Links

iGPT : un nouveau mécanisme d’IA capable de reconstituer une image à partir de quelques pixels seulement

Une étape supplémentaire franchie pour l’intelligence artificielle

iGPT : des résultats surprenants de réalisme

Vers l’autonomie du machine learning

Les limites d’iGPT

Inscrivez-vous à la newsletter Phototrend