iGPT : un nouveau mécanisme d'IA capable de reconstituer une image à partir de quelques pixels seulement

Reconstituer une image entière à partir d’un fragment incomplet, grâce à l’intelligence artificielle. Voici la prouesse de chercheurs du laboratoire OpenAI, basé à San Francisco. Nommée iGPT, cette solution prometteuse permettrait de retrouver des portions d’images abîmées ou perdues. Retour sur ce nouveau mécanisme d’IA novateur.

Sommaire

Une étape supplémentaire franchie pour l’intelligence artificielle
iGPT : des résultats surprenants de réalisme
Vers l’autonomie du machine learning
Les limites d’iGPT

Une étape supplémentaire franchie pour l’intelligence artificielle

Le programme d’intelligence artificielle GPT-2 avait brillamment réussi en février dernier à concevoir et rédiger un essai cohérent grâce à son algorithme textuel. De prime abord, il ressemble à un mécanisme d’autocomplétion, semblable à la barre de recherche de Google : entrez le début d’une phrase, et le programme se charge de créer une suite cohérente, aussi bien au niveau du contenu que du style.

Pour aller plus loin, les chercheurs d’OpenAI ont cherché à utiliser ce mécanisme d’autocomplétion pour des images. Renommé iGPT, le programme est ainsi parvenu à effectuer ses prédictions grâce à quelques pixels seulement. Le but : générer une photographie complète à partir d’une section de l’image.

Sur les exemples ci-dessous, la colonne de gauche correspond aux images présentées au mécanisme d’IA – et dont la moitié inférieure est manquante. La colonne de droite montre l’image d’origine (non tronquée). Enfin, les images du milieu sont autant de propositions générées par l’IA dans sa tentative de « compléter » la moitié basse de l’image.

iGPT : des résultats surprenants de réalisme

La lecture des pixels de photos en deux dimensions permet au programme d’offrir une représentation plausible d’une photographie à partir de la moitié de l’image originale. Animaux, toiles de maître, architecture, paysages mais aussi aliments et drapeaux ont été reconstitués avec succès par iGPT. Le logiciel propose plusieurs versions de l’image, toutes s’approchent relativement près de la photo initiale.

Vers l’autonomie du machine learning

Pour parvenir à ce résultat, les chercheurs d’OpenAI ont « nourri » le programme de millions d’images disponibles sur Internet. Mais contrairement à bon nombre d’initiatives similaires, iGPT exploite le machine learning non-supervisé.

Fonctionnant en toute autonomie, le programme GPT n’a pas besoin qu’un humain applique manuellement des tags pour indiquer à l’IA la nature de l’image (un chien, un arbre, une voiture, etc). Ainsi, le GPT n’a pas besoin d’être « nourri » à partir d’une base de donnée précise (et forcément limitée) : en parcourant le web, le programme visualise un nombre illimité d’images de toute nature, et déduit la suite logique des pixels.

Ce faisant, il s’affranchit de l’une des failles principales du machine learning : trop souvent, l’application dispose d’images peu variées… au risque de reproduire certains stéréotypes.

Ceci représente un grand pas pour l’IA. En effet, le fonctionnement autonome (ou unsupervised machine learning) représente l’un des défis les plus difficiles à relever dans le domaine de l’intelligence artificielle.

Face Depixelizer : transformer des images pixelisées en véritables photos grâce à l’intelligence artificielle

Les limites d’iGPT

Cette nouvelle application du machine learning pourrait s’avérer très utile pour la photographie… mais pas seulement. Si un ensemble d’images a été abîmé, l’IA devrait permettre de les reconstituer rapidement et à moindre frais. Naturellement, l’objectif de ce mécanisme n’est pas d’imaginer une nouvelle image, mais de tenter de répliquer l’image d’origine le plus fidèlement possible.

Ce nouveau mécanisme d’IA semble extrêmement prometteur, et les champs d’application de cette technologie n’en sont qu’à leurs premiers balbutiements. OpenAI vient d’ailleurs de lever le voile sur GPT-3, troisième itération de son IA d’autocomplétion. Encore plus puissante que la version 2 (sur laquelle était basée iGPT), l’IA parcourt les milliards de textes disponibles sur Internet et peut ainsi répondre instantanément répondre à une question, analyser des structures complexes du langage, écrire du code informatique et même de la musique.

I made a fully functioning search engine on top of GPT3.

For any arbitrary query, it returns the exact answer AND the corresponding URL.

Look at the entire video. It's MIND BLOWINGLY good.

cc: @gdb @npew @gwern pic.twitter.com/9ismj62w6l

— Paras Chopra (@paraschopra) July 19, 2020

Malgré tout, iGPT pose quelques questions. Ainsi, il risque d’intégrer une conception préétablie d’associations qui peuvent limiter le résultat final : l’association du marron et du vert a de fortes chances de suggérer un arbre, par exemple. Au-delà, iGPT risque potentiellement de faciliter la fabrication de Deep fakes, ces images truquées ultra-réalistes. Certains experts redoutent également l’arrivée de vidéos « deep fakes », générées en quelques secondes seulement.

Comme souvent avec l’IA, les possibilités offertes par GPT sont aussi intéressantes qu’illimitées. L’utilisation du machine learning non-supervisé ouvre de nouvelles portes pour la conception d’une intelligence artificielle plus efficace, au fonctionnement analogue à celui du cerveau humain. Mais en termes d’usages, la plus grande vigilance s’impose afin que ces mécanismes ultra-novateurs ne servent pas à la désinformation.

Guide d’achat photo 2025 : les meilleurs appareils photo hybrides APS-C et Micro 4/3

Guide d’achat photo 2025 : les meilleurs appareils photo hybrides plein format

Guide d’achat photo 2025 : les meilleurs smartphones photo

Guide d’achat photo 2025 : les meilleurs compacts experts

Oasis et clause abusive sur les droits photo : les agences boycottent la tournée du groupe

Rachida Dati veut un Musée national de la photographie à Arles

Josef Koudelka, Next : biographie d’un maître de la photographie du XXe siècle

Test Tamron 16-30 mm f/2,8 Di III VXD G2 : zoom grand-angle performant et léger

Sony RX1R III : le compact expert plein format que tout le monde espérait depuis 10 ans ?

Une caméra immersive Blackmagic derrière Emmanuel Macron pour le défilé du 14 Juillet

Comment réussir ses photos de feux d’artifice : guide complet pour des clichés spectaculaires

MP #218 : la qualité d’image de mes photos se dégrade-t-elle à chaque copie ? Entres mythes et réalités

Lundi Basique : comment faire des photos moches ?

iGPT : un nouveau mécanisme d’IA capable de reconstituer une image à partir de quelques pixels seulement

Une étape supplémentaire franchie pour l’intelligence artificielle

iGPT : des résultats surprenants de réalisme

Vers l’autonomie du machine learning

Les limites d’iGPT

Ricoh lance GR World, une nouvelle application mobile pour ses compacts GR

Nik Collection 8.1 : DxO peaufine sa suite et offre PhotoLab ou ViewPoint

Evoto AI : retouche photo portrait en un clic pour optimiser votre flux de travail (offre spéciale été)

Concours photo « La plus belle vue de Paris » : exposez vos clichés à l’Observatoire Paris Montparnasse

Zoom photographe : Todd Hido, l’Amérique mélancolique en images

Test Tamron 16-30 mm f/2,8 Di III VXD G2 : zoom grand-angle performant et léger

Concours photo « La plus belle vue de Paris » : exposez vos clichés à l’Observatoire Paris Montparnasse

Zoom photographe : Todd Hido, l’Amérique mélancolique en images

Test Tamron 16-30 mm f/2,8 Di III VXD G2 : zoom grand-angle performant et léger

iGPT : un nouveau mécanisme d’IA capable de reconstituer une image à partir de quelques pixels seulement

Une étape supplémentaire franchie pour l’intelligence artificielle

iGPT : des résultats surprenants de réalisme

Vers l’autonomie du machine learning

Les limites d’iGPT

Inscrivez-vous à la newsletter Phototrend