Reconstituer une image entière à partir d’un fragment incomplet, grâce à l’intelligence artificielle. Voici la prouesse de chercheurs du laboratoire OpenAI, basé à San Francisco. Nommée iGPT, cette solution prometteuse permettrait de retrouver des portions d’images abîmées ou perdues. Retour sur ce nouveau mécanisme d’IA novateur.
Une étape supplémentaire franchie pour l’intelligence artificielle
Le programme d’intelligence artificielle GPT-2 avait brillamment réussi en février dernier à concevoir et rédiger un essai cohérent grâce à son algorithme textuel. De prime abord, il ressemble à un mécanisme d’autocomplétion, semblable à la barre de recherche de Google : entrez le début d’une phrase, et le programme se charge de créer une suite cohérente, aussi bien au niveau du contenu que du style.
Pour aller plus loin, les chercheurs d’OpenAI ont cherché à utiliser ce mécanisme d’autocomplétion pour des images. Renommé iGPT, le programme est ainsi parvenu à effectuer ses prédictions grâce à quelques pixels seulement. Le but : générer une photographie complète à partir d’une section de l’image.
Sur les exemples ci-dessous, la colonne de gauche correspond aux images présentées au mécanisme d’IA – et dont la moitié inférieure est manquante. La colonne de droite montre l’image d’origine (non tronquée). Enfin, les images du milieu sont autant de propositions générées par l’IA dans sa tentative de « compléter » la moitié basse de l’image.
iGPT : des résultats surprenants de réalisme
La lecture des pixels de photos en deux dimensions permet au programme d’offrir une représentation plausible d’une photographie à partir de la moitié de l’image originale. Animaux, toiles de maître, architecture, paysages mais aussi aliments et drapeaux ont été reconstitués avec succès par iGPT. Le logiciel propose plusieurs versions de l’image, toutes s’approchent relativement près de la photo initiale.
Vers l’autonomie du machine learning
Pour parvenir à ce résultat, les chercheurs d’OpenAI ont « nourri » le programme de millions d’images disponibles sur Internet. Mais contrairement à bon nombre d’initiatives similaires, iGPT exploite le machine learning non-supervisé.
Fonctionnant en toute autonomie, le programme GPT n’a pas besoin qu’un humain applique manuellement des tags pour indiquer à l’IA la nature de l’image (un chien, un arbre, une voiture, etc). Ainsi, le GPT n’a pas besoin d’être « nourri » à partir d’une base de donnée précise (et forcément limitée) : en parcourant le web, le programme visualise un nombre illimité d’images de toute nature, et déduit la suite logique des pixels.
Ce faisant, il s’affranchit de l’une des failles principales du machine learning : trop souvent, l’application dispose d’images peu variées… au risque de reproduire certains stéréotypes.
Ceci représente un grand pas pour l’IA. En effet, le fonctionnement autonome (ou unsupervised machine learning) représente l’un des défis les plus difficiles à relever dans le domaine de l’intelligence artificielle.
Les limites d’iGPT
Cette nouvelle application du machine learning pourrait s’avérer très utile pour la photographie… mais pas seulement. Si un ensemble d’images a été abîmé, l’IA devrait permettre de les reconstituer rapidement et à moindre frais. Naturellement, l’objectif de ce mécanisme n’est pas d’imaginer une nouvelle image, mais de tenter de répliquer l’image d’origine le plus fidèlement possible.
Ce nouveau mécanisme d’IA semble extrêmement prometteur, et les champs d’application de cette technologie n’en sont qu’à leurs premiers balbutiements. OpenAI vient d’ailleurs de lever le voile sur GPT-3, troisième itération de son IA d’autocomplétion. Encore plus puissante que la version 2 (sur laquelle était basée iGPT), l’IA parcourt les milliards de textes disponibles sur Internet et peut ainsi répondre instantanément répondre à une question, analyser des structures complexes du langage, écrire du code informatique et même de la musique.
I made a fully functioning search engine on top of GPT3.
For any arbitrary query, it returns the exact answer AND the corresponding URL.
Look at the entire video. It's MIND BLOWINGLY good.
cc: @gdb @npew @gwern pic.twitter.com/9ismj62w6l
— Paras Chopra (@paraschopra) July 19, 2020
Malgré tout, iGPT pose quelques questions. Ainsi, il risque d’intégrer une conception préétablie d’associations qui peuvent limiter le résultat final : l’association du marron et du vert a de fortes chances de suggérer un arbre, par exemple. Au-delà, iGPT risque potentiellement de faciliter la fabrication de Deep fakes, ces images truquées ultra-réalistes. Certains experts redoutent également l’arrivée de vidéos « deep fakes », générées en quelques secondes seulement.
Comme souvent avec l’IA, les possibilités offertes par GPT sont aussi intéressantes qu’illimitées. L’utilisation du machine learning non-supervisé ouvre de nouvelles portes pour la conception d’une intelligence artificielle plus efficace, au fonctionnement analogue à celui du cerveau humain. Mais en termes d’usages, la plus grande vigilance s’impose afin que ces mécanismes ultra-novateurs ne servent pas à la désinformation.