Imagen : une IA de Google qui génère des photos très réalistes à partir de simples textes

Dans le cadre de son programme Google Brain, le géant américain présente Imagen, un projet basé sur l’intelligence artificielle capable d’illustrer un texte écrit par une photo ultra réaliste (text-to-image). Un certain nombre de détails liés aux résultats de l’intelligence artificielle ont été dévoilés par les acteurs du projet et il faut avouer que les images générées par l’IA offrent un réalisme bluffant. Voici l’essentiel à savoir sur cette IA révolutionnaire.

Imagen, l’outil pour transformer vos plus belles idées en images

Pour fonctionner, Imagen tient compte de tous les détails fournis à l’écrit. Sur cette page web qui nous en apprend plus sur le programme en question, il a été dévoilé plusieurs échantillons qui prouvent la puissance d’Imagen.

Il est possible d’apercevoir, entre autres, des images hors du commun jumelées à des textes grâce auxquels elles ont été créées. Plus intéressant encore, il faut noter que même les idées les plus surréalistes sont illustrées avec une très grande fidélité. Imagen constitue donc un hub pour ceux qui ont une imagination débordante.

Une photo d’un raton laveur portant un casque d’astronaute, regardant par la fenêtre la nuit. (Crédits Google)

Une photo d’un raton laveur portant un casque d’astronaute, regardant par la fenêtre la nuit. ( Crédits Google)

Ainsi, avec cette IA, de simples écrits suffisent pour créer des images comparables à celles d’un logiciel spécialisé en montage photo. De plus, aucune compétence en graphisme n’est nécessaire pour utiliser l’IA.

Il faut savoir qu’Imagen tient compte de tous les styles d’images en faisant preuve d’une compréhension très poussée. Cela étant dit, précisons que Google ne dément pas avoir obtenu quelques résultats flous. Par contre, les images qui ont été dévoilées sur le site web vous aideront à mesurer la portée du programme.

Une galerie d’art exposant des peintures de Monet. La galerie d’art est inondée. Des robots font le tour de la galerie d’art à l’aide de planches à pagaie. (Crédits Google)

Comment fonctionne donc l’IA de Google Brain ?

Sur cette page destinée à présenter le projet, Google ne donne pas tous les détails du programme. Ceux-ci sont disponibles sur la plateforme arXiv. Google a laissé comprendre que l’IA utilise des modèles de langage pour cerner l’idée cachée dans un texte.

Aussi, pour reproduire les images avec une fidélité notable, ce sont des modèles de diffusion qui sont sollicités. La transformation du texte est quant à elle gérée par un grand encodeur T5-XXL comme le précise l’équipe de développeurs. L’image générée, de 64×64 px, passe ensuite par deux modèles de diffusion « Super resolution » pour sur-échantillonner l’image, qui passe à 256×256 puis à 1024×1024 pixels. Une architecture plus performante a été, par ailleurs, introduite pour obtenir une vitesse de calcul rapide. Dénommée Efficient U-Net, elle optimise la gestion de la mémoire.

Une IA qui prend le dessus sur ses concurrents

Il convient de préciser que Google n’a pas inventé le concept text-to-image, mais l’a plutôt rendu plus performant. Ce qui signifie que des programmes du même type étaient déjà disponibles.

On dénote entre autres : VQ-GAN+CLIP, Latent Diffusion Models et DALL-E 2 avec lesquels des comparaisons ont même été faites. La nouvelle IA Google aurait obtenu de meilleurs résultats en se basant sur 2 modes d’évaluation.

Pour confirmer cette puissance, un autre test a été effectué sur DrawBench, puis un dernier sur Benchmark (qui se base sur des évaluations humaines). Sans surprises, Imagen s’est illustré comme le programme le plus apprécié sur tous les points.

Imagen sera-t-elle disponible au grand public ?

Une version démo limitée à quelques mots est disponible actuellement sur le site de Google. Mais le déploiement général et une publication du code source ne sont pas pour le moment à l’ordre du jour. Encore que I’utilisation grand public d’Imagen soulève des problèmes éthiques face à une situation sociale contrastée.

Dans une société où les discriminations et préjugés sont encore très présents, un tel programme peut contribuer à accentuer ces phénomènes. Une mauvaise utilisation est prévisible et elle pourrait être pesante pour les minorités marginalisées. Google avoue qu’Imagen fonctionne déjà avec certains stéréotypes.

Pour tout vous dire, le programme a des préférences pour les personnes au teint clair et pour le mode de vie occidental. Imagen prend également en compte toutes les données disponibles sur le web sans les filtrer, ce qui pourrait donner plus de crédit aux fake news ou aux messages violents. Pour toutes ces raisons pertinentes, l’utilisation publique d’Imagen n’est pas encore au programme.