En août dernier, Google lançait un pavé dans la mare en intégrant son nouveau modèle Gemini 2.5 Flash Image à son chatbot Gemini. Surnommé « nano-banana » en interne, ce moteur permet de manipuler n’importe quelle image à sa guise. À tel point que certains le présentent comme une solution capable de remplacer Photoshop. Décryptage.

Sommaire
- Gemini 2.5 Flash Image « nano banana » : la modification d’images à la portée de tous
- Des résultats bluffants en quelques secondes
- Quelques aberrations et hallucinations persistent
- Un bridage sans doute nécessaire
- Gemini, vrai remplaçant de Photoshop ? Pas tout à fait
- Un jouet virtuel… aux enjeux bien réels
Gemini 2.5 Flash Image « nano banana » : la modification d’images à la portée de tous
Paris, un samedi matin comme les autres. Julie examine son reflet dans le miroir, et se dit qu’elle irait bien chez le coiffeur. Elle essaye différents styles : cheveux lisses, permanente, dreadlocks, coupe au bol. Et différentes couleurs. Et pourquoi pas un piercing, également ?



À part que Julie n’a pas bougé de chez elle. Car elle a fait appel à « nano-banana », dernière version du moteur de génération d’image de Gemini. Lancé initialement en mars 2023, cette plateforme d’intelligence artificielle est la réponse de Google à ChatGPT. Elle est intégrée nativement sur la majorité des smartphones Android – et peut être téléchargée depuis l’App Store sur iOS et iPadOS.

Le principe est tout simple. L’utilisateur peut générer une photo de toute pièce. Mais aussi (et surtout) demander à l’IA de modifier une photo existante. Une fois la photo uploadée, il suffit d’entrer la requête de son choix et d’appuyer sur Entrée. L’image est générée en une dizaine de secondes seulement.

Des résultats bluffants en quelques secondes
Si la création/modification d’images était déjà disponible dans Gemini (avec des résultats plutôt décevants), les progrès accomplis avec le modèle Gemini 2.5 Flash Image sont assez bluffants. Sur la photo ci-dessous, l’IA a parfaitement identifié quelles zones de l’image devaient être modifiées.


De même, la colorisation d’une image en noir et blanc en peut donner d’excellents résultats. Les tons de peau, la couleur des cheveux et des accessoires sont très réalistes.


Lors du lancement de la plateforme, nombreux ont été les internautes à changer de coupe de cheveux (pour de faux). L’outil s’avère toujours aussi impressionnant… mais on observe çà et là quelques petites irrégularités au niveau de la position et de la forme du visage. La répétition exacte du faciès d’une itération à une autre reste encore perfectible.



Nous avons aussi utilisé Gemini pour changer la couleur de l’arrière-plan et du chandail du modèle sur la photo. Une opération particulièrement courante dans le milieu de la mode ou de la publicité. Et force est de constater que la manipulation est aussi simple qu’efficace. Plus besoin de détourer le sujet, ni de jouer avec des masques de fusion. À la clé, un net gain de temps et d’efficacité… qui pose aussi un certain nombre de questions (voir plus loin).



Pour aller plus loin, nous avons demandé à Gemini d’effectuer des changements en profondeur sur l’image. Remplacer un gai pinson par un hibou grand-duc ? Aucun souci. Ajouter un soleil couchant, un avion en train de décoller et une danseuse sur une photo d’architecture ? Un jeu d’enfant. Un TGV dans un paysage volcanique ? Une galéjade.






Plus compliqué (en apparence), l’IA a réussi à enlever la pancarte et de changer le pantalon par une robe à la photo ci-dessous. Gemini s’acquitte de la tâche sans broncher – et a même rendu la personne non-fumeuse – sans notre consentement !


Toujours plus fort, le moteur permet de changer l’inscription sur l’éventail – tout en gardant (presque) la même police d’écriture et la rotation du texte. Et même de « recréer » le visage de la personne masquée par l’éventail.



Quelques aberrations et hallucinations persistent
Si « nano-banana » est particulièrement probant, tout n’est pas parfait pour autant. Ainsi, la fusion de deux éléments reste encore assez compliquée pour l’IA, qui peine parfois à comprendre certaines requêtes. Ainsi, Gemini 2.5 Flash Image n’est pas parvenu à placer le logo Air France derrière la structure de la passerelle, et n’a pas conservé les proportions de la photo d’origine, malgré nos demandes répétées.

Si le remplacement d’un objet par un autre donne de très bons résultats, certaines demandes génèrent des images assez… étranges. Comme un mix bizarre entre deux trams, ou un « tram de marchandises » plutôt déroutant.




De même, le moteur ne peut s’empêcher de « réinterpréter » le sujet de l’image lorsqu’on lui demande de le « transférer » sur une autre. Sur l’exemple ci-dessous, le TGV ajouté dans ce paysage de la 2e photo n’est pas celui présent sur le 1er cliché.


Sur l’exemple ci-dessous, lorsque nous avons demandé à Gemini de rajouter plus de Porsche, l’IA a repositionné la voiture de la photo d’origine. Bizarre. En revanche, le changement de bâtiments à l’arrière-plan est toujours aussi efficace.



L’alignement des éléments peut être aussi compliqué : sur l’exemple ci-dessous, le TGV « flotte » sur le quai – même si la position des roues sur le rail est parfaitement correcte, il est vrai.

Un bridage sans doute nécessaire
Sans grande surprise, Gemini possède quelques garde-fous. Ainsi, il n’est pas possible d’ajouter le visage d’une personnalité publique sur une image. De même, les modifications physiques des personnes sont limitées, on ne peut pas affiner, grossir le visage sur une photo de portrait, ou encore modifier des parties du corps. L’ajout de scènes de guerre n’est pas permis. La nudité est prohibée.

Derrière ces limitations, Google (et ses concurrents) cherche sans doute à limiter les dérives de son moteur de génération d’images. Et d’empêcher la prolifération de deep-fakes. D’ailleurs, le petit filigrane de Gemini ne peut être retiré – même s’il est toujours possible de le faire via une autre IA, ou simplement de recadrer…
Mais ces inhibitions de l’IA semblent bien timides. Et il paraît illusoire de croire que Google pourra réellement empêcher la prolifération de fake news ou de deep nudes, phénomènes déjà bien installés hélas.
Gemini, vrai remplaçant de Photoshop ? Pas tout à fait
Quelques esprits chagrins argueront que de telles opérations et n’ont rien de nouveau. Et que les manipulations d’image n’ont pas attendu l’IA ou Photoshop pour exister. Mais auparavant, parvenir à un résultat réaliste et crédible nécessitait des compétences très poussées – et un très grand nombre d’étapes. De fait, l’IA accélère le processus… et le met à la portée du commun des mortels.
Pour autant, ces outils peuvent-ils réellement remplacer Photoshop pour un usage professionnel ? Pour le changement d’éléments dans l’image, il est évident que oui. Néanmoins, l’IA ne crée pas de calques d’images ! Ainsi, impossible d’ajuster précisément la position et la taille de chaque élément dans le cadre.

Évidemment, on peut demander à l’IA de le faire, mais cela reste toujours moins précis. Cela dit, certains smartphones (ceux de Samsung, notamment), permettent d’effectuer ces opérations directement depuis l’écran du smartphone. Ce qui montre qu’il s’agit simplement de l’étape suivante en matière d’édition d’image.


On retiendra aussi (et surtout) que plusieurs marques ont récemment fait parler d’elles en concevant des campagnes de pub entièrement générées à l’IA. Certains ont été prompts à remarquer que les « vrais-faux » mannequins correspondent parfaitement aux standards de la beauté blanche. D’autres analystes ont noté, de manière plus alarmante, que cette nouvelle méthode contourne totalement l’écosystème faisant appel aux mannequins (humains), photographes et graphistes…

À court terme, l’IA va-t-elle remplacer ces différents métiers ? « Notre valeur ajoutée est d’avoir toujours un temps d’avance pour nos clients », explique Nicolas Benistan, directeur de l’agence de création graphique parisienne TWID. « En fait, l’IA fait monter le niveau. Pour la réalisation d’un visuel, d’une vidéo, d’un site Internet, le niveau doit être plus élevé qu’il y a quelques années. En revanche, pour avoir toujours un temps d’avance, le fait d’avoir des idées permet toujours de faire la différence ».
Un jouet virtuel… aux enjeux bien réels
Dans l’esprit du grand public, les moteurs de génération d’images ChatGPT, Gemini ou Grok s’apparentent à un simple jouet, dont les seules limites sont l’imagination et la créativité de l’utilisateur.
Mais il ne faudra en aucun cas oublier les enjeux bien réels de ces plateformes. On pense notamment aux questions écologiques (liées à la production de l’électricité qui font tourner les data centers, notamment). La question du coût est également centrale. Pour l’heure, Google propose gratuitement la plupart de ses outils, car la firme cherche à imposer sa plateforme auprès du grand public face aux solutions concurrents. Mais à terme, il est probable que l’utilisation des fonctions avancées nécessite un abonnement, qui forcément sera payant. Reste à savoir à quel prix.

Mais au-delà, à qui appartiennent les images générées – et celles ayant été uploadées sur la plateforme ? À ce sujet, Google précise que toutes les images téléversées pas les utilisateurs pourront être utilisés pour entraîner ses modèles d’IA. Se pose également la question bien réelle de la provenance des images ayant servi à l’entraînement du modèle. Dans bien des cas, elles ont simplement été « aspirées » depuis Internet, sans considération pour le droit d’auteur…

Un autre sujet concerne la multiplication exponentielle des images ainsi générées. Car au fur et à mesure que les utilisateurs se servent de ces outils, le Web est envahi par des photos générées par l’intelligence artificielle. Au détriment des vraies photos. À tel point que certains théorisent déjà le « Dead Internet », où le Web deviendrait peu à peu un vaste désert, peuplé de contenus à faible ajoutée créés par l’IA… à partir de productions bien humaines.

Derrière l’apparence de magie, la réalité est beaucoup plus concrète. Le modèle est entraîné à partir d’un dataset ; pour chaque requête, la machine effectue un calcul de probabilités, qui détermine quel pixel est le plus probable dans la chaîne d’assemblage visant à constituer une image photoréaliste.
Au final, faut-il donc vraiment se réjouir des avancées de l’intelligence générative ? Comme dans bien des domaines, la réponse s’avère particulièrement nuancée. Et il convient avant tout d’être bien conscient des enjeux avant de tomber dans un angélisme béat.