Ces parties du corps humain qui défient l’IA générative

Midjourney, Stable Diffusion, DALL-E 2,… Ces générateurs d’images par intelligence artificielle ont percé depuis plusieurs mois grâce à la qualité des images produites, totalement factices et pourtant parfois très vraisemblables. Un problème subsiste néanmoins : le réalisme de certaines parties du corps humain laisse encore à désirer. Pourquoi sont-elles si difficiles à générer ? La réponse est en fait assez simple.

Avez-vous déjà demandé à une intelligence artificielle de produire une main humaine, un pied ou une personne qui sourit ? À l’heure actuelle, cette demande pourrait sembler facile pour une IA. Et pourtant. 

L’anatomie humaine, encore difficile à comprendre pour une intelligence artificielle

Chaque jour, les générateurs d’images par intelligence artificielle continuent de nous bluffer. Sur les réseaux sociaux, nombreux sont ceux à tester celui ou celle qui saura reconnaître la vraie photo d’une image créée via IA, ou tout simplement à lancer des rumeurs ou des fake news grâce à des images trompeuses — mais parfois très réalistes.

Après avoir été dupé(e) quelques fois, on se rend compte que certains détails permettent de facilement démêler le vrai du faux. Une main à 6 doigts et plus, des dents presque à l’infini ou quasiment en dehors de la bouche, des pieds biscornus,… Au-delà d’une peau en général extrêmement lisse sur les images générées par l’IA, ces trois éléments ratés de l’anatomie humaine peuvent même en devenir ridicules. Mais pourquoi ?

L’auteur de ce tweet (@mileszim) a testé les performances de Midjourney.
Résultat surprenant, sauf lorsqu’on regarde les mains et les dents. / Capture écran Twitter

Comme l’explique Amelia Winger-Bearskin, artiste et professeure agrégée d’IA et d’arts à l’Université de Floride, dans un article de BuzzFeedNews, la raison est en fait assez simple : l’intelligence artificielle ne connaît pas encore bien le corps humain et les différents liens entre chaque partie du corps. En effet, elle explique que l’IA génère des images grâce à des données qu’elle possède.

Alors qu’un visage ou une paire de chaussures sont souvent bien visibles sur les photos que l’on peut trouver n’importe où, c‘est moins le cas pour les mains, les pieds ou les dents : les mains ne sont généralement pas posées ou montrées à plat par exemple, idem pour les pieds. En ce qui concerne les dents, elles ne sont pas suffisamment bien exposées, même lorsqu’on sourit ou rit aux éclats. 

Pour l’IA, la reconstitution s’avère à ce moment très difficile car des parties du corps comme les mains ou les pieds sont des éléments plus complexes et souvent rattachés à une personne ou un objet dans les représentations (des milliards d’images extraites du web) que possèdent l’intelligence artificielle. Conséquence : le générateur d’images par IA rate très souvent ces parties du corps. 

La dernière version de Midjourney nettement améliorée

Alors que l’on pouvait se réjouir de pouvoir facilement différencier deux images — une vraie d’une fausse — sur les réseaux, Midjourney a annoncé sa V5 à la mi-mars. Pour certains, comme Julie Wieland, graphiste et utilisatrice régulière du programme d’IA, cette mise-à-jour « donne actuellement l’impression d’avoir enfin des lunettes après avoir ignoré la mauvaise vue pendant un peu trop longtemps ». Cet article d’Ars Technica montre l’évolution de Midjourney entre sa V3 et sa V5, avec des séries d’images générées par Julie Wieland. C’est bluffant.

Une comparaison entre la V3 de Midjourney (à gauche), la V4 (au centre) et la V5 (à droite) avec le texte « un barbare musclé avec des armes à côté d’un téléviseur CRT, cinématographique, 8K, éclairage de studio », réalisée par Julie Wieland.

Au-delà de la résolution de l’image et de l’amélioration des détails, les premières réactions semblent unanimes : la texture de la peau et les traits du visage sont plus réalistes (on pouvait remarquer l’aspect « plastique » des visages dans les versions précédentes), les éclairages sont mieux gérés et… les mains ont désormais 5 doigts, au lieu de 6, 7, voire plus.

Sur Twitter, Del Walker incite à être très critique vis-à-vis des images qui circulent. / Capture écran Twitter

Del Walker alerte sur Twitter : « Juste un avertissement – l’IA de Midjourney peut maintenant faire les mains correctement. Soyez très critique à l’égard de toute imagerie politique (en particulier la photographie) que vous voyez en ligne et qui tente de susciter une réaction« , avant de rappeler que « la mauvaise chose à faire est de dire « regardez les mains » ou « vérifiez les dents ».

Cette photographie IA n’existe que depuis environ 4 mois. Dans 2 ans, ce sera indiscernable. La bonne chose à se demander est « Cette photo cite-t-elle de vraies sources ? Pouvons-nous prouver l’origine de cette image ?« . On peut en effet observer une belle amélioration du générateur d’images américain, mais la bizarrerie reste perceptible. Un rappel essentiel cependant, afin d’éviter de se faire dominer par la désinformation - aussi probable que soit la fake news en question, comme les photos d’Emmanuel Macron de plus en plus récurrentes sur la twittosphère.