Comment l’IA transforme notre appareil photo en méta-vision ?

Et si notre appareil photo n’était pas fait que pour prendre des couchers de soleil ou des selfies ? C’est à l’aune d’un article intéressant publié sur le blog de Google à l’occasion de l’anniversaire de Google Lens que nous allons tenter de répondre à cette question un brin provocatrice.

Nous, photographes, sommes très fiers d’avoir dans notre smartphone des photos superbement réalisées avec celui-ci, des paysages, des portraits, des photos de nos amis, de nos enfants. En outre, il s’avère que les caractéristiques photographiques sont parmi les points les plus décisifs dans l’acte d »achat d’un nouveau terminal.

Un bon impressionnant des performances photo de nos smartphones

Une simple photo pense-bête.

Si nous avons fait notre deuil de la petitesse des capteurs et que pour beaucoup la tentative de capteur 1 pouce proposé par Panasonic et son CM1 reste un lointain souvenir, force est de reconnaître que les performances photographiques des smartphones ont fait un bon qualitatif ces dernières années et qu’aussi exigeants que nous voulons l’être, les résultats sont globalement satisfaisant. En tout cas, le smartphone répond à bien des usages, à beaucoup de situations et surtout s’est fait sien l’adage qui veut que le meilleur appareil photo est celui que l’on a toujours sur soi.

Ainsi, dans notre smartphone il y a bien les photos de vacances, les photos de famille et des dizaines de selfies mais … on trouvera aussi le numéro de la place de parking que l’on a peur d’oublier, la couverture d’un livre qui nous a tapé dans l’œil et même des photos d’écran pour se souvenir d’une url ou suivre un colis ! Le stockage étant peu cher et les smartphones nous suivant à peu près partout, nous prenons de plus en plus de photos et de choses de plus en plus variées.

Le smartphone comme pense-bête photo

Si évidement notre âme de photographe nous oblige à capturer des moments inoubliables un bon 15% de nos photos n’est en fait rien d’autre qu’un gigantesque pense-bête. Mais cette attitude n’a rien d’illogique. L’être humain est un être « regardant » et 30% des neurones de notre cortex servent à la vision. C’est sur la vision que nous comptons avant tout pour nous renseigner sur notre environnement et lui donner un sens. Même si les mémoires sensorielles sont très développées c’est souvent à la mémoire visuelle que nous faisons appel en premier pour nous rappeler une information.

Quant l’appareil photo n’est qu’une extension de notre mémoire…

La façon dont nous utilisons notre appareil photo a évolué mais cela s’est accompagné aussi de profonds changements dans le développement des moteurs de traitement de l’information liés à l’image et l’apparition de ce que nous appelons désormais communément l’IA. Selon Wikipedia, « l’IA est l’ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l’intelligence » .

Capturer l’image et comprendre

En photo, cela se traduit par la capacité de notre smartphone à comprendre la photo qu’il a prise, si c’est un portrait, un paysage, une photo de nuit et à y appliquer le traitement adéquat. Il ne s’agit pas ici de simplement comparer la photo prise avec une banque d’images enregistrées dans la mémoire de l’appareil photo pour appliquer le bon réglage mais bien à lire la scène photographiée pour optimiser la photo : accentuer les couleurs sur un paysage ou créer un flou d’arrière-plan pour un portrait.

Les smartphones commencent à recréer du bokeh …mais c’est encore hésitant et artificiel.

Si les smartphones actuels marquent encore le pas en termes de réalisme au niveau du rendu, force est de constater que les efforts réalisés sont surprenants et qu’on obtient de plus en plus des résultats intéressants qui tendent à s’approcher de ce que l’on pourrait obtenir avec un diaphragme largement ouvert ou une optimisation sous Lightroom. Nous sommes loin encore de ce réaliste bokeh propre à la photographie, surtout au niveau de la transition net-flou, c’est indéniable, mais il y a une direction qui est donnée et elle est intéressante.

Un autre point notable est que l’IA ne sert pas qu’à la photo et qu’à partir du moment où la lentille de notre smartphone « lit » le monde qui l’entoure, elle pourrait bientôt être en mesure de le comprendre. C’est d’ailleurs ce qu’a montré Google récemment en postant une photo de chien que le smartphone est capable d’identifier automatiquement au moment de la vue. Google Lens a identifié le chien comme un Shiba Inu et ce, grâce au Machine Learning et à la photographie computationnelle. La photographie computationnelle se réfère à des techniques de capture d’images et de traitement numériques qui utilisent le calcul numérique à la place de procédés optiques.

A l’aune d’une reconnaissance universelle ?

Google Lens identifie cette lampe comme une courge …

Une fois le tas de pixels que représente le chien identifié, Lens lance des milliers de requêtes et les compare afin d’obtenir le bon résultat. Si évidement il y a des ratés (l’article fait état d’une lampe identifiée comme une courge) nous n’en sommes qu’au début et surtout ce que cela augure est particulièrement intéressant, n’en déplaise aux complotistes qui s’insurgent contre Big Brother.

Souvent, ce que nous voyons dans notre vie de tous les jours est assez différent des images sur le Web utilisées pour former des modèles de vision par ordinateur. Nous pointons nos caméras sous différents angles, à différents endroits et sous différents types d’éclairage. Et les sujets de ces photos ne restent pas toujours immobiles. Leurs photographes non plus. Cela fait trébucher l’IA mais en amassant de plus en plus de données et en créant des algorithmes correspondants, les réseaux neuronaux artificiels apprennent de plus en plus.

Le champ d’application est large et laisse augurer des possibilités infinies s’inspirant non pas d’une réalité augmentée mais d’une réalité « computationnallisée » avec par exemple la possibilité de pointer son smartphone vers une carte de visite et le contact serait directement enregistré , ou encore la possibilité de pointer vers une recette et obtenir directement une liste de courses.

Pour apprendre à Lens à lire, Google a développé un moteur de reconnaissance optique de caractères (OCR) et le combine à la compréhension du langage et de l’image. Google forme alors des algorithmes en utilisant différents caractères et modèles de correction orthographique pour corriger des fautes. Ce moteur permet à Lens d’être capable de lire et d’identifier plus d’un milliard de produits.

Cependant nous ne recherchons pas toujours à identifier des choses mais parfois à s’en inspirer ou à contempler. Là encore Google surprend avec la capacité de Lens à pouvoir identifier via une recherche de style en pointant l’appareil photo sur une tenue ou une décoration d’intérieur. Il sera possible d’obtenir des suggestions d’articles par exemple dont le style est similaire ou même des critiques ou des conseils sur le produit pointé.

Google Trad traduit à la volée ce qu’il lit…

La suite de tout ces développements se dessinera dans les années à venir mais ce qui est à peu près certain c’est que si les smartphones ou les ordinateurs commencent à voir comme nous le faisons, l’appareil photo deviendra une interface puissante et intuitive avec le monde qui nous entoure. Google Translation propose déjà une traduction en temps réelle lorsque l’on pointe l’appareil du smartphone vers une phrase en langue étrangère, mais les résultats restent encore assez aléatoires et changent sous nos yeux. L’application Evernote aussi propose un système de numérisation de carte de visite pour enregistrer un contact mais là aussi, le système ne fonctionne qu’avec des cartes au graphisme simple et sur un fond bien contrasté. Nous sommes au début de la reconnaissance de notre environnement mais le développement technologique accélère grandement les possibilités.

Le smartphone deviendra-t-il notre chien d’aveugle sur le chemin de la connaissance ? En tout cas avec le développement de l’IA il pourra être, si ce n’est pas déjà le cas, non seulement une extension de notre mémoire « vive » mais aussi, grâce à son appareil photo, un objet de méta-vision.