Lors de la capture d’un selfie, comment déterminer le moment idéal pour réaliser la photo parfaite ? Pour répondre à cette question, Google vient de dévoiler une nouvelle version de son mode de déclenchement automatisé, nommé Photobooth, qui devrait prochainement faire son apparition au sein de l’application photo des Google Pixel 3. Grâce à Photobooth, plus besoin d’appuyer sur le déclencheur : l’IA le fait pour vous même pour les photos de groupe.
Les Google Pixel et la photographie computationnelle
Lors de l’annonce des Google Pixel 3, en novembre dernier, la firme californienne confirmait son avancée sur le terrain de la photographie computationnelle. En utilisant la puissance de ses algorithmes, les smartphones de la marque sont capables de repousser les limites de leur appareil photo. Notamment avec le mode Night Sight, qui permet d’obtenir des photos de nuit d’une qualité inégalée en combinant un grand nombre de photos capturées à des vitesses d’obturation très lentes.
Photobooth : l’avènement des selfies automatisés
Dans un récent post de blog, Google confirme ses travaux en matière de photographie automatisée. La firme de Moutain Park a récemment lancé les Google Clips, une mini-caméra qui s’accroche à sa boutonnière et qui capture toute seule (grâce à l’IA) les scènes qu’elle juge les plus mémorables. Le nouveau mode Photobooth, qui a fait son apparition au sein de l’application photo des Pixel 3, reprend le même principe de fonctionnement, tout en étant davantage centré sur les selfies de groupe.
Dans la pratique, le fonctionnement de ce mode est enfantin : il suffit d’activer le mode Photobooth, d’appuyer une fois sur le bouton de déclenchement. Une fois l’appareil suffisamment stable, celui-ci prend tout seul une photo dès qu’il détecte que les sujets ont les yeux ouverts et qu’un sourire se dessine sur leurs visages. L’application est également capable de déclencher lorsqu’elle détecte un baiser.
Le prolongement naturel des modes Top Shot et Portrait
Ce nouveau mode Photobooth n’est pas sans analogie avec la fonction « Top Shot » des Google Pixel : cette dernière est conçue pour identifier la meilleure photo d’une série. Elle se rapproche également du mode portrait « classique » des Pixel 3, mais ce dernier est davantage conçu pour tirer parti du capteur dorsal du smartphone.
« Pour construire Photobooth, nous avons été confrontés à trois défis », raconte l’équipe en charge de ce projet. « Tout d’abord, il nous fallait réussir à identifier les éléments constituant une ‘‘photo parfaite’’. Ensuite, il nous fallait savoir comment identifier le meilleur moment pour capturer la photo. Enfin, nous avons dû trouver un moyen pour représenter visuellement le moment où Photobooth s’apprête à prendre la photo ».
Les ingénieurs de Google ont ainsi déterminé cinq expressions faciales susceptibles de déclencher la capture du selfie : lorsque les sujets sourient, tirent la langue, font un duck face, gonflent leurs joues ou ont une réaction de surprise, l’algorithme déclenche automatiquement l’appareil photo. Pour ce faire, Google a « éduqué » un réseau neuronal à classifier ces différentes expressions faciales, afin que l’appareil soit en mesure de déclencher au moment opportun.
Représenter visuellement ce que « voit » l’algorithme de Photobooth
La représentation visuelle de la perception d’une expression faciale par l’IA est une application très intéressante d’UX Design. Une fois le mode Photobooth enclenché, l’algorithme de l’application doit indiquer à l’utilisateur s’il détecte (ou non) une expression faciale intéressante. Si tel est le cas, l’appareil prend plusieurs photos simultanément, et ne garde que celle possédant la meilleure expression faciale (ou s’il détecte un baiser).
Dans la pratique, une fine barre blanche est affichée en haut de l’application. La longueur de cette barre indique ce que voit l’algorithme. Si l’IA ne détecte pas de visage, la barre sera très étroite. Si un visage est détecté mais que l’utilisateur ne regarde pas l’appareil, la barre sera un peu plus large ; si l’utilisateur n’a pas d’expression faciale jugée intéressante (absence de sourire, par exemple), la barre sera légèrement plus large.
Enfin, si les visages détectés regardent bien l’appareil photo et qu’ils ont un sourire ou toute autre expression faciale jugée pertinente, la barre occupe toute la largeur de l’écran et l’appareil prend la photo. Un bref clignotement de l’écran indique à l’utilisateur que la photo a bien été capturée.
Pour Google, ce nouveau mode Photobooth (ainsi que les Camera Clips) ne sont que le début d’une initiative plus globale, qui vise à automatiser la capture de photos afin de ne rater aucun moment intéressant de la vie des utilisateurs. À ce stade, peut-on encore parler photographie (impliquant une vision du photographe) ou de capture d’écran du monde réel ? La question est épineuse et toujours en suspens.