Bientôt, Google pourrait bien vous indiquer à quel endroit telle ou telle photo a été prise, même pour les images dépourvues de coordonnées GPS, comme l’indique Tobias Weyand, spécialiste de la vision assistée par ordinateur chez Google.

Dans le cadre du projet PlaNet dirigé par Weyand, des ingénieurs entraînent une machine à l’aide de méthodes d’apprentissage profond (deep learning) pour qu’elle puisse reconnaître n’importe quel endroit sur Terre à partir d’une simple image.

Comment est-ce possible ? Avant d’être capable de localiser précisément une photo, l’équipe du projet PlaNet a divisé le monde (terrestre et habité) en 26 000 carrés de tailles différentes en fonction du nombre de photos prises à cet endroit. Par exemple, les zones rurales du Canada disposent de carrés plus grands que les villes de New York ou Paris, où plus de photos ont été prises.

carrés

Une fois ce quadrillage créé, l’ordinateur analyse une immense quantité d’images déjà géolocalisées et les place dans ces cadres déjà créés. Pour arriver à « éduquer » la machine, la quantité de données doit être importante : ici on parle de 126 millions d’images dotées de coordonnées GPS.

Pour vérifier ses performances, l’équipe a testé ce réseau neuronal convolutif (convolutional neural network, ou CNN) à l’aide de 2,3 millions d’images géolocalisées issues de Flickr, pour voir si la machine était capable de déterminer le lieu de la prise de vue.

planet

« PlaNet est capable de localiser 3,6% de ces images avec une précision à la rue et 10,1% avec une précision à la ville près », indique Weyland. La machine est également capable de déterminer le pays d’origine pour 28,4% des photos et le continent dans 48% des cas.

Ces chiffres sont impressionnants et bien supérieurs à ce que l’oeil humain est capable de localiser correctement. Et pourtant, nous sommes plutôt bons : en étant inondés d’images chaque jour, nous sommes désormais capables assez facilement de déterminer le lieu ou l’endroit où une photo a été prise, notamment à l’aide de la configuration de la route, des panneaux, de la forme des bâtiments, de la végétation, etc.

Mais l’intelligence artificielle de PlaNet dépasse les humains au jeu des devinettes. En utilisant le site Geoguessr, un jeu dans lequel on vous demande de géolocaliser une photo prise avec Street View, la machine a été 2 fois plus précise que l’homme dans ses suggestions de lieux. C’est tout à fait logique, car l’ordinateur a vu et analysé bien plus d’images qu’un être humain moyen.

Avec un peu plus d’intelligence, l’ordinateur pourrait également être capable de localiser les photos prises dans des lieux fermés ou en intérieur, mais pour cela il faut qu’il dispose d’un album photo plus complet afin de donner un contexte à ces images.

Enfin, si la majorité des travaux de recherche de ce type nécessitent des supercalculateurs ou des ordinateurs puissants, ce projet reste très svelte : PlaNet n’a utilisé que 377Mo de mémoire, ce qui en fait sûrement un candidat idéal pour équiper les smartphones de demain. Mais avant d’équiper nos smartphones, PlaNet pourra certainement aider Google à indexer les photos présentes en ligne afin d’améliorer son moteur de recherche, notamment Google Images.

Crédit photo de couverture : Aram Bartholl