Table of Contents
Constitué de seulement deux roues et quatre câbles, un petit robot se déplace sur une table. Il passe devant les gens assis tout autour, s’arrête devant une personne souriante et dit de se voix métallique : « Tu as l’air content. Dis-moi pourquoi tu es content ! ». En revanche, si la personne a l’air maussade, il s’exprimera ainsi : « Tu as l’air triste, qu’est-ce qui t’arrive ? ».
Comment un engin aussi rudimentaire peut-il discerner les émotions humaines ? Où se cachent les puissants processeurs et les énormes bases de données nécessaires à la réalisation d’un tel exploit ?
La puissance du Cloud
En réalité, cette énorme puissance de calcul ne se trouve pas dans cette petite machine, mais sur le Cloud de Google, c’est-à-dire dans l’ensemble des ordinateurs connectés à distance que l’entreprise met à disposition des utilisateurs et des développeurs.
Ce robot empathique exploite la puissance du Cloud pour reconnaître les expressions du visage, grâce à l’une des applications les plus innovantes du géant de la technologie basé à Mountain View, en Californie : Google Cloud Vision.
Ce produit promet aux programmateurs et aux hackers d’exploiter la puissance des algorithmes de Google Images pour mener à bien leurs projets. Les capacités de l’œil de Google sont infinies : il peut deviner la race d’un chien et compter le nombre de personnes apparaissant sur une photo de classe, mais aussi faire la différence entre une citrouille et un ballon, ou encore identifier un lieu immortalisé sur une vieille photo.
Des images en mouvement
Le 9 mars, un an seulement après sa création, Google Cloud Vision a présenté sa toute dernière innovation : Google Cloud Video Intelligence. Ce système applique certaines fonctions de “Vision” aux images en mouvement, augmentant ainsi considérablement les possibilités de recherche de contenus audiovisuels.
Ce n’est donc pas un hasard si l’une des premières entreprises intéressées par Google Cloud Vision a été AeroSense, un fabricant de drones récupérant des milliers d’images à chaque sortie de ses appareils. Repasser toutes ces photographies une à une pour identifier les objets photographiés est inconcevable. C’est dans des situations comme celles-ci que la détection automatique de Google peut devenir indispensable.
Des algorithmes réagissant aux données
Le secret de Google Cloud Vision réside dans les algorithmes de “machine learning” qui ont fait le succès du célèbre moteur de recherche. Google utilise l’incroyable quantité de données à sa disposition pour modifier ses algorithmes.
Lorsqu’on cherche le mot “chien”, Google Images donne des millions d’images de chiens. L’algorithme ne connaît pas en lui-même le concept de chien, il a appris à reconnaître cet animal en comparant une énorme quantité d’images.
L’entreprise a mis à disposition des utilisateurs un simulateur permettant d’explorer sa galaxie d’images et de comprendre le fonctionnement de Google Cloud Vision. La société californienne n’est pas la seule à avoir exploité cette innovation. Amazon, par exemple, a lancé un produit concurrent sur le même marché : Amazon Rekognition.
Du texte et des images
Les différentes utilisations de l’identification automatisée peuvent être réellement surprenantes. Dans la vidéo suivante, un robot créé avec Rasperry Pi utilise Google Cloud Vision pour identifier ses bonbons d’Halloween préférés. Le logiciel est capable de reconnaître les marques de sucreries grâce à son algorithme d’extraction du texte à partir des images.
Google Cloud Vision peut interpréter les images de nombreuses manières :
- Identification des objets: le logiciel reconnaît les fleurs, les animaux, les moyens de transport et de milliers d’autres catégories qui se trouvent fréquemment dans les images.
- Identification des lieux, des personnes et des marques: le programme puise dans sa base de données pour identifier les lieux connus, qu’il s’agisse de sites naturels ou de monuments, comme les montagnes ou certains édifices, par exemple. Le même système est utilisé pour identifier les personnages célèbres ou les grandes marques.
- Contenus inappropriés: les contenus violents ou réservés aux adultes peuvent être identifiés par Google Cloud Vision qui peut alors modérer les contenus visuels à grande échelle.
- Identification des visages: il s’agit de l’application la plus spectaculaire. Google Cloud Vision est capable d’identifier sur une photo la présence d’un ou de plusieurs visages humains. En outre, elle peut reconnaître 8 expressions (la joie, la tristesse, la colère, etc.). S’il reconnaît la présence d’un visage, ce système n’est cependant pas programmé pour en identifier systématiquement le propriétaire.
Une application pour programmateurs et chercheurs
Google Cloud Vision laisse place à de surprenantes possibilités de programmation. Par exemple, grâce à Google Traduction, on peut apprendre à dire “verre” en chinois en cadrant simplement l’objet à l’aide de son téléphone.
Associé à l’expertise de spécialistes de la mode, ce logiciel est également capable de classer automatiquement un passant excentrique dans la catégorie urbaine à laquelle il appartient.
Disney a également utilisé ce programme dans une application de réalité augmentée pour faire apparaître le dragon de son dernier film sur le canapé du salon. Quant au chercheur Kalev Leetaru, il s’en est servi pour analyser les situations les plus récurrentes dans des dizaines de spots électoraux et identifier les lieux les plus photographiés dans la presse internationale.
Puisque l’œil de Google promet de changer la manière dont nous percevons le monde, peut-être serez-vous le prochain à en exploiter les innombrables possibilités!