Ok Google, Dis Siri, Facebook… : le micro du smartphone espionne-t-il vraiment vos conversations ?
Ok Google, Dis Siri, Facebook… depuis le lancement des assistant vocaux, mais aussi l'affaire Cambridge Analytica qui a ébranlé l'image des géants américains de la tech dans leur ensemble, une théorie revient sans cesse : les GAFA espionnent-ils nos conversations en permanence via le micro du smartphone ? Les données chiffrées montrent pourtant que cela n'aurait – à minima – pas de sens économique. Des études de chercheurs en sécurité ne sont par ailleurs pas parvenues à démontrer l'existence de cette surveillance de masse supposée, quelles qu'en soient ses fins. On fait le point ensemble.
Depuis quelques mois, dans le sillage du scandale Cambridge Analytica, les craintes autour des données personnelles que collectent et connectent en permanence les GAFA grandissent. On voit d'ailleurs réapparaître plusieurs théories du complot. L'une d'entre-elles déchaine particulièrement les passions depuis que Facebook s'est senti obligé d'en apporter le démenti : et si les GAFA utilisaient en permanence notre smartphone pour nous écouter – et proposer de la publicité ciblée ?
Facebook, Google et Apple dans le viseur
Les craintes ciblaient en particulier Facebook, mais on retrouve le même genre d'inquiétudes ciblant les assistant vocaux au premier rang desquels Google Assistant et Siri. Ces derniers ont en effet la particularité de se déclencher via des shebang c'est à dire des mots magiques qui réveillent l'assistant et permet de lui poser des questions sans interaction physique. Dans le cas de Facebook, des internautes rapportent régulièrement avoir vu des publicités ciblées en rapport avec des conversations tenues près du smartphone.
Naturellement il faut répondre à une question technique : comment “Ok Google” ou “Dis Siri” peuvent-ils réveiller le smartphone si ce dernier ne laisse pas le micro ouvert en permanence ? Dans ce dossier, nous reprenons une étude qui a tenté de montrer – en vain – que ces services nous espionnaient. Nous donnons également un aperçu général du fonctionnement des assistant vocaux (dans le détail, le secret règne). Et rappelons quelques données pour montrer à quel point ce genre d'espionnage de masse serait coûteux et technologiquement très complexe à mettre en place.
Aucune étude n'a réussi à montrer que votre smartphone espionne ce que vous dites en permanence
Hormis les cas où un malware a été installé sur votre smartphone, rien ne permet de dire que les applications des GAFA écoutent ce que vous dites en permanence via le micro. Même si les données des assistants vocaux sont chiffrées, il est en effet possible et très facile de savoir le volume de données qu'envoie et reçoit un smartphone. Plusieurs études ont échoué à montrer que les applications des GAFA, et d'autres connectées à leurs API écoutent ce qu'il se dit autour du smartphone et envoient les données sur des serveurs.
Des scientifiques de la Northeastern University ont par exemple analysé les données reçues et envoyées par 17.000 applications les plus populaires sur Android (y compris les applications de Facebook et les 8000 applications qui envoient des données à Facebook) sur 10 smartphones Android pour savoir si le micro était ouvert, et servait à envoyer des données aux GAFA. Résultat ? Silence radio… Aucun élément ne permettait de dire qu'une application ou une autre activait le microphone à l'insu de l'utilisateur.
Ils ont néanmoins trouvé autre chose d'inquiétant : certaines applications enregistrent ce qui se passe à l'écran et l'envoient à des tiers. Donc pas de micro mais d'autres pratiques. Pourtant, sur les 17.000 applications testées, 9000 avaient la permission d'accéder au microphone. Bien sûr cette étude ne tranche pas le sujet – elle montre, dans un cas d'utilisation automatisé, que du ciblage a lieu, mais qu'en aucun cas ce dernier utilise les données issues du microphone.
Comment fonctionnent “Ok Google” et “Dis Siri” ?
Or malgré ça, l'utilisateur peut toujours se demander : “pour que Ok Google et Dis Siri fonctionnent, ne faut-il pas que le micro soit ouvert en permanence ?”. En fait, rappelez-vous : lors de son activation, vous devez répéter la séquence de mots magiques (“Ok Google” ou “Dis Siri”) plusieurs fois. La raison est simple : dans un smartphone, le micro peut être actif, inactif… mais aussi un état intermédiaire qui n'est que capable de réagir lorsqu'une sorte de “clé” est reconnue. Cette clé, c'est le profil de votre voix lors que vous dites “Ok Google” ou “Dis Siri”.
Cette technique est la base du développement des assistant vocaux modernes, faute de quoi l'impact sur la batterie prohiberait leur utilisation. Le fait de ne reconnaitre qu'une signature vocale est en effet très efficient et peu consommateur en ressources. Chercher des milliers de mots dans le bruit ambiant est, à l'inverse, une tâche compliquée et très lourde – rarement effectuée en local. Lorsque vous dites les mots “Ok Google” le smartphone sort le microphone de son sommeil pour entrer en mode reconnaissance vocale.
Ce que vous dites alors est transmis de façon chiffrée sur les serveurs de Google ou Apple qui réaliseront la tâche la plus lourde – la reconnaissance de tous les mots de votre phrase – et renverront une réponse sur votre smartphone. Google laisse aux utilisateurs la possibilité de consulter l'historique de toutes vos commandes vocales. Et bien qu'il ne soit pas impossible qu'on y retrouve parfois des bribes de conversations, il semble qu'il s'agisse toujours d'erreurs, autrement dit d'activations non sollicitées du fameux shebang. Par design, ces dispositifs ne sont donc pas conçus pour espionner ce que vous dites à votre insu.
Espionner tout ce que vous dites autour de votre smartphone serait possible, mais extraordinairement coûteux
Un autre angle d'attaque, c'est de raisonner sous l'angle des coûts et de la technologie : à quel point ce type d'écoute de grande échelle serait possible en 2018, et combien cela coûterait à Google, Facebook, Apple et consorts ? D'abord d'un point de vue technologique : nos smartphones sont limités en espace de stockage, performances (notamment leur impact sur la batterie), et données envoyées (enveloppe data de votre opérateur).
Pour réaliser une telle écoute, le stockage et traitement en local, trop consommateur en ressources, semble d'emblée exclu. Il faut donc envoyer votre voix sur un serveur le plus discrètement possible, autrement dit avec un codec particulièrement efficient. En matière de codecs efficaces pour la voix, il y a par exemple l'iLBC, un codec open source pour le VoIP avec un bitrate de 15 kbps. Nos confrères d'Android Authority ont réalisé cette simulation : avec iLBC, une minute de voix c'est 112 Ko de données.
Puisqu'on parle d'espionnage 24/7 cela implique 6,7 Mo par heure, 162 Mo par jour et 59 Go de données par an. Si on enlève la nuit et les moments inutiles, on peut réduire cette quantité à 2,5 Go de données par utilisateur et par an, ce qui, multiplié par les 2,5 milliards de smartphones actifs représente quelques 6 Exabits de données, ce qui, en soit, est une quantité phénoménale de données. Si phénoménale que la tâche de tout retranscrire en reconnaissance vocale par dessus serait extrêmement coûteuse.
En fait même hors du coût du stockage (faites le calcul pour 6 Exabits), le coût du traitement atteindrait à lui seul quelques 1310 milliards de dollars par an, soit 1/20e du PIB nominal des Etats-Unis, un peu plus d'un tiers de celui de la France, ou celui d'un pays imaginaire situé entre le Mexique et l'Indonésie. Bref, possible, mais cela reste encore beaucoup trop cher. Bien que l'on imagine que l'obstacle du coût de traitement sera sans doute levé dans la prochaine décennie à mesure que les capacités de traitement des datacenters explosent.
D'autres types de ciblage sont nettement moins coûteux et plus efficaces
Par ailleurs, dans le cas où Facebook par exemple souhaitait écouter les conversations des personnes ayant installé une application sur leur smartphone, il faudrait que la firme soit capable de capter le contexte et pas simplement des mots comme “acheter” ou “pc portable”, pour que des pubs pour PC portable finissent par s'afficher partout lorsque vous naviguez sur internet. Le but de cette technologie, par définition très chère, serait de cibler encore mieux vos désirs pour présenter des réclames qui tapent de plus en plus juste sur votre corde sensible, vous poussant à financer ce système publicitaire.
Or, dans ce cas, et étant donné la finesse avec laquelle vos préférences sont déjà collectées et analysées, le coût de traitement pour aboutir à quelque chose d'encore plus efficace serait, à l'heure actuelle, incalculable. Il ne paraît même encore possible de créer un tel système qui soit rentable. D'autant que la collecte de donnée actuelle est par de nombreux aspects aussi, voire plus insidieuse, qu'un micro ouvert à proximité de vous en permanence. Il y a vos recherches dans Google, l'historique des sites que vous visitez, vos précédents achats, les pubs sur lesquelles vous cliquez.
Mais aussi les informations que vous donnez volontairement sur les réseaux sociaux. Auxquelles il faut ajouter votre liste d'amis et vos interactions qui révèlent souvent des préférences surprenantes : opinions politiques, orientation sexuelle, religion, etc. Et bien sûr, la liste des occasions de collecte de données est extrêmement longue : hotspots wifi, comptes de console, restaurants, supermarchés… Un ciblage qui n'implique que de collecter du texte et des données chiffrées, bien plus faciles (et moins coûteuses, donc rentables) à exploiter.
Conclusion : votre smartphone n'espionne pas les conversations via son micro… pour le moment
On le voit donc, non seulement il n'existe pas de preuve irréfutable que les GAFA espionnent les conversations que vous tenez à proximité du smartphone, mais en prime cela serait technologiquement très ambitieux, et économiquement discutable. Néanmoins, si cela tient à une question de technologie et de coûts, que se passera-t-il lorsque justement le coût de traitement des données sera suffisamment bas ? Car d'un côté, il semble que s'adonner à ce genre de pratiques serait un désastre en termes d'image, dans le cas où l'entreprise serait montrée du doigt.
D'un autre, on ne peut s'empêcher de penser que si la possibilité existait vraiment elle serait exploitée – par les GAFA, peut-être, ou plus vraisemblablement une multitude d'autres acteurs aujourd'hui inconnus. Alors comment expliquer les cas de personnes qui se disent convaincues que leur smartphone écoute leur conversation ? En l'absence de systématisation, il peut tout à fait s'agir de hasard, ou de l'efficacité du ciblage tel qu'il est pratiqué en 2018, capable de toucher du doigt ce qui se trouve dans votre subconscient.
Tant de paramètres sont déjà analysés qu'il n'est pas toujours simple de dire exactement pourquoi telle publicité est présentée plutôt qu'une autre : est-ce à cause d'un like ? A cause d'une brève recherche sur l'un de vos appareils ? Espérons dans tous les cas que les OS mobiles de demain comme Fuchsia seront suffisamment construits autour de la vie privée pour que l'utilisateur final ne vive pas dans la même paranoïa que nous ont mises quelques grosses boites américaines…