Une enquête du « New York Times » souligne les failles des systèmes de détection utilisés par de grandes entreprises comme Microsoft ou Google.
Les efforts des grandes entreprises du numérique pour détecter les contenus pédopornographiques sont-ils à la hauteur ? Non, conclut une enquête publiée samedi 9 novembre par le New York Times. Si cette industrie a su repérer et signaler 45 millions de contenus l’an dernier, « elle a systématiquement échoué à mettre en place des mesures agressives pour y mettre fin », écrit le quotidien américain, qui évoque « des approches incohérentes, souvent unilaterales et menées en secret ».
La quasi-totalité des images repérées par ces entreprises l’ont été grâce à un outil développé en 2009 par Microsoft et le chercheur Hany Farid, PhotoDNA. Utilisé par la plupart des géants du numérique, il est capable de comparer « l’empreinte numérique » de photos mises en ligne à celles présentes dans une énorme base de données d’images pédopornographiques. Ce qui lui permet de détecter automatiquement les images déjà présentes dans cette base, même si elles ont subi des modifications par rapport à l’original. Une méthode efficace, mais pas suffisante, puisqu’elle ne s’appuie que sur une seule base de données – celles présentes dans d’autres listes, mises en place par d’autres organisations, lui échappent. Sans compter que cette méthode est, par nature, incapable de déceler les images inédites mises en ligne.
Des images détectées uniquement en cas de partage
Autre limite : les images pédopornographiques sont souvent stockées sur des plates-formes d’hébergement comme Google Drive, Dropbox, Microsoft OneDrive ou Azure. Or ces entreprises n’analysent pas par défaut les fichiers hébergés afin de détecter de potentielles images pédopornographiques – elles ne le font que lorsque le document est partagé, explique le New York Times. Ce qu’ont bien compris certains pédophiles, qui, plutôt que de partager les images hébergées sur ces services, diffusent les codes d’accès à leur compte. Quant à Amazon et Apple, ils ne recherchent jamais ces contenus sur leurs plates-formes d’hébergement, écrit le New York Times.
Amazon, Microsoft et Dropbox ont répondu qu’ils n’analysaient pas tous les contenus hebergés sur leurs serveurs afin de respecter la vie privée de leurs utilisateurs. Apple a refusé de donner plus de précisions sur la détection des contenus pédopornographiques, arguant que ces informations pourraient avantager les criminels.
La problématique de la détection automatique des contenus répréhensibles se heurte en effet à celle de la protection des données personnelles. La question se pose aussi sur les services de messagerie, de plus en plus nombreux à être chiffrés, à l’instar de WhatsApp ou iMessage d’Apple. Les messages transitant par ces logiciels ne sont lisibles que par l’émetteur et leur récepteur du message. Ils sont indéchiffrables pour les autres, y compris par les entreprises possédant la messagerie. Ces mesures se sont développées après les révélations d’Edward Snowden en 2013 sur l’ampleur de la surveillance américaine sur les échanges numériques. Une façon de protéger les utilisateurs, quelles que soient leurs intentions.
Le New York Times s’inquiète d’ailleurs de la volonté de Facebook de chiffrer son service Messenger, « la principale source d’imagerie » pédopornographique de la plate-forme, note le journal. Qui souligne d’ailleurs que plus grand réseau social au monde analyse « minutieusement » sa plate-forme pour détecter ce type de contenus, et est à l’origine de « 90 % des images détectées l’an dernier par les entreprises de la tech ».
De la pédopornographie sur Bing
Le New York Times s’est aussi intéressé aux résultats des moteurs de recherche, et a découvert que Bing, qui appartient à Microsoft, donnait accès à des images pédopornographiques en réponse à certains mots-clés. Certaines étaient même présentes dans la base de données de PhotoDNA. Si les images ne s’affichaient pas directement dans le moteur de recherche, leur adresse apparaissait, permettant d’y accéder facilement. Et ce quelques mois seulement après la publication d’une enquête du site spécialisé TechCrunch révélant ce type de manquement. Même constat sur Yahoo! et DuckDuckGo, et pour cause : ces deux moteurs de recherche se fondent sur la technologie de Bing. « Nous avons trouvé et réglé quelques problèmes dans nos algorithmes de détection des images illégales », a répondu un porte-parole de Microsoft au New York Times.
Le journal n’a repéré aucun cas de ce genre sur Google, mais précise que le Centre canadien de protection de l’enfance en a, lui, détecté quelques-uns. « Et que l’entreprise a parfois refusé de les retirer », avant de s’exécuter en réponse aux questions des journalistes.
Mais l’un des grands manquements en matière de détection de la pédopornographie concerne les vidéos. Celles-ci ne sont pas détectables par PhotoDNA, et il n’existe pas d’équivalent servant de standard à l’industrie. « Plusieurs plates-formes majeures – comme AOL, Snapchat et Yahoo! – n’analysent même pas les vidéos », affirme le New York Times. Certaines entreprises ont développé, ou travaillent au développement d’une technologie de détection. Comme Google et Facebook, qui ont chacune créé leur propre système, « mais les deux entreprises ne peuvent pas partager leurs informations car les empreintes générées par chacune de ces technologies ne sont pas compatibles ».
Et c’est sans compter une autre pratique qui tend à se répandre parmi les pédophiles : la diffusion de vidéos en direct, que les plates-formes peinent à détecter efficacement. Comme l’avait à nouveau montré Facebook, en laissant l’auteur de l’attentat des mosquées de Christchurch, en Nouvelle-Zélande, tuer en direct 51 personnes.