Vous êtes très facile à retrouver grâce à un algorithme, Même lorsque vos données ont été « anonymisées », selon un nouveau rapport

https://securite.developpez.com/actu/271234/Vous-etes-tres-facile-a-retrouver-grace-a-un-algorithme-meme-lorsque-vos-donnees-ont-ete-anonymisees-selon-un-nouveau-rapport/

Les organismes qui traitent des données sensibles ont principalement recours à des pratiques de l’anonymisation pour les partager ou les vendre. En théorie, ces techniques, appelées dé-identification, rendent les individus non identifiables. Une fois rendues anonymes, les données ne sont plus considérées comme des données personnelles et échappent aux régimes de protection des données. Mais ces données demeurent-elles non identifiables pour le reste du temps avec les techniques actuelles ? La réponse c’est non, d’après les nouvelles recherches publiées dans la revue Nature Communications.

En effet, des scientifiques de l’Imperial College de Londres et de l’Université Catholique de Louvain, en Belgique ont développé un algorithme de « machine learning » qui prouve qu’il est possible de ré-identifier précisément et facilement les individus au sein de n’importe quelle base de données, même lorsque vos données personnelles ont été supprimées, ont indiqué les responsables de l’université mardi dans un communiqué. Ce qui est encore plus surprenant, c’est que les scientifiques ont affiché le code de leur logiciel en ligne pour que n’importe qui puisse l’utiliser.

Plus l’évolution technologique vous oblige à vous connectés, davantage vous laissez vos données en ligne chaque fois que vous faites une opération, comme commander un repas à emporter, la réservation d’une chambre d’hôtel lors d’un voyage. Mais surtout lorsque les données sensibles comme vos diagnostics médicaux ou votre dossier fiscal se retrouvent en ligne. Cependant, vous ne devriez pas vous inquiéter, car les données d’identification personnelle ont été supprimées, rendant ainsi vos informations « anonymes ».

La pratique actuelle consiste à éliminer les éléments manifestement identifiables tels que les noms, les numéros de téléphone, les adresses électroniques, etc. Les ensembles de données sont également modifiés pour être moins précis, les colonnes des feuilles de calcul sont supprimées et le « bruit » est introduit dans les données, a rapporté MIT Technology Review dans un article publié mardi.

Les politiques de protection de la vie privée nous assurent que cela signifie qu’il n’y a aucun risque que nous puissions être retracés dans la base de données de sorte que dans la plupart des pays du monde, les données anonymes ne sont pas considérées comme des données personnelles, c’est-à-dire, que l’information peut être partagée et vendue sans enfreindre les lois sur la vie privée, selon The New York Times. Les études de marché sont prêtes à payer les courtiers pour un large éventail de données, allant des préférences de datation aux tendances politiques, en passant par les achats des ménages et la diffusion en continu des données favorites.

Cependant, la nouvelle étude suggère que les données « anonymisées » avec les pratiques actuelles sont loin d’être anonymes. Les chercheurs de ces deux universités ont créé un modèle d’apprentissage machine qui estime exactement à quel point il est facile de ré-identifier des individus à partir d’un ensemble de données anonymisées. Ils ont rapporté dans la revue Nature Communications que leur modèle est capable d’identifier 99,98 % des Américains à partir de presque tous les ensembles de données disponibles avec aussi peu que 15 caractéristiques, comme le sexe, le code postal ou l’état civil.

« Au fur et à mesure que l’information s’accumule, les chances que ce ne soit pas vous diminuent très rapidement », a expliqué Yves-Alexandre de Montjoye, chercheur à l’Imperial College de Londres et un des auteurs de l’étude.

Selon The Times, parmi les moyens habituels de protection de la vie privée, il y a la « dé-identification » des personnes en supprimant des attributs ou en substituant de fausses valeurs, ou en ne divulguant que des fractions d’un ensemble de données rendues anonymes. Mais, d’après Dr de Montjoye, le fait que l’ensemble de données soit incomplet ne protège pas la vie privée des gens. Selon lui, les preuves recueillies jusqu’à présent montrent que toutes les méthodes actuelles sont inadéquates et ont surtout pris du retard par rapport à notre capacité à les briser. « Nous devons aller au-delà de la dé-identification », a-t-il dit, avant d’ajouter que « L’anonymat n’est pas une propriété d’un ensemble de données, mais une propriété de la façon dont vous l’utilisez ».

Entre autres solutions proposées, il y a le contrôle d’accès aux données sensibles, telles que les dossiers médicaux. Les personnes habilitées devraient accéder à ces données dans une salle sécurisée. Les données peuvent être utilisées mais pas copiées, et tout ce qui est fait avec l’information doit être enregistré, a rapporté The Times. Kamel Gadouche, directeur général d’un centre de données de recherche en France, le CASD, a expliqué que les chercheurs peuvent également accéder à l’information à distance, mais « il y a des exigences très strictes pour la salle où le point d’accès est installé ».

Selon M. Gadouche, le CASD détient des informations sur 66 millions de personnes, y compris des données fiscales et médicales, fournies par les gouvernements et les universités. « Nous ne restreignons pas l’accès », a dit le directeur du centre. « Nous contrôlons l’accès ».

Mais il y a des inconvénients de la méthode du contrôle de l’accès aux données. A titre d’exemple, si un scientifique soumet un article de recherche à une revue, d’autres scientifiques pourraient vouloir confirmer les résultats en utilisant les données d’origine. Mais si l’accès est soumis à un contrôle, la confirmation des résultats sera un véritable défi.

Une autre solution a été rapporté par MIT Technologie Review. Selon Charlie Cabot, directeur de recherche chez Privitar, une firme d’ingénierie en protection de la vie privée, la méthode consiste pour les organisations à utiliser la protection différentielle de la vie privée, un modèle mathématique complexe qui permet aux organisations de partager des données agrégées sur les habitudes des utilisateurs tout en protégeant l’identité d’une personne.

https://www.nature.com/articles/s41467-019-10933-3