Nightingale : le nouveau scandale « made in Google »

stephanehuonder · Novembre 23, 2019, 10:51

Nightingale (rossignol) : le nom a de quoi séduire. Il est pourtant synonyme de nouveau scandale en matière de protection des données personnelles. L’accusé est un GAFA : Google, qui a eu accès aux données médicales de 50 millions d’Américains, sans les prévenir, et sans anonymisation.

Le projet Nightingale
Nightingale est un projet de recherche qui lie Google avec Ascension, un groupe médical important aux USA puisqu’il gère pas moins de 2.600 établissements hospitaliers, ce qui en fait le deuxième par sa taille.

Le projet porte sur les données médicales de 50 millions d’Américains.

Au départ, les parties sont animées des meilleures intentions. D’un côté, Google a besoin de ces millions de données pour développer un logiciel d’intelligence artificielle performant : plus l’échelle est importante, plus la pertinence du logiciel est élevée. D’un autre côté, Ascension est heureuse de participer à une recherche car non seulement elle reçoit la possibilité d’exploiter le logiciel, mais elle peut aussi influer sur son développement et veiller à intégrer des fonctionnalités qui l’intéressent.

Les parties signent donc un accord qui inclut, selon le blog de Google, un principe de finalité et d’interdiction de toute réutilisation à d’autres fins. Il s’agit de recherche médicale, et uniquement de recherche médicale, tout autre utilisation est interdite.

Google explique : « All of Google’s work with Ascension adheres to industry-wide regulations (including HIPAA) regarding patient data, and come with strict guidance on data privacy, security and usage. We have a Business Associate Agreement (BAA) with Ascension, which governs access to Protected Health Information (PHI) for the purpose of helping providers support patient care. This is standard practice in healthcare, as patient data is frequently managed in electronic systems that nurses and doctors widely use to deliver patient care. To be clear: under this arrangement, Ascension’s data cannot be used for any other purpose than for providing these services we’re offering under the agreement, and patient data cannot and will not be combined with any Google consumer data. »

D’où vient le scandale ?
Cette semaine, deux lanceurs d’alerte ont contacté le Wall Street Journal et le Guardian, pour dénoncer les dérives du projet.

Au centre des critiques, deux éléments troublants :

Les 50 millions de patients concernés n’ont pas été informés du projet.
Les données n’ont pas été pré-traitées : Google a donc accès à l’intégralité du dossier médical, en ce compris l’identification complète des personnes concernées.
Le groupe US se défend, mettant en avant les mesures techniques et organisationnelles prises pour limiter les risques.

Google insiste également sur le fait que l’identification des personnes concernées ne pose pas de problème dans le cadre de la recherche médicale, et promet que cette identification ne sera pas croisée avec les données commerciales dont elle dispose sur ces mêmes personnes :

« Does Google combine patient data across customers?

No. We are building tools that a single customer (e.g., a hospital or primary care group) can use with their own patients’ data. The data is siloed, access controlled, and auditable. We do not combine data across partners, and we would not be allowed to under our agreements or the law. »

Interdit ou pas ?
La référence à HIPAA dans la communication de Google est importante.

Acronyme anglais de Health Insurance Portability and Accountability Act, HIPAA est une loi votée en 1996 qui organise la santé et l’assurance maladie. Elle gère aussi la dématérialisation des données et le dossier médical informatisé du patient.

HIPAA a été modifiée par une autre loi, HITECH Act (2009), qui a étendu la possibilité de partage des informations avec les « business associates ».

Google confirme avoir agi dans ce cadre juridique là.

Il n’empêche que selon plusieurs experts en droit américain, l’absence d’information d’une part, et l’absence de pseudonymisation d’autre part, sont deux violations graves de la loi. Selon eux :

L’absence d’information aux personnes concernées les prive du droit d’exercer leur droit d’accès : comment exercer ce droit si l’on n’est informé ni de l’existence du traitement ni de son objectif ? Selon ces experts, la loi est formelle : l’obligation de « notice » exigeait, dans une hypothèse comme celle-ci, d’informer les patients.
Quant à l’absence de pseudonymisation, elle serait contraire à la loi qui crée un système plus strict dans l’hypothèse d’un traitement réalisé par un « business associate ». Selon ces experts, la loi exige dans ce cas d’appliquer une pseudonymisation ou une anonymisation lorsqu’il est possible d’arriver au même objectif sans l’identification de la personne concernée.
La réponse juridique sera connue un jour, vu le nombre d’avocats spécialisés en class action qui se mobilisent …

Toujours est-il que ce n’est pas la première fois que Google est critiquée pour ses partenariats avec le secteur de la santé. En Angleterre, il y a deux ans, après avoir traité les données médicales de près de 2 millions de patients londoniens, sans les en informer, Google avait admis avoir mal agi sur le plan juridique.

Par ailleurs, Google vient de mettre plus de 2 milliards de dollars sur la table pour racheter Fitbit, leader de la « montre-santé » connectée. Au demeurant, c’est peut-être cela qui embête le plus Google : Nightingale déboule dans la presse précisément au moment même où ce rachat confirme les énormes ambitions du groupe américain en matière de données de santé, et jette le discrédit sur ses intentions.

L’IA dans les medtechs
L’intelligence artificielle se développe dans tous les secteurs, et la santé n’y fait pas exception. Au contraire : la sensibilité des données, leur nombre, et l’importance sociétale de la santé font de ce secteur une cible de choix pour les développeurs.

L’expérience montre que l’IA peut y jouer un rôle vraiment intéressant. L’une des expériences les plus extraordinaires est celle menée par Google et les universités de Chicago, Stanford University, University of California, University of San Francisco, qui ont injecté dans un puissant ordinateur, les données (anonymisées) de quelques 216.000 patients hospitalisés pendant au moins 24 heures.

La machine a converti ces données en 46 milliards d’éléments informationnels reliés entre eux, en ce compris des informations dites déstructurées (par exemple une note prise au vol par un médecin en interrogeant un patient).

L’algorithme auto-apprenant a ensuite traité ces données et a créé quatre catégories de patients :

Ceux qui vont mourir lors de l’hospitalisation ;
Ceux dont l’hospitalisation sera prolongée au-delà de ce qui est prévu lors de l’admission ;
Ceux qui sortiront à la date prévue mais seront réadmis de façon imprévue lors des 30 prochains jours ;
Ceux qui sortiront de cet épisode sans autre complication.
Pour chaque catégorie, les chercheurs ont comparé le résultat prédictif de l’ordinateur à ce qui s’est réellement passé.

Résultat : une fiabilité supérieure à 90% ! L’algorithme auto-apprenant a réussi, dans 90% des cas, à prévoir ce qui allait se passer.

Devant ce résultat sidérant, les chercheurs ont poussé l’expérience plus loin : ils ont revu a posteriori le dossier médical de chaque patient, en ayant la prédiction en tête, dans le but de comprendre ce qui leur a échappé : qu’est-ce que l’ordinateur a vu qui leur a échappé ? dans la plupart des cas, ils n’y sont pas parvenus.

En d’autres termes : l’ordinateur prédit donc l’évolution médicale, dont la mort, en se fondant sur les données médicales disponibles, auxquelles le médecin a aussi accès. Il est donc possible pour le médecin d’avoir accès à cette prédiction. Même en ce cas, dûment informé, le médecin n’arrivera pas la plupart du temps à comprendre la raison de cette prédiction tout en sachant que le logiciel a raison dans 90% des cas …

Si cette expérience a été saluée comme une avancée majeure, c’est notamment en raison du cadre éthique qui l’entourait, à commencer par l’anonymisation des données des patients concernés.