La traçabilité de la qualité des données : critères essentiels pour la réutilisation des données de recherche

Le libre accès aux données de recherche promet d’accélérer la génération de nouvelles connaissances. Une qualité traçable des données est une condition essentielle pour leur utilisation au-delà de leur objectif initial. Sur mandat de SWITCH, la SATW a demandé à des experts en Suisse quels aspects et mesures sont pour eux particulièrement importants à cet égard.

Quel que soit le domaine d’application, une qualité élevée est généralement une condition de base pour une évaluation plus approfondie des données et et l’établissement de prévisions fiables. Pour garantir que les données puissent être réutilisées au-delà de l’objectif initial de l’enquête, leur qualité doit être documentée de manière compréhensible. Cela est particulièrement important dans le domaine de la recherche, afin que le potentiel de la science ouverte (open science) puisse être pleinement exploité. Quels sont les critères particulièrement pertinents pour une qualité traçable des données et quelles sont les mesures prises pour garantir cette qualité ? À cette fin, la SATW a interviewé des experts de domaines de recherche clés au niveau national, de l’industrie ou du secteur des services, dans le cadre d’un laboratoire d’innovation de SWITCH.

La qualité des données: essentielle mais fastidieuse
Les données de recherche sont très hétérogènes et spécifiques à chaque projet. En fonction de l’application, des exigences différentes sont posées quant à leur qualité. Les chercheurs répondent de la qualité des données (DQ pour data quality) en se conformant aux normes et directives scientifiques. Du point de vue des personnes interrogées, la DQ a une haute priorité. Toutefois, la qualité la plus élevée ne peut généralement être garantie qu’à grands frais, raison pour laquelle différents niveaux de qualité sont souvent définis, en particulier dans le monde des affaires. Des conditions-cadres peu claires en rapport avec la DQ peuvent également entraîner des dépenses supplémentaires. La tendance générale dans le domaine de la recherche est à une prise en compte croissante et précoce de la QD, par exemple à travers les demandes des organismes d’encouragement de la recherche tels que le Fonds national suisse (FNS).

Sans accessibilité, les autres aspects restent purement théoriques
Pour une DQ compréhensible, différents aspects doivent être pris en compte. Leur pertinence dépend du problème considéré. Les personnes interrogées ont le plus souvent mentionné l’accessibilité aux données comme une condition préalable importante pour une DQ compréhensible. Dans le domaine de la recherche, cependant, seule une fraction des données produites est actuellement accessible et il y a souvent un manque de transparence quant au informations disponibles. Pour publier des données, il faut également consacrer beaucoup de temps à la documentation.

D’autres aspects fondamentaux pour la DQ sont l’authenticité, l’intégrité et l’indiscutabilité. Cependant, ces derniers ne sont souvent que peu contrôlés. Les processus visant à garantir la qualité des données, tels que l’élaboration et la mise en œuvre de la gouvernance des données ou des règles de qualité, posent des défis majeurs en matière de gestion des données. Dans la mesure du possible, ces processus devraient être automatisés. Les données incorrectes et les doublons, l’actualité, la cohérence et la pertinence sont les défis spécifiques liés à la DQ qui ont été le plus souvent mentionnés par les experts. Les données ne décrivent la réalité que de manière approximative. Il en résulte un flou dans leur évaluation, qui devrait déjà être pris en compte dans la collecte. Il est souvent difficile et coûteux de s’assurer que les données sont à jour.

Les normes ont un impact positif sur la qualité des données
Les administrateurs de données suivent les directives et les spécifications de leurs projets et domaines respectifs. Les normes varient selon que les données sont générées dans le cadre de projets de recherche, dans l’administration ou dans l’industrie. Des normes générales reconnues par tous pour la gestion des données n’ont pas encore été établies. Si les données ne sont pas collectées selon des procédures normalisées, elles ne sont guère utilisables par des tiers. Les chercheurs ne publient généralement que des données agrégées dans lesquelles l’information originale n’est plus entièrement disponible. La réutilisation de ces données est un défi, car la manière dont l’agrégation a été effectuée n’est pas toujours claire. L’obligation de publier les données brutes des projets de recherche a généralement un effet positif sur la qualité des données. Les chercheurs sont donc conscients dès le départ que des tiers peuvent utiliser et, si nécessaire, vérifier leurs données. Cela permet d’améliorer la documentation et le soin apporté au traitement des données. Après tout, personne dans le domaine de la recherche ne veut être critiqué pour avoir bâclé ses données.

Les principes FAIR sont des lignes directrices visant à améliorer la recherche, l’accessibilité, l’interopérabilité et la réutilisation des biens numériques. La plupart des personnes interrogées ont déclaré qu’elles les connaissaient et les mettaient en œuvre le mieux possible. Cependant, les principes sont souvent négligés par manque de temps. Les entreprises et les offices statistiques semblent être plus avancés dans l’organisation et la tenue des données et pourraient servir de modèle pour la recherche à cet égard.

L’origine est un critère d’évaluation important pour l’exactitude des données externes
En raison de la diffusion croissante de l’Open Access et de l’Open Data, la disponibilité des données de recherche augmente constamment depuis plusieurs années. Cependant, de nombreux chercheurs n’ont jusqu’à présent travaillé qu’avec leurs propres données, celles des entreprises ou des statistiques publiques. La mise en réseau et la réutilisation des données de recherche rendraient leur utilisation plus productive. En outre, cela peut accroître la visibilité des recherches et les chercheurs peuvent ainsi bénéficier des points de convergence, des compétences et des travaux de leurs collègues. Cependant, les données de recherche sont documentées de manières très différentes et leur interprétation correcte peut être un défi. Le contexte de la collecte des données primaires doit être enregistré dans les métadonnées. L’utilisation de données externes exige une confiance dans leur qualité et dans les fournisseurs de données correspondants. Leur sensibilité à la DQ est centrale. Si l’accessibilité des données est transparente, cela renforce la confiance : une utilisation fréquente par de nombreux utilisateurs différents offre une bonne protection et est un signe de data quality élevée. Exactitude, origine inconnue, consistance, suffisamment de métadonnées, variation par rapport à la réalité, erreurs/doublons, actualité, scalabilité, complétude, relevance, conditions cadres, traçabilité

L’interconnexion des données de recherche n’est possible que grâce à la qualité des données
Il existe de nombreuses initiatives dans le domaine de la science ouverte et des données ouvertes. Leur succès dépendra en grande partie de la prise en compte ou non des aspects de la qualité des données et de la manière dont ils seront effectivement pris en compte. Dans le cadre d’une phase pilote pour un système suisse de connectivité des données de recherche, SWITCH et ses partenaires ont l’intention de valider des cas d’utilisation et une architecture possible. La possibilité de rechercher des données de recherche sera une question centrale. La SATW fera tout son possible pour que la qualité des données soit aussi compréhensible que possible dès le départ. À cette fin, il est nécessaire de préciser dans quelle mesure il est possible de développer des conditions-cadres uniformes pour les données de recherche et d’automatiser les processus permettant d’assurer une DQ afin de soutenir et de soulager les chercheurs.

Pour plus d’informations
Manuel Kugler, Chargé de programmes prioritaires Advanced Manufacturing et Intelligence artificielle, Tél. +41 44 226 50 21, manuel.kugler(at)satw.ch