La qualité des données dans tous ses états

Le 04 avril 2022 à 20:54

Par Patrick Peinoit, Principal Product Manager chez Talend

Si la qualité des données est au cœur des préoccupations des organisations, pourquoi l’associe-t-on toujours à des mots comme « challenge », « problème » ou « barrières » ? Probablement parce que la prise de conscience de la nécessité d’une stratégie de qualité des données est encore assez récente. Pour réussir sa transformation data et devenir réellement "data-driven", la qualité des données n’est plus accessoire. Au contraire, elle devient le point de départ des initiatives data et conduit ensuite à d’autres projets comme des projets d’intégration par exemple.

Si la qualité des données devient une discipline de premier plan, nous ne maitrisons pas encore tous ses aspects.

L’Office 365 de la qualité des données

L'un des plus gros enjeux actuels est de rendre la qualité des données collaborative. Il existe en effet un besoin de plus en plus présent de redonner la main aux métiers. Tout d’abord car la qualité des données doit être un sport d’équipe pour pouvoir être gérée et traitée au mieux ; ensuite car il est nécessaire de combiner la compréhension des objectifs et des fins de l’utilisation des données avec le contrôle et la gouvernance nécessaires. Les premiers étant apportés par les utilisateurs métiers et les seconds assurés par les équipes IT. Dans un monde idéal, il faudrait atteindre un niveau d’intégration et de communication équivalent au modèle de Google Suite ou d'Office 365, construit sur de multiples passerelles et offrant aux utilisateurs métiers une grande facilité d’utilisation.

Pour standardiser et industrialiser la qualité des données, des solutions en mode self-service ont vu le jour et permettent d’améliorer les niveaux de collaboration. Avec des solutions de data preparation ou de data stewardship, les utilisateurs ont la main sur les données dont ils ont besoin, peuvent appliquer les règles nécessaires et s’assurer de la disponibilité des données, les équipes IT gérant les besoins de gouvernance et d’accès aux données. Cependant, certains outils data restent parfois plus difficiles à appréhender que d’autres, obligeant les utilisateurs à repartir, à la première difficulté, sur Excel et Powerpoint.

Un manque de compréhension de la donnée, des initiatives pour amener plus de « data literacy » dans les organisations encore trop peu nombreuses, conduisent nécessairement à ces silos que beaucoup d’organisations connaissent.

Contextualiser la donnée

Dans la donnée, il y a deux mondes, deux univers parallèles qui ont du mal à se rencontrer : les collaborateurs qui traitent les données et ceux qui les utilisent. Les premiers comprennent les processus de traitement mais ne comprennent pas ce qu’ils traitent ; ils ne "parlent pas la donnée" comme l’utilisateur métier. Pour y remédier, il est nécessaire d’infuser une culture de la donnée et la considérer enfin comme de l’information qui doit être définie. En effet, mettre en place un projet de qualité des données n’est pas uniquement une question d’outils, il faut aussi changer l’organisation de l’entreprise et réunir les collaborateurs autour d’une même compréhension de l’information.

La qualité des données est contextuelle. Des collaborateurs mesurent la donnée selon certains critères, certaines dimensions. Mais cela se fait très rarement de façon intrinsèque.

Prenons l'exemple de la complétude de l'information – la donnée existe ou n’existe pas. Pour autant, est-ce réellement un problème si la donnée n’existe pas ?

Nous connaissons tous le cas d'informations client dans une base de données avec les champs « opt-in » et « opt-out ». Si le client est « opt-in », nous pourrons par exemple trouver son numéro de téléphone ; en revanche si le client est « opt-out » nous ne devons pas trouver une quelconque information personnelle le concernant. L'information ne doit précisément pas être disponible, et c'est, in fine, son absence qui rend la donnée « valide » au regard de la législation sur la confidentialité des données. L’interprétation de la complétude n’est donc valable qu’avec du contexte autour de l’information.

Certaines technologies et certains outils jouent un rôle important dans la contextualisation de la donnée. C’est le cas des métadonnées qui permettent aux utilisateurs de trouver la donnée, de savoir si elle existe et de la comprendre. L'exploitation des métadonnées se fait via des outils de data cataloging et de data inventory. Plus ces données sont nombreuses, plus la compréhension de la donnée, et donc de l’information générée, sera élevée. Les technologies de rule repository, de data preparation et de data stewardship ont également un rôle central dans la contextualisation pour permettre d'appliquer des règles et transformer une donnée brute en information contextualisée pour l’utilisateur métier.

En résumé, pour pouvoir enfin traiter les données comme un véritable actif au sein d’une entreprise, commençons donc par la comprendre.

(Les tribunes publiées sont sous la responsabilité de leurs auteurs et n'engagent pas CB News).

L’Office 365 de la qualité des données

Contextualiser la donnée

Disparition des cookies tiers : vers la fin du Full Funnel ?

L’IA en open source = une solution adaptative et sécurisée

Un « permis de douter »