Assurer la qualité des données, un défi pour les entreprises

Le 18 octobre 2022 à 22:15

Par Patrick Peinoit, Principal Product Manager chez Talend

Si elle est souvent considérée comme un obstacle par les entreprises, la qualité des données occupe pourtant une place importante dans les réflexions stratégiques, et fait l’objet aujourd’hui de nombreux projets et initiatives. Mettre en place une stratégie de qualité des données devient de plus en plus indispensable dans les entreprises. Toutefois, on remarque qu’elle est encore loin d’être intégrée dans les pratiques. Pour opérer leur transformation data de manière efficace et devenir une organisation « data-driven », il est important que les entreprises aient une bonne connaissance de ce processus.

Objectif : qualité des données

La première étape d’une qualité plus grande des données est la collaboration en entreprise, c’est-à-dire gérer la qualité des données en équipe, pour combiner la compréhension des objectifs de la part des utilisateurs métiers, les résultats issus de l’utilisation des données de la part des équipes IT, la gouvernance et le contrôle.

Dans cette optique, le niveau d’intégration et de communication du modèle de Google Suite ou d’Office 365, construit sur un grand nombre de passerelles et facile à utiliser pour les utilisateurs métiers, représente l’objectif à atteindre.

Grâce aux solutions en mode « self-service », il a été possible de normaliser et d’industrialiser la qualité des données, et d’améliorer nettement les niveaux de collaboration en entreprise. Des solutions comme le data stewardship ou encore la data preparation permettent aux utilisateurs d’avoir la main sur les données dont ils ont besoin, d’appliquer les règles nécessaires et de s’assurer de la disponibilité des données, pendant que les équipes IT s’occupent, en parallèle, de la gestion des besoins de gouvernance et d’accès aux données. Toutefois, certains outils data s’avèrent difficiles à utiliser, poussant les utilisateurs à se rabattre sur des outils connus comme la suite Office. Des silos apparaissent à cause de ce manque de compréhension de la donnée, ou encore du manque d’initiatives visant à apporter davantage de « data literacy ».

La donnée se déplace selon le contexte

La rencontre entre les utilisateurs et les collaborateurs en charge du traitement des données n’est, en réalité, pas si facile à créer. D’une part, les utilisateurs métiers comprennent « la langue de la data », mais d’autre part, les collaborateurs n’en maîtrisent pas les subtilités et se cantonnent aux processus de traitement, bien moins complexes à saisir. Il est possible d’adresser ce problème en instaurant une culture de la data, pour pouvoir considérer les données comme des informations définies, car si les outils occupent une place fondamentale dans les projets de qualité des données, il est également essentiel de faire en sorte que les collaborateurs disposent tous d’une même compréhension de l’information.

Une chose importante à savoir : la qualité des données varie selon le contexte. On mesure l’état des données et leur qualité selon plusieurs facteurs, comme la fiabilité et la précision, mais cela se fait rarement de façon interne. Par exemple, dans la complétude de l’information, la donnée peut exister ou pas. Mais si la donnée n’existe pas, est-ce pour autant un problème ? Prenons la situation suivante : la base de données clients comporte des informations et des champs « opt-in » et « opt-out ». D’une part, si le client est « opt-in », il sera possible de trouver, par exemple, son numéro de portable ; d’autre part, si le client est « opt-out », aucune information personnelle le concernant ne pourra être visualisée. C’est donc par son absence que la donnée est dite « valide » aux yeux de la loi sur la conformité des données. Le contexte autour de l’information rend ainsi l’interprétation de la complétude valable.

Certains outils et technologies sont clés dans la mise en contexte de la donnée, comme les métadonnées, qui sont exploitées via des outils de data inventory et de data cataloging ; elles permettent aux utilisateurs de trouver la donnée, de savoir qu’elle existe et de la comprendre. Plus ces données sont nombreuses, plus la compréhension de la donnée sera haute. Il n’y a pas que ces outils qui aident à la mise en contexte de la donnée : les technologies de rule repository, de data preparation et de data stewardship permettent d’appliquer des règles et de changer une donnée « brute » en information contextualisée, à l’intention de l’utilisateur métier.

En d’autres termes, il est essentiel de comprendre la donnée en premier lieu afin de pouvoir la traiter par la suite comme un actif de l’entreprise à part entière.

(Les tribunes publiées sont sous la responsabilité de leurs auteurs et n'engagent pas CB News).

Objectif : qualité des données

La donnée se déplace selon le contexte

L’IA en open source = une solution adaptative et sécurisée

Un « permis de douter »

More AI needs more strategy ("Plus d’AI nécessite plus de stratégie")