Qui construirait une maison sur de la boue avec des mikados en guise de fondation ?
Si la construction est solide mais que personne ne parle la même langue il semble difficile de finir les travaux, une grande tour mythologique en a fait les frais il y a quelques milliers d’années.
Aujourd’hui la donnée est la nouvelle richesse des entreprises. Sous forme d’entrepôt classique de lac ou de tout autre système de rangement, c’est cette donnée qui permettra de créer de la valeur et de faire la différence vis-à-vis des concurrents.
Nous allons dans cet article expliquer l’intérêt essentiel d’établir un dictionnaire de données clair et partagé par tous les protagonistes dans un projet d’entrepôt de données.
1. La définition
Commençons par un rappel de définition d’un dictionnaire de données. C’est une liste de données (champs) qui seront présentes dans notre entrepôt de données. Ces données pourront être diverses : texte, date, numériques et contenir l’ensemble du spectre fonctionnel nécessaire à notre activité.
Les listes de valeurs de certaines données devront être précisées à l’élaboration du dictionnaire afin de simplifier la récupération future.
Il existe 2 types de liste de valeurs, celle définies telles que par exemple la liste des pays (les mises à jour sont très peu fréquentes) et les listes libres comme des champs commentaires qui seront beaucoup plus complexes à réutiliser plus tard.
La première chose à faire dans un dictionnaire de données est d’établir une définition claire et partagée par les owners (responsables de la donnée).
Ce point de partage de la définition est crucial. Certaines définitions de données n’ouvrent pas de débat mais si on parle de montant d’encours à une personne du risque, de la compta ou de la liquidité les définitions pourront varier car chacun aura sa vision.
Dans ce cas précis un bon dictionnaire de données ne mélangera pas les définitions mais multipliera les données pour que chacun ait sa définition exacte.
Ces définitions partagées simplifieront les échanges au sein de la structure et garantiront une meilleure qualité. De plus cela pourra dans certains cas réduire des risques opérationnels ou réglementaires.
Ce dictionnaire de données clair permettra de répondre plus facilement à des contraintes réglementaires ou juridiques (RGPD et CNIL)
2. Gouvernance de la donnée
Pour qu’une donnée reste de qualité dans le temps il est nécessaire de suivre plusieurs règles.
Premièrement une équipe doit être responsable de cette donnée (data Owner) afin d’être certain que seule elle puisse la modifier et que les personnes puissent se retourner vers cette équipe en cas d’anomalies trouvées.
Par la suite il est important que les données soient utilisées par les systèmes ou utilisateurs. En effet une utilisation régulière permettra de la fiabiliser car les erreurs seront détectées immédiatement par ceux connaissant le mieux cette donnée et des corrections pourront êtres apportées.
Enfin dans le cadre d’une amélioration continue il sera utile de mettre en place à chaque anomalie trouvée des contrôles automatiques pour tenter de résoudre un futur potentiel problème en amont. Le croisement régulier entre données pour tenter de trouver des anomalies fait partie des contrôles les plus efficace pour maintenir un haut niveau de qualité.
3. Évolution du dictionnaire de données dans le temps
Le dictionnaire de données est partie intégrante du modèle de données qui sera créée dans les systèmes IT.
Ce modèle devra éviter plusieurs pièges :
- Ne jamais répéter de donnée à plusieurs endroits différents : en effet le rangement de données identiques à des endroits distincts entrainera probablement une divergence des données un jour
- Ne pas valider l’ensemble des uses case métiers en particulier au niveau de la cardinalité des tables : cette étape cruciale valide la structure du modèle et si les notions fonctionnelles marchent bien entre elles, ça évitera aussi la répétition d’information
- Ne pas être capable d’évoluer de manière ascendante sans toucher à l’existant : les données du passé devront toujours être accessibles ne serait-ce que pour des besoins d’audit
En reprenant notre analogie initiale de la construction, si les fondations sont solides et que les évacuations sont bien installées, il sera possible de rajouter une extension sur le côté ou sur la maison, c’est exactement la même chose pour un dictionnaire de données.
Un dictionnaire de données est donc un des éléments clé de succès pour la réussite d’un projet d’entrepôt de donnée.
Sa rédaction précise et partagée en amont évitera de gros problèmes par la suite. C’est une tâche importante qui doit être un préalable indispensable avant le commencement des devs.
Les gains à court termes seront une simplification des échanges avec les équipes et des tests plus faciles coté développement.
A long termes, cela apportera une amélioration de la qualité (et donc de la valeur générée) ainsi qu’une réduction de cout de développement sur les besoins futurs
En fin de compte, un dictionnaire de données clair est un investissement à long terme pour une gestion de données efficace et un entrepôt de données de qualité.
un article rédigé par…
Eric LAPINA,
Directeur de practice Data chez Quanteam