Qu'est-ce qu'un data catalog ?

Un data catalog permet de créer un inventaire complet de tous les actifs de données disséminés dans divers systèmes et projets. Dans une entreprise, les données sont souvent réparties entre plusieurs bases de données relationnelles, entrepôts de données, bases de données opérationnelles et systèmes hérités. Un data catalog, ou catalogue de données, est un bon moyen de répondre aux besoins d'une entreprise en matière de découverte, d'analytique et de conformité des données.

En 2020, une étude sectorielle réalisée par Seagate a révélé que 43 % des données collectées par les entreprises étaient sous-utilisées. Pourquoi ? Les actifs de données d'une entreprise se trouvent souvent dans des silos. Seules quelques équipes disposent du savoir-faire nécessaire pour les découvrir et les analyser. Ce n'est donc pas la rareté des données qui pose problème, mais l'absence de système intelligent pour les organiser et les présenter. Le catalogage de données fournit une solution efficace en regroupant les métadonnées associées aux actifs de données.

 

Métadonnées : le socle du data catalog

Un outil de catalogage de données permet d'analyser tous les référentiels de données d'une entreprise et de collecter les métadonnées. Les métadonnées désignent les informations qui accompagnent les données proprement dites. Elles décrivent et annotent les jeux de données. Un outil de catalogage de données compile automatiquement les métadonnées, interprète leur sémantique et en déduit des connexions entre les données. Différents types de métadonnées sont associés à un même jeu de données. Ils définissent différents aspects des données, par exemple :

  1. La source/le fournisseur du jeu de données
  2. Le contenu du jeu de données
  3. La signification des tables et des colonnes
  4. L'emplacement où les données sont stockées et qui peut y accéder
  5. L'historique et la traçabilité du jeu de données
  6. La fiabilité du jeu de données

Les métadonnées peuvent être divisées en trois grands groupes en fonction de l'aspect qu'elles décrivent : les métadonnées techniques, les métadonnées de processus et les métadonnées métier. Un data catalog utilise tous ces types de métadonnées pour créer une vue unifiée des actifs de données.

  • Les métadonnées techniques décrivent la structure d'un jeu de données, c'est pourquoi on les appelle aussi « métadonnées structurelles ». Les noms et descriptions des tables de données font partie des métadonnées techniques. Ils décrivent également les colonnes d'une table et la logique métier utilisée pour les calculer. Les métadonnées techniques sont utiles pour la découverte de données.
  • Les métadonnées de processus recouvrent la traçabilité d'un jeu de données. Elles fournissent des informations sur la source/le créateur des actifs de données et le moment de leur création. Elles enregistrent les informations d'utilisation : qui a utilisé un jeu de données avant, et quand. Les métadonnées de processus aident les analystes à déterminer si les données sont récentes et fiables. On les appelle également « métadonnées administratives ».
  • Les métadonnées métier sont particulièrement utiles pour la prise de décision basée sur les données. Elles décrivent la qualité et la fiabilité des jeux de données. Elles indiquent également si les données sont certifiées.

Même si leurs actifs sont associés à des métadonnées riches, les entreprises doivent les rassembler, les analyser et en déduire les métadonnées pour pouvoir en obtenir de la valeur. Il s'agit là de la fonction principale d'un data catalog. Outre la collecte automatisée des métadonnées, un outil de catalogage des données permet le crowdsourcing des métadonnées, c'est-à-dire l'ajout manuel des métadonnées par les personnes travaillant avec les données. Il facilite également la curation des données, processus par lequel le responsable des données peut enrichir le jeu de données en y ajoutant des conseils d'utilisation.

Principales fonctions d'un catalogue de données

Découverte de données

Dans beaucoup d'entreprises, les données se trouvent dans des silos et seules quelques équipes connaissent leur existence. Les silos font qu'il est moins facile de trouver les données qui pourraient faciliter la prise de décision. Parfois les analystes de données finissent par créer de nouveaux jeux de données ou s'appuient sur des données partielles ou peu fiables.

En proposant une vue unifiée de tous les actifs de données, un data catalog permet de résoudre ce problème. La plupart des data catalogs offrent une interface utilisateur analogue à un moteur de recherche, dans laquelle les utilisateurs tapent simplement les mots-clés correspondant aux données qu'ils recherchent. Le data catalog génère alors une liste d'actifs de données correspondant aux mots-clés et filtres de recherche. Les data catalogs peuvent également fournir des interfaces de programmation d'applications (API) pour automatiser la découverte de données.

Assimilation de données

Outre la découverte de données, les data catalogs permettent également de mieux comprendre les données. En s'appuyant sur les métadonnées techniques, un data catalog fournit une description complète du jeu de données. L'utilisateur obtient ainsi des détails complets sur la signification d'un jeu de données et sa logique métier.

Évaluation de la qualité des données

Les data catalogs rassemblent les métadonnées métier et de processus pour faciliter l'évaluation de la qualité des données. En fonction de l'historique et de la traçabilité du jeu de données, les utilisateurs peuvent déterminer si les données sont à jour et fiables. Les data catalogs permettent le crowdsourcing des métadonnées et la curation manuelle des données, ce qui améliore encore plus la qualité d'un jeu de données. Un data catalog évolue en permanence en intégrant les avis et conseils des utilisateurs. C'est ainsi que les data catalogs permettent de renforcer la confiance dans les actifs de données.

Acquisition de données

Après avoir découvert un jeu de données fiable, les utilisateurs peuvent décider de l'utiliser pour l'analytique. Souvent, les data catalogs facilitent l'accès aux données et leur intégration pour l'analyse. Dans les data catalogs avancés, il suffit d'appuyer sur un bouton pour accéder aux données dans l'outil souhaité ou pour les télécharger. Un accès aux données plus rapide peut permettre d'obtenir plus vite des insights pour la prise de décision. Un data catalog normalise la procédure d'acquisition des données.

Pourquoi les entreprises ont-elles besoin d'un data catalog ?

Explosion du volume de données

Souvent, les entreprises génèrent ou collectent d'énormes quantités de données. La multitude et la dispersion des actifs de données font qu'il est très difficile d'avoir même conscience de l'existence de certaines données pourtant nécessaires à l'analyse. Le manque de visibilité sur les ressources de données à l'échelle de l'entreprise complique leur utilisation pour prendre des décisions éclairées. En outre, l'explosion des données complique encore davantage la recherche d'informations fiables. Résultat : les collaborateurs s'appuient parfois sur des données partielles ou peu fiables tant il est difficile d'obtenir les bonnes données. Cela entraîne une sous-utilisation des actifs de données. Le data catalog aide l'entreprise à découvrir des données de qualité, où qu'elles se trouvent.

Gouvernance et réglementation

Quand une entreprise possède d'énormes volumes de données, elle a généralement du mal à les contrôler et à les protéger. Cela peut aboutir à des fuites de données accidentelles. Les réglementations strictes en matière de protection des données, telles que le Règlement général sur la protection des données (RGPD), obligent les entreprises à s'assurer que seules les personnes autorisées ont accès à la bonne quantité de données. Un data catalog permet de contrôler l'accès aux données et facilite la gouvernance des données. Les entreprises peuvent ainsi mettre en place des contrôles efficaces pour garantir une visibilité et des autorisations adéquates. Cela aide également les responsables de la conformité à identifier les éventuels problèmes de sécurité pour un jeu de données.

Décisions plus rapides et plus efficaces

Un data catalog rassemble des informations sur la traçabilité des données, ou data lineage, notamment leur origine et l'historique d'utilisation. Les data catalogs permettent également la curation manuelle des données grâce aux évaluations et avis. Les curateurs peuvent également ajouter des conseils et astuces pour utiliser plus efficacement le jeu de données. Un data catalog aide les décideurs à prendre des décisions éclairées, étayées par des données fiables et de qualité.

Décentralisation de la gestion des données

Les data catalogs apportent un changement culturel dans la gestion des données. Ce sont souvent quelques équipes, comme les analystes de données, les data scientists et l'IT, qui gèrent les données et s'occupent de la curation. Le data catalog transforme ce modèle de gestion centralisée des données en un processus de curation basé sur la communauté.

Comment les data catalogs peuvent-ils aider les collaborateurs ?

Le data catalog est un service polyvalent qui peut offrir un large éventail de fonctionnalités à différents rôles liés aux données dans l'entreprise.

Analystes de données

Un data catalog aide l'analyste à trouver rapidement les jeux de données pertinents. Des annotations et une traçabilité adéquates lui permettent de choisir le bon jeu de données parmi un vaste choix. Les conseils, avis et commentaires associés aux actifs de données favorisent une analytique des données efficace.

Responsables de la conformité des données

Un data catalog aide l'entreprise à réserver l'accès aux données aux personnes autorisées. Les responsables de la conformité peuvent l'utiliser pour appliquer des procédures d'authentification. Un data catalog permet également un accès transparent aux données. Il assure le respect de la feuille de route de gouvernance des données de l'entreprise. Les data catalogs permettent de se conformer plus facilement à des réglementations telles que le RGPD.

Architectes de données et stratèges

Les architectes de données utilisent le data catalog pour mettre à disposition une approche en libre-service sous gouvernance permettant aux collaborateurs autorisés de découvrir, réutiliser et partager des données d'entreprise essentielles. Un data catalog permet aux utilisateurs de tirer parti d'un outil centralisé pour découvrir les données internes dont ils ont besoin ainsi que des métadonnées qui les aident à évaluer la qualité et les caractéristiques des données.

Caractéristiques essentielles d'un data catalog

Catalogage des actifs de données

Un data catalog doit trouver les données de l'entreprise résidant dans des lacs de données, des entrepôts, des bases de données relationnelles et des systèmes de fichiers pour collecter automatiquement toutes les métadonnées et en déduire des connexions entre les jeux de données. Il doit ensuite utiliser les métadonnées pour baliser les jeux de données. En plus de rassembler des jeux de données, le data catalog doit collecter des rapports, wikis et autres formes d'actifs de données non structurées.

Possibilités de recherche de données

Un data catalog doit fournir un outil de recherche simple et basé sur le langage naturel. Il doit intégrer des mots-clés ou des termes métier pour afficher les données classées selon les préférences de recherche. Le data catalog doit également afficher les résultats de recherche en fonction du niveau d'accès de l'utilisateur et proposer des fonctionnalités de masquage des données pour que des utilisateurs non autorisés ne puissent pas les voir.

Possibilité d'évaluer les données

Le data catalog doit aider l'utilisateur à évaluer les données des jeux de données découverts via un mot-clé ou un terme de recherche. Si l'utilisateur est autorisé à accéder aux données, le catalogue doit lui permettre de prévisualiser le jeu de données et de voir sa traçabilité, à qui il appartient et ses certifications. Un data catalog doit également rassembler les évaluations et avis des utilisateurs et les afficher.

Sécurité des données

Un data catalog doit prendre en charge les procédures de gouvernance de données d'une entreprise. Il doit respecter les pratiques de sécurité des données et d'authentification. Il doit également être capable d'appliquer la sécurité des données à différents niveaux de détail : jeu de données, table ou colonne.

Acquisition de données

Une fois qu'un utilisateur a découvert et évalué un jeu de données, il doit l'intégrer. Un data catalog doit faciliter l'acquisition de données. La recherche de données internes doit être aussi simple que les recherches sur le Web. Et si les données n'existent pas encore, le data catalog doit établir un processus permettant aux utilisateurs de soumettre une demande.

Amélioration de la qualité des données

Le data catalog ne permet pas uniquement la découverte, l'évaluation et l'acquisition de données : il doit aussi aider à améliorer leur qualité. Le data catalog doit montrer les conflits de données et les jeux de données incomplets et peu fiables. Outre le contrôle qualité automatisé, un data catalog doit comporter un contrôle qualité basé sur la communauté donnant aux utilisateurs la possibilité d'évaluer un actif de données et de donner un avis sur sa qualité.

Curation manuelle des données

Un data catalog ne s'arrête pas à la collecte automatisée des métadonnées et à leur balisage : il permet également aux curateurs d'enrichir les données. Un curateur doit pouvoir supprimer un jeu de données du catalogue s'il ne lui semble pas fiable. Le curateur doit également pouvoir ajouter des mots-clés et des balises aux jeux de données, signaler des données très sensibles, ajouter des métadonnées et partager des conseils d'utilisation pour l'actif de données.

Possibilité de crowdsourcing

Un data catalog doit disposer de fonctionnalités qui enrichissent la curation basée sur la communauté pour cet actif de données. Les utilisateurs doivent pouvoir ajouter des métadonnées, évaluer la qualité des données et ajouter des avis et des conseils. Un catalogue doit permettre aux différents utilisateurs de contribuer facilement à la curation des actifs de données.

Vous cherchez un data catalog ? Passez à l'action !

Alteryx Connect est un outil puissant qui répond à tous vos besoins en matière de catalogage de données. Il vous aide à découvrir vos données et actifs métier, maximisant ainsi leur utilisation. Il facilite également la curation et l'enrichissement collectifs des données. Alteryx Connect vous permet de créer rapidement un catalogage de données fiable. Consultez la fiche technique d'Alteryx Connect pour passer à l'étape supérieure dans vos politiques et vos plans de gestion des données.