Qu'est-ce que le Data Profiling ?

Le data profiling, ou profilage des données, permet de découvrir, de comprendre et d'organiser les données en identifiant leurs caractéristiques et en évaluant leur qualité. Cette opération permet de savoir si les données sont complètes ou uniques, de détecter les erreurs et les schémas inhabituels, et de déterminer si elles peuvent être exploitées facilement. Ainsi, les équipes disposent d'analyses plus précises, prennent de meilleures décisions et réalisent d'importantes économies.

Pourquoi le Data Profiling est-il important ?

Aux États-Unis, les données de mauvaise qualité coûtent aux entreprises plus de 3 000 milliards de dollars par an en raison de la méfiance à l'égard de leur qualité, du nettoyage répété et de la recherche de sources supplémentaires pour confirmer leur exactitude. Le profilage garantit la qualité et la crédibilité des données, ce qui permet aux métiers de comprendre et de vérifier leurs caractéristiques, d'identifier les problèmes de qualité et de s'assurer qu'elles sont conformes aux normes statistiques et organisationnelles.

Types de profilage des données

Il existe plusieurs techniques de data profiling, mais toutes peuvent se classer dans trois grandes catégories : la structure, le contenu et les relations. Pour comprendre le processus de profilage des données et la façon dont ces étapes se combinent, prenons l'exemple d'une récente fusion d'entreprises qui implique d'intégrer les données d'un système CRM dans un autre. Le profilage permet de mieux comprendre les caractéristiques et la qualité de la source (l'ancien système) et de la cible (le nouveau système) en observant le format des données, les informations, la qualité et les relations entre les différents champs et tables de la base de données.

 

Processus de profilage des données

 

data-profiling-structure-discovery

Découverte de la structure

La première étape du profilage des données, qu'il s'agisse d'une base de données entière ou d'un seul fichier, consiste à examiner la structure et le format. Quelques questions à se poser lors du profilage de la structure :

  • Quelle est la taille globale du jeu de données ?
  • Quels types de données contient-il ? (Par ex. des chaînes, valeurs à virgule flottante, des dates et/ou heures, des booléens, des objets spatiaux)
  • Le format des données est-il cohérent et correct ? Cet aspect est important si les données doivent migrer vers un nouveau référentiel.

Une fois ces questions traitées, il faut catégoriser et étiqueter les données selon les résultats obtenus pour améliorer leur utilisabilité.

data-profiling-content-discovery

Découverte de contenu

En examinant le contenu, tant du point de vue cognitif que visuel, il est possible de mieux comprendre les données et de mettre en évidence les manques ou les erreurs. Lors du profilage du contenu, il faut :

  • Agréger les statistiques telles que les valeurs min/max pour les champs numériques et la fréquence des valeurs pour les champs de catégorie
  • Vérifier le nombre de valeurs null, vides et uniques pour en savoir plus sur la plage et la qualité des données, et déterminer si un champ est pertinent
  • Rechercher les erreurs systémiques telles que les fautes d'orthographe et les variations dans les valeurs (par exemple, « Docteur » et « Dr »), ce qui peut compromettre le processus analytique
data-profiling-relationship-discovery

Découverte des relations

L'identification des relations clés peut aider à déterminer si l'on garde des données et indiquer où celles-ci peuvent être transformées pour devenir plus efficaces. Une relation peut être aussi simple qu'une formule dans une cellule faisant référence à une autre cellule de la feuille de calcul ou aussi complexe qu'une table contenant des données de vente agrégées à partir d'une collection de tables régulièrement mises à jour.

L'utilisation du Data Profiling

Les entreprises collectent plus de données que jamais. Cependant, sans les bons processus et outils, elles passent à côté de la possibilité de les utiliser efficacement. Le profilage permet d'organiser et de gérer les données pour révéler des informations utiles et puissantes. Voici quelques avantages du profilage :

  • Intégrer des données de diverses sources et déterminer leur qualité avant de les ajouter dans le lac de données de l'entreprise
  • En savoir plus sur la base de clients afin de booster l'efficacité, d'augmenter les ventes et de mieux détecter les fraudes

Bien démarrer avec le Data Profiling

Souvent, le profilage est confié aussi bien aux collaborateurs ayant reçu une formation technique qu'à ceux qui ont un parcours non technique. La plateforme d'automatisation analytique Alteryx simplifie la tâche grâce à des outils faciles à utiliser pour le profilage de la structure, du contenu et des relations :

  • L'outil Entrée de données pour ajouter tout type de données dans l'interface Alteryx Designer
  • L'outil Profil de données de base pour analyser automatiquement et fournir des métadonnées pour chaque champ
  • L'outil Explorateur pour utiliser des graphiques et des tables destinés à afficher les valeurs essentielles, les statistiques clés et la « forme » globale d'un jeu de données