La préparation des données peut être l'une des tâches les plus chronophages et répétitives de votre semaine de travail. Si vous ne nettoyez pas, ne validez pas et ne consolidez pas vos données brutes convenablement, les données de mauvaise qualité seront omniprésentes et les informations exploitables, ou insights, que vous trouverez ne seront pas fiables.
Alors comment vous assurer que votre préparation des données permet d'écarter les données de mauvaise qualité tout en protégeant celles dont dépend votre entreprise ?
Il faut être vigilant et avoir la force d'un vrai super-héros.
Enfilez votre cape, prenez votre bouclier ou votre Batarang et assurez-vous que vos données sont à l'épreuve des balles. En effet, elles doivent être invulnérables aux erreurs de format, aux inexactitudes et aux valeurs inhabituelles : suivez ces six étapes pour une stratégie de préparation des données à toute épreuve.
1. Un œil plus acéré que celui de Hawkeye
Avant de vous mettre directement au travail lorsque vous utilisez un nouveau jeu de données, il vaut mieux entrer de plain-pied dans la matière brute et faire un peu d'exploration. Une vue génétiquement modifiée (comme celle de Hawkeye) peut aider… mais on peut s'en passer. Commencez par créer une image mentale de ce que vous recherchez, mais gardez aussi l'esprit ouvert et laissez les données parler.
Conseils : exploration des données
- Jetez un coup d'œil sur les noms des colonnes et les descriptions des champs pour déceler d'éventuelles anomalies ou des informations manquantes ou incomplètes.
- Vérifiez si vos variables sont correctes : combien de valeurs uniques contiennent-elles ? Avec quelles plages et quels modes ?
- Repérez les points de données inhabituels susceptibles de fausser les résultats. Vous pouvez utiliser des méthodes visuelles (par exemple, des boîtes à moustaches, des histogrammes ou des nuages de points) ou des approches numériques comme les scores z.
- Inspectez les valeurs inhabituelles ou isolées. Devez-vous les examiner de plus près, les ajuster, les omettre ou les ignorer ?
- Examinez les tendances et les relations pour déterminer leur importance statistique.
2. Des données plus raffinées que le réacteur Arc d'Iron Man
Les données pleines d'erreurs et d'incohérences reviennent cher : des études montrent que les données de mauvaise qualité peuvent représenter des millions en perte de chiffre d'affaires annuel. Comme ces erreurs peuvent coûter aussi cher qu'un noyau de palladium, il vous faudra, pour éviter de grosses pertes, nettoyer vos données jusqu'à ce qu'elles brillent d'un bel éclat autoluminescent.
Conseils : nettoyage des données
- Supprimez tous les enregistrements en double qui encombrent votre serveur et faussent votre analyse.
- Supprimez les lignes ou les colonnes non pertinentes qui n'auront pas d'incidence sur le problème que vous essayez de résoudre.
- Examinez et supprimez éventuellement les informations manquantes ou incomplètes.
- Retirez toutes les valeurs inhabituelles indésirables que vous avez découvertes lors de l'exploration des données.
- Corrigez les erreurs structurelles : typographie, majuscules, abréviations, mise en forme, caractères excédentaires.
- Vérifiez que votre travail est fiable, complet et cohérent, en documentant tous les outils et techniques que vous avez utilisés.
3. Une alliance plus puissante que celle des Avengers
Plus vous ajoutez de sources de très bonne qualité à votre analyse, plus vous obtiendrez d'insights riches et complets. En général, tout projet que vous entreprenez nécessite au moins six sources de données, ce qui nécessite des outils de fusion de données afin de les fusionner parfaitement. En gros, il vous faut constituer l'équipe la plus compétente en matière de données de haute qualité.
Conseils : fusion de données
- Acquisition et préparation. Si vous utilisez des outils de données modernes plutôt que d'essayer de rendre les fichiers conformes avec une feuille de calcul, vous pouvez inclure quasiment n'importe quel type ou structure de fichier pour la problématique métier que vous essayez de résoudre, et transformer rapidement tous les jeux de données en une structure commune. Par exemple : fichiers et documents, plateformes cloud, PDF, fichiers texte, robots RPA et outils tels que ERP, CRM, ITSM, etc.
- Fusion. Dans les feuilles de calcul ; voilà où vous exercez vos muscles VLOOKUP. (Mais vous avez des courbatures, non ?) Avec l'analytique en libre-service, il suffit de quelques glisser-déposer.
- Validation. Il est important de vérifier la cohérence de vos résultats et d'explorer tous les enregistrements sans correspondance pour voir si d'autres tâches de nettoyage ou de préparation des données sont de mise.
4. Le sens des données
Le profilage des données, cousin de l'exploration des données, nécessite davantage de précaution. Il s'agit d'examiner un jeu de données spécifiquement pour sa pertinence par rapport à un projet ou une application. Vous devrez faire appel à votre instinct et à votre savoir-faire pour déterminer si un jeu de données doit être utilisé ou non : une décision importante qui pourrait avoir de graves conséquences financières pour votre entreprise.
Conseils : profilage des données
- Profilage de la structure.Quelle est la taille du jeu de données et quels types de données contient-il ? La mise en forme est-elle cohérente, correcte et compatible avec sa destination ?
- Profilage du contenu. Quelles sont les informations contenues dans les données ? En manque-t-il ? Y a-t-il des erreurs ? C'est à cette étape que vous exécutez des statistiques récapitulatives sur les champs numériques, que vous vérifiez la présence de valeurs null, vides et uniques et que vous recherchez des erreurs systémiques dans l'orthographe, les abréviations ou les ID.
- Profilage des relations. Y a-t-il des endroits où les données se chevauchent ou sont mal alignées ? Quels sont les liens entre les unités de données ? Il peut s'agir, par exemple, de formules qui relient des cellules ou de tables qui collectent régulièrement des informations à partir de sources externes. Identifiez et décrivez toutes les relations et veillez à les conserver si vous déplacez les données.
5. Créez votre base secrète
Avec l'énorme volume et la complexité des sources de données à votre disposition, vous devrez inévitablement extraire, intégrer et stocker les données dans un emplacement centralisé qui vous permet de les récupérer pour les analyser quand vous en avez besoin. Un peu comme une base secrète (votre Batcave ?) en fait, où vous mettriez les données qui vous sauvent la mise.
Conseils : ETL (Extract, Transform, Load)
- Extraction. Extrayez toutes les données, structurées ou non, d'une ou de plusieurs sources, et validez leur qualité. (Faites particuliérement preuve de rigueur si vous réalisez l'extraction depuis des systèmes existants ou des sources externes.)
- Transformation. Effectuez un nettoyage en profondeur, et assurez-vous que vos remaniements sont en phase avec les exigences techniques de votre destination cible.
- Chargement.Écrivez les données transformées à leur emplacement de stockage, généralement un entrepôt de données. Ensuite, échantillonnez, puis cherchez les éventuels problèmes de qualité des données.
6. Une technique plus efficace que le lasso de la Vérité de Wonder Woman
Le terme « data wrangling » est souvent utilisé à la légère pour dire « préparation des données », mais il désigne en fait la préparation qui a lieu pendant le processus d'analyse et de création de modèles prédictifs. Même si vous avez bien préparé vos données en amont, une fois à l'étape de l'analyse, vous devrez probablement en passer par le Data Wrangling (ou « munging » ou « lasso ») pour vous assurer que votre modèle pourra les utiliser. Ce serait dommage qu'il les écarte !
Conseils : Data Wrangling
- Exploration. Si votre modèle ne fonctionne pas comme prévu, il est temps de vous replonger dans les données pour en chercher la raison.
- Transformation. Vous devez structurer vos données en gardant votre modèle à l'esprit dès le début. Si vous devez faire pivoter votre jeu de données pour obtenir les résultats espérés, vous devrez passer du temps à le remanier. Avec une solution analytique automatisée, il suffit d'une seule étape.
- Nettoyage. Corrigez les erreurs et supprimez les doublons.
- Enrichissement. Ajoutez d'autres sources, telles que des données tierces faisant autorité.
- Stockage.Le wrangling est un travail difficile. Préservez vos processus afin qu'ils puissent être reproduits par la suite.
Et voilà ! Suivez ces six étapes, et vos données iront plus vite qu'un avion, arrêteront les balles et, pour ainsi dire, revêtiront une cape rouge géante.
Ah, si vous en avez assez des VLOOKUP et des processus manuels, pensez à essayer l'automatisation. Nous parlons de super-pouvoirs analytiques, de la possibilité d'accéder aux données quel que soit leur format et d'automatiser vos processus de préparation actuels grâce à une plateforme analytique automatisée en libre-service.
D'après notre expérience, voici ce qui caractérise l'automatisation de la préparation des données :
- Sauvez rapidement la situation : l'adoption d'une plateforme automatisée produit presque toujours un rendement quantifiable en quelques jours ou semaines.
- Une lutte active et incessante contre l'inefficacité : l'automatisation change tout dans votre routine. Vous passez des tâches manuelles et répétitives à un travail innovant. Et vous n'aurez jamais à résoudre deux fois le même problème de données.
- Trouvez un allié… ou quatre : lorsque vous n'avez plus besoin de « gardiens » pour les données, vous pouvez impliquer toute l'entreprise. Les employés, à tous les niveaux de l'organigramme, commencent à trouver de nouvelles façons d'étendre leur propre champ d'action.
Guide de la préparation de données
Ce changement est si profond qu'il en vient même à créer un univers différent, auquel nous avons donné un nom : Automatisation des processus analytiques (APA).
Apprenez-en plus sur l'APA et sur ses super-pouvoirs analytiques.
Autres ressources
À LIRE
Découvrez à quel point il est facile d'adopter une approche analytique moderne dans notre guide incontournable de l'analytique des données.
À EXPÉRIMENTER
Maîtrisez rapidement tous les aspects de la fusion de données grâce au Kit de démarrage pour la fusion de données d'Alteryx.