En tant que responsable de la réussite clients chez Alteryx, je passe la plupart de mon temps à les aider à transformer leurs données brutes en insights. Dans le cadre de ces projets de data wrangling, il est tentant de s'attaquer directement aux problèmes majeurs, mais pour obtenir les résultats les plus précis, nous devrions commencer par effectuer une série de validations de base de la qualité des données.
Ces validations initiales servent à vérifier l'intégrité des données.
L'exécution de contrôles d'intégrité est une étape importante (et souvent négligée) du processus analytique. Comme pour tout ce qui concerne l'analytique et l'IA, la précision de votre analyse finale dépend de celle de vos données, et il est important de prendre quelques minutes pour valider l'exactitude et l'exhaustivité de vos données. Un rapide test d'intégrité facilite l'exécution d'une analyse précise.
Chez Alteryx, nous croyons en l'importance de vérifier l'intégrité des données, et nous avons intégré un profilage robuste dans nos propres produits et fonctionnalités. Poursuivez votre lecture pour découvrir comment j'utilise Designer Cloud pour effectuer quatre vérifications d'intégrité essentielles en manipulant des données pour des projets clients.
1. Prélevez un échantillon aléatoire des données.
Pourquoi cette vérification de l'intégrité est utile pour la validation des données
Souvent, les jeux de données avec lesquels je travaille sont trop volumineux pour être facilement évalués en tant que source complète. Le fait de n'examiner qu'un échantillon consécutif de ces données, par exemple, les 1 000 premières lignes, peut me donner une compréhension incomplète du contenu d'un jeu de données. En générant un échantillon aléatoire sur l'ensemble du jeu de données, j'obtiens une image plus précise de son ensemble.
Alteryx Designer Cloud me permet d'échanger entre un échantillon des premières lignes d'un jeu de données et un échantillon aléatoire du jeu complet.
Exemple concret de vérification de l'intégrité et de data wrangling
La semaine dernière, je montrais à un client comment extraire des données d'un ensemble de journaux générés par une machine et contenant des informations sur l'utilisation d'un produit. Chaque produit envoyant régulièrement des données de journalisation, le volume était absolument énorme. Il y avait des milliers de fichiers de journal individuels, chacun d'une taille d'environ 2 Go. Cela signifie que nous ne pourrons pas examiner facilement l'ensemble des jeux en une seule fois.
Après avoir chargé les données dans Designer Cloud, nous avons décidé de comparer l'échantillon des premières lignes avec l'échantillon aléatoire afin de valider le fait que la structure des journaux est restée cohérente tout au long des jeux de données. Nous avons constaté que le nombre de catégories, ou de chaînes uniques, augmentait lorsque nous passions à un échantillon aléatoire. Nous avons approfondi la validation de nos données et avons constaté ce qui suit :
Une de nos colonnes contenait parfois un ensemble de valeurs supplémentaires. Pour nous assurer que les données sont structurées correctement, nous avons dû extraire cet ensemble dans une nouvelle colonne. L'examen d'un échantillon aléatoire des données au cours d'une validation d'intégrité nous a permis de mettre en évidence ce problème de qualité et de prendre des mesures pour y remédier.
2. Vérifiez la concordance des types de données, les variations dans la manière dont les valeurs sont saisies et les valeurs manquantes.
Pourquoi cette vérification de l'intégrité est utile pour la validation des données
Une analyse efficace des données en aval exige de la cohérence. Vous ne pouvez pas comprendre facilement les relations entre les événements si certains de ces événements ont des dates en aaaa/mm/jj et d'autres en jj/mm/aaaa. De même, certains systèmes peuvent enregistrer les prix sous forme de chaînes de caractères (1 000 $), tandis que d'autres les enregistrent sous forme de décimales (1 000,00).
Comment fonctionne la validation des données dans Designer Cloud
Designer Cloud établit automatiquement le profil de vos données et fournit des informations sur le nombre de valeurs valides, manquantes et non concordantes dans chaque colonne. Les résultats de ce profilage sont indiqués dans la barre de qualité des données située au-dessus de chaque colonne du jeu de données.
3. Recherchez les enregistrements en double et les valeurs aberrantes.
Pourquoi cette vérification de l'intégrité est utile pour la validation des données
Les enregistrements en double et les valeurs aberrantes peuvent fausser mon analyse. Je dois donc évaluer la qualité globale du jeu de données et déterminer s'il contient des doublons ou des valeurs aberrantes.
Comment fonctionne la validation des données dans Designer Cloud
Lorsque vous travaillez avec vos données dans Designer Cloud, vous pouvez passer à la vue des détails des colonnes, qui affiche des statistiques récapitulatives sur le contenu de chaque colonne de vos jeux de données.
L'un de nos jeux de données de démonstration contient une colonne où figurent les notes de satisfaction moyennes des agents du service clientèle. Dans la vue des détails de la colonne, nous pouvons rapidement voir des statistiques récapitulatives sur les données, y compris le nombre de valeurs uniques dans la colonne et les éventuelles valeurs aberrantes. Notre jeu de données de démonstration contient quelques valeurs aberrantes. Après avoir identifié ces valeurs aberrantes, je peux décider de les exclure ou non de mon analyse.
Exemple concret de vérification de l'intégrité et de data wrangling
L'un de nos clients avait développé un tableau de bord de prévision des stocks qui regroupait des données provenant de plusieurs détaillants. Il est essentiel de garantir l'exactitude des données utilisées dans le tableau de bord, d'autant plus que toute donnée inexacte ou dupliquée dans le tableau de bord final pourrait avoir des conséquences directes sur les résultats de notre client.
Nous avons effectué des tests d'intégrité au début du processus de traitement des données et découvert qu'un certain nombre d'enregistrements en double s'étaient glissés dans les données sources. Nous avons pu résoudre ce problème et créer des prévisions d'inventaire très précises, que les cadres supérieurs peuvent utiliser en collaborant sur des campagnes promotionnelles avec leurs clients du secteur retail.
4. Évaluez la distribution des données pour chaque colonne.
Pourquoi cette vérification de l'intégrité est utile pour la validation des données
Parfois, les données d'une colonne peuvent sembler correctes à première vue (il n'y a pas d'incohérences évidentes entre les types de données, d'enregistrements en double, de valeurs aberrantes ou nulles), mais si vous examinez la distribution des données dans la colonne, vous remarquez des lacunes ou une distribution des valeurs qui n'a aucun sens logique. Une distribution de données étrange peut indiquer un problème de qualité des données plus important que vous devez examiner : peut-être que certains points de données n'ont pas été enregistrés ou que les données n'ont pas été encodées correctement.
Comment fonctionne la validation des données dans Designer Cloud
La vue des détails (présentée tout à l'heure) affiche un histogramme détaillé des distributions de valeurs, ainsi que des statistiques récapitulatives comme l'écart type, la valeur médiane et la moyenne des valeurs de chaque colonne. Si vous souhaitez valider rapidement la distribution des données sans ouvrir la vue des détails des colonnes, vous pouvez également consulter les petits histogrammes affichés au-dessus de vos données.
Exemple concret de vérification de l'intégrité et de data wrangling
Récemment, j'ai travaillé sur un projet qui utilisait des données brutes d'interaction pour améliorer l'expérience du site Web d'un de nos clients. Nous traitions un ensemble de journaux de visites de sites Web. À première vue, les dates et heures de chaque visite sur le site Web semblaient valables. Toutefois, lorsque nous avons effectué un contrôle de base de l'intégrité de ces données et évalué la distribution des valeurs, nous avons remarqué que la plupart des visites avaient eu lieu entre minuit et 3 heures du matin. Comme il semble peu probable qu'une majorité des visiteurs venaient sur le site au milieu de la nuit, il y avait manifestement un problème avec les données.
Nous avons examiné le processus qui nous fournissait les weblogs et découvert que le système en amont tronquait les zéros de fin qui apparaissaient dans les horodatages. Donc un horodatage qui était en réalité "175400" (17:54.00) apparaissait en tant que "1754" (00:17.54). Une fois que nous avons ajusté les données pour tenir compte de la troncature des zéros de fin, la distribution des données est apparue beaucoup plus raisonnable.
Pour terminer :
Notre portail d'assistance propose des articles, des vidéos et un forum pour vous aider à relever les défis liés à la manipulation des données, comme la visualisation de données non concordantes. Pour faire vos premiers pas avec les tests d'intégrité en vue de la validation des données, inscrivez-vous pour un essai gratuit d'Alteryx Designer dès aujourd'hui !