La qualité de votre analyse de données dépend de la qualité des données sur lesquelles elle repose. C'est pourquoi le nettoyage des données dans Excel est si important. Les données truffées d'erreurs et d'incohérences constituent un problème non négligeable : 20 % des responsables IT et data considèrent que la mauvaise qualité des données est l'un des plus gros défis auxquels ils sont confrontés.
L'efficacité du nettoyage est essentielle pour obtenir des données de grande qualité et pour que l'analyse produise des résultats précis (insights). Personne ne souhaite voir des erreurs dans ses résultats, ou pire, que des erreurs ne soient pas détectées et qu'elles orientent mal les décisions de l'entreprise.
Qu'est-ce que le nettoyage des données dans Excel ?
Le nettoyage des données dans Excel consiste à préparer les données brutes pour l'analyse en supprimant les données erronées, en organisant les données brutes et en renseignant les valeurs null. Travailler avec des données prêtes à l'emploi est une condition préalable pour obtenir des insights précis et pertinents.
Ce n'est qu'une des étapes du processus de préparation des données, qui garantit que les données sont prêtes pour l'analyse et le reporting. La préparation des données comprend également d'autres tâches :
- Exploration des données : pour découvrir les surprises que vous réserve le jeu de données.
- Fusion de données : assemblage de jeux de données multiples pour obtenir de nouvelles informations.
- Profilage des données : identification des données de mauvaise qualité avant qu'elles ne contaminent vos résultats.
- ETL (Extract-Transform-Load) : agrégation de données provenant de diverses sources.
- Data wrangling : consiste à rendre les données digestes pour vos modèles analytiques.
Quelles sont les composantes des données bien nettoyées ?
- Précision : implique que vos données affichent correctement les valeurs réelles qu'elles représentent. Elle garantit que les informations présentées sont exemptes d'erreurs et reflètent l'état réel des données.
- Cohérence : implique que les données restent homogènes entre les différents jeux de données et les différentes périodes. Des données bien nettoyées contiennent les mêmes formats et les mêmes unités de mesure.
- Exhaustivité : correspond à la mesure dans laquelle la totalité des informations nécessaires sont présentes dans un jeu de données. Si vos données sont incomplètes et qu'il manque des détails clés, cela peut avoir des conséquences sur les résultats. Veillez à combler les lacunes ou à tenir compte des valeurs manquantes dans votre analyse.
- Uniformité : degré auquel les données utilisent la même unité de mesure ou un format et une structure cohérents. Il s'agit notamment d'utiliser les mêmes unités de mesure ou de mettre en forme les dates et de les classer par catégories.
- Validité : signifie que les valeurs des données se situent dans la fourchette acceptable prédéterminée et qu'elles sont conformes aux modèles attendus. Par exemple, si un âge valide doit être compris entre 0 et 120 ans, des règles de validation et des contrôles seront appliqués pour garantir que les données répondent à ce critère. Cela permet d'éviter que les valeurs aberrantes et les entrées erronées ne faussent les résultats.
Techniques de nettoyage des données dans Excel
La grande majorité des analystes métier ont appris à nettoyer les données dans Excel. Mais étant donné la multitude de techniques de nettoyage des données Excel, il s'agit généralement d'un processus continu. Pour aider les analystes à démarrer (ou à mettre à jour leurs vieilles habitudes), nous avons sélectionné les méthodes les plus courantes de nettoyage des données dans Excel, accompagnées d'instructions pour chaque technique.
Supprimer les doublons
L'une des techniques de nettoyage de données les plus faciles à mettre en œuvre dans Excel consiste à supprimer les doublons. Des éléments de données différents sont souvent stockés sous forme de jeux différents, et parfois dans des bases de données différentes. Il y a duplication lorsque les données sont consolidées, même par simple copier-coller à partir de différentes sources. Des valeurs en double peuvent apparaître à l'insu de l'utilisateur. Il est donc important de procéder à cette étape pour obtenir des données de meilleure qualité. Pour supprimer les doublons dans Excel, suivez ces instructions simples.
- Sélectionnez les cellules dont vous voulez vérifier la duplication.
- Sélectionnez l'option Données dans la barre d'outils et dans la section Outils des données, sélectionnez l'option Supprimer les doublons.
- Cliquez ensuite sur OK.
Supprimer les espaces inutiles
Pour se débarrasser de ces espaces inutiles et difficiles à repérer, les analystes peuvent utiliser la fonction TRIM, qui supprime les espaces de début et de fin, ainsi que les espaces inutiles entre les mots. Bien plus qu'une simple question d'esthétique, il est important de supprimer les espaces dans Excel afin de pouvoir faire apparaître ces valeurs à l'aide de fonctions telles que VLOOKUP. Voici comment procéder :
- La fonction TRIM peut être utilisée manuellement, mais il est possible de l'intégrer dans le contexte de la fonction VLOOKUP. Cela permet aux utilisateurs de rechercher et de corriger tous les espaces en trop, tout en trouvant les correspondances qu'ils recherchaient.
- Votre formule VLOOKUP se compose alors des éléments suivants :
- TRIM + la valeur de la recherche, sans les espaces inutiles
- La plage de consultation
- La colonne qui contient la valeur à renvoyer
- 0 (pour une correspondance exacte)
Rechercher et remplacer du texte
La fonction rechercher remplacer est utile pour plusieurs techniques de nettoyage des données. L'une d'entre elles consiste à normaliser les valeurs pour les jeux de données qui peuvent stocker des valeurs dans de multiples variations. Vous pouvez utiliser la fonction rechercher et remplacer pour les traiter une par une.
- Sélectionnez la cellule ou la colonne.
- Accédez à Accueil, puis Rechercher et sélectionner.
- Saisissez une valeur dans l'option Rechercher.
- Saisissez la valeur par laquelle vous souhaitez la remplacer.
- Cliquez sur Remplacer tout si vous souhaitez l'appliquer à l'ensemble de la feuille.
L'élimination des cellules vides est une autre façon d'utiliser cette fonction lors du nettoyage des données dans Excel. Si elles ne sont pas prises en compte, elles peuvent être considérées comme des erreurs ou ne seront pas incluses dans votre analyse finale si elles devaient à l'origine signifier 0.
- Pour sélectionner toutes les cellules vides, il suffit d'ouvrir la boîte de dialogue Atteindre, de sélectionner Spécial, puis de sélectionner Cellules vides, pour toutes les cellules vides de votre cellule.
- À partir de là, il est facile de saisir une valeur uniforme, telle que 0 ou N/A, en utilisant Ctrl et Entrée.
Vérifier les fautes de frappe et les mots mal orthographiés
Les fautes de frappe peuvent survenir à tout moment. Il est donc conseillé de toujours vérifier vos données pour les détecter.
- Sélectionnez la cellule, la colonne ou la feuille dans laquelle vous souhaitez vérifier les fautes de frappe.
- Ensuite, utilisez l'option de révision et choisissez Orthographe.
- Excel affichera automatiquement l'orthographe correcte dans la boîte de dialogue. Cliquez sur Modifier si vous êtes d'accord avec la suggestion.
Normaliser les formats
La correction de la structure dans Excel est l'un des défis les plus courants en matière de nettoyage des données. Bien que la plupart des bases de données contiennent des données structurées, il arrive que des formats soient mal détectés ou qu'il y ait des incohérences dans les formats de données. La mise en forme dans Excel est le processus de modification des données dans les feuilles de calcul d'un format à un autre. Il existe plusieurs façons de normaliser les formats dans Excel.
- Utiliser l'outil de mise en forme d'Excel
- Sélectionnez une plage de dates.
- Cliquez avec le bouton droit de la souris et choisissez Format de cellule.
- Ajustez le réglage du format si nécessaire.
- Utiliser Power Query pour détecter et modifier les types et formats de données
- Accédez à Power Query.
- Sélectionnez une source de données.
- Accédez à Requête > Modifier.
- Sélectionnez une colonne et sélectionnez Détecter le type de données sous Transformer.
- Choisissez un type ou un format de données dans le menu déroulant.
Gérer les cellules vides
Il n'existe pas d'approche unique pour gérer les cellules vides dans votre jeu de données, mais il est utile de connaître la raison pour laquelle les cellules sont vides. Voici les méthodes les plus courantes pour traiter les cellules vides dans Excel :
- Supprimer les cellules vides
- Sélectionnez la plage que vous souhaitez supprimer.
- Cliquez avec le bouton droit de la souris sur la sélection.
- Choisissez Supprimer et sélectionnez l'option permettant de décaler les cellules vers le haut, vers la gauche ou sur des lignes/colonnes entières.
- Mise en forme conditionnelle
- Sélectionnez Mise en forme conditionnelle dans Accueil.
- Sélectionnez Nouvelle règle.
- Sélectionnez un type de règle.
- Choisissez le format des espaces vides.
- Filtrer les données
- Dans Accueil, sélectionnez Trier et filtrer sous Édition.
- Ajoutez un filtre aux colonnes que vous souhaitez filtrer.
- Cliquez sur la flèche des données pour les colonnes sélectionnées.
- Désélectionnez toutes les cases à l'exception de la case Cellules vides.
Diviser et fusionner des colonnes
Si vous avez des jeux de données qui doivent être divisés en colonnes distinctes, vous pouvez utiliser la fonction de conversion d'Excel.
- Sélectionnez la plage de dates des données.
- Accédez à l'onglet Données.
- Cliquez sur Convertir.
- Suivez les instructions pour spécifier les délimiteurs et diviser les données.
La fusion de données provenant de plusieurs colonnes est un autre moyen efficace de nettoyer les données dans Excel. La méthode la plus simple consiste à utiliser la fonction CONCATENATE ou l'opérateur esperluette (&).
Répartir le contenu d'une cellule dans les colonnes adjacentes
Lorsque les analystes apprennent à nettoyer les données dans Excel, cette question se pose rapidement. Ils ne disposent généralement pas d'un contrôle absolu sur la manière dont les données sont enregistrées, ce qui signifie qu'un trop grand nombre de données peut être enregistré dans une cellule. Par exemple, les données des capteurs arrivent avec la date et l'heure combinées en une seule valeur, alors qu'il est souvent plus utile de séparer les deux valeurs en deux colonnes. Voici comment procéder :
- Sélectionnez la cellule, la plage ou la colonne entière qui contient les valeurs de texte que vous souhaitez fractionner.
- Dans l'onglet Données, dans le groupe Outils de données, cliquez sur Convertir.
- Suivez les instructions de l'assistant de conversion pour spécifier la manière dont vous souhaitez diviser le texte en colonnes distinctes.
Les défis du nettoyage des données dans Excel
Le nettoyage des données dans Excel est une opération fiable et familière, et les analystes nettoient leurs données dans Excel depuis des décennies afin de les préparer pour l'analyse.
Cependant, les données actuelles étant de plus en plus volumineuses et complexes, Excel commence à montrer des signes de fatigue. Le nettoyage des données est plus efficace lorsque les analystes connaissent bien les données en question. Ils savent ce qu'il faut rechercher et quels types d'erreurs doivent être corrigés. Si ce n'est pas le cas, il est difficile d'identifier des chiffres non valides ou des dates incorrectes, surtout lorsque ces données respectent certaines normes de format. Et lorsqu'il s'agit d'évaluer l'incohérence des données entre plusieurs feuilles de calcul, le nettoyage dans Excel devient très complexe.
Au lieu d'apprendre à nettoyer les données dans Excel, les analystes utilisent de plus en plus de nouvelles solutions de préparation, qui identifient intelligemment les transformations possibles et font apparaître visuellement les erreurs. Ces solutions sont à l'image du monde de l'analytique, où il s'agit d'adopter des plateformes conviviales, flexibles et permettant une interaction visuelle.
Alternative au nettoyage des données dans Excel pour gagner du temps
Sans données de bonne qualité, votre analyse finale manquera de précision ou vous risquez de parvenir à une conclusion erronée.
Si l'utilisation d'Excel pour nettoyer les données peut parfois être efficace pour les jeux de données simples, les nouvelles solutions de préparation offrent une approche intelligente pour traiter des données plus volumineuses et moins familières.
Alteryx résout le dilemme du nettoyage des données. Notre plateforme permet aux utilisateurs d'explorer de manière interactive leurs jeux de données en cliquant sur des composants pour découvrir de nouvelles façons essentielles de transformer les données. Au lieu d'un processus qui repose sur des étapes minutieuses telles que le nettoyage dans Excel, Designer Cloud suggère automatiquement des transformations que les utilisateurs pourront évaluer et modifier. Avec Designer Cloud, les utilisateurs produisent non seulement des jeux de données mieux nettoyés, mais ils y parviennent aussi beaucoup plus rapidement.
Pour en savoir plus sur le fonctionnement de Designer Cloud et découvrir si cette solution est plus efficace pour vos cas d'usage, organisez une démonstration gratuite dès aujourd'hui.