Nettoyage dans Excel avec des données et des techniques modernes

Technologie   |   Bertrand Cariou   |   29 oct. 2024 TEMPS DE LECTURE : 9 MINUTES
TEMPS DE LECTURE : 9 MINUTES

The quality of your data analysis depends on the quality of the data behind it. This is why data cleaning in Excel is so important. Excel data riddled with errors and inconsistencies is a significant issue: 20% of IT and data leaders say poor data quality is one of the most critical challenges they face.

La propreté est essentielle pour obtenir des données de haute qualité et pour que l'analyse produise des résultats précis (insights). Personne ne souhaite voir des erreurs dans ses résultats, ou pire, que des erreurs ne soient pas détectées et qu'elles orientent de manière incorrecte les décisions de l'entreprise.

Qu'est-ce que le nettoyage des données dans Excel ?

Data cleaning in Excel is the process of preparing raw data for analysis by removing bad data, organizing the raw data, and filling in the null values. Working with clean data is a prerequisite for getting meaningful and accurate insights from your data.

Data cleansing is just one of the steps in the data preparation process that ensures data is ready for analysis and reporting. Data prep also includes:

  • Exploration des données : pour découvrir les surprises que vous réserve le jeu de données.
  • Fusion de données : assemblage de jeux de données multiples pour obtenir de nouvelles informations.
  • Profilage des données : identification des données de mauvaise qualité avant qu'elles ne contaminent vos résultats.
  • ETL (Extract-Transform-Load) : agrégation de données provenant de diverses sources.
  • Data wrangling : consiste à rendre les données digestes pour vos modèles analytiques.

Quelles sont les composantes des données propres ?

  • Précision : implique que vos données affichent correctement les valeurs réelles qu'elles représentent. Elle garantit que les informations présentées sont exemptes d'erreurs et reflètent l'état réel des données.
  • Cohérence : implique que les données restent homogènes entre les différents jeux de données et les différentes périodes. Des données propres contiennent les mêmes formats et les mêmes unités de mesure.
  • Exhaustivité : correspond à la mesure dans laquelle la totalité des informations nécessaires sont présentes dans un jeu de données. Si vos données sont incomplètes et qu'il manque des détails clés, cela peut avoir des conséquences sur les résultats. Veillez à combler les lacunes ou à tenir compte des valeurs manquantes dans votre analyse.
  • Uniformité : degré auquel les données utilisent la même unité de mesure ou un format et une structure cohérents. Il s'agit notamment d'utiliser les mêmes unités de mesure ou de mettre en forme les dates et de les classer par catégories.
  • Validité : signifie que les valeurs des données se situent dans la fourchette acceptable prédéterminée et qu'elles sont conformes aux modèles attendus. Par exemple, si un âge valide doit être compris entre 0 et 120 ans, des règles de validation et des contrôles seront appliqués pour garantir que les données répondent à ce critère. Cela permet d'éviter que les valeurs aberrantes et les entrées erronées ne faussent les résultats.

Techniques for cleaning data in Excel

The vast majority of business analysts have learned how to clean data in Excel. But given the huge number of Excel data cleaning techniques, this is usually an on-going process. To help analysts get their start (or refresh some old tricks), we’ve selected the most common ways for how to clean data in Excel with instructions for each data cleansing technique.

Supprimer les doublons

One of the easiest data cleansing techniques in Excel is removing duplicates. Different bits of data are often stored as different datasets, and sometimes in different databases. Duplication occurs when the data is consolidated, even through simply copying and pasting from various sources. Duplicate values can appear without the user’s knowledge so it’s important to take this step for cleaner data. To remove duplicates in Excel, follow these simple instructions.

  1. Sélectionnez les cellules dont vous voulez vérifier la duplication.
  2. Sélectionnez l'option Données dans la barre d'outils et dans la section Outils des données, sélectionnez l'option Supprimer les doublons.
  3. Cliquez ensuite sur OK.

Supprimer les espaces inutiles

Pour se débarrasser de ces espaces inutiles et difficiles à repérer, les analystes peuvent utiliser la fonction TRIM, qui supprime les espaces de début et de fin, ainsi que les espaces inutiles entre les mots. Bien plus qu'une simple question d'esthétique, il est important de supprimer les espaces dans Excel afin de pouvoir faire apparaître ces valeurs à l'aide de fonctions telles que VLOOKUP. Voici comment procéder :

  1. La fonction TRIM peut être utilisée manuellement, mais il est possible de l'intégrer dans le contexte de la fonction VLOOKUP. Cela permet aux utilisateurs de rechercher et de corriger tous les espaces en trop, tout en trouvant les correspondances qu'ils recherchaient.
  2. Votre formule VLOOKUP se compose alors des éléments suivants :
    1. TRIM + la valeur de la recherche, sans les espaces inutiles
    2. La plage de consultation
    3. La colonne qui contient la valeur à renvoyer
    4. 0 (pour une correspondance exacte)

Rechercher et remplacer du texte

The find and replace function is useful for several data cleansing techniques. One of them is to standardize values for datasets that may store values in multiple variations. You can use find and replace to tackle them one by one.

  1. Sélectionnez la cellule ou la colonne.
  2. Accédez à Accueil, puis Rechercher et sélectionner.
  3. Saisissez une valeur dans l'option Rechercher.
  4. Saisissez la valeur par laquelle vous souhaitez la remplacer.
  5. Cliquez sur Remplacer tout si vous souhaitez l'appliquer à l'ensemble de la feuille.

L'élimination des cellules vides est une autre façon d'utiliser cette fonction lors du nettoyage des données dans Excel. Si elles ne sont pas prises en compte, elles peuvent être considérées comme des erreurs ou ne seront pas incluses dans votre analyse finale si elles devaient à l'origine signifier 0.

  1. Pour sélectionner toutes les cellules vides, il suffit d'ouvrir la boîte de dialogue Atteindre, de sélectionner Spécial, puis de sélectionner Cellules vides, pour toutes les cellules vides de votre cellule.
  2. À partir de là, il est facile de saisir une valeur uniforme, telle que 0 ou N/A, en utilisant Ctrl et Entrée.

Vérifier les fautes de frappe et les mots mal orthographiés

Les fautes de frappe peuvent survenir à tout moment. Il est donc conseillé de toujours vérifier vos données pour les détecter.

  1. Sélectionnez la cellule, la colonne ou la feuille dans laquelle vous souhaitez vérifier les fautes de frappe.
  2. Ensuite, utilisez l'option de révision et choisissez Orthographe.
  3. Excel affichera automatiquement l'orthographe correcte dans la boîte de dialogue. Cliquez sur Modifier si vous êtes d'accord avec la suggestion.

Normaliser les formats

La correction de la structure dans Excel est l'un des défis les plus courants en matière de nettoyage des données. Bien que la plupart des bases de données contiennent des données structurées, il arrive que des formats soient mal détectés ou qu'il y ait des incohérences dans les formats de données. La mise en forme dans Excel est le processus de modification des données dans les feuilles de calcul d'un format à un autre. Il existe plusieurs façons de normaliser les formats dans Excel.

  1. Utiliser l'outil de mise en forme d'Excel
    1. Sélectionnez une plage de dates.
    2. Cliquez avec le bouton droit de la souris et choisissez Format de cellule.
    3. Ajustez le réglage du format si nécessaire.
  2. Utiliser Power Query pour détecter et modifier les types et formats de données
    1. Accédez à Power Query.
    2. Sélectionnez une source de données.
    3. Accédez à Requête > Modifier.
    4. Sélectionnez une colonne et sélectionnez Détecter le type de données sous Transformer.
    5. Choisissez un type ou un format de données dans le menu déroulant.

Gérer les cellules vides

Il n'existe pas d'approche unique pour gérer les cellules vides dans votre jeu de données, mais il est utile de connaître la raison pour laquelle les cellules sont vides. Voici les méthodes les plus courantes pour traiter les cellules vides dans Excel :

  1. Supprimer les cellules vides
    1. Sélectionnez la plage que vous souhaitez supprimer.
    2. Cliquez avec le bouton droit de la souris sur la sélection.
    3. Choisissez Supprimer et sélectionnez l'option permettant de décaler les cellules vers le haut, vers la gauche ou sur des lignes/colonnes entières.
  2. Mise en forme conditionnelle
    1. Sélectionnez Mise en forme conditionnelle dans Accueil.
    2. Sélectionnez Nouvelle règle.
    3. Sélectionnez un type de règle.
    4. Choisissez le format des espaces vides.
  3. Filtrer les données
    1. Dans Accueil, sélectionnez Trier et filtrer sous Édition.
    2. Ajoutez un filtre aux colonnes que vous souhaitez filtrer.
    3. Cliquez sur la flèche des données pour les colonnes sélectionnées.
    4. Désélectionnez toutes les cases à l'exception de la case Cellules vides.

Diviser et fusionner des colonnes

Si vous avez des jeux de données qui doivent être divisés en colonnes distinctes, vous pouvez utiliser la fonction de conversion d'Excel.

  • Sélectionnez la plage de dates des données.
  • Accédez à l'onglet Données.
  • Cliquez sur Convertir.
  • Suivez les instructions pour spécifier les délimiteurs et diviser les données.

La fusion de données provenant de plusieurs colonnes est un autre moyen efficace de nettoyer les données dans Excel. La méthode la plus simple consiste à utiliser la fonction CONCATENATE ou l'opérateur esperluette (&).

Répartir le contenu d'une cellule dans les colonnes adjacentes

When analysts first start to learn data cleaning in Excel, this is another early question that arises. Analysts don’t normally have absolute control as to how data is recorded, which means that too much data can be recorded in one cell. For example, sensor data arrives with both the date and time combined in a single value, when it is often more helpful to separate the two values into two columns. Here’s how to do it:

  1. Sélectionnez la cellule, la plage ou la colonne entière qui contient les valeurs de texte que vous souhaitez fractionner.
  2. Dans l'onglet Données, dans le groupe Outils de données, cliquez sur Convertir.
  3. Suivez les instructions de l'assistant de conversion pour spécifier la manière dont vous souhaitez diviser le texte en colonnes distinctes.

Les défis du nettoyage des données dans Excel

Le nettoyage des données dans Excel est une opération fiable et familière, et les analystes nettoient leurs données dans Excel depuis des décennies afin de les préparer pour l'analyse.

However, as today’s data grows larger and increasingly complex, Excel is showing its age. Data cleansing works best when analysts are relatively familiar with the data at hand; they know what to search for and what types of errors need addressing. If not, it’s hard to identify invalid numbers or incorrect dates, especially when that data respects certain format standards. And when it comes to assessing data inconsistency between multiple spreadsheets, cleaning data in Excel becomes a complex project all by its own.

Au lieu d'apprendre à nettoyer les données dans Excel, les analystes utilisent de plus en plus de nouvelles solutions de préparation, qui identifient intelligemment les transformations possibles et font apparaître visuellement les erreurs. Ces solutions sont à l'image du monde de l'analytique, où il s'agit d'adopter des plateformes conviviales, flexibles et permettant une interaction visuelle.

Alternative au nettoyage des données dans Excel pour gagner du temps

Sans données de bonnes qualités, votre analyse finale manquera de précision ou vous risquez de parvenir à une conclusion erronée.

Si l'utilisation d'Excel pour nettoyer les données peut parfois être efficace pour les jeux de données simples, les nouvelles solutions de préparation offrent une approche intelligente pour traiter des données plus volumineuses et moins familières.

Alteryx solves the data cleansing dilemma. It allows users to interactively explore their datasets by clicking on components of the data so that they can discover new and essential ways in which it must be transformed. Instead of a process driven by careful steps like data cleaning in Excel, Designer Cloud will automatically present suggested transformations for users to evaluate and edit. With Designer Cloud, not only are users producing more thoroughly cleansed datasets, but are also achieving it in significantly less time.

Pour en savoir plus sur le fonctionnement de Designer Cloud et découvrir si cette solution est plus efficace pour vos cas d'usage, organisez une démonstration gratuite dès aujourd'hui.

Balises