Vier wichtige Schritte für einen Daten-Qualitätscheck

Strategie   |   Alteryx   |   17. Nov. 2021 LESEZEIT: 7 MIN
LESEZEIT: 7 MIN

Als Customer Success Manager bei Alteryx verbringe ich die meiste Zeit damit, unseren Kundinnen und Kunden dabei zu helfen, ihre rohen Big Data in Geschäftserkenntnisse umzuwandeln. Bei diesen Data Wrangling-Projekten ist es verlockend, sich direkt mit den interessantesten Problemen zu befassen. Um jedoch die genauesten Ergebnisse zu erzielen, sollten wir zunächst eine Reihe grundlegender Datenqualitätsprüfungen durchführen.

Wir nennen diese ersten Datenqualitätsprüfungen „Sanity Checks“ bzw. Qualitätscheck.

Die Durchführung von Sanity Checks ist ein wichtiger (und oft vernachlässigter) Teil des Analyseprozesses. Wie bei allem, was mit Analytics und KI zu tun hat, ist Ihre endgültige Analyse nur so genau wie Ihre Daten. Das bedeutet, dass es sich mehr als lohnt, sich ein paar Minuten Zeit zu nehmen, um die Genauigkeit und Vollständigkeit Ihrer Daten zu überprüfen. Ein kurzer Sanity Check trägt wesentlich zu einer genauen Analyse bei.

Wir bei Alteryx sind so sehr von den Sanity Checks überzeugt, dass wir in unsere eigenen Produkte und Funktionalitäten eine solide Profilierung integriert haben. Lesen Sie weiter, um zu erfahren, wie ich mit Designer Cloud vier wichtige Sanity Checks durchführe, während ich Daten für Kundenprojekte aufbereite.

1. Nehmen Sie eine Zufallsstichprobe der Daten.

Warum dieser Sanity-Test nützlich ist für die Datenvalidierung

Oft sind die Datasets, mit denen ich arbeite, zu groß, um sie einfach als vollständige Quelle beurteilen zu können. Wenn ich nur eine aufeinanderfolgende Stichprobe dieser Daten betrachte, z. B. die ersten 1.000 Zeilen, kann ich ein unvollständiges Verständnis des Inhalts eines Datasets erhalten. Durch die Generierung einer Zufallsstichprobe über die Gesamtheit des Datasets erhalte ich ein genaueres Bild des vollständigen Datasets.

Mit Alteryx Designer Cloud kann ich zwischen einer Stichprobe der ersten Zeilen eines Datasets und einer Zufallsstichprobe des gesamten Datasets wechseln.

Sanity Checks und Data Wrangling in der Praxis

Letzte Woche habe ich einem Kunden gezeigt, wie man Daten für eine Reihe von maschinengenerierten Protokollen mit Informationen zur Produktnutzung aufbereitet. Da jedes Produkt regelmäßig Protokolldaten sendet, war das Datenvolumen enorm: Es gab Tausende einzelner Protokolldateien mit einer Größe von jeweils etwa 2 GB. Das bedeutete, dass wir nicht in der Lage sein würden, das vollständige Dataset auf einmal zu untersuchen.

Nachdem wir die Daten in Designer Cloud geladen hatten, entschieden wir, die Stichprobe der ersten Zeile mit der Zufallsstichprobe zu vergleichen, um zu überprüfen, ob die Struktur der Protokolle über gesamte das Dataset hinweg konsistent blieb. Wir stellten fest, dass die Anzahl der Kategorien oder eindeutigen Zeichenfolgen zunahm, als wir zu einer Zufallsstichprobe wechselten. Wir haben unsere Datenvalidierung etwas vertieft und dabei Folgendes festgestellt:

Eine unserer Spalten enthielt bisweilen ein Feld (oder auch: Array) mit zusätzlichen Werten! Um sicherzustellen, dass die Daten korrekt strukturiert waren, mussten wir dieses Feld in eine neue Spalte extrahieren. Durch die Untersuchung einer Stichprobe unserer Daten im Rahmen eines Qualitätschecks konnten wir dieses Datenqualitätsproblem aufdecken und anschließend Maßnahmen zu seiner Behebung ergreifen.

2. Prüfen Sie auf Datentypabweichungen, Abweichungen bei der Eingabe von Werten und fehlende Werte.

Warum dieser Sanity Check nützlich ist für die Datenvalidierung

Eine wirksame nachgelagerte Datenanalyse erfordert Konsistenz. Sie können die Beziehungen zwischen Ereignissen nicht leicht verstehen, wenn einige dieser Ereignisse Datumsangaben im Format „yyyy/MM/dd“ und andere Ereignisse im Format „dd/MM/yyyy" haben. In ähnlicher Weise können einige Systeme Preise in Zeichenfolgen speichern (1.000 $), während andere Systeme Preise in Dezimalzahlen speichern (1.000,00).

So funktioniert die Datenvalidierung in Designer Cloud 

Designer Cloud profiliert Ihre Daten automatisch und liefert Informationen über die Anzahl der gültigen, fehlenden und nicht übereinstimmenden Werte in jeder Spalte. Die Ergebnisse dieser Profilierung werden in der Datenqualitätsleiste über jeder Spalte im Dataset angezeigt.

3. Suchen Sie nach doppelten Datensätzen und Ausreißern.

Warum dieser Sanity Check nützlich ist für die Datenvalidierung

Sowohl doppelte Datensätze als auch Ausreißer können meine Analyse verzerren. Daher muss ich die Gesamtqualität des Datasets bewerten und feststellen, ob es doppelte Datensätze oder Ausreißer enthält.

So funktioniert die Datenvalidierung in Designer Cloud

Wenn Sie mit Ihren Daten in Designer Cloud arbeiten, können Sie zur Ansicht der Spaltendetails wechseln, in der übergeordnete zusammenfassende Statistiken über den Inhalt jeder Spalte in Ihrem Dataset angezeigt werden.

Eines unserer Demo-Datasets enthält eine Spalte mit den durchschnittlichen Zufriedenheitswerten für Kundendienstmitarbeiter:innen. In der Spaltendetailansicht können wir schnell zusammenfassende Statistiken zu den Daten anzeigen, einschließlich der Anzahl der eindeutigen Werte in der Spalte und etwaiger Ausreißer. Unser Demo-Dataset enthält einige Ausreißerwerte. Nachdem ich die Ausreißer identifiziert habe, kann ich entscheiden, ob diese Werte aus meiner Analyse ausgeschlossen werden sollen.

Sanity Checks und Data Wrangling in der Praxis

Einer unserer Kunden hatte ein Dashboard für Bestandsprognosen erstellt, das Daten von mehreren Einzelhändlern umfasste. Es ist äußerst wichtig, sicherzustellen, dass die im Dashboard verwendeten Daten korrekt sind, insbesondere da ungenaue oder duplizierte Daten im endgültigen Dashboard einen direkten Einfluss auf das Geschäftsergebnis unserer Kundinnen und Kunden haben können.

Zu Beginn des Data-Wrangling-Prozesses führten wir Sanity-Tests durch und stellten fest, dass sich eine Reihe doppelter Datensätze in die Quelldaten eingeschlichen hatten. Es gelang uns, dieses Problem zu lösen und eine äußerst genaue Bestandsprognose zu erstellen, die die Führungsebene bei der Zusammenarbeit mit Einzelhandelskunden an Werbekampagnen verwenden konnte.

4. Beurteilen Sie die Datenverteilung für jede Spalte.

Warum dieser Sanity Check nützlich ist für die Datenvalidierung

Manchmal sehen die Daten in einer Spalte oberflächlich betrachtet gut aus – es gibt keine offensichtlichen Datentypabweichungen, doppelten Datensätze, Ausreißer oder Nullwerte. Wenn Sie jedoch die Verteilung der Daten in der Spalte untersuchen, bemerken Sie Lücken oder eine Werteverteilung, die keinen logischen Sinn ergibt. Eine ungewöhnliche Datenverteilung kann auf ein größeres Datenqualitätsproblem hinweisen, das Sie untersuchen müssen: Möglicherweise wurden einige Datenpunkte nicht aufgezeichnet oder die Daten wurden nicht korrekt aufbereitet.

So funktioniert die Datenvalidierung in Designer Cloud

Die Spaltendetailansicht (siehe oben) zeigt ein detailliertes Histogramm der Werteverteilungen sowie zusammenfassende Statistiken wie Standardabweichung, Median und Durchschnitt der Werte in jeder Spalte. Wenn Sie die Datenverteilung schnell überprüfen möchten, ohne die Spaltendetailansicht zu öffnen, können Sie sich auch die kleinen Histogramme ansehen, die über Ihren Daten angezeigt werden.

Sanity Checks und Data Wrangling in der Praxis

Kürzlich habe ich an einem Projekt gearbeitet, bei dem rohe Interaktionsdaten verwendet wurden, um das Benutzererlebnis auf einer Website eines unserer Kunden zu verbessern. Wir arbeiteten an einer Reihe von Protokollen der Website-Besuche. Auf den ersten Blick sahen die Datums-/Zeitstempel für jeden Website-Besuch gültig aus. Als wir jedoch einen grundlegenden Sanity Check dieser Daten durchführten und die Verteilung der Werte bewerteten, stellten wir fest, dass die meisten Website-Besuche zwischen Mitternacht und 3 Uhr morgens stattgefunden hatten. Da es unwahrscheinlich schien, dass die Mehrheit der Website-Besucher:innen ihre Online-Aufgaben mitten in der Nacht erledigte, gab es eindeutig ein Problem mit den Daten.

Wir untersuchten den Prozess, der uns die Weblogs lieferte, und stellten fest, dass das vorgelagerte System alle nachgestellten Nullen in den Zeitstempeln abschneidet. Ein Zeitstempel, der eigentlich „175400“ (17:54.00) lautete, wurde also als „1754“ (00:17.54) angezeigt. Nachdem wir die Daten angepasst hatten, um das Abschneiden der nachgestellten Nullen zu berücksichtigen, sah die Datenverteilung viel sinnvoller aus.

Fazit

In unserem Support-Portal finden Sie Artikel, Videos und ein Forum, die Ihnen bei der Bewältigung Ihrer Datenbearbeitungsprobleme helfen, wie etwa bei der Anzeige nicht übereinstimmender Daten. Wenn Sie mit Sanity-Tests zur Datenvalidierung beginnen möchten,  melden Sie sich jetzt für eine kostenlose Testversion von Alteryx Designer an !