Die Datenvorbereitung kann eine der zeitintensivsten und repetitivsten Aufgaben Ihrer Arbeitswoche sein. Wenn Sie Ihre Rohdaten nicht auf die richtige Weise bereinigen, validieren und konsolidieren, werden immer wieder fehlerhafte Daten auftreten und Ihre Erkenntnisse sind nicht zuverlässig.
Wie stellen Sie also sicher, dass Ihre Datenvorbereitung falsche Daten in Schach hält und gleichzeitig die Daten schützt, auf die Ihr Unternehmen angewiesen ist?
Das erfordert Wachsamkeit und regelrechte Superkräfte.
Schnappen Sie sich Umhang und Schild oder Batarang und stellen Sie sicher, dass Ihre Daten kugelsicher sind – unverwundbar gegenüber Formatierungsfehlern, Ungenauigkeiten und Ausreißern. Mit diesen sechs Schritten zu einer unschlagbaren Strategie zur Datenvorbereitung retten Sie den Tag.
1. Eine bessere Übersicht als Hawkeye
Bevor Sie sich intensiv mit einem neuen Dataset befassen, empfiehlt es sich, beherzt in das Rohmaterial einzusteigen und es ein wenig zu erkunden. Genetisch verstärkte Sehkraft (wie die von Hawkeye) kann helfen, ist aber nicht zwingend erforderlich. Beginnen Sie mit einer Vorstellung davon, wonach Sie suchen, aber bleiben Sie unvoreingenommen und lassen Sie die Daten für sich sprechen.
Tipps: Datenexploration
- Überprüfen Sie Spaltennamen und Feldbeschreibungen, um zu sehen, ob Ihnen Anomalien auffallen oder ob Informationen fehlen oder unvollständig sind.
- Führen Sie eine Kontrolle durch, um zu sehen, ob Ihre Variablen integer sind: Wie viele einmalige Werte enthalten sie? Welche Bereiche und Modi sind vorhanden?
- Halten Sie Ausschau nach ungewöhnlichen Datenpunkten, die Ihre Ergebnisse verzerren können. Sie können visuelle Methoden verwenden – wie Box-Plots, Histogramme oder Streudiagramme – oder numerische Ansätze wie Z-Bewertungen.
- Prüfen Sie Ausreißer genau. Sollten Sie ihnen nachgehen, sie anpassen, auslassen oder ignorieren?
- Untersuchen Sie Muster und Beziehungen auf statistische Signifikanz.
2. Daten können komplexer sein als der Reaktor von Iron Man
Fehlerhafte und inkonsistente Daten haben einen hohen Preis: Studien haben gezeigt, dass verunreinigte Daten den Umsatz eines Unternehmens um Millionenbeträge schmälern können. Diese Fehler können so teuer sein wie ein Palladiumkern. Um derart große Verluste zu vermeiden, müssen Sie Ihre Daten bereinigen, bis sie glänzen wie von einem starken, selbst erzeugten Licht.
Tipps: Datenbereinigung
- Entsorgen Sie alle doppelten Datensätze, die Ihren Serverplatz belegen und Ihre Analyse verzerren.
- Entfernen Sie alle Zeilen oder Spalten, die für das zu lösende Problem irrelevant sind.
- Ermitteln Sie fehlende oder unvollständige Informationen und eliminieren Sie sie gegebenenfalls.
- Beseitigen Sie alle unerwünschten Ausreißer, die Sie bei der Datenexploration entdeckt haben.
- Korrigieren Sie strukturelle Fehler – Typografie, Groß- und Kleinschreibung, Abkürzungen, Formatierung, zusätzliche Zeichen.
- Überprüfen Sie, ob Ihre Arbeit korrekt, vollständig und konsistent ist, und dokumentieren Sie alle von Ihnen verwendeten Tools und Techniken.
3. Eine stärkere Kombination als die Avengers
Je mehr hochwertige Quellen Sie in Ihre Analyse einbeziehen, desto tiefer und umfassender sind Ihre Erkenntnisse. Für ein Projekt benötigen Sie in der Regel sechs oder mehr Datenquellen. Um diese nahtlos miteinander zu verschmelzen, benötigen Sie Tools für die Datenzusammenführung. Im Grunde müssen Sie das ultimative Team aus hochwertigen Daten zusammenbringen.
Tipps: Daten zusammenführen
- Erfassen und vorbereiten. Wenn Sie moderne Daten-Tools verwenden, anstatt zu versuchen, Dateien an eine Tabellenkalkulation anzupassen, können Sie fast jeden Dateityp oder jede Struktur einbeziehen, die mit dem zu lösenden Geschäftsproblem zusammenhängt, und alle Datasets schnell in eine gemeinsame Struktur umwandeln. Denken Sie an Dateien und Dokumente, Cloud-Plattformen, PDFs, Textdateien, RPA-Bots und Anwendungsressourcen wie ERP, CRM, ITSM und vieles mehr.
- Zusammenführen. In Tabellenkalkulationen können Sie nur Ihre VLOOKUP-Muskeln spielen lassen. (Die ermüden jedoch, oder?) Wenn Sie stattdessen Self-Service Analytics verwenden, ist dieser Prozess einfach per Drag & Drop möglich.
- Validieren. Es ist wichtig, Ihre Ergebnisse auf Konsistenz zu prüfen und alle nicht übereinstimmenden Datensätze zu untersuchen. So können Sie feststellen, ob weitere Bereinigungs- oder andere Vorbereitungsaufgaben erforderlich sind.
4. Datensinn ist der neue Spürsinn
Die Datenprofilerstellung, eng verwandt mit der Datenexploration, erfordert mehr Aufmerksamkeit. Das bedeutet, dass ein Dataset speziell auf seine Relevanz für ein bestimmtes Projekt oder eine bestimmte Anwendung untersucht wird. Sie müssen auf Ihren Instinkt und Ihr Know-how bauen, um zu entscheiden, ob ein Dataset überhaupt verwendet werden soll – eine wichtige Entscheidung, die für Ihr Unternehmen schwerwiegende finanzielle Folgen haben kann.
Tipps: Datenprofilierung
- Strukturprofilierung.Wie groß ist das Dataset und welche Datentypen sind enthalten? Ist die Formatierung konsistent, korrekt und mit dem endgültigen Ziel kompatibel?
- Profilerstellung für Inhalte Welche Informationen enthalten die Daten? Gibt es Lücken oder Fehler? In dieser Phase führen Sie zusammenfassende Statistiken zu numerischen Feldern aus, prüfen auf Nullwerte, fehlende und einmalige Werte und suchen nach systembedingten Fehlern bei Rechtschreibung, Abkürzungen oder IDs.
- Beziehungsprofilierung. Gibt es Stellen, an denen Daten überlappen oder falsch ausgerichtet sind? Welche Verbindungen bestehen zwischen Dateneinheiten? Beispiele hierfür sind Formeln, die Zellen verbinden, oder Tabellen, die regelmäßig Informationen aus externen Quellen erfassen. Identifizieren und beschreiben Sie alle Beziehungen und stellen Sie sicher, dass Sie diese beibehalten, wenn Sie die Daten an einen neuen Zielort verschieben.
5. Richten Sie Ihre geheime Basis ein
In Anbetracht des enormen Volumens und der Komplexität der Ihnen zur Verfügung stehenden Datenquellen ist es unvermeidlich, dass Sie diese extrahieren, integrieren und an einem zentralen Ort speichern, der es Ihnen ermöglicht, sie für Analysen abzurufen, wann immer Sie sie benötigen – sozusagen wie ein Geheimversteck (Batcave?) für Ihre heroische Daten.
Tipps: ETL (Extract, Transform, Load – Entpacken, Umwandeln, Laden)
- Entpacken. Ziehen Sie alle Daten – strukturiert oder unstrukturiert, aus einer oder vielen Quellen – und validieren Sie deren Qualität. (Seien Sie besonders gründlich, wenn Sie Daten aus Altsystemen oder externen Quellen abrufen.)
- Umwandeln. An dieser Stelle nehmen Sie eine Tiefenreinigung vor und stellen sicher, dass Ihre Formatierung den technischen Anforderungen für Ihren Zielort entspricht.
- Laden.Schreiben Sie die umgewandelten Daten an ihren Speicherort – in der Regel ein Data Warehouse. Führen Sie dann eine Stichprobe durch und prüfen Sie, ob Datenqualitätsfehler vorliegen.
6. Effektiver als Wonder Womans Lasso der Wahrheit
Der englische Begriff „Data Wrangling“ wird oft im Sinne von „Datenvorbereitung“ verwendet, bezieht sich aber eigentlich auf die Aufbereitung, die während des Prozesses der Analyse und der Erstellung von Prognosemodellen stattfindet. Selbst wenn Sie Ihre Daten von Anfang an gut vorbereitet haben, müssen Sie sie, sobald Sie zur Analyse kommen, wahrscheinlich noch aufbereiten, um sicherzustellen, dass Ihr Modell die Daten verarbeiten kann und sie nicht wieder ausspuckt.
Tipps: Data Wrangling
- Erkunden Wenn Ihr Modell nicht so funktioniert, wie Sie es sich vorstellen, ist es an der Zeit, die Daten zu analysieren, um dem auf den Grund zu gehen.
- Umwandeln. Sie sollten Ihre Daten von Anfang an mit Blick auf Ihr Modell strukturieren. Wenn die Ausrichtung Ihres Datasets geschwenkt werden muss, um die gewünschte Ausgabe zu liefern, müssen Sie einige Zeit für seine Bearbeitung aufwenden. (Automatisierte Analysesoftware kann dies in einem Schritt tun.)
- Bereinigen. Korrigieren Sie Fehler und entfernen Sie Duplikate.
- Anreichern. Fügen Sie weitere Quellen hinzu, wie z. B. maßgebliche Daten von Drittanbietern.
- Speichern.Datenaufbereitung ist harte Arbeit. Dokumentieren Sie Ihre Prozesse, damit sie in der Zukunft reproduziert werden können.
Und das war's dann auch schon. Befolgen Sie diese sechs Schritte und Ihre Daten werden schneller als ein Flugzeug, stoppen Kugeln in ihrer Bahn und tragen, im Endeffekt, einen leuchtendroten Heldenumhang.
Oh, und wenn Sie keine Lust mehr auf VLOOKUPs und manuelle Prozesse haben, sollten Sie sich einmal die Möglichkeiten zur Automatisierung ansehen. Wir sprechen von analytischen Superkräften, der Möglichkeit, Daten in jedem Format aufzurufen und Ihre aktuellen Vorbereitungsprozesse mit einer automatisierten Self-Service Analytics-Plattform zu automatisieren. Nach unseren Erfahrungen sieht die Automatisierung der Datenvorbereitung folgendermaßen aus:
- Retten Sie die Welt – jetzt noch schneller: Die Umstellung auf eine automatisierte Plattform bringt fast immer innerhalb weniger Tage oder Wochen einen messbaren Return on Investment.
- Effiziente Kriminalitätsbekämpfung in Vollzeit: Automatisierung verlagert den Schwerpunkt Ihres Arbeitstags weg von manuellen, repetitiven Aufgaben, hin zu Kreativität. Und Sie müssen niemals zweimal dasselbe Datenproblem lösen.
- Als Superheld brauchen Sie einen Sidekick … oder vier: Wenn Sie die Daten-Gatekeeper eliminieren, können Sie das gesamte Unternehmen einbeziehen. Mitarbeiter auf allen Ebenen werden angeregt, ihre eigenen Fähigkeiten zu erweitern.
Leitfaden zur Datenvorbereitungsstrategie
Diese Veränderung ist so tiefgreifend – im Grunde ein ganz eigenes Universum –, dass wir einen Namen dafür haben: Analytic Process Automation.
Erfahren Sie mehr über Analytic Process Automation und darüber, wie es Ihnen analytische Superkräfte verleiht.
Bereit für mehr?
LEKTÜRE
Erfahren Sie in Ein grundlegender Leitfaden zur Datenanalyse-Kompetenz, wie einfach es ist, zu einem modernen Analyse-Ansatz zu wechseln.
ERFAHRUNG
Steigen Sie mit dem Alteryx Starter-Kit für Datenzusammenführung in die Welt der Datenzusammenführung ein.