Was ist Datenvorbereitung?

Bei der Datenvorbereitung, die auch als Vorverarbeitung, Datenaufbereitung oder Data Preparation bezeichnet wird, werden Rohdaten bereinigt und konsolidiert, bevor sie für Geschäftsanalysen und Machine Learning verwendet werden. Dies mag nicht die beliebteste Aufgabe sein, aber eine sorgfältige Datenvorbereitung ist ein wichtiger Bestandteil eines erfolgreichen Data-Analytics-Prozesses.

Die ordnungsgemäße Validierung, Bereinigung und Ergänzung von Rohdaten ist unerlässlich, um daraus korrekte, aussagekräftige Erkenntnisse zu gewinnen. Die Gültigkeit und Aussagekraft jeder erstellten Geschäftsanalyse oder -modells ist nur so gut wie die Datenvorbereitung, die in den frühen Phasen des Prozesses vorgenommen wird.

Warum ist Datenvorbereitung wichtig?

Die Entscheidungen, die Führungskräfte treffen, sind nur so gut wie die Daten, auf denen sie aufbauen. Eine sorgfältige und umfassende Datenvorbereitung stellt sicher, dass Geschäftsanalyst:innen und Data Scientists ihren Daten vertrauen, diese verstehen und auf ihrer Grundlage bessere Fragen stellen, sodass ihre Analysen und Modellierungen genauer und aussagekräftiger sind. Aus aussagekräftigeren Datenanalysen lassen sich bessere Erkenntnisse ableiten und natürlich bessere Ergebnisse erzielen.

Um tiefgreifendste Analysen und Erkenntnisse zu erlangen, müssen erfolgreiche Teams und Organisationen eine Strategie zur Datenvorbereitung implementieren, die folgende Prioritäten setzt:

  • Barrierefreiheit: Jeder – unabhängig von seiner Kompetenz – sollte in der Lage sein, sicher von einer zentralen Informationsquelle aus auf Daten zuzugreifen.
  • Transparenz: Jeder sollte in der Lage sein, jeden Schritt des End-to-End-Datenvorbereitungsprozesses, der durchgeführt wurde, zu sehen, prüfen und verfeinern.
  • Wiederholbarkeit: Die Datenvorbereitung ist dafür bekannt, zeitaufwendig und repetitiv zu sein – sie kann bis zu 80 % der für Analyseprojekte aufgewendeten Zeit in Anspruch nehmen – weshalb erfolgreiche Datenvorbereitungsstrategien in Lösungen investieren, die auf Wiederholbarkeit und Automatisierung ausgelegt sind.

Mit Self-Service-Tools zur Datenvorbereitung können Data Analysts und Data Scientists den Datenvorbereitungsprozess optimieren, damit sie mehr Zeit haben, schneller zu wertvollen Geschäftserkenntnissen und Entscheidungen zu gelangen.

Welche Schritte sind Teil von Datenvorbereitungsprozessen?

Der Datenvorbereitungsprozess umfasst vier Schritte: Daten erfassen, untersuchen, bereinigen und transformieren

Die Schritte zur Datenvorbereitung können je nach Branche oder Bedarf variieren, umfassen jedoch normalerweise Folgendes:

  • Erfassung von Daten: Ermitteln, welche Daten benötigt werden, Sammeln von Daten und Aufbau eines konsistenten Zugriffs, um leistungsstarke, zuverlässige Analysen zu erstellen.
  • Daten untersuchen: Bewertung der Qualität der Daten, Untersuchung ihrer Verteilung und Analyse der Beziehungen zwischen den einzelnen Variablen, um besser zu verstehen, wie eine Analyse zusammengestellt werden kann (auch als Datenprofilierung bezeichnet).
  • Bereinigen von Daten: Verbesserung der Datenqualität und der Gesamtproduktivität durch Löschen unnötiger Daten, Entfernen von Daten schlechter Qualität oder Beheben von Ungenauigkeiten, um fehlerfreie Erkenntnisse zu gewinnen.
  • Transformation von Daten: Formatieren, Ausrichten, Aggregieren und Anreichern von Datasets, die in einer Analyse verwendet werden, um aussagekräftigere Erkenntnisse zu gewinnen.

Obwohl Datenvorbereitungsprozesse serialisiert aufeinander aufbauen, sind sie nicht immer linear. Die Reihenfolge dieser Schritte kann sich je nach den Daten und den gestellten Fragen ändern. Es ist üblich, einen vorherigen Schritt bei der Datenvorbereitung zu wiederholen, wenn neue Erkenntnisse gewonnen oder neue Datenquellen in den Prozess integriert werden.

Der gesamte Datenvorbereitungsprozess kann sehr zeitintensiv, iterativ und repetitiv sein. Deshalb ist es wichtig, sicherzustellen, dass die einzelnen Schritte leicht verstanden, wiederholt, neu betrachtet und überarbeitet werden können, damit Analyst:innen und Data Scientists weniger Zeit für die Vorbereitung benötigen und mehr Zeit für die Analyse aufwenden können.

Nachstehend ein genauerer Blick auf jeden Teil des Prozesses.

Erfassung von Daten

Der erste Schritt in jedem Datenvorbereitungsprozess besteht darin, die Daten zu erfassen, die ein/e Data Analyst oder Data Scientist für seine/ihre Analyse verwenden wird. Es ist wahrscheinlich, dass Analysts auf andere angewiesen sind (z. B. IT-/Data Engineers), um Daten für ihre Analysen zu erhalten, häufig aus einem Unternehmenssoftwaresystem oder einem Cloud Data Warehouse oder Data Lake. Die IT stellt diese Daten normalerweise in einem zugänglichen Format wie einem Excel-Dokument oder einer CSV-Datei bereit.
Moderne Analysesoftware kann die Abhängigkeit von Data Engineers beseitigen, sodass Analysts aller Wissensstufen direkt auf vertrauenswürdige Quellen wie AWS, Snowflake, SQL, Oracle, SPSS, Salesforce, Marketo oder andere Anwendungen, Data Warehouses oder Data Lakes zugreifen können. Das bedeutet, dass Analysts die entscheidenden Daten für ihre regelmäßig geplanten Berichte sowie neue Analyseprojekte selbst erfassen können.

Exploration von Daten

Die Untersuchung und Profilierung von Daten hilft Data Analysts und Data Scientists zu verstehen, wie ihre Analyse aussehen wird. Sie können visuelle Analysen und zusammenfassende Statistiken wie Bereich, Mittelwert und Standardabweichung nutzen, um ein erstes Bild ihrer Daten zu erhalten. Wenn die Daten zu umfangreich sind, um einfach damit zu arbeiten, kann eine Segmentierung hilfreich sein, ebenso wie die Arbeit mit Analysetools, die eine Datenstichprobe ermöglichen.

In dieser Phase sollten Analyst:innen und Data Scientists auch die Qualität ihres Datasets bewerten. Sind die Daten vollständig? Waren die Muster so wie erwartet? Wenn nicht, was waren die Gründe? Analyst:innen sollten das, was sie sehen, mit den jeweiligen Eigentümern der Daten besprechen, etwaigen Überraschungen oder Anomalien nachgehen und überlegen, ob es überhaupt möglich ist, die Qualität zu verbessern. Es kann zwar enttäuschend sein, ein Dataset aufgrund schlechter Qualität auszusortieren, es ist aber langfristig eine gute Entscheidung. Schlechte Qualität wird nur noch verstärkt, wenn die Datenanalyseprozesse durchlaufen werden.

Bereinigung von Daten

Während der Explorationsphase bemerken Analyst:innen möglicherweise, dass ihre Daten schlecht strukturiert sind und dass sie zur Verbesserung ihrer Qualität bereinigt werden müssen. Hier kommt die Datenbereinigung ins Spiel. Die Bereinigung von Daten umfasst folgende Aspekte:

  • Korrigieren von Eingabefehlern
  • Entfernen von Duplikaten oder Ausreißern
  • Eliminierung von fehlenden Daten
  • Maskierung sensibler oder vertraulicher Informationen wie Namen oder Adressen

Transformation von Daten

Daten gibt es in vielen Formen, Größen und Strukturen. Einige Daten sind analysebereit, während andere Datasets wie eine Fremdsprache aussehen können.

Daten zu transformieren, um sicherzustellen, dass sie in einem Format oder einer Struktur vorliegen, das bzw. die die gestellten Fragen beantworten kann, ist ein wichtiger Schritt zur Schaffung aussagekräftiger Ergebnisse. Dies hängt von der Software oder Sprache ab, die Analyst:innen für ihre Datenanalyse verwenden. Einige gängige Beispiele für Datentransformationen sind:

  • Pivotisieren oder Ändern der Datenausrichtung
  • Konvertierung von Datumsformaten
  • Zeitübergreifende Aggregation von Vertriebs- und Leistungsdaten

Datenvorbereitung für Machine Learning 

Machine Learning ist eine Form der künstlichen Intelligenz, bei der Algorithmen oder Modelle riesige Datenmengen nutzen, um ihre Leistung zu verbessern. Sowohl strukturierte als auch unstrukturierte Daten sind für das Training und die Validierung von Machine-Learning-Algorithmen, die jedem KI-System oder -Prozess zugrunde liegen, von entscheidender Bedeutung. Mit dem Aufkommen von Big Data und Cloud Computing haben die Anwendungsfälle und -möglichkeiten von KI exponentiell zugenommen. Doch eine große Menge an Daten reicht nicht aus, um ein erfolgreiches Machine-Learning-Modell zu erstellen. Rohdaten lassen sich nur schwer in die Cloud- und Machine-Learning-Modelle integrieren, da es immer noch Anomalien und fehlende Werte gibt, die die Datennutzung erschweren oder zu ungenauen Modellen führen. Der Aufbau präziser und vertrauenswürdiger Machine-Learning-Modelle erfordert einen erheblichen Aufwand an Datenvorbereitung.

Laut einer Umfrage von Anaconda verbringen Data Scientists 45 % ihrer Zeit mit Datenvorbereitungsaufgaben, einschließlich dem Laden und Bereinigen von Daten. Mit Self-Service-Datenvorbereitungstools können Data Scientists und Citizen Data Scientist erhebliche Teile des Datenvorbereitungsprozesses automatisieren, um ihre Zeit auf höherwertige Data-Science-Aktivitäten zu konzentrieren.

Datenvorbereitung in der Cloud

Die zunehmende Verbreitung von Cloud-Datenspeicherzentren, einschließlich Cloud Data Warehouses und Cloud Data Lakes, ermöglicht es Unternehmen, die Zugänglichkeit und Geschwindigkeit ihrer Datenaufbereitung und -analyse zu erhöhen und gleichzeitig die Leistungsfähigkeit der Cloud für eine verbesserte Sicherheit und Governance zu nutzen. In der Vergangenheit haben Unternehmen ihre Daten in lokalen Rechenzentren gespeichert. Diese physischen Server schränken die Fähigkeit von Unternehmen ein, ihre Datennutzung nach Bedarf zu vergrößern oder zu verkleinern, kosten viel Geld für den Betrieb und nehmen oft viel Zeit in Anspruch, insbesondere wenn mit großen Datasets gearbeitet wird.

Angesichts der explosionsartigen Zunahme von Daten benötigten Unternehmen größere Datenspeicherkapazitäten und schnellere Einblicke. Dank der zunehmenden Verbreitung der Cloud können Endanwender:innen nun problemlos über leistungsstarke Remote-Server über das Internet auf Daten zugreifen und ihre Nutzung von Speicher- und Verarbeitungsressourcen nach Bedarf skalieren. Dies ist entscheidend für eine effiziente Datenvorbereitung und den Aufbau von Datenpipelines. Bei der Migration zu einer Cloud-Lösung sollten Unternehmen jedoch die Unterschiede zwischen Cloud Data Warehouses und Cloud Data Lakes berücksichtigen.

Cloud Data Warehouses beherbergen strukturierte, gefilterte Daten, die bereits verarbeitet und für einen bestimmten Zweck aufbereitet wurden. Dies ist hilfreich, wenn Unternehmen ähnliche Anwendungsfälle für ihre Daten vorhersehen, da das verarbeitete Dataset unbegrenzt wiederverwendet werden kann. Nach dieser ersten Datenaufbereitung sind die Anwendungsfälle jedoch sehr begrenzt. Der Versuch, verarbeitete Daten wiederherzustellen oder wiederzuverwenden, stellt ein großes Risiko dar, da bei der Wiederherstellung mit hoher Wahrscheinlichkeit Teile des Dataset verloren gehen oder verändert werden, wodurch die Datentreue beeinträchtigt wird.

Cloud Data Lakes hingegen sind große Repositorys für Rohdaten, die Unternehmen für verschiedene Zwecke nutzen und wiederverwenden können. Business Analysts und Data Scientists im gesamten Unternehmen können sehr unterschiedliche Anwendungsfälle haben. Cloud Data Lakes bieten kostengünstige Speicherung und umfassenden Datenzugriff, ohne dass das Risiko besteht, dass wichtige Informationen im Strukturierungsprozess verloren gehen.

Datenvorbereitung für eine umfassendere Datenanalyse

Eine solide Datenvorbereitung ist die Grundlage für valide, leistungsstarke Analysen und Machine Learning. Dies ist ein wichtiger Bestandteil des umfassenderen Analyse-Ökosystems, das als Analytics Automation bezeichnet wird. Mit Datenvorbereitungs- und Automatisierungsfunktionen, die über die Analytic Process Automation-Technologie bereitgestellt werden, können Datenspezialist:innen die Zeit und Energie, die sie bisher für manuelle Vorbereitungsarbeiten aufgewendet haben, selbst in die Hand nehmen.

Alteryx Tools zur Datenvorbereitung

Mit einer Lösung wie der Alteryx Analytics Automation Platform können Sie den Datenvorbereitungsprozess beschleunigen – ohne dabei Abstriche bei der Qualität machen zu müssen. Darüber hinaus wird der Prozess wiederholbarer und für den Rest Ihres Unternehmens zugänglicher.
Mit der Alteryx Plattform können Data Analysts, Data Engineers, Data Scientists und IT-Teams Daten in Ergebnisse umwandeln. Das bedeutet, dass Sie Daten und Analysen demokratisieren, Prozesse optimieren und automatisieren und Ihre Mitarbeiter:innen gleichzeitig mit besseren Fähigkeiten ausstatten können.

In diesem Zeitalter unglaublich großer Datasets ist eine Plattform, die Ihre Datenanalysen vorbereiten, verarbeiten und automatisieren kann, eine Voraussetzung für den Erfolg Ihres Unternehmens.

Die Alteryx Analytics Automation Platform macht die Datenaufbereitung und -analyse schnell, intuitiv, effizient und angenehm. Über die unübertroffene Menge an Datenvorbereitungs-Modulen hinaus macht Alteryx es auch einfacher als je zuvor, Ihre wichtige Datenvorbereitungsarbeit zu automatisieren, zu dokumentieren, zu teilen und zu skalieren, wodurch andere Teile des Analyseprozesses, einschließlich Machine Learning, beschleunigt werden.

Aber nehmen Sie uns nicht einfach beim Wort. Probieren Sie es mit einem unserer Starter-Kits selbst aus – vorgefertigten Analysevorlagen, mit denen Sie in Sekundenschnelle mit der Lösung beginnen können. Laden Sie einfach das für Sie relevante Starter-Kit herunter und geben Sie Ihre Daten ein, um verschiedene Anwendungsfälle für Abteilungen, Branchen, analytische Disziplinen oder technische Integrationen durchzuspielen.

Starter-Kit für die Datenzusammenführung für Alteryx

Beginnen Sie mit diesem Starter-Kit Ihren Weg zur Beherrschung der Datenzusammenführung und zur Automatisierung sich wiederholender Workflow-Prozesse, die Daten aus verschiedenen Quellen zusammenführen.

  • Kundentransaktionen visualisieren Führen Sie Transaktionen und Kund:innen zusammen, um visuelle Erkenntnisse aus Berichten zu erhalten, die Ihnen helfen, Trends und Chancen zu erkennen.
  • Nicht exakte Übereinstimmungen mit Fuzzy Matching identifizieren Erfahren Sie, wie Sie die schnelle Zusammenführung per Fuzzy Matching ähnlicher, aber nicht exakt übereinstimmender Daten ermöglichen und diese in automatisierte Workflows einspeisen, um Echtzeit-Erkenntnisse zu erlangen.
  • Berechnung der Werbegebietsverteilung Führen Sie Geodaten zusammen, um die Verteilung von Werbegebieten zu berechnen, den Umsatz zu steigern und den Return-on-Investment (ROI) zu verbessern.

Starter-Kit für die Datenzusammenführung für Tableau

Dieses Starter-Kit bietet analytische Workflows zur nahtlosen Integration von Alteryx mit Tableau für leistungsstarke Datenvisualisierung und Business Intelligence. Es veranschaulicht, wie Sie die Leistung von Account Managern überwachen, Handelsbereiche einrichten und das Käuferverhalten verstehen können.

  • Mit Hunderten von Automatisierungsmodulen können Sie Daten schnell vorbereiten, zusammenführen und erweitern.
  • Veröffentlichen Sie Ihre Erkenntnisse direkt in ein Tableau-Dashboard
  • Erlangen Sie mithilfe von Geospatial, Statistical und Predictive Analytics großer Datasets umfassende Erkenntnisse, indem Sie Drag & Drop-, Low-Code-/No-Code-Analytics nutzen.
  • Nutzen Sie einsatzbereite Unternehmenslösungen, einschließlich der Analyse von Handelsbereichen und Warenkörben

Starter-Kit für die Datenzusammenführung mit AWS

Dieses Starter-Kit hilft Ihnen bei der Datenintegration mit AWS S3, Redshift und Athena, um automatisierte Lösungen zu erstellen und schnellere Erkenntnisse zu liefern – von der Datenvorbereitung, Datenzusammenführung und Profilerstellung bis hin zu interaktiven Spatial und Predictive Analytics.

  • Mit Hunderten von Automatisierungsmodulen können Sie Daten schnell vorbereiten, zusammenführen und erweitern.
  • Lassen Sie Daten in AWS S3, Redshift oder Athena ein- und ausfließen oder laden Sie sie hoch bzw. herunter.
  • Erlangen Sie mithilfe von Geospatial, Statistical und Predictive Analytics großer Datasets umfassende Erkenntnisse, indem Sie Drag & Drop-, Low-Code-/No-Code-Analytics nutzen.
Nächste Begriff
Cloud Data Warehouse (CDW)