Was ist Datenexploration?

Die Datenexploration („Data Exploration“) ist einer der ersten Schritte bei der Datenvorbereitung und ermöglicht es, Daten kennenzulernen, bevor man mit ihnen arbeitet. Durch Prüfungen und Untersuchungen werden große Datasets für tiefere, strukturiertere Analysen vorbereitet. Bei der Exploratory Data Analysis 8EDA) wird ähnlich vorgegangen, es kommen jedoch statistische Grafiken und andere Datenvisualisierungsmethoden zum Einsatz.

Warum ist Datenexploration wichtig?

Die explorative Datenanalyse ermöglicht einen besseren Überblick über ein Dataset und erleichtert dadurch die Handhabung und spätere Verwendung der Daten. Je besser Analyst:innen die Daten kennen, mit denen sie arbeiten, desto besser ist auch die Analyse. Die Exploration beginnt mit einer unvoreingenommenen Herangehensweise und hat das Ziel, Ansatzpunkte für relevante Zusammenhänge zu finden und hilft dabei, zukünftige Fragen und Probleme im Bereich Analytics zu identifizieren und zu verfeinern.

So funktioniert die Datenexploration

Daten ohne zugehörige Fragestellung sind einfach nur Informationen. Werden Daten mit einer Fragestellung analysiert, erhält man Antworten. Werden die richtigen Fragen zu den Daten gestellt und wird eine zielführende Exploration durchgeführt, kann dies zu einem umfassenderen Verständnis von zugrundeliegenden Mustern führen und sogar Predictive Analytics ermöglichen

R und Python sind die gebräuchlichsten Sprachen für die Exploration. Erstere eignet sich am besten für statistisches Lernen, während letztere sich gut für Machine Learning eignet. Für die Datenexploration durch No-Code-Plattformen ist keine Programmierung erforderlich.

Der Explorationsprozess ist auch für die Arbeit mit geografischen Informationssystemen (GIS) von zunehmender Bedeutung, da viele der heutigen Daten mit Standortinformationen angereichert sind.

Eine Datenexploration erfolgt in der Regel in drei Schritten:

Datenexplorationsprozess

 

Datenexploration – Variablen verstehen
De Variablen verstehen: Die Grundlage jeder Datenanalyse beginnt mit dem Verständnis der Variablen. Hierzu bietet es sich an, zunächst die Bezeichnungen der Spalten zu überfliegen. Ein genauerer Blick auf Datenkataloge, Feldbeschreibungen und Metadaten kann Aufschluss darüber geben, was jedes Feld darstellt, und dabei helfen, fehlende oder unvollständige Daten zu entdecken.

 

Datenexploration – Ausreißer erkennen
Ausreißer erkennen: Ausreißer oder Anomalien können eine Analyse zum Scheitern bringen und die Realität eines Datasets verzerren. Daher ist es wichtig, sie frühzeitig zu erkennen. Datenvisualisierung, numerische Methoden, Interquartilbereiche und Hypothesentests sind die gängigsten Methoden zur Erkennung von Ausreißern. Mit einem Boxplot, Histogramm oder Streudiagramm lassen sich beispielsweise Punkte leicht erkennen, die weit außerhalb des Standardbereichs liegen, während ein Z-Score Auskunft darüber gibt, wie weit ein Datenpunkt vom Mittelwert entfernt ist. Sobald sie gefunden wurden, kann ein/e Data Analyst die Ausreißer untersuchen, anpassen, weglassen oder ignorieren. Ganz gleich, welche Wahl sie treffen, sollte die Entscheidung in der Analyse vermerkt werden.

 

Datenexploration – Beziehungen untersuchen
Muster und Beziehungen untersuchen: Die Darstellung eines Datasets auf verschiedene Arten erleichtert es, die Muster und Beziehungen zwischen den Variablen zu erkennen und zu untersuchen. Beispielsweise kann ein Unternehmen, das Daten aus mehreren Geschäften auswertet, über Informationen zu Standort, Bevölkerung, Temperatur und Pro-Kopf-Einkommen verfügen. Um die Umsätze für einen neuen Standort abzuschätzen, müssen sie entscheiden, welche Variablen sie in ihr Vorhersagemodell einbeziehen.

Die Zukunft der Datenexploration

Bisher wurden Analysen so gut wie ausschließlich von Spezialist:innen übernommen, da Programmierkenntnisse erforderlich waren, um Daten zu extrahieren und zu untersuchen. Das ist inzwischen anders. Dank Analytics Automation sind Analysen heute für jede Person zugänglich. Unternehmen, ihre wichtigsten Ressourcen besser einzusetzen: Daten und Beschäftigte. Der Zugang zu APA ermöglicht Mitarbeitenden, den Fokus auf die Identifizierung von Beziehungen und Mustern legen zu können, statt Daten mühsam aufbereiten zu müssen.

Erste Schritte bei der Datenexploration

Mithilfe von Technologie ist ein Prozess, der zuvor typischerweise zeitaufwendig und kompliziert war, nun optimiert, zugänglich und überprüfbar. Die Alteryx Analytics Automation Platform wurde im Hinblick auf End-to-End-Analysen entwickelt und ermöglicht es Unternehmen, Daten schnell zu aggregieren, Trends und Muster zu erkennen, Variablen zu verstehen, Ausreißer zu entdecken und Beziehungen innerhalb eines Datasets zu untersuchen – und das alles innerhalb einer No-Code-Plattform.

Nächste Begriff
Datenanreicherung