Was ist Datenbereinigung?

Die Datenbereinigung, auch als Data Cleansing, Data Cleaning oder Data Scrubbing bezeichnet, identifiziert Fehler, Duplikate sowie irrelevante Daten und behebt bzw. entfernt diese aus einem aus Rohdaten bestehenden Dataset. Als Teil des Datenvorbereitungsprozesses ermöglicht die Datenbereinigung genaue, belastbare Daten, die zuverlässige Visualisierungen, Modelle und Geschäftsentscheidungen ermöglichen.

Warum ist Datenbereinigung wichtig?

Analysen und Algorithmen sind nur so gut wie die Daten, auf denen sie basieren. Im Durchschnitt vermuten Unternehmen, dass fast 30 % ihrer Daten ungenau sind. Diese verunreinigten Daten kosten Unternehmen 12 % ihres Gesamtumsatzes –
und sie verlieren mehr als nur Geld. Durch die Bereinigung entstehen konsistente, strukturierte und genaue Daten, die fundierte und intelligente Entscheidungen ermöglichen. Außerdem werden Bereiche hervorgehoben, in denen Verbesserungen in vorgelagerten Dateneingabe- und -speicherumgebungen möglich sind, was jetzt und in Zukunft Zeit und Geld spart.

Der Datenbereinigungsprozess

Datenbereinigungsprozess

Die Datenbereinigung ist für jeden Analyseprozess von zentraler Bedeutung und umfasst in der Regel sechs Schritte.

 

Symbol „Daten deduplizieren“.
Deduplizierung: Duplikate treten in der Regel auf, wenn Daten aus verschiedenen Quellen (z. B. Tabellenkalkulationen, Websites und Datenbanken) zusammengeführt werden oder wenn eine Kundin oder ein Kunde mehrere Kontaktpunkte mit einem Unternehmen hat oder redundante Formulare eingereicht hat.Diese wiederholten Daten verbrauchen Serverplatz und Verarbeitungsressourcen, was zu größeren Dateien und weniger effizienten Analysen führt. Die Regeln zur Deduplizierung hängen vom gewünschten Ergebnis eines Unternehmens ab. Wenn eine Kundin beispielsweise unterschiedliche E-Mails auf verschiedenen Seiten einer Website eingegeben hat, würde ein konservativer Ansatz nur Datenzeilen eliminieren, bei denen jedes Feld eine exakte Übereinstimmung aufweist.

 

Symbol „Irrelevante Beobachtungen entfernen“
Irrelevante Beobachtungen entfernen: Daten, die für das zu lösende Problem nicht relevant sind, können die Verarbeitungszeit verlangsamen. Durch das Entfernen dieser irrelevanten Beobachtungen werden sie nicht aus der Quelle gelöscht, sondern aus der aktuellen Analyse ausgeschlossen. Wenn Sie beispielsweise Kampagnen aus dem letzten Jahr untersuchen, ist es nicht erforderlich, Daten außerhalb dieses Zeitraums einzubeziehen. Beachten Sie jedoch, dass eine bestimmte Variable, selbst wenn sie nicht benötigt wird, möglicherweise mit dem untersuchten Ergebnis korreliert (z. B. könnte sich das Alter eines Kunden darauf auswirken, welche E-Mail am erfolgreichsten war).

 

Symbol „Unvollständige Daten verwalten“
Unvollständige Daten verwalten: In den Daten können aus verschiedenen Gründen Werte fehlen (z. B. wenn Kunden bestimmte Informationen nicht bereitstellen). Die Behebung dieses Problems ist für die Analyse von entscheidender Bedeutung, da dadurch Verzerrungen und Fehleinschätzungen verhindert werden. Nachdem Sie die unvollständigen Werte isoliert und untersucht haben, die als „0“, „NA“, „keine“, „null“ oder „nicht zutreffend“ angezeigt werden können, stellen Sie fest, ob es sich um plausible Werte handelt oder ob sie auf fehlende Informationen zurückzuführen sind. Auch wenn die einfachste Lösung möglicherweise darin besteht, die unvollständigen Daten zu löschen, sollten Sie sich der möglichen Verzerrungen bewusst sein, die sich aus dieser Maßnahme ergeben könnten. Zu den Alternativen gehören das Ersetzen von Nullwerten durch Ersatzwerte auf der Grundlage statistischer oder bedingter Modellierung oder das Markieren und Kommentieren der fehlenden Daten.

 

Symbol „Ausreißer identifizieren“
Ausreißer identifizieren: Datenpunkte, die weit vom Rest einer Grundgesamtheit entfernt sind, können die Realität der Daten erheblich verzerren. Diese Ausreißer können mit visuellen oder numerischen Techniken identifiziert werden, darunter Boxplots, Histogrammen, Streudiagrammen oder Z-Scores. Als Teil eines automatisierten Prozesses ermöglicht dies schnelle Annahmen, das Testen dieser Annahmen und die sichere Lösung von Datenproblemen. Sobald Ausreißer identifiziert wurden, können sie einbezogen oder weggelassen werden, je nachdem, wie extrem sie sind und welche statistischen Methoden in einer Analyse verwendet werden.

 

Symbol „Strukturelle Fehler korrigieren“
Strukturfehler beheben: Es ist wichtig, Fehler und Inkonsistenzen zu korrigieren, einschließlich Typografie, Großschreibung, Abkürzung und Formatierung. Sehen Sie sich den Datentyp für jede Spalte an und stellen Sie sicher, dass die Einträge korrekt und konsistent sind (was auch die Standardisierung von Feldern umfassen kann), und entfernen Sie unerwünschte Zeichen wie zusätzliche Leerzeichen.

 

Symbol „Validierung“
Validieren: Validierung ist die Möglichkeit, sicherzustellen, dass Daten korrekt, vollständig, konsistent und einheitlich sind. Dies geschieht während eines automatisierten Datenbereinigungsprozesses, es ist jedoch dennoch wichtig, eine Stichprobe auszuführen, um sicherzustellen, dass alles stimmt. Dies ist auch eine Gelegenheit, zu dokumentieren, welche Tools und Techniken während des Reinigungsprozesses verwendet wurden.

Die Zukunft der Datenbereinigung

Die Datenbereinigung ist für eine zuverlässige und leistungsstarke Analyse unerlässlich, für viele Unternehmen handelt es sich jedoch um einen manuellen, isolierten Prozess, Zeit und Ressourcen verschwendet. Analytics Automation schafft die Voraussetzungen für eine wiederholbare, skalierbare und zugängliche Datenbereinigung. Sie ermöglicht:

  • Die Demokratisierung von Daten und Analysen
  • Die Automatisierung von Geschäftsprozessen
  • Die Weiterbildung von Beschäftigten und somit für schnelle Erfolge und transformative Ergebnisse

Datenbereinigung ist die Grundlage von Analytics Automation. Mit dieser soliden Basis haben Unternehmen einen klaren Pfad zu tieferen Analysen mit Data Science und Machine Learning.

Erste Schritte bei der Datenbereinigung

Die manuelle Datenbereinigung ist mühsam, fehleranfällig und zeitaufwendig. Mit seiner Suite benutzerfreundlicher Automatisierungsmodule ermöglicht Alteryx Analytics Automation Unternehmen die Identifizierung und Bereinigung verunreinigter Daten auf vielfältige Weise – und das ohne Code.Die End-to-End-Analyseplattform wurde mit Blick auf die Bedeutung und Spezifikationen der Datenexploration entwickelt und basiert auf dem Verständnis, dass saubere Daten zu einer guten Analyse führen. Die Alteryx Platform schafft einen schnellen, wiederholbaren und überprüfbaren Prozess, der einmal erstellt dauerhaft automatisiert werden kann.

Nächste Begriff
Cloud Data Warehouse (CDW)