Was ist Datenprofilierung?

Datenprofilierung, auch bekannt als Data Profiling, Datenprofiling oder Datenprofilerstellung, hilft bei der Ermittlung, dem Verständnis und der Organisation von Daten, indem die Eigenschaften der Daten identifiziert und ihre Qualität bewertet werden. Durch diesen Prozess können die Daten auf Vollständigkeit und Eindeutigkeit geprüft, Fehler oder ungewöhnliche Muster erkannt und die Nutzbarkeit überprüft werden. Das Ergebnis: Unternehmen profitieren von genaueren Analysen, besseren Entscheidungen und großen Einsparungen.

Warum ist Datenprofilierung wichtig?

In den USA kosten schlechte Daten Unternehmen jährlich mehr als 3 Billionen US-Dollar, weil sie der Datenqualität misstrauen, Daten immer wieder bereinigen und zusätzliche Datenquellen suchen, um die Richtigkeit der Daten zu bestätigen. Durch Profilierung wird sichergestellt, dass die Daten qualitativ hochwertig und glaubwürdig sind. So können Unternehmen die Merkmale ihrer Daten verstehen und überprüfen, Probleme mit der Datenqualität erkennen und sicherstellen, dass die Daten statistischen und organisatorischen Standards entsprechen.

Arten der Datenprofilierung

Es gibt viele verschiedene Arten von Datenprofilierungstechniken, aber alle fallen in drei Hauptkategorien: Struktur-, Inhalts- und Beziehungsprofilierung. Um den Prozess der Datenprofilierung und das Zusammenspiel dieser Schritte zu verstehen, stellen Sie sich vor, dass ein Unternehmen kürzlich fusioniert hat und Daten aus einem CRM-System in ein anderes integrieren muss. Die Profilierung hilft dabei, die Merkmale und die Qualität der Quelle (des alten Systems) und des Ziels (des neuen Systems) zu verstehen, indem das Format, die Informationen und die Qualität der Daten sowie die Beziehungen zwischen den verschiedenen Feldern und Tabellen in der Datenbank untersucht werden.

 

Der Prozess der Datenprofilierung

 

Datenprofilierung-Strukturermittlung

Strukturermittlung

Der erste Schritt bei der Profilerstellung von Daten, unabhängig davon, ob es sich um eine ganze Datenbank oder nur eine Datei handelt, besteht darin, ihre Struktur und ihr Format zu untersuchen. Einige Fragen, die bei der Strukturprofilierung zu stellen sind:

  • Wie groß ist das Dataset insgesamt?
  • Welche Arten von Daten sind darin enthalten? (z. B. Strings, Floats, Datetime, Boolean, räumliche Objekte)
  • Sind die Daten einheitlich und korrekt formatiert? Das ist wichtig
    wenn es um die Migration von Daten in ein neues Repository geht.

Nachdem Sie die oben genannten Punkte berücksichtigt haben, kennzeichnen Sie die Daten mit den Ergebnissen, um die Benutzerfreundlichkeit zu verbessern.

Datenprofilierung-Inhaltsermittlung

Inhaltsermittlung

Die Betrachtung des Inhalts – sowohl aus kognitiver als auch aus visueller Sicht – kann zu einem besseren Verständnis der Daten führen und hervorheben, wo Lücken oder Fehler vorhanden sind. Bei der Inhaltsprofilierung sollten folgende Dinge getan werden:

  • Führen Sie eine Zusammenfassung von Statistiken aus, z. B. Minimal-/Maximalwerte für numerische Felder und Häufigkeit von Werten für kategorische Felder.
  • Überprüfen Sie die Anzahl der Nullwerte, Leerzeichen und eindeutigen Werte, um einen Einblick in den Bereich und die Qualität der Daten zu erhalten und festzustellen, ob ein Feld relevant ist.
  • Achten Sie auf systemische Fehler wie Rechtschreibfehler und unterschiedliche Wertdarstellungen (z. B. „Arzt“ versus „Dr.“), die einen Analyseprozess zum Scheitern bringen können.
Datenprofilierung-Beziehungsermittlung

Aufdeckung von Beziehungen

Die Identifizierung der wichtigsten Beziehungen zwischen Daten kann die Bemühungen zur Aufbewahrung leiten und hervorheben, wo die Daten möglicherweise umgewandelt werden müssen, um effektiver zu sein. Eine Beziehung kann so einfach sein wie eine Formel in einer Tabellenzelle, die auf eine andere Zelle verweist, oder so komplex wie eine Tabelle, die Verkaufsdaten aus einer Sammlung regelmäßig aktualisierter Tabellen enthält.

Verwendung der Datenprofilierung

Unternehmen sammeln mehr Daten als je zuvor, aber ohne die richtigen Prozesse und Tools verpassen sie die Chance, diese auf intelligente Weise zu nutzen. Die Profilerstellung ermöglicht es Ihnen, Daten zu organisieren und zu verwalten, um aussagekräftige, nützliche Informationen zu erhalten. Möglichkeiten, wie die Profilerstellung zweckdienlich genutzt werden kann:

  • Integrieren Sie Daten aus verschiedenen Quellen und bestimmen Sie die Datenqualität, bevor sie in den Data Lake eines Unternehmens eingegeben werden.
  • Bieten Sie Einblicke in eine Kundenbasis, um die Effizienz zu steigern, den Umsatz zu erhöhen und Betrug besser zu erkennen.

Erste Schritte in der Datenprofilierung

In vielen Unternehmen wird die Profilierung sowohl von Personen mit technischem als auch mit nicht-technischem Hintergrund durchgeführt. Die Alteryx Analytics Automation Platform macht diese Aufgabe mit benutzerfreundlichen Datenprofilierungstools zur Struktur-, Inhalts- und Beziehungsprofilierung zugänglich. Dazu gehören folgende Tools:

  • Eingabedaten-Tool, um beliebige Daten in die Benutzeroberfläche von Alteryx Designer zu übertragen
  • Basisdatenprofil-Tool zur automatischen Analyse und Bereitstellung von Metadaten für jedes Feld
  • Durchsuchen-Tool, das Diagramme und Tabellen verwendet, um Spitzenwerte, Schlüsselstatistiken und die allgemeine „Form“ eines Datasets darzustellen.
Nächste Begriff
Cloud Data Warehouse (CDW)