Was ist Data Lineage und warum ist sie so wichtig?

Verfolgen Sie, woher die Daten eines Unternehmens stammen und welchen Weg sie im System durchlaufen. Stellen Sie außerdem sicher, dass Geschäftsdaten jederzeit compliant und korrekt sind.

Data Lineage – oder auch: Datenherkunft – ist die Geschichte der Daten eines Unternehmens, von der Quelle über alle Prozesse und Änderungen bis hin zu Speicherung oder Nutzung. Sie dokumentiert schrittweise, wie Daten zu ihrer aktuellen Form gelangt sind, einschließlich früherer Umwandlungen der Daten und ihres Weges durch verschiedene Geschäftssysteme. Eine Data Lineage ist im Wesentlichen eine Karte, die Informationen wie die folgenden liefern kann:

  • Wann die Daten erstellt wurden und ob Änderungen vorgenommen wurden
  • Welche Informationen die Daten enthalten
  • Wie die Daten verwendet werden
  • Woher die Daten ursprünglich stammen
  • Wer die Daten verwendet und die Schritte im Lebenszyklus genehmigt und ausgeführt hat

Es wird der gesamte Datenfluss abgebildet, um Daten in allen Phasen zu verstehen, zu dokumentieren und zu visualisieren.

 

Warum sollte man die Datenherkunft verfolgen?

In den meisten Unternehmen fallen ständig neue Daten an. Sie trudeln (oder sprudeln) aus einer Vielzahl von Quellen ein, wie z. B. Bestandsdaten, Point of Sale und Internet of Things (IoT)-Geräten. Die Art und Weise, wie diese Daten bereinigt, organisiert, gespeichert und gepflegt werden, ist entscheidend für den Erfolg eines Unternehmens.

Je nach Rolle gibt es spezifische Bedürfnisse, was das Verständnis der Datenherkunft betrifft. IT-Teams sind häufig an der technischen Datenherkunft interessiert. Dabei sind Betriebsabläufe, Compliance und Prozesse wichtig. Für Führungskräfte ist die Herkunft von Geschäftsdaten von entscheidender Bedeutung, um die Rolle der Daten in den allgemeinen Geschäftsprozessen verstehen zu können. Data Lineage stellt sicher, dass die Daten, die als Grundlage für wichtige Geschäftsentscheidungen dienen, korrekt sind.

Nachverfolgte Daten lassen sich einfach prüfen

Jede datenbasierte Entscheidung hängt stark von der Genauigkeit der Rohdaten ab. Führungskräfte können vertrauensvoll agieren, wenn sie wissen, dass sie die Erkenntnisse aus verifizierten, authentifizierten Daten gezogen haben. Wenn Daten nicht sorgfältig nachverfolgt werden, wird es umständlich, zeitaufwendig und teuer, ihre Genauigkeit zu überprüfen. Außerdem ist es einfacher, Anomalien zu entdecken, wenn die Daten bereinigt und strukturiert sind. Das Sprichwort „Vorbeugen ist besser als Heilen“ gilt auch, wenn es darum geht, Daten nachzuverfolgen und ihre Konsistenz sicherzustellen.

In einem Geschäftsumfeld könnte dies zum Beispiel bedeuten, dass Führungskräfte einen Auditbericht mit einem sicheren Gefühl unterschreiben, weil sie wissen, dass die Daten korrekt sind.

Prozessänderungen mit geringem Risiko implementieren

Unternehmen müssen außerdem Fehler in ihren Daten identifizieren und den Ursprung dieser Probleme ermitteln. Wenn sie Probleme verorten, können sie Prozessänderungen vornehmen, die speziell das Problem adressieren. Dies geschieht mit einem klaren Verständnis davon, wo das Problem aufgetreten ist und welche Auswirkungen neue Prozessänderungen für nachgelagerte Prozesse haben werden.

Beispielsweise lassen sich über Data Lineage alle Personen anzeigen, die an einer Verantwortungskette beteiligt sind. Für ein Unternehmen ist es ganz einfach herauszufinden, woher Daten stammen und wie Änderungen eingeführt wurden. Auf dieser Grundlage können sie sowohl die Zuverlässigkeit von Daten als auch die Änderungskontrolle sicherstellen.

Die Nachverfolgung von Daten ist für Compliance-Zwecke erforderlich

Es ist wichtig, zu dokumentieren, dass alle Änderungen von einer autorisierten Stelle und aus einem triftigen Grund vorgenommen wurden. Ein solcher Grund liegt insbesondere dann vor, wenn Vertraulichkeit und Sicherheit sensibler Datasets zu schützen sind. Neben der Feststellung, wer die Änderung vorgenommen hat, ist es auch wichtig, den Prozess aufzuzeichnen, mit dem die Änderung vorgenommen und die Aktualisierung durchgeführt wurden, um die Integrität der Datenherkunft zu wahren.

In einem Unternehmen bedeutet dies, zu wissen, welche Richtlinien bei der Ausführung eines Geschäftsprozesses angewendet wurden. Keine Überraschungen, kein Raum für Fehler.

Einfache Datenmigration sicherstellen

Die Menge der erfassten Daten ist riesig und sie sind in ihrer Art äußerst unterschiedlich. Das führt zu Problemen. Wie werden die Daten gespeichert? Können alle Personen, die Informationen benötigen, darauf zugreifen? Funktionieren die Speichermethoden über Softwareplattformen, Regionen und Zeitzonen hinweg? Der Data-Lineage-Prozess trägt dazu bei, dass die Daten plattformunabhängig bleiben und Systemmigrationen in jedem Fall möglich sind.

Ein Data Mapping Framework erstellen

Mitarbeitende und andere Stakeholder müssen auf die richtigen Datenebenen zugreifen können. Mit einer umfassenden Ansicht von Metadaten schafft Data Lineage eine Grundlage für die Datenzuordnung, die diese Anforderung unterstützt.

Data Lineage bedeutet: Unternehmen wissen, dass die Daten aus einer vertrauenswürdigen Quelle stammen, in Einklang mit Best Practices umgewandelt und sicher gespeichert wurden.

Auf welche kritischen Geschäftsbereiche wirkt sich Data Lineage aus?

Strategische datenabhängige Geschäftsentscheidungen

Gute Entscheidungsprozesse sind einer der Hauptgründe, warum die Validierung der Datenherkunft so wichtig ist. Alle Einheiten einer modernen Organisation verlassen sich bei strategischen Entscheidungen auf Daten: Marketing, Lieferketten-Management, Fertigung, Operations, Vertrieb und Kundensupport benötigen alle Informationen und Erkenntnisse aus Feldforschung oder Betriebsdaten. Data Lineage wirkt sich auf alle Aspekte des Unternehmenswachstums aus, einschließlich der Produkt- und Dienstentwicklung.

Compliance und Data Governance

Die Einhaltung gesetzlicher Vorschriften und Audits sind unabdingbarer Bestandteil des Geschäftsbetriebs. Die Nachverfolgung der Data Lineage ist von zentraler Bedeutung für alle Geschäftskomponenten, die mit Compliance und der Pflege korrekter Datensätze für alle Accounts und Ereignisse verknüpft sind. Data Lineage verbessert Risikomanagement-Szenarien und stellt die Standardisierung der gesamten Datenverarbeitung sicher. Sie gewährleistet, dass die Datenprozesse den Unternehmensrichtlinien entsprechen und dass die Daten alle gesetzlichen Anforderungen erfüllen. In vielen Unternehmen umfassen die Anforderungen an die Berichterstellung detaillierte Berichtsdaten zur Unterstützung der Ergebnisse. Im Finanzbereich müssen wichtige Kennzahlen und Zahlen, die in Berichten dargestellt werden, durch Daten gestützt werden. Daher ist es von entscheidender Bedeutung, dass Unternehmen den gesamten Verlauf einer Datenumwandlung zurückverfolgen und für jede Anfrage Erklärungen liefern können.

Komponenten der Data Lineage

Die Datenflüsse, die Teil der Data Lineage sind, kennzeichnen die Beziehung zwischen Daten und den folgenden Komponenten einer Organisation:

  • Datenanwendungen innerhalb eines Betriebs- oder Geschäftsprozesses
  • Verschiedene geschäftliche Rollen und Berechtigungsebenen für den Zugriff auf bestimmte Datasets sowie für ihre Erstellung, Verarbeitung, Löschung oder Aktualisierung
  • Netzwerksegmente
  • Sicherheitszuordnung
  • Andere IT-Systeme

Technische Vorteile der Pflege der Data Lineage

Schnelle Anpassung neuer Technologien

Die Nachverfolgung der Data Lineage hilft Unternehmen, mit der Entwicklung neuer Technologien Schritt zu halten. Daten sind in Bezug auf ihre Komponenten oder die Methoden ihrer Erfassung nicht statisch. Die Herkunftsverfolgung ermöglicht es, alte und neue Datasets abzugleichen, sie zu kombinieren, zu rekombinieren und in einem Format zu halten, das Unternehmen weiter nutzen können, um anwendungsbezogene Erkenntnisse zu extrahieren.

Bessere IT-Systeme und Datenportierung

Die Datenmigration von einem Speichersystem zu einem anderen ist in Zeiten sich schnell entwickelnder Technologien unvermeidlich. Die Verfolgung der Datenherkunft zwischen Quell- und Zielsystemen erleichtert IT-Abteilungen das Verschieben von Daten auf neue Server oder Software.

Identifizierung von Compliance- oder Sicherheitsproblemen

Während der Datenverarbeitung unterstützt Data Lineage in jeder einzelnen Phase die Dokumentation und Analyse bestimmter Vorgänge. So ist es möglich, Fehler und Compliance- oder Sicherheitsverstöße zu ermitteln.

Optimierung von Datenabfragen

Anhand einer Kontrolle der Datenherkunft lässt sich die Abfragehistorie nachverfolgen, also zum Beispiel Benutzerabfragen, Datenfilterung und Verknüpfung von Datasets. Data Lineage sollte für alle Abfragen sowie für automatisierte Berichte durchgeführt werden, die von Data Warehouses oder Datenbanken zur Validierung erzeugt werden. Herkunftsdaten können Benutzer:innen bei der Optimierung von Abfragen helfen, um bestmögliche Ergebnisse zu erzielen.

Data Lineage-Methoden

Es gibt einige Standardmethoden, mit denen man die Data Lineage für strategische, strukturierte Datsets von Unternehmen durchführt. Dazu zählen

Musterbasierte Data Lineage

Wie der Name vermuten lässt, führt diese Methode eine Herkunftskontrolle durch, indem sie nach signifikanten Mustern in Metadaten sucht. Sie prüft Tabellen, Geschäftsberichte und Spalten innerhalb unterschiedlicher Datasets auf Ähnlichkeiten, die auf Redundanzen hinweisen. Wenn sehr ähnliche Spalten mit korrespondierenden Werten gefunden wurden, werden sie im Data-Lineage-Diagramm miteinander verknüpft, um die Daten in verschiedenen Phasen ihres Lebenszyklus zu berücksichtigen. Diese Methode bleibt von der Datenbanktechnologie unberührt und erfüllt ihre Aufgabe zudem unabhängig von Algorithmen oder technologischen Weiterentwicklungen. Sie kann jedoch nicht auf die Datenverarbeitungslogik zugreifen, wenn sie in den Programmcode eingebettet ist. Sie kann nur von Menschen lesbare Metadaten durchsuchen.

Data Lineage durch Parsen

Dies ist eine hoch entwickelte Methode zur Durchführung der Datenherkunftskontrolle, bei der die Datenumwandlungslogik durch Reverse Engineering rückentwickelt wird, um eine End-to-End-Nachverfolgung der Daten zu erreichen. Die Methode erfordert ein Verständnis aller Programmiersprachen und Tools, die an der Umwandlung oder Änderung der Daten beteiligt sind. Daher ist sie sehr tiefgreifend und umfassend.

Daten-Tagging

Daten-Tagging (oder auch: Data Tagging) ist am effektivsten in geschlossenen Datensystemen, in denen das zur Umwandlung oder zum Verschieben von Daten verwendete Tool konsistent ist. Daten-Tagging funktioniert unter der Annahme, dass ein Transformation-Tool oder eine Transformation-Engine eine identifizierbare Markierung (ein Tag) auf die Daten setzt, die eine Verfolgung der Daten von Anfang bis Ende ermöglicht.

Eigenständige Data Lineage

Wie der Name schon sagt, funktioniert dieses Data Lineage-Format am besten in einer eigenständigen System- oder Datenumgebung, die Verarbeitungslogik, Stammdatenverwaltung und Speicherung umfasst. Zu diesen kontrollierten Umgebungen gehört ein Data Lake, der ein Repository aller Daten in allen Phasen ihres Lebenszyklus darstellt. Das macht den Zugriff auf die Daten einfach, wenn auch innerhalb der Grenzen des eigenständigen Systems.

Data Lineage mit anderen Datenpraktiken kombinieren

Data Lineage ist nur ein Schritt in einem soliden Datenprozess. Ein Unternehmen benötigt eine ganze Reihe automatisierter Methoden, Software-Lösungen und Verfahren, um eine gute Datenverwaltung zu gewährleisten. Jede dieser Methoden ist in die Data Lineage eingebunden und bildet gemeinsam ein solides Framework.

Beispielsweise wird Datenklassifizierung verwendet, um Daten zu finden, die vertraulich oder erfolgskritisch sind oder die einer bestimmten Compliance-Stufe entsprechen müssen. Datenklassifizierung arbeitet mit der Data Lineage zusammen, indem sie den Lebenszyklus der Daten untersucht, Integritäts- oder Sicherheitsprobleme aufspürt und zur Lösung dieser Probleme beiträgt.

Kümmern Sie sich um die Grundlagen Ihrer Daten

Ihre Datensituation wird sich nur verbessern, wenn Sie konkrete Maßnahmen zur Problemlösung ergreifen. Die Menge der gesammelten Daten, die Geschwindigkeit der Verarbeitung und die gesetzlichen Auflagen werden weiter zunehmen. Sie müssen jetzt eine Datenmanagement-Lösung finden. Alteryx hat mit leistungsstarken integrierten Tools für Data Analytics und Datenverwaltung die Antwort darauf.

Wenn Sie Ihre Daten ungeschützt, unorganisiert und ohne Herkunftskontrolle lassen, bleibt Ihr Unternehmen anfällig für Fehler, bußgeldbewehrte Verstöße und einen Verlust an Kundenvertrauen. Kontaktieren Sie uns jetzt, um zu erfahren, wie unsere Tools für das Datenqualitätsmanagement Ihre Daten schützen, organisieren und eine klare Dokumentation der Datenherkunft für die Data Governance erstellen. Wir bieten Ihnen Lösungen, mit denen Sie Daten zentralisieren und katalogisieren, die Datenermittlung optimieren, die Zusammenarbeit und den Datenaustausch fördern und die Zuverlässigkeit von Datenressourcen bestimmen können.

Nächste Begriff
Feature Engineering