Was ist ein Datenkatalog?
Mithilfe eines Datenkatalogs (oder auch: Data Catalog) kann ein Unternehmen eine umfassende Bestandsaufnahme aller Datenressourcen erstellen, die über verschiedene Systeme und Projekte verteilt sind. Die Daten von Unternehmen sind häufig über mehrere relationale Datenbanken, Data Warehouses, Betriebsdatenbanken und Altsysteme verteilt. Ein Datenkatalog bietet eine effiziente Lösung für die Anforderungen eines Unternehmens an Datenermittlung, Data Analytics und Datenkonformität.
Im Jahr 2020 ergab eine Branchenstudie von Seagate, dass 43 % der von Unternehmen erfassten Daten nicht voll ausgeschöpft werden. Warum ist das so? Datenressourcen von Unternehmen befinden sich häufig in Silos. Nur wenige Teams verfügen über das Know-how, diese Datenressourcen zu ermitteln und zu analysieren. Das eigentliche Problem liegt nicht darin, dass zu wenige Daten zur Verfügung stehen, sondern darin, dass ein intelligentes System zur Organisation und Präsentation dieser Daten fehlt. Ein Datenkatalog kann dieses Problem lösen, indem er die mit den Datenressourcen verknüpften Metadaten sortiert.
Metadaten als Grundlage eines Datenkatalogs
Ein Datenkatalogisierungs-Tool durchsucht alle Daten-Repositorys eines Unternehmens und sammelt dabei Metadaten. Metadaten sind Informationen, die die eigentlichen Daten begleiten. Sie beschreiben und kommentieren Datasets. Ein Datenkatalogisierungs-Tool kann automatisch Metadaten sammeln, Datensemantik deuten und Datenverbindungen erschließen. Ein Dataset wird durch verschiedene Arten von Metadaten beschrieben. Diese Metadaten definieren unterschiedliche Merkmale der Daten, zum Beispiel:
- Quelle bzw. Lieferant des Datasets
- Inhalt des Datasets
- Bedeutung der Tabellen und Spalten
- Speicherort der Daten sowie Personen mit Zugriff auf diese Daten
- Verlauf und Herkunft des Datasets
- Zuverlässigkeit des Datasets
Die Metadaten können je nachdem, welches Merkmal sie definieren, in drei breite Gruppen unterteilt werden: technische Metadaten, Prozess-Metadaten und geschäftliche Metadaten. Ein Datenkatalog erstellt mithilfe all dieser Metadaten eine einheitliche Ansicht der Datenressourcen.
- Technische Metadaten beschreiben die Struktur eines Datasets, weshalb sie auch als „strukturelle Metadaten“ bezeichnet werden. Bezeichnungen und Beschreibungen von Datentabellen zählen unter anderem zu den technischen Metadaten. Auch die Spalten in einer Datentabelle und die für ihre Verarbeitung verwendete Geschäftslogik gehören dazu. Technische Metadaten helfen bei der Datenermittlung.
- Prozess-Metadaten beschreiben die Herkunft eines Datasets. Sie geben Auskunft über die Quelle bzw. den Ersteller von Datenressourcen sowie den Zeitpunkt ihrer Erstellung. Sie zeichnen darüber hinaus die Nutzungsinformationen auf, also wer ein bestimmtes Dataset wann verwendet hat. Anhand der Prozess-Metadaten können Data Analysts ermitteln, ob die Daten aktuell und zuverlässig sind. Prozess-Metadaten bezeichnet man auch als administrative Metadaten.
- Geschäftliche Metadaten sind besonders hilfreich, wenn ein Unternehmen eine datenbasierte Entscheidung treffen muss. Sie beschreiben die Qualität und Zuverlässigkeit eines Datasets. Außerdem zeigen geschäftliche Metadaten an, ob die Daten zertifiziert sind.
Auch wenn die Datenressourcen eines Unternehmens mit umfangreichen Metadaten versehen sind, muss das Unternehmen diese Metadaten sortieren, analysieren und erschließen, um daraus einen Mehrwert zu ziehen. Dies ist die Hauptfunktion eines Datenkatalogs. Ein Datenkatalogisierungs-Tool kann nicht nur automatisiert Metadaten sammeln, sondern ermöglicht auch das Crowdsourcing von Metadaten, ein Vorgang, bei dem Personen, die mit Daten arbeiten, Daten manuell mit Metadaten versehen. Außerdem erleichtert er die Datenkuratierung, durch die ein/e Datenbesitzer:in ein Dataset mit Hinweisen zu dessen Nutzung anreichert.
Hauptfunktionen eines Datenkatalogs
Datenermittlung
In vielen Unternehmen befinden sich die Daten in Silos und nur wenige Teams wissen von ihrer Existenz. Silos beschränken die Auffindbarkeit von Daten, die die Entscheidungsfindung erleichtern und optimieren könnten. Data Analysts müssen möglicherweise zusätzliche Datasets erstellen oder sie verlassen sich auf unvollständige oder unzuverlässige Daten.
Ein Datenkatalog löst dieses Problem, indem er eine einheitliche Ansicht aller Datenressourcen in einem Unternehmen bietet. Die meisten Datenkataloge verfügen über eine Benutzeroberfläche, die einer Suchmaschine gleicht. Hier müssen Benutzende lediglich die Schlüsselwörter für die gesuchten Daten eingeben. Der Datenkatalog ruft dann eine Liste der Datenressourcen ab, die mit dem Schlüsselwort und den Suchfiltern übereinstimmen. Datenkataloge können auch Programmierschnittstellen (APIs) zur Automatisierung der Datenermittlung bereitstellen.
Datenassimilation
Neben der Datenermittlung helfen Datenkataloge Benutzenden, die Daten besser zu verstehen. Anhand der technischen Metadaten liefert ein Datenkatalog eine vollständige Beschreibung eines Datasets. So gewinnen Benutzende Erkenntnisse über die Bedeutung und die Geschäftslogik dieses Datasets.
Bewertung der Datenqualität
Datenkataloge sammeln Prozess-Metadaten und geschäftliche Metadaten für eine einfachere Bewertung der Datenqualität. Anhand des Verlaufs und der Herkunft des Datasets können Benutzende entscheiden, ob die Daten aktuell und zuverlässig sind. Datenkataloge ermöglichen das Crowdsourcing von Metadaten und die manuelle Datenkuratierung, was die Qualität eines Datasets weiter verbessert. Ein Datenkatalog entwickelt sich kontinuierlich weiter, indem er Bewertungen und Hinweise von Benutzenden einbezieht. Mithilfe eines Datenkatalogs kann ein Unternehmen also Vertrauen in seine Datenressourcen aufbauen.
Datenerfassung
Sobald Benutzende ein zuverlässiges Dataset entdeckt haben, möchten sie es möglicherweise für Analysen erfassen. Datenkataloge erleichtern häufig den Zugriff auf Daten sowie ihre Integration für Analysen. In ausgereiften Datenkatalogen funktioniert das ganz einfach per Tastendruck, der den Zugriff auf die Daten im gewünschten Tool oder zum Herunterladen ermöglicht. Ein schnellerer Datenzugriff kann letztlich die Zeit bis zur Gewinnung von Erkenntnissen für die Entscheidungsfindung verkürzen. Ein Datenkatalog standardisiert das Datenerfassungsverfahren.
Warum brauchen Unternehmen einen Datenkatalog?
Rasante Zunahme der Datenmengen
Ein Unternehmen generiert oder sammelt im Laufe der Zeit meist enorme Datenmengen. Diese gewaltige Menge und die komplexe Verteilung der Datenressourcen erschwert Benutzenden die Suche nach Daten für ihre Analysen. Die fehlende Sichtbarkeit von Datenressourcen im gesamten Unternehmen erschwert die Nutzung dieser Daten zur Entscheidungsfindung. Außerdem erschwert die explosionsartige Zunahme von Daten die Suche nach zuverlässigen Daten. Infolgedessen verlassen sich Mitarbeitende möglicherweise auf unvollständige, unzuverlässige oder gar keine Daten, da sie die richtigen Daten nur mühsam erreichen können. Das führt dazu, dass die Datenressourcen eines Unternehmens nicht voll ausgeschöpft werden. Ein Datenkatalog hilft dem Unternehmen dabei, hochwertige Daten zu finden, ganz gleich, wo sie sich befinden.
Datenvorschriften und Governance-Anforderungen
Bei enormen Datenmengen wird es für Unternehmen schwierig, alle Daten zu überwachen und zu schützen. Das kann zu unbeabsichtigten Datenlecks führen. Aufgrund strenger Datenschutzvorschriften wie der Datenschutz-Grundverordnung (DSGVO) müssen Unternehmen sicherstellen, dass nur die richtigen Personen Zugriff auf die richtigen Daten haben. Ein Datenkatalog hilft bei der Kontrolle des Datenzugriffs und erleichtert die Data Governance. Mit einem Datenkatalog können Unternehmen umfassende Kontrollen einrichten und so die Sichtbarkeit von und Berechtigungen für ihre Datenressourcen anpassen. Außerdem können Compliance-Beauftragte mögliche Sicherheitsprobleme eines Datasets ermitteln.
Bessere und schnellere Entscheidungen
Ein Datenkatalog sammelt Informationen über die Herkunft der Daten. Sie geben Auskunft über den Ursprung und den Nutzungsverlauf der Daten. Datenkataloge ermöglichen auch die manuelle Kuratierung der Datenressourcen durch Bewertungen und Rezensionen. Datenbearbeiter:innen können auch Hinweise für eine effektive Nutzung des Datasets hinzufügen. Ein Datenkatalog hilft Entscheiderinnen und Entscheidern in einem Unternehmen, anhand von zuverlässigen und hochwertigen Daten fundierte Entscheidungen zu treffen.
Dezentralisierung der Datenverwaltung
Datenkataloge bringen einen kulturellen Wandel in der Handhabung von Daten mit sich. Oft werden Daten von wenigen Teams kuratiert, die unter anderem aus Data Analysts, Data Scientists und IT-Fachleuten bestehen. Datenkataloge bringen einen Paradigmenwechsel mit sich, indem sie die Datenkuratierung in die Hände der Community geben.
Wie helfen Datenkataloge Personen in verschiedenen Rollen?
Der Datenkatalog ist ein vielseitiger Dienst, der verschiedenen Rollen in einem Unternehmen verschiedene Funktionen bereitstellen kann.
Data Analysts
Ein Datenkatalog ermöglicht Data Analysts eine schnellere Suche nach relevanten Datasets. Dadurch, dass die Daten mit hilfreichen Anmerkungen versehen sind und ihre Herkunft klar gekennzeichnet ist, können Analysts aus vielen Datasets das richtige auswählen. Die Hinweise, Bewertungen und Kommentare, die die Datenressourcen begleiten, begünstigen effiziente Data Analytics.
Data Compliance Officers
Mithilfe eines Datenkatalogs können Unternehmen sicherstellen, dass der Zugriff auf Daten nur mit der entsprechenden Berechtigung erfolgen kann. Hierfür können Compliance-Beauftragte Authentifizierungsverfahren einrichten. Ein Datenkatalog ermöglicht außerdem mehr Transparenz beim Zugriff auf Daten. Er unterstützt die Data Governance-Planung eines Unternehmens. Zudem helfen Datenkataloge Unternehmen dabei, Vorschriften wie die DSGVO einzuhalten.
Data Architects und Data Strategists
Ein Datenkatalog unterstützt Data Architects bei der Entwicklung einer geregelten Self-Service-Lösung für autorisierte Mitarbeitende, sodass sie wichtige Unternehmensdaten ermitteln, wiederverwenden und teilen können. Mit einem Datenkatalog als zentrales Tool können Benutzende die benötigten internen Daten ermitteln sowie Metadaten einsehen, die Rückschlüsse über die Qualität und Eigenschaften der Daten zulassen.
Wesentliche Funktionen, die ein Datenkatalog unterstützen sollte
Katalogisierung von Datenressourcen
Ein Datenkatalog sollte alle Unternehmensdaten in Data Lakes, Data Warehouses, relationalen Datenbanken und Dateisystemen durchsuchen, um automatisch alle Metadaten zu erfassen und die Verbindung zwischen Datasets abzuleiten. Anschließend sollte er mithilfe der Metadaten die Datasets taggen. Ein Datenkatalog sollte nicht nur Datasets, sondern auch Berichte, Wikis und andere unstrukturierte Datenressourcen sammeln.
Datensuchfunktionen
Ein Datenkatalog sollte eine einfache Suchfunktion bieten, die auf natürlicher Sprache basiert. Anhand von Schlüsselwörtern oder geschäftlichen Begriffen sollte er die relevanten Datenressourcen nach Sucheinstellungen sortiert anzeigen. Der Datenkatalog sollte Suchergebnisse außerdem den Zugriffsberechtigungen der Benutzenden entsprechend anzeigen. Er sollte darüber hinaus Daten vor nicht autorisierten Benutzenden verbergen können.
Funktionen zur Datenauswertung
Sobald ein/e Benutzer:in Datasets anhand eines Schlüsselworts oder eines Suchbegriffs gefunden hat, sollte er/sie die Daten mithilfe eines Datenkatalogs auswerten können. Wenn die Person das Recht zum Zugriff auf die Daten hat, sollte sie eine Vorschau des Datasets sowie Informationen über die Herkunft, den/die Eigentümer:in und die Zertifizierungen erhalten. Ein Datenkatalog sollte außerdem Bewertungen und Rezensionen von Benutzenden sammeln und anzeigen.
Datensicherheit
Ein Datenkatalog muss die Data Governance-Verfahren eines Unternehmens unterstützen. Er sollte die Praktiken rund um die Datensicherheit und die Authentifizierungsverfahren eines Unternehmens berücksichtigen. Außerdem sollte die IT-Abteilung die Datensicherheit auf Dataset-, Tabellen- oder Spaltenebene durchsetzen können.
Datenerfassung
Hat ein/e Benutzer:in ein Dataset ermittelt und bewertet, muss er/sie es anschließend erfassen können. Ein Datenkatalog sollte diesen Prozess erleichtern. Die Suche nach internen Datenressourcen sollte sich so einfach gestalten wie eine gewöhnliche Websuche. Bei fehlenden Suchergebnissen sollte der Datenkatalog es Benutzenden ermöglichen, eine Anfrage für die entsprechenden Datenressourcen zu stellen.
Verbesserung der Datenqualität
Neben der Ermittlung, Auswertung und Erfassung von Daten sollte ein Datenkatalog auch die Datenqualität verbessern. Er sollte Datenkonflikte anzeigen und unvollständige und unzuverlässige Datasets kennzeichnen. Neben der automatisierten Qualitätskontrolle sollte ein Datenkatalog auch eine Community-basierte Qualitätskontrolle anbieten, mit der Benutzende Datenressourcen bewerten und Kommentare zu ihrer Qualität hinterlassen können.
Manuelle Datenkuratierung
Ein Datenkatalog sollte nicht nur selbst automatisch Metadaten sammeln und Daten taggen können, sondern auch Personen die manuelle Anreicherung der Daten ermöglichen. Sie sollten Datasets aus dem Katalog entfernen können, wenn sie unzuverlässig erscheinen. Bearbeiter:innen sollte auch in der Lage sein, Schlüsselwörter und Tags zu Datasets hinzuzufügen, Daten als hochsensibel zu kennzeichnen, Daten um zusätzliche Metadaten zu ergänzen und Hinweise zur Nutzung von Datenressourcen zu teilen.
Crowdsourcing-Funktionen
Ein Datenkatalog sollte eine Community-basierte Pflege der Datenressourcen erleichtern. Benutzende sollten Metadaten hinzufügen, die Datenqualität bewerten sowie Rezensionen und Hinweise eintragen können. Ein Katalog sollte es verschiedenen Benutzenden leicht machen, zur Kuratierung der Datenressourcen beizutragen.
Suchen Sie einen Datenkatalog? Wir bringen Sie auf den Weg
Alteryx Connect ist ein leistungsstarkes Tool, das all Ihre Anforderungen an die Datenkatalogisierung erfüllt. Es hilft Ihnen, Ihre Daten und Unternehmensressourcen zu ermitteln und sie voll auszuschöpfen. Es hilft auch Ihrem Unternehmen, Daten gemeinsam zu pflegen und anzureichern. Mit Alteryx Connect können Sie schnell einen zuverlässigen Datenkatalog erstellen.Sehen Sie sich jetzt das Datenblatt zu Alteryx Connect an und treffen Sie die richtige Entscheidung für Ihre Datenmanagement-Strategie.
Nächste Begriff
Benutzerdefinierte Funktion (UDF)Ähnliche Ressourcen
Kundenreferenz
Protected: Saving Over 75 Hours Day with Automated Forecasting
- Datenvorbereitung und -analyse
- Data Science und Machine Learning
- Prozessautomatisierung
Kundenreferenz
Protected: Nippon Caterpillar Japan Streamlines Analysis Operations
- Datenvorbereitung und -analyse
- Marketing
- APAC