Von den Rohdaten zur Analyze: Vielleicht haben Sie den Ausdruck Data-Wrangling in diesem Kontext schon gelesen. Doch wofür steht er? Data-Wrangling, auch Datenaufbereitung genannt, bezeichnet den Prozess vom Sondieren der Rohdaten über deren Strukturierung, Bereinigung, Anreicherung und Validierung bis zur Ausgabe in einem Format, das sich inhaltlich auswerten oder zur Modellierung in ML-Systemen einsetzen lässt.
Doch was genau bedeutet Wrangling? Ein Wrangler ist ein Cowboy, der allerdings nicht Rinder hütet, sondern Pferde. Zu seinen Aufgaben gehört das Einfangen von Tieren, die den Anschluss an die Herde verloren haben. Analog dazu ist der Data-Wrangler ein „IT-Cowboy“, der verstreute Daten einsammelt, ordnet und und für die weitere Verwendung integriert. In der Alltagssprache heißt wrangle so viel wie streiten, ringen, bändigen. Man verwendet es für Tätigkeiten, die stressig sind, unangenehm, ermüdend, aber dennoch erledigt werden müssen, um eine Aufgabe kompetent zu lösen. Eine typische Aufforderung amerikanischer Eltern an ihre Sprösslinge wäre: Wrangle your room and do your homework! Sie verleihen damit ihrer Auffassung Nachdruck, dass sich die Kinder in einem aufgeräumtem Zimmer besser auf das Lernen konzentrieren können.
Mit solchen administrativen, vorbereitenden Schritten, die der Daten-Analyze vorausgehen, verbringen Fachkräfte wie Informatiker, Businessanalytiker oder Datenspezialisten im Schnitt achtzig Prozent ihrer Arbeitszeit. Angesichts immer größerer Mengen und neuer Formate, in denen Daten in Geschäftsprozessen generiert, ausgetauscht und verwertet werden, wird das ebenso wichtige wie mühselige und zeitraubende Data-Wrangling zur Daueraufgabe. Oblag die Aufbereitung der Rohdaten früher allein der IT-Abteilung, so ist diese strikte Arbeitsteilung heute wegen der zunehmenden Relevanz tagesaktueller Daten für betriebliche Projekte und wegen der kurzen Halbwertszeit unternehmerischer Entscheidungen nicht mehr durchzuhalten. Oft erweist sich das IT-Team, allen voran die Datenarchitekten, als Engpass, der die Einrichtung von neuerAnwendungen verzögert und somit die Möglichkeiten der Enduser beschränkt, anhand akkurater Daten schnell zu entscheiden und das Kerngeschäft am Laufen zu halten.
Möchten Sie mehr zum Thema Data-Wrangling wissen? Wie Sie Rohdaten zu Wissenskapital veredeln, beschreibt unser Whitepaper Data-Wrangling in sechs Schritten.
Eine kostenlose Online-Testversion des Designer Cloud finden sie hier.
Zur Abgrenzung des Begriffs Data-Wrangling vom klassischen ETL (Extraktion, Transformation, Laden) empfehlen wir diesen Blogbeitrag.
Viel Spaß beim Datenbändigen! Wenn Sie jetzt sogar Ihren Eltern erklären können, was Data-Wrangling ist, haben wir unser Ziel erreicht.