Was ist Data Science?

Data Science, seltener auch als Datenwissenschaft bezeichnet, ist eine Form angewandter Statistik, die Elemente der Informatik und Mathematik einbezieht, um Erkenntnisse sowohl aus quantitativen als auch qualitativen Daten zu gewinnen.

Zu den in der Data Science verwendeten Tools und Technologien gehören Algorithmen und Frameworks für Machine Learning sowie Programmiersprachen und Visualisierungsbibliotheken.

Ein Data Scientist kombiniert Programmier-, Mathematik- und Fachwissen, um Fragen anhand von Daten zu beantworten.

Warum ist Data Science wichtig?

Durch Data-Science-Verfahren bleiben Unternehmen wettbewerbsfähig und produktiver.

Organisationen, die Data Science einen hohen Stellenwert einräumen, identifizieren Trends und Chancen, die ohne Nutzung der verfügbaren Daten möglicherweise nicht realisiert worden wären. Die Erkenntnisse aus Data Science können enorme Auswirkungen auf die Geschäftsergebnisse haben.

Data Science extrahiert nützliche Informationen aus großen und kleinen Datasets. Obwohl zum Trainieren von KI-Systemen (Künstliche Intelligenz) große Mengen an Daten benötigt werden, kann Data Science auch bei kleinen Datasets helfen.

Beispielsweise haben Einzelhändler früher den Lagerbestand für ihre Filialen auf Grundlage des Umsatzes der jeweiligen Filiale vorhergesagt. Als Geschäfte wegen der COVID-19-Pandemie schließen mussten, mussten Einzelhändler ihre Prognosemethoden ändern, da sich auch die Menge und Art der verfügbaren Daten änderten.

Wenn nur eine kleine Menge an Daten betrachtet werden kann, nutzt Data Science Verfahren wie Datenanreicherung, Generierung synthetischer Daten, Transfer Learning und Ensemble Learning, um Erkenntnisse zu gewinnen.

Data Science ermöglicht es Organisationen außerdem, zusätzliche Resilienz zu schaffen. In dieser schnelllebigen, technologisierten Welt, in der sich die Dinge im Handumdrehen ändern können, müssen Unternehmen in der Lage sein, sich anzupassen und schnell zu reagieren, um zu überleben. Und Data Science kann dazu beitragen.

Data Science wird von vielen Organisationen genutzt und bietet zahlreiche branchenspezifische Anwendungen. Organisationen, die Data Science nicht nutzen, laufen Gefahr, abgehängt zu werden – oder sogar ganz schließen zu müssen.

Data Science-Lebenszyklus

Data Science ist ein zyklischer Prozess. Der Lebenszyklus kann in folgende Schritte unterteilt werden:

Themenkompetenz
Fachwissen: Zunächst müssen Data Scientists ein grundlegendes Verständnis des Themas oder Problems haben, das sie untersuchen möchte, damit sie sinnvolle Fragen zu diesem Thema oder Problem stellen können. Data Science besteht per se darin, Erklärungen darüber zu erhalten, warum Dinge so sind, wie sie sind. Das richtige Fachwissen sorgt dafür, dass die Anforderungen eines Data-Science-Projekts definiert werden können, und führt zu zuverlässigeren, datengestützten Entscheidungen.
Datenerfassung
Datenerfassung: Der nächste Schritt im Data-Science-Lebenszyklus besteht darin, die richtigen Daten zu sammeln, um die definierte Frage zu beantworten. Die Daten können an verschiedenen Orten abgelegt sein oder lassen sich vielleicht je nach technischen Kenntnissen der jeweiligen Person nur schwer erreichen. Der Erfolg des weiteren Data-Science-Prozesses hängt jedoch von der Qualität der in diesem Schritt erfassten Daten ab – und davon, wie gut diese vorbereitet sind.
Datenvorbereitung
Datenaufbereitung: Datenvorbereitung: Die Datenvorbereitung ist der zeitaufwendigste – und wohl wichtigste – Schritt im Data-Science-Zyklus. Wie es so schön heißt: Von nichts kommt nichts. Die Daten müssen vor der Analyse ordnungsgemäß bereinigt und zusammengeführt werden. Dazu gehören beispielsweise die Integration unterschiedlicher Datenquellen, die Handhabung fehlender Werte und Ausreißer und vieles mehr. Während dieses iterativen Schritts erkennt man als Data Scientist möglicherweise, dass man zurückgehen und mehr Daten sammeln muss.
Datenexploration
Datenexploration Bei der Datenexploration geht es darum, Muster in einem Dataset zu identifizieren und zu verstehen. Sobald die Daten bereinigt und nutzbar sind, können Data Scientists Zeit damit verbringen, die Daten zu untersuchen und Hypothesen zu entwickeln, die getestet werden sollen. Dies ist ein weiterer iterativer Schritt in einem iterativen Prozess und Data Scientists müssen möglicherweise einen oder zwei Schritte zurückgehen, um auf Grundlage der Ergebnisse zusätzliche Bereinigungs- und Zusammenführungsvorgänge durchzuführen. Dazu gehört die Überprüfung der verschiedenen Attribute jedes Datenpunkts – oder „Features“ im Dataset – und die Bestimmung, ob weitere Zusammenführungen und Datentransformationen zu potenziell aussagekräftigen neuen Merkmalen führen. Der Prozess der Erstellung neuer Features in Daten wird oft als „Feature Engineering“ bezeichnet. Er geschieht typischerweise im Zusammenspiel zwischen den Schritten Datenexploration und Datenaufbereitung.
Vorhersagemodellierung und Exploration
Predictive Modeling und Bewertung: Nach der Exploration können Data Scientists mit dem Training von Prognosemodellen beginnen. Prognosemodellierung kann oft mit der Datenexploration kombiniert werden. Sobald die Modellierung und Bewertung beginnt, wird man als Data Scientist wahrscheinlich neue Dinge über die Merkmale im Dataset bemerken und einen weiteren Schritt zurückgehen, um das Feature Engineering zu wiederholen. Wenn Modelle erstellt werden, müssen sie bewertet werden. Data Scientist sollte weiter Modelle testen und verfeinern, bis sie mit einem zufrieden sind.
Interpretation und Bereitstellung
Interpretation und Bereitstellung: Das Ergebnis dieser Arbeit kann eine Interpretation der Daten und Ergebnisse sein, bei der Data Scientists das Modell und alle Analysen verwendet, die sie während des Lebenszyklus durchgeführt haben, um die ursprüngliche Frage zu beantworten. Ein weiteres Ergebnis könnte sein, dass das Modell für die Bereitstellung bestimmt ist, wo es verwendet wird, um Stakeholder bei datenbasierten Entscheidungen zu unterstützen oder einen Prozess zu automatisieren (wenn dies Ihr Ergebnis ist, vergessen Sie nicht den nächsten Schritt: Monitoring).
Überwachung
Monitoring: Nachdem das Modell bereitgestellt wurde, muss es geprüft und gepflegt werden, damit es auch bei Erhalt neuer Daten ordnungsgemäß funktioniert. Modelle müssen überwacht werden, damit bei Datenverschiebungen aufgrund von Verhaltensänderungen oder anderen Faktoren Modellanpassungen vorgenommen werden können.
wiederholen
Wiederholung: Der Zyklus wiederholt sich, unabhängig davon, ob das endgültige Ziel eine sofortige Interpretation oder eine längerfristige Bereitstellung war. Das Endergebnis jedes Data-Science-Projekts sollte darin bestehen, etwas Neues über das untersuchte Thema oder Problem zu erfahren, was wiederum das Fachwissen erhöht und dann zu neuen, genaueren Fragen führt.

Data-Science-Anwendungen in verschiedenen Branchen

Unternehmen nutzen Data Science jeden Tag, um ihre Produkte und internen Abläufe zu verbessern. Fast jede Art von Unternehmen in jeder Branche kann von der Anwendung von Data Science profitieren.

Beispiele für Anwendungsfälle:

  • Ein Energieunternehmen, das Empfehlungsmodelle verwendet, um qualifizierten Kunden neue oder bestehende Energieprodukte zuzuweisen
  • Ein Finanzdienstleister, der Machine-Learning-Modelle nutzt, um potenzielle Kunden zu erreichen, die in der Vergangenheit von traditionellen Bankinstituten möglicherweise übersehen wurden
  • Ein Car-Sharing-Unternehmen, das Modelle zur dynamischen Preisgestaltung nutzt, um Personen, die ihre Autos zur Vermietung anbieten, Preisvorschläge zu unterbreiten
  • Eine Hochschuleinrichtung, die Daten aus Transkripten, standardisierten Testergebnissen, demografischen Informationen und mehr kombiniert, um Studierende zu identifizieren, bei denen das Risiko besteht, keinen Abschluss zu erlangen
  • Ein Fintech-Unternehmen, das eine Kombination aus komplexen Datensuchen und Entscheidungsfindungs-Algorithmen nutzt, um zu bewerten, ob ein Kreditantragsteller in betrügerischer Absicht handelt

In dem Whitepaper Data Science in der Praxis: Fünf häufige Anwendungen erfahren Sie mehr über diese Anwendungsfälle.

Business Intelligence und Data Science im Vergleich

Data Science bietet zwar viele Geschäftsanwendungen, der Schwerpunkt liegt jedoch auf breiter angelegten und vielfältigeren Taktiken als Business Intelligence.

Business Intelligence nutzt Statistik- und Visualisierungstools mit herkömmlichen strukturierten Daten, um aktuelle und historische Trends auf eine Weise zu beschreiben und darzustellen, die leicht zu verwenden und zu verstehen ist.

Data Science nutzt diese Ansätze sowie Machine Learning mit strukturierten und unstrukturierten Daten, um Beziehungen zu untersuchen und wahrscheinliche Ergebnisse oder optimale Maßnahmen zu ermitteln.

Während die Ergebnisse von Business Intelligence in der Regel eine Art von Bericht oder Dashboard sind (und somit einen Menschen informieren, der eine Entscheidung mit der bestmöglichen Schätzung trifft), können mit Data Science Entscheidungen und Maßnahmen direkt getroffen werden.

Wer kann Data Science nutzen?

Obwohl viele das vielleicht denken, sind Data Scientists nicht die einzigen, die Data Science einsetzen. Tatsächlich kann jeder Data Science anwenden. Dank technologischer Fortschritte erfordert Data Science keine speziellen Programmierkenntnisse und kein fortschrittliches statistisches Know-how mehr. „Drag & Drop“-Data-Science ist heute eine allgemein anerkannte und praktikable Form der Data Science, mit der Analyst:innen und andere Datenspezialist:innen Modelle skalierbar erstellen und bereitstellen können. Diese so genannten „Citizen Data Scientists“ oder Datenspezialist:innen, die erweiterte Analysen durchführen können, ohne die Komplexität der Backend-Prozesse zu kennen, sind eine äußerst gefragte Berufsgruppe.

Weil Data Science so stark gefragt ist, weil herkömmliche Data Scientists oft hohe Gehälter beziehen und weil ihre begrenzte Zahl für Engpässe sorgen kann, gelten Citizen Data Scientists als Data-Science-Multiplikator. Mit entsprechenden Kontrollen können Citizen Data Scientists die Modellproduktion in jedem Unternehmen erheblich steigern, wodurch Erkenntnisse gewonnen und Umsätze erzielt werden, die sonst unmöglich wären.

Erste Schritte mit Data Science

Die Alteryx Analytics Automation Platform ermöglicht Ihnen die Erstellung automatisierter und wiederholbarer Workflows, die den Prozess der Data Science im Allgemeinen einfacher und effizienter gestalten können. Datenzugriff, -vorbereitung und -modellierung sowie das Teilen von Analyseergebnissen erfolgen alle an einem Ort und auf einer benutzerfreundlichen Plattform.

Mithilfe unseres Starter-Kits erfahren Sie außerdem, wie Sie Alteryx mit Snowflake integrieren können, einem Cloud-basierten Tool zur Datenspeicherung und -analyse. Durch die gemeinsame Verwendung dieser beiden Komponenten können Sie einfach Analyse- und Data-Science-Ergebnisse in der Cloud verbessern.

Nächste Begriff
Cloud Data Warehouse (CDW)