Nutzung von GenAI über den gesamten Analyselebenszyklus

Technologie   |   Taylor Porter   |   6. Nov. 2024 LESEZEIT: 7 MIN
LESEZEIT: 7 MIN

Ein Forbes-Artikel aus dem Jahr 2016 mit dem Titel „Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task“ hat gezeigt, dass Datenfachleute satte 60–80 % ihrer Zeit für die Datenvorbereitung aufwenden.

Mehr als sieben Jahre später hat Anaconda einen Bericht veröffentlicht, der bestätigt, dass sich nicht viel geändert hat: Datenvorbereitung und Datenbereinigung nehmen immer noch den größten Teil der Zeit von Datenfachleuten in Anspruch. Eine weitere Umfrage von Microsoft ergab, dass 64 % der Beschäftigten nicht genug Zeit und Energie haben, um ihre Arbeit zu erledigen.

Doch mit der zunehmenden Verbreitung von GenAI verändert sich die Situation in Bezug auf manuelle, zeitaufwendige Arbeit, insbesondere bei der Datenanalyse.

In diesem Blog stellen wir einige der besten Möglichkeiten vor, wie Datenfachleute GenAI über den gesamten Analysezyklus hinweg nutzen können. Dazu gehören auch Erkenntnisse aus der Praxis von Luke Cornetta, Senior Director bei Alvarez & Marsal, der kürzlich im Alter Everything-Podcast erzählt hat, wie er generative KI in seiner Steuerkanzlei einsetzt, um Zeit zu sparen – von ETL bis zur Erstellung von PowerPoints.

Was ist GenAI für Analysen?

Generative KI ist eine Art künstlicher Intelligenz, die auf Grundlage von Eingabedaten neue Inhalte (Text, Video oder andere Medien) generiert. Sie verwendet in der Regel Machine-Learning-Modelle wie Large Language Models (LLMs) und Transformer-Architekturen, um neue Inhalte zu generieren. Es können aber auch andere Modelltypen verwendet werden, je nachdem, welche Inhalte sie erstellt.

In der Praxis kann sie praktisch jeden Schritt des Data-Analytics-Lebenszyklus transformieren, beginnend mit der Erfassung der wesentlichen Informationen.

Informationen schnell kontextualisieren

Jede Branche hat ihre eigene Terminologie und Akronyme. Beispielsweise haben Sie in Ihrem Unternehmen vielleicht schon Sätze gehört wie: „EBITDA-Anpassungen wurden durch periodengerechte Abschreibungen beeinflusst“ oder „Wir haben stark nachgefragte SKUs analysiert, um Sicherheitsbestände anzupassen und die Durchlaufzeitgenauigkeit für die Just-in-Time-Abwicklung zu verbessern.“

Wenn Sie einige dieser Sätze zum ersten Mal hören, schwirrt Ihnen vielleicht der Kopf. GenAI-Lösungen wie ChatGPT sind großartige Tools für die schnelle Kontextualisierung von Informationen. „Wenn ich mit jemandem telefoniere und er Akronyme verwendet, die ich nicht kenne, oder Fachsprache verwendet, kann ich schnell fragen: ‚Hey, was ist das?' und bekomme eine Antwort, sodass ich zumindest einen gewissen Kontext habe“, so Cornetta.

Ein weiterer Vorteil von Tools wie ChatGPT besteht darin, dass sie über die Bereitstellung einfacher Definitionen hinausgehen können. Sie können gezielte Folgefragen stellen, z. B. wie ein Begriff mit einem anderen zusammenhängt oder wie sich ein Begriff auf ein bestimmtes Szenario auswirken könnte.

Einfache Verarbeitung unstrukturierter Textdaten

GenAI ist ein mächtiges Werkzeug für die Synthese textbasierter Daten und ein entscheidender Faktor für Projekte, die mit großen Mengen unstrukturierter Daten zu tun haben. In Cornettas Steuerkanzlei bezieht sein Team viele Daten aus ERP-Systemen, einschließlich PDF- und unstrukturierten Excel-Dateien. Für ein bestimmtes Projekt mussten sie jedoch textbasierte Kommentare aus einer Excel-Datei extrahieren, wobei jeder Kommentar zwischen 10 und 5.000 Zeichen lang war.

„In der Vergangenheit gab es Teams, die diese Kommentare lasen, oder wir führten eine Art Stichwortprüfung oder Logik in Alteryx durch, um zu versuchen, sie zu prüfen. Regex und Text-Parsing helfen dabei, aber es wird zu einer brachialen Aufgabe“, erzählt Cornetta.

Als das Team im vergangenen Jahr die Gelegenheit hatte, an einem ähnlichen Projekt zu arbeiten, verfügte es bereits über ein sicheres privates LLM-Setup, was bedeutete, dass es GenAI auf eine Weise nutzen konnte, die vorher nicht möglich war.

„Das Projekt, an dem wir mitgearbeitet haben, enthielt Kommentare, Felder und Notizen, die viele wichtige Geschäftsinformationen enthielten – Dinge wie Preise und Öffnungszeiten in allen möglichen Formaten von Dutzenden von Personen, die Informationen im Laufe der Jahre auf nicht standardisierte Weise eingegeben hatten.“ Das Team begann, die Kommentare in ein internes LLM einzufügen, und stellte fest, dass es überraschend gut darin war, sie zu interpretieren. Der nächste Schritt bestand darin, Alteryx zu nutzen.

„Wir konnten das herkömmliche Herunterladen-Tool in Alteryx nutzen, um diese API-Aufrufe zu tätigen und im Grunde jedes Kommentarfeld über diese API zu leiten, wobei mehr oder weniger die gleiche Eingabeaufforderung angewendet wurde. Anschließend konnten wir diese Ergebnisse mithilfe von Alteryx strukturierter parsen und in das Zielsystem laden.“

Das Team von Cornetta implementierte einen ähnlichen Use Case für einen anderen Kunden, der seine IT-Support-Tickets besser klassifizieren wollte. Das Team verwendete einen sehr ähnlichen Prozess, um die Support-Tickets besser zu kategorisieren, damit das IT-Team besser versteht, wo es den Großteil seiner Zeit verbringt.

Nutzung als End-to-End-„Copilot“

Cornettas Team bei Alvarez & Marsal hat die Grundlagen für die Schaffung eines privaten und sicheren LLM geschaffen, was angesichts der sensiblen Natur der Daten, mit denen sie arbeiten, eine unglaublich wichtige Voraussetzung war.

Viele Datenfachleute befinden sich in einer ähnlichen Situation. Aber sobald die Vorarbeit, ein funktionierendes LLM zu finden, zu installieren und lokal einzurichten, erledigt ist, sind keine Grenzen mehr gesetzt.

„Sehen Sie sich einfach an, wie sich Aufgaben um 10 bis 15 Minuten verkürzen lassen. … Es ist großartig und schlägt Ihnen sogar Alteryx Formeln vor. Ich bitte es ständig darum, mir beim Entwurf einer Alteryx Formel zu helfen – nicht, weil ich nicht weiß, wie es geht, sondern weil ich weiß, dass es mich mehr Zeit kosten würde, sie selbst zu schreiben, als die KI dafür zu nutzen.“

Eine Zeitersparnis von 15 Minuten bei einer einstündigen Aufgabe mag nicht viel erscheinen. Aber über Wochen und Jahre hinweg summiert sich das. Laut PwC kann GenAI die Produktivität von Wissensarbeiter:innen um 30–40 % steigern.

Analytics-Copiloten sind leistungsstarke Assistenten, die Ihnen bei allen Fragen helfen können, von allgemeinen Fragen zu Ihren Datasets bis hin zu Anwendungsfälle für Advanced Analytics, wie z. B. bei der Auswahl der richtigen Features und des richtigen Modells für Ihr neuestes Machine-Learning-Projekt.

Bei jedem Schritt Ihrer Analyse können GenAI-Lösungen wie unser Workflow Summary Tool die Dokumentation vollständig automatisieren und prägnante Zusammenfassungen des Zwecks, der Eingaben, Ausgaben und der wichtigsten Logikschritte Ihres Workflows erstellen.

Und schließlich eignen sich GenAI-Lösungen hervorragend dazu, Stakeholder über Ihre Erkenntnisse zu informieren. Von der Erstellung von PowerPoint-Präsentationen bis zum Verfassen von E-Mails: Mit diesen Lösungen können Sie Stunden einsparen.

Trotz der unzähligen Anwendungsmöglichkeiten von GenAI ist es laut Cornetta wichtig, die Ergebnisse nicht blind zu akzeptieren. „KI birgt das Risiko von Halluzinationen und Fehlinterpretationen einer Eingabeaufforderung.“ Aus diesem Grund überprüfen er und sein Team die Ergebnisse von KI systematisch.

„Wir führen viele Validierungen durch. Es ist viel einfacher, Validierungen auf strukturierten Daten aufzubauen. Wir gingen davon aus, dass die Werte, die wir extrahierten, innerhalb eines bestimmten Bereichs oder einer bestimmten Gruppe von Werten liegen würden, sodass wir in der Lage waren, die Ausreißer herauszufischen.“

Der zweite Schritt zum Erfolg besteht darin, sicherzustellen, dass die Beteiligten sich darüber einig sind, was KI leisten kann und was nicht. „KI wird nicht auf magische Weise eine hundertprozentige Genauigkeit erreichen – wahrscheinlich nicht in naher Zukunft, wenn überhaupt jemals. Aber wenn wir uns darüber einig sind, was KI ist und kann, können wir durchstarten und 80–90 % des Weges erreichen. Und dann wird es immer noch einige Bereiche geben, die wahrscheinlich noch untersucht werden müssen. Ein weiteres Merkmal für erfolgreiche Projekte dieser Art ist es, sicherzustellen, dass alle Erwartungen übereinstimmen und alle mit der Funktionsweise zufrieden sind.“

Abschließend rät Cornetta allen, die sich fragen, wie sie mit GenAI, Alteryx oder einer anderen Technologie beginnen sollen: „Einfach loslegen“.

„Suchen Sie sich einen Anwendungsfall und sehen Sie, wie er funktionieren kann, und geben Sie nicht auf, wenn er Ihnen nicht gleich beim ersten Versuch das richtige Ergebnis liefert“, sagt er. „Ich kenne viele Leute, denen KI nicht geheuer ist oder die sich von neuen Technologien einschüchtern lassen. Ich würde sagen: Probieren Sie es einfach mal aus. Geben Sie ihr eine ernsthafte, echte Chance, und ich glaube, Sie könnten überrascht sein.“

Erfahren Sie mehr über die Verwendung von GenAI in Ihren Analysen.

Testen Sie unsere interaktive, browserbasierte Demo von Alteryx Auto Insights

Tags