Selon un article Forbes de 2016 intitulé « Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task », les professionnels de la data consacrent entre 60 et 80 % de leur temps à la préparation des données.
Plus de sept ans plus tard, Anaconda a publié un rapport confirmant que peu de choses ont changé : la préparation et le nettoyage des données monopolisent toujours autant ces professionnels. Une autre enquête menée par Microsoft a révélé que 64 % des employés n'ont pas assez de temps et d'énergie pour accomplir leur travail.
Mais à mesure que la GenAI se généralise, les tâches manuelles et fastidieuses sont en train de disparaître, en particulier dans le domaine de l'analytique des données.
Dans cet article, nous dévoilons quelques bonnes pratiques pour aider les professionnels des données à tirer parti de la GenAI tout au long du cycle de vie de l'analytique. Par exemple, Luke Cornetta, Senior Director chez Alvarez & Marsal, a récemment rejoint le podcast Alter Everything pour expliquer comment il utilise l'IA générative dans sa pratique fiscale pour gagner du temps sur tout, de l'ETL à la création de présentations PowerPoint.
Qu'est-ce que la GenAI pour l'analytique ?
L'IA générative est un type d'intelligence artificielle qui produit de nouveaux contenus (texte, vidéo ou autre média) à partir des données fournies. Elle s'appuie généralement sur des modèles de machine learning tels que les grands modèles de langage (LLM) et les architectures de transformation pour générer de nouveaux contenus, mais elle peut également utiliser d'autres types de modèles en fonction du contenu créé.
En pratique, elle peut transformer pratiquement chaque étape du cycle de vie de l'analytique des données, en commençant par la collecte d'informations essentielles.
Une contextualisation rapide des informations
Chaque secteur d'activité possède sa propre terminologie et ses propres acronymes. Par exemple, vous avez peut-être entendu des collègues dire que « les ajustements de l'EBITDA ont été impactés par des écritures d'amortissement basées sur la comptabilité d'exercice » ou qu'ils ont « analysé les SKU très demandés afin d'ajuster les niveaux de stock de sécurité et d'optimiser les délais d'exécution pour une logistique en flux tendu ».
Vous risquez d'avoir le tournis en entendant ce type de phrases pour la première fois. Les solutions GenAI comme ChatGPT sont d'excellents outils pour contextualiser rapidement l'information. « Si je suis au téléphone avec quelqu'un qui utilise des acronymes que je ne connais pas, ou du jargon de l'industrie, je peux rapidement demander de quoi il s'agit et obtenir une réponse afin d'avoir au moins un peu de contexte », explique Luke Cornetta.
Un autre avantage des outils comme ChatGPT est qu'ils peuvent faire plus que fournir de simples définitions. Vous pouvez poser des questions complémentaires ciblées, par exemple sur le lien entre un terme et un autre ou sur l'impact d'un terme sur un scénario donné.
Un traitement aisé des données textuelles non structurées
La GenAI est très puissante pour synthétiser des données textuelles et elle change la donne pour les projets impliquant de grandes quantités de données non structurées. Dans le cadre de la pratique fiscale, l'équipe de Luke récupère beaucoup de données depuis des systèmes ERP, y compris des fichiers PDF et des fichiers Excel non structurés. Mais pour un projet en particulier, il a fallu extraire des commentaires textuels d'un fichier Excel, chacun comportant entre 10 et 5 000 caractères.
« Avant, il y avait des équipes qui lisaient ces commentaires, ou bien on faisait une sorte de recherche de mots-clés ou un peu de programmation dans Alteryx pour essayer de les examiner. RegEx et l'analyse syntaxique des textes peuvent permettre d'aller loin, mais cela se transforme en quelque chose de laborieux », poursuit-il.
Lorsque l'équipe a eu l'occasion de travailler sur un projet similaire l'année dernière, elle disposait déjà d'un environnement LLM privé et sécurisé, ce qui lui a permis d'exploiter la GenAI d'une manière inédite.
« Le projet comportait des commentaires, des champs et des notes contenant de nombreuses informations stratégiques, telles que les prix et les heures d'ouverture, dans toutes sortes de formats. En effet, des dizaines de personnes avaient au fil des ans saisi des informations sans aucune homogénéité. » L'équipe a commencé à coller les commentaires dans un LLM interne et s'est aperçue qu'il était étonnamment efficace pour les comprendre. L'étape suivante consistait à tirer parti d'Alteryx.
« Nous avons utilisé l'outil Télécharger traditionnel d'Alteryx pour effectuer ces appels API et faire passer chaque champ de commentaire par cette API, en appliquant plus ou moins la même invite. Ensuite, nous avons pu utiliser Alteryx pour analyser ces résultats de manière plus structurée afin de les charger dans le système cible. »
L'équipe de Luke Cornetta a mis en place un cas d'usage similaire pour un autre client qui souhaitait mieux classer ses tickets d'assistance IT. Elle a utilisé un processus très similaire pour mieux catégoriser les tickets d'assistance afin d'aider l'équipe IT à mieux comprendre ce qui lui demandait le plus de temps.
Comme un « copilote » de bout en bout
L'équipe de Luke Cornetta chez Alvarez & Marsal a fait le travail de base pour créer un LLM privé et sécurisé, ce qui était une condition extrêmement importante étant donné la nature sensible des données avec lesquelles ils travaillaient.
De nombreux data workers se trouvent dans une situation similaire, mais une fois que le travail initial de recherche et d'installation d'un LLM fonctionnel et de sa mise en place au niveau local a été effectué, les possibilités sont illimitées.
« Allez-y et voyez comment cela peut vous faire gagner 10 à 15 minutes. C'est très bien, même pour vous donner des formules Alteryx. Je lui demande tout le temps de m'aider à créer une formule Alteryx… non pas parce que je ne sais pas comment faire, mais parce que je sais que cela me prendra plus de temps de le faire moi-même qu'il n'en faudrait à l'IA pour l'écrire. »
15 minutes de moins sur une tâche d'une heure, ça peut sembler peu, mais cela s'accumule au fil des semaines et des années. Selon PwC, la GenAI peut améliorer de 30 à 40 % la productivité des knowledge workers.
Les copilotes analytiques sont des assistants puissants qui peuvent vous aider dans tous les domaines, des problématiques data générales aux cas d'usage plus avancés, par exemple pour choisir les bonnes fonctionnalités et le bon modèle pour votre dernier projet de machine learning.
À chaque étape de votre processus analytique, les solutions GenAI telles que notre outil Résumé de workflow peuvent complètement automatiser la documentation, en créant des résumés concis de l'objectif, des entrées, des sorties et des étapes logiques clés de votre workflow.
Enfin, les solutions GenAI sont très intéressantes pour communiquer vos insights aux personnes concernées. De la création de présentations PowerPoint à la rédaction d'e-mails, ces solutions peuvent vous faire gagner plusieurs heures.
Malgré la myriade de cas d'usage de la GenAI, Luke Cornetta estime qu'il est important de ne pas accepter aveuglément ce qu'elle produit. « L'IA n'est pas exempte d'aberrations ou d'interprétations erronées d'un message. C'est pourquoi lui et son équipe vérifient méthodiquement les résultats fournis par l'IA.
« Il y a beaucoup de travail de validation… c'est beaucoup plus facile de créer des validations sur des données structurées. Nous nous attendions à ce que les valeurs extraites se situent dans une certaine fourchette ou un certain ensemble de valeurs, ce qui nous a permis d'éliminer les autres valeurs. »
La deuxième étape, c'est de s'assurer que les personnes concernées soient d'accord sur ce que l'IA peut et ne peut pas faire. « L'IA ne va pas comme par magie être efficace à 100 %, en tout cas pas avant longtemps, voire jamais. Mais le fait d'être en phase avec ce que l'IA peut apporter nous aidera à démarrer et à atteindre 80 à 90 % de cet objectif. Et il y aura encore probablement d'autres points à examiner après cela. C'est l'autre caractéristique des projets réussis de cette nature : s'assurer que les attentes sont alignées et que tout le monde est à l'aise avec la façon dont ça se déroule. »
Enfin, pour tous ceux qui se demandent comment démarrer avec la GenAI, Alteryx, ou toute autre technologie, le meilleur conseil de Luke Cornetta, c'est de « se lancer, simplement ».
« Trouvez un cas d'usage et voyez comment il peut fonctionner, et n'abandonnez pas s'il ne vous donne pas nécessairement le bon résultat du premier coup », conclut-il. « Je connais beaucoup de gens qui ont peur ou qui sont intimidés par les nouvelles technologies, et je leur dirais qu'il faut juste essayer. Si vous leur laissez vraiment une chance, je pense qu'elles pourraient vous surprendre. »
Pour en savoir plus sur ce que peut vous apporter la GenAI dans vos processus analytiques :