分析ライフサイクル全体での生成AIの活用

テクノロジー   |   Taylor Porter   |   2024年11月6日 読了時間の目安:7
読了時間の目安:7

2016年のForbesに掲載された記事「Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task(ビッグデータのクリーニング:データサイエンスで最も時間がかかり、楽しさに欠けるタスク)」によれば、データ業務担当者の業務時間の60〜80%がデータ準備に費やされていることが指摘されています。

それから7年以上が経ちましたが、Anaconda社が発表した最新のレポートでは、データ準備やデータクリーニングが依然としてデータ業務担当者の業務において多くの比重を占めていることが明らかになっています。また、Microsoft社の調査によると、64%の従業員が業務を遂行するのに十分な時間とエネルギーが足りていないと回答しています。

しかし、生成AIが普及するにつれ、データ分析などでの手作業で時間のかかる作業の見直しが進んでいます。

本記事では、データ分析プロセス全体における生成AIの効果的な活用方法を解説するとともに、「Alter Everything」のポッドキャストの最新エピソードに出演いただいたAlvarez & Marsal社のシニアディレクターであるLuke Cornetta氏のインタビューを通じて、ETL作業やPowerPointの作成などの税務に関連する業務で生成AIを活用し、効率化や時間短縮を図る具体例についてもお伝えします。

アナリティクスのための生成AIとは?

生成AIとは、入力データをもとに新たなコンテンツ(テキスト、動画、その他のメディア)を生成するAI技術を指します。通常、大規模言語モデル(LLM)やトランスフォーマー・アーキテクチャといった機械学習モデルが活用されますが、生成するコンテンツの種類に応じて最適なモデルを柔軟に選択することも可能です。

生成AIは、情報収集といった初歩的なステップからデータ分析のライフサイクル全体にわたって大きな効果を発揮し、業務効率を飛躍的に向上させます。

情報を素早く理解するために

どの業界にも独自の専門用語や略語が数多く存在します。たとえば、社内で「需要の高いSKUを分析し、安全在庫レベルを見直して、必要なタイミングで納品精度を改善した」、あるいは「EBITDAの調整が発生主義で計上された減価償却費に影響を与えた」といった表現を耳にすることがあるかもしれません。

こうした表現を初めて耳にすると、何のことかわからず混乱するかと思います。ChatGPTのような生成AIソリューションは、このような情報をすぐに理解できるように、かみ砕いて説明してくれる優れたツールです。「会話中に知らない略語や業界用語が出てきた場合に『これは何ですか?』と尋ねると、すぐに答えが返ってきて、大体のイメージをつかむことができます」と、Cornetta氏は説明します。

さらに、ChatGPTのようなツールは、こうした定義の提供を超えた利便性も備えています。ある用語が別の用語とどう関連するのか、あるいは特定のシナリオにどのような影響を及ぼすのかなど、より深い質問を投げかけることも可能です。

構造化されていないテキストデータを簡単に処理

生成AIを活用すれば、テキストベースのデータを効率的に統合し、大量の非構造化データを扱うプロジェクトをスムーズに進めることができます。Cornetta氏のチームの税務業務では、ERPシステムからPDFや非構造化Excelファイルなどの膨大なデータを取り込んでいます。あるプロジェクトでは、Excelファイル内に含まれる10文字から5,000文字にわたるテキストベースのコメントを抽出する必要がありました。

「以前は、複数のスタッフでコメントを手作業で確認したり、Alteryxでキーワード検索やロジックを用いて対応していました。正規表現やテキスト解析である程度はカバーできますが、最終的には非効率的な力任せの作業になりがちでした」(Cornetta氏)

チームは今年、同様のプロジェクトに取り組む機会がありましたが、今回は安全なプライベートLLM環境が整っていたため、従来にはない形で生成AIを活用することができました。

「私たちがサポートしたプロジェクトでは、コメントやフィールド、メモに多くの重要なビジネス情報が含まれていました。例えば、料金や営業時間といったデータが、それらは長年にわたり複数の担当者によってさまざまな形式で入力されていました」(Cornetta氏)チームはまず、これらのコメントを社内のLLMに取り込んだところ、高い精度で内容を解析できることが判明しました。次のステップとして、Alteryxが活躍しました。

「Alteryxのダウンロードツールを使い、API経由で各コメントフィールドに対して同じ内容のプロンプトを用いることで、一貫した処理を行うことができました。その後、Alteryxで結果を解析し、ターゲットとするシステムにスムーズに取り込めるように構造化しました」(Cornetta氏)

Cornetta氏のチームは、ITサポートチケットをより効果的に分類したいと考えるクライアント向けに同様のプロセスを実施し、ITチームがどの業務に多くの時間を費やしているのかを明確に把握できるよう支援しました。

エンドツーエンドの「アシスタント」として活用

Alvarez & Marsal社のCornetta氏のチームは、取り扱うデータの機密性を考慮し、安全なプライベートLLMを構築するための重要な基盤を整えることによって、従来にはない形で生成AIを活用できるようになりました。

多くのデータ業務担当者が同様の状況に直面していますが、有効なLLMを見つけてインストールし、ローカルで設定することで、その活用の幅は無限に広がります。

「作業時間を10〜15分短縮できるかどうか、ぜひお試しください。たとえば、Alteryxでの式の作成にも活用できます。私もAIに式の下書きを頼むことが多いです。自分でも作れるけれど、AIを使うほうがはるかに時間を短縮できるからです」(Cornetta氏)

1時間の作業を15分短縮するだけでは少なく感じるかもしれませんが、数週間、数年と積み重ねることで大きな効率化につながります。PwC社の調査によると、生成AIは知識を活用する業務担当者の生産性を30〜40%向上させる可能性があるということです。

生成AIはデータ分析の「アシスタント」として、データセットに関する高度な質問から、最新の機械学習プロジェクトでの特徴量やモデルの選択まで、幅広くサポートしてくれます。

生成AIソリューションであるAlteryxのワークフローサマリーツールを使うと、分析の各ステップにおけるドキュメント作成を自動化し、ワークフローの目的や入力・出力、主要なロジックを簡潔にまとめられます。

さらに、生成AIはステークホルダー向けのインサイトの報告にも効果を発揮します。PowerPointの作成やメールの下書きといった業務を効率化し、作業時間を大幅に削減できます。

生成AIは広範な用途に活用されていますが、Cornetta氏は「AIのアウトプットを盲目的に受け入れないことが重要」と指摘しています。「AIには、幻覚(ハルシネーション)やプロンプトの解釈ミスといったリスクがあるためです」(Cornetta氏)そのため、Cornetta氏のチームではAIの出力結果を慎重に検証しています。

「私たちは多くのバリデーションを行っていますが、データを構造化することで検証が各段に容易になります。抽出する値があらかじめ設定した範囲や特定の値のグループ内に含まれていることを想定し、その範囲外にある異常値を特定し、効率的に除外することができました」(Cornetta氏)

成功に向けたもう一つの重要なポイントは、ステークホルダーとAIの能力や限界を共有することです。「AIは魔法ではないため、100%の精度は期待できませんが、80〜90%の精度まで高めることが可能です。ただし、残りの部分については人間による確認も必要です。このようなプロジェクトを成功させるには、期待値をすり合わせ、誰もが納得できるようにすることが不可欠です」(Cornetta氏)

最後に、生成AIやAlteryx、その他の新しい技術の導入を考えている方へのCornetta氏のアドバイスは、「まず始めてみること」です。

「ユースケースを見つけて試してみることです。最初の出力結果が期待通りでなくても諦めないでください。新しい技術に対して不安や抵抗がある方も多いですが、ぜひ一度本気で取り組んでみてください。きっと素晴らしい発見があるはずです」(Cornetta氏)

データ分析における生成AIの活用について、詳しくはこちらをご覧ください。

Alteryx Auto Insightsのインタラクティブなブラウザベースのデモをぜひお試しください。

タグ