データプロファイリングとは
データプロファイリング(data profiling)は、データの特性を把握し、その品質を評価することによって、データに対する新たな発見や理解を得て、
データを整理するためのプロセスです。データプロファイリングを通じて、データの完全性やユニークな値の数を確認したり、エラーや異常なパターンを特定したり、
データの有用性を判断したりすることができます。これにより、分析の精度を改善し、より適切な意思決定や大幅なコスト削減を実現できるようになります。
データプロファイリングの重要性
米国でのデータの品質不良に起因する損失額は年間3兆ドル以上にも上ると言われており、データの品質の改善に向けた頻回なクリーニング作業や、データの正確性を確認するための追加データソースの探索などに、多大な労力やコストが割かれています。データプロファイリングを行うことによって、データの品質と信頼性を保証し、データの特性を理解・検証し、データの不備を特定し、データが統計や組織の基準を満たしているかどうかを確認できるようになります。
データプロファイリングのタイプ
今日活用されているデータプロファイリングの手法の多くは、構造プロファイリング、コンテンツプロファイリング、関係プロファイリングという3つのカテゴリーに大別されます。データプロファイリングのプロセスにおいて、これら3つの手法がどのように役立つのかを、ある企業を例にとって説明します。その企業では直近の合併により、CRMシステムのデータの移行に取り組んでいるとします。こうしたケースにおいて、データプロファイリングを活用することで、あらゆるデータの形式、情報、品質はもちろんのこと、データベース内のさまざまなフィールドやテーブル間の関係性も可視化できるようになり、データの移行元の旧システムや、移行後の新システムに含まれるデータの特性や品質を正確に把握できるようになります。
構造の検出
構造プロファイリングはデータプロファイリングの最初のステップであり、データベースやファイル内のデータの構造や形式を調査します。構造プロファイリングでは、以下の点を確認することができます。
- データセットのサイズ
- 含まれるデータのタイプ(例:文字列、浮動小数点、日時、ブール値、空間オブジェクトなど)
- データ形式の一貫性や正確さなどの情報は、データを新しいリポジトリに移行する場合に不可欠です。
その後、調査結果を基にデータをラベル付け・タグ付けすることでユーザビリティを向上させることができます。
コンテンツ検出
コンテンツプロファイリングでは、コンテンツを認知的・視覚的な観点から考察することによって、データの理解を深めるとともに、ギャップやエラーのある箇所を特定します。コンテンツプロファイリングでは以下のことが行えます。
- 数値フィールドの最小値/最大値、カテゴリフィールドの値の頻度などの統計情報のサマリーを作成
- NULL値、空白、ユニークな値の数をチェックし、データの範囲や品質、フィールドが適切かどうかを把握
- スペルミスや値の表現の違い(例:「Doctor」と「Dr.」)など、分析プロセスを中断させかねないシステム上のエラーを特定
関係性の発見
データ間の主要な関係を把握することで、必要なデータを取捨選択したり、データの有効性を高めるために、変換する必要がある箇所を特定したりできるようになります。「ファイル内のセル同士をつなぐ数式」といったシンプルなケースから、「外部のソースから売上データなどの情報を定期的に収集するテーブル」といったより複雑なケースまで、あらゆるデータの関係性を把握することができます。
データプロファイリングの使用方法
どの企業においても、膨大な量のデータが日々収集されていますが、適切なプロセスやツールがなければ、
データを賢く活用する機会を逸すこととなってしまいます。データプロファイリングは、データを整理・管理し、強力で有用な情報を明らかにすることで、データのさらなる有効活用を叶えます。プロファイリングを通じて、
以下のようなメリットを得ることができます。
- さまざまなソースからのデータを統合し、企業のデータレイクに入力する前にデータ品質を判断する
- 顧客層をより良く把握し、より良いアプローチを実現して、売上の増加につなげるとともに、不正行為を検出
データプロファイリングを始めてみませんか?
データプロファイリングを行うために、技術的なスキルやバックグラウンドは必要ありません。AlteryxのAnalytic Process Automation Platformでは、以下のような使いやすいデータプロファイリングツールを用いて、構造プロファイリング、コンテンツプロファイリング、関係プロファイリングを簡単に行うことができます。
- あらゆるデータをAlteryx Designerに取り込むことが可能な[データ入力ツール]
- 各フィールドのメタデータを自動的に分析し提供する[基本データプロファイルツール]
- グラフやテーブルを用いて、上位の値、主要な統計情報、データセットの全体的な情報などを
表示・把握できる[閲覧ツール]
次の用語
クラウドデータウェアハウス(CDW)関連リソース
お客様事例
Protected: Saving Over 75 Hours Day with Automated Forecasting
- データ準備と分析
- データサイエンスと機械学習
- プロセスの自動化
お客様事例
Protected: Nippon Caterpillar Japan Streamlines Analysis Operations
- データ準備と分析
- マーケティング
- アジア太平洋地域