データ準備は、1週間のうちで最も時間のかかる反復作業の1つです。生データを適切な方法でクリーニング、検証、統合しなければ、ダーティデータ (不正なデータ) が蔓延してしまい、インサイトを得られたとしても、信頼に足るものではなくなってしまうでしょう。
では、データ準備で、ダーティデータを抑え込み、企業が頼りとするデータを保護するためにはどうすればよいのでしょうか?
そこで必要となるのが、スーパーヒーローのような超人的能力です。
フォーマットエラーや不正確なデータ、外れ値からデータを守るための最強のデータ準備戦略を、6つのステップでご紹介します。確実なデータ品質で、ビジネスに安心と信頼をもたらしましょう!
1. 全体を瞰してみる
新しいデータセットを使って集中的に作業を始める前に、思い切って生のデータに足を踏み入れ、少し探索してみることをお勧めします。アベンジャーズのホークアイのように超人的な視力が備わっていれば便利ですが、必ずしも必要というわけではありません。何を探しているのか、どんな質問に答えてほしいのかを頭に描いてから始めるのもいいですが、まずは心を開き、データに語らせてみましょう。
ヒント: データ探索
- 列名やフィールドの説明に目を通し、目だった異常、情報の欠落や不備がないかを確認。
- 変数の健全性をチェック (固有値がどの程度含まれているか? 範囲やモードは?)。
- 誤った結果をもたらす可能性がある異常なデータポイントを検出する( ボックスプロット、ヒストグラム、散布図などの視覚的な手法や、z スコアなどの数値的アプローチを利用)。
- 外れ値を精査し、 調査、調整、除外、無視する必要があるかどうかを判断。
- パターンや相関性から統計的有意性を判断する。
2. データを洗練させる
エラーや不一致だらけのダーティデータは多大な損失をもたらします。このようなダーティデータが、企業に年間数百万ドルもの収益損失をもたらす可能性があるという調査結果も出ています。このようなデータによる莫大な損失を回避するために、徹底的にデータをクリーニングする必要があります。
ヒント:データクレンジング
- サーバーに負荷をかけ、分析に悪影響をもたらす重複レコードを排除。
- 解決すべき問題に影響しない行や列を削除する。
- 情報の欠落や不備を精査し、必要に応じて削除する。
- データ探索中に発見した不要な外れ値を除去する。
- 文字の体裁、大文字小文字、略語、書式設定、余分な文字などによる構造的エラーを修正。
- 作業の正確性、完全性、一貫性を検証し、使用したすべてのツールと手法を文書化。
3. 強力なデータどうしを組み合わせる
分析に組み込む高品質のソースが増えるほど、より深く、より豊かなインサイトが得られます。分析プロジェクトでは、通常6つ以上のデータソースが用いられることが多く、それらをシームレスに統合するデータブレンドツールが必要となります。高品質なデータで構成される究極のチームを結成しましょう。
ヒント:データブレンディング
- 取得と準備:最新のデータツールを使用すれば、ファイルをスプレッドシートに合わせて加工するかわりに、解決すべきビジネス上の課題に関連するあらゆるファイルや構造を取り込み、どんなデータセットも共通の構造に素早く変換することができます。これにより、各種ファイルや文書、クラウドプラットフォーム、PDF、テキストファイル、RPAボット、ERP、CRM、ITSMなどのアプリケーションアセットのデータを容易に活用できるようになります。
- ブレンド: この工程をスプレッドシートで行う場合VLOOKUPが活躍しますが、これはとても手のかかる作業でもあります。代わりにセルフサービスのアナリティクスを使用すれば、このプロセスをドラッグアンドドロップのみで実行できます。
- 検証:結果の一貫性を確認し、一致しないレコードがあれば、さらなるクレンジングやその他のデータ準備作業が必要かどうかを検討します。
4. データセンスを高め、危険を察知する
データプロファイリングは、データ探索のいわば「いとこ」と言えますが、より精密な調査を必要とします。特定のプロジェクトや用途に関連するデータセットを綿密に調査することを意味します。直感とノウハウを駆使して、そのデータセットを利用すべきかどうか判断する必要があり、企業にとって重大な財務上の影響を及ぼす可能性のある大きな決断です。
ヒント:データプロファイリング
- 構造のプロファイリング: データセットの規模や、含まれているデータの種類は何か?形式に一貫性があり、正確で、出力先と互換性があるか?
- コンテンツのプロファイリング: データにどのような情報が含まれているか?ギャップやエラーはないか?この段階では、数値フィールドのサマリー統計を実行し、Null、空白、固有値などをチェックし、スペル、略語、IDなどのシステムエラーを特定します。
- 関係性のプロファイリング: データに重複やズレがないか?データ間にどのようなつながりがあるのか?例えば、セル同士をつなぐ数式や、外部ソースから定期的に情報を収集するテーブルなどが挙げられます。すべての関係性を特定して記述し、データを新しい保存先に移す際には、それらの関係性も必ず保存します。
5. 「秘密基地」を確立する
利用可能なデータソースは膨大かつ複雑です。そのため、データソースを抽出し、統合して、必要なときにいつでも分析のために取得できる一元化された場所に保存することが必要不可欠です。いわゆる「秘密基地」のようなもので、データに必要とされる時間を削減してくれます。
ヒント: ETL (抽出、変換、ロード)
- 抽出: 構造化または非構造化、1つまたは複数のソースなど、あらゆる必要データを抽出し、その品質を検証します。(レガシーシステムや外部ソースからデータを取得する場合は、特に細心の注意を払います)。
- 変換: 入念なクレンジングにより、形式がターゲットとなる出力先の技術要件に一致するようにします。
- ロード: 変換されたデータを保存先 (通常はデータウェアハウス) に書き込みます。その後サンプリングを実行し、データ品質のエラーをチェックします。
6. ラングリングでデータを整理する
「データラングリング」は、広義的に「データの準備」という意味で使われることが多いですが、実際には、分析や予測モデルの構築の過程で行われる準備を指します。初期段階から入念にデータを準備していたとしても、分析の開始時にデータラングリング (またはデータマンジングやラッソ) を行い、モデルがデータを取り込めるかどうかを確認する必要があります。
ヒント:データラングリング
- 探索: モデルが思ったとおりに動作しない場合は、データに戻って原因を探ります。
- 変換: 分析に用いるモデルを念頭に置いてデータを構造化します。必要な出力を得るために、データセットの方向を変える必要がある場合は、その分データ操作に時間をかけなければなりません。(自動分析ソフトウェアでは、こうした作業をワンステップで実行できます)。
- クレンジング: データのエラーを修正し、重複を削除します。
- 強化: 信頼性の高いサードパーティデータなどのソースを追加します。
- 保存: ラングリングは手間のかかる作業です。将来的に再現できるように、プロセスを保存しておきましょう。
こうした 6 つのステップに従うことで、データはスーパーマンのように「飛行機よりも速く、弾丸を跳ね返し、大きな赤いマントをなびかせる」ような無敵の存在となります。
VLOOKUPや手作業のプロセスにうんざりしているなら、ぜひ自動化を試してみてください。自動化されたセルフサービス分析プラットフォームを使用すれば、セルフサービスの自動分析プラットフォームでは、あらゆる形式のデータにアクセスし、準備のプロセスを自動化することができます。
データ準備を自動化すると、次のようなメリットが得られます。
- 迅速な成功: プラットフォームの自動化により、多くの組織が数日から数週間のうちに目に見える成果を生み出しています。
- 効率的なデータ処理: 自動化により、単純作業から解放され、創造的な業務に集中できるようになります。また、同じようなデータの課題を何度も解決する必要がなくなります。
- データの民主化: 誰もがデータを活用できる環境を整えることで、あらゆる階層の従業員が、自分の能力を高める新たな方法を手に入れられるようになります。
このような目覚ましい変化を実現し、組織にかつてない革新をもたらすのが、アナリティック・プロセス・オートメーション(APA)です。
APAの詳細と、APAがどのように分析スキルの向上に役立つかをご覧ください。
以下でさらなる詳細をご覧いただけます。
読み物
最新の分析アプローチへのスムーズな移行を実現するための方法を、データ分析のための決定的ガイドでご確認ください。
体験する
Alteryxデータブレンディングスターターキットで、データブレンディング習得への道のりを歩み始めましょう。