データクレンジングとは

データクレンジング(data cleansing)は、データクリーニングやスクラビングとも呼ばれ、生のデータセットからエラーや重複、無関係なデータを特定して修正するプロセスです。データクレンジングはデータ準備プロセスの1つであり、データの精度を改善し、信頼性の高い可視化やモデルの構築を可能にすることで、より良いビジネス上の意思決定を実現できるようになります。

データクレンジングの重要性

どんなに優れた分析やアルゴリズムをもってしても、質の低いデータから価値を引き出すことはできません。企業に存在するデータの30%近くに、何かしらの問題があり、こうした不正確なデータによるコスト損失は企業全体の収益の12%に及ぶと言われています。さらに、こうした金銭面以外にも、さまざまな問題が引き起こされています。データクレンジングを活用すれば、一貫性があり、構造化された正確なデータを生成し、確かな情報に基づいてスマートな意思決定を下せるようになります。また、アップストリームのデータ入力とストレージ環境における改善点を明らかにすることで、継続的に時間やコストを節約できるようになります。

データクレンジングのプロセス

データクレンジングプロセス

データクレンジングは、あらゆる分析プロセスにおいて不可欠なステップであり、通常、以下の6つのステップを含みます。

 

dedupe data icon
重複の排除:複数のソース(表計算シート、ウェブサイト、データベースなど)の統合時、お客様の連絡先が複数存在する場合などにおいて、重複を排除します。重複したデータがあると、サーバー容量や処理リソースが過剰に消耗されたり、ファイルのサイズが必要以上に大きくなったりするなど、分析効率の低下につながる恐れがあるため、早期の対処が重要です。重複の排除に関するルールは、企業ごとに自由に決められます。例えば、同一のお客様がウェブサイトの異なるページで異なる電子メールを送信した場合に、保守的なアプローチとして「すべてのフィールドが完全に一致するデータ行だけを削除する」といったルールを定めることができます。

 

不要なデータの除外のアイコン
無関係なデータの排除:解決すべき問題に関係のないデータは、処理時間の遅れにもつながります。この工程では、そうした無関係なデータを取り除き、より効率的に分析を行うことができるようにします。削除対象となったデータは、元々のデータソースには保持されますが、分析からは排除されます。たとえば、昨年のキャンペーンを調査する場合、昨年以外のデータを含める必要はありません。ただし、たとえ特定の変数が必要ないとしても、調査結果と相関している可能性がある点に留意する必要があります(例として、お客様の年齢は、メールキャンペーンのテストの効果を測るうえで、必須の変数かもしれません)。

 

不完全なデータの管理のアイコン
不完全なデータの管理:データの値が欠落している場合(顧客が特定の情報を提供しなかった場合など)、偏りや計算ミスを防ぐためにも、早急な対処が求められます。[0]、[NA]、[none]、[null]、[not applicable]と表示される不完全な値を特定して調査した後、これらが妥当な値であるか、または情報の欠落によるものなのかを判断します。最も簡単な解決策は、不完全なデータを削除することですが、その結果として生じる可能性のあるバイアスに注意する必要があります。または、削除する代わりに、統計や条件付きのモデリングに基づいてNULL値を代替値に置き換えたり、欠損データにフラグを立て、コメントを付けたりもできます。

 

外れ値の特定のアイコン
外れ値の特定:母集団から大きくかけ離れたデータポイントは、データの現実性を大きく歪めてしまう可能性があります。こうした外れ値は、箱ひげ図(ボックスプロット)、ヒストグラム、散布図、Zスコアなどの視覚的または数値的手法を用いて特定できます。これらのプロセスの一部を自動化することで、前提条件を迅速に検証し、データの問題を確実に解決できるようになります。外れ値を特定したら、その外れ具合や分析に使用する統計手法などに応じて、そのまま残すか、省くかを選択することができます。

 

構造的エラーの修正のアイコン
構造的なエラーを修正する:誤植、大文字、略語、フォーマットなどのエラーや不一致の修正は非常に重要なステップです。各列のデータ型を確認し、入力が正しく一貫性があるかどうかを確認し、必要に応じて修正するとともに、フィールドの標準化、余分な空白などの不要な文字の削除なども行います。

 

バリデーションのアイコン
検証:検証は、データの正確性、完全性、一貫性、均一性を確認するプロセスです。データクレンジングのプロセス全体で検証が行われますが、念のため、サンプルを実行して検証しておくことをおすすめします。また、クレンジングプロセスで使用したツールや手法を文書化することも重要です。

これからのデータクレンジング

データクレンジングは効果的な分析に不可欠ですが、時間やリソースを浪費する手作業主体のサイロ化されたプロセスになりがちです。分析を自動化すれば、誰もが反復可能でスケーラブルなデータクレンジングを実現できるようになるだけでなく、次のようなメリットも期待できます。

  • データと分析の民主化
  • ビジネスプロセスの自動化
  • 社員のスキルアップを促し、短期間で画期的な成果を創出

データクレンジングは分析自動化の基盤であり、その基盤を強化することで、企業はデータサイエンスと機械学習を取り入れた、より高度な分析の実現に向けた明確な道筋を手に入れられるようになります。

データクレンジングを活用しませんか?

手動によるデータクレンジングは、面倒でミスが発生しやすく、時間もかかります。Alteryx Analytics Automationでは、使いやすい自動化ビルディングブロックを用いて、コード不要の多彩なアプローチで問題のあるデータを識別し、修正することができます。Alteryxの分析プラットフォームでは、優れた分析に不可欠となるデータの探索や、データのクリーンアップをエンドツーエンドで手間なく簡単に実行できます。Alteryxで構築したワークフローは恒久的に自動化でき、高速かつ反復可能で、監査可能なプロセスをいつでも再現することができます。