データの標準化とは
データの標準化においては、データ変換を実行するソフトウェアのアルゴリズムが、データを格納するシステムから切り離されます。これらのアルゴリズムのロジックは、コードではなく人間が判読できるルールで管理されるため、開発者やIT部門に頼ることなく、誰でも視覚的なインターフェイスを介して管理することができます。データの標準化では、データがどのように取得、標準化、統合されるかという複雑なセマンティクス(データの定義)をすべて抽象化します。これにより、新しいパートナー企業のオンボーディング(受け入れ)を迅速化し、新規のデータアグリゲーターからのデータと既存のデータを論理的に統合させるルールを強化し、よりスピーディーで正確なデータ分析を実現できるようになります。
データの標準化の重要性
すべてのビジネスデータ要素を完璧に定義できる統一された手法はいまだに普及していないため、データマッピング(データベース間でさまざまなデータを統合させるプロセス)は今後も不可欠なプロセスになると考えらえます。ただしデータマッピングは、それほど大変なものではありません。また、データマッピングの最近のトレンドの1つに、プロセス全体の仮想化が挙げられます。
データの格納・移行システムのコードに、標準化のロジックをハードコードするケースが良く見られますが、そのためには複数の場所に分散している標準化コードの作成、保守、デバッグに多大な時間を費やさなければならず、データの品質や再利用が制限されることになります。また、こうした複雑な標準化のロジックのために、新たなパートナーの受け入れに遅れが生じ、収益機会を逃してしまう恐れもあります。
この問題を解決するのが、仮想化を通じて標準化コードを分離・抽象化するというデータ変換のユニークなアプローチです。これにより、ビジネスユーザーが標準化のルールを視覚的なインターフェースで定義し、クエリ時に簡単にロジックをコードに変換できるようになります。こうした仮想化により、ビジネスのスピードを速め、新たなパートナーの迅速なオンボーディングも実現できるようになります。
データ標準化プロセス
新しいデータプロバイダーのオンボーディング時に、分析自動化プラットフォームは、独自のデータスキャナーを用いて、あらゆる形式やデータソースのデータを解釈します。このプラットフォームは、新しい生データに含まれる要素によって自動的に拡張され、ビジネスに必要なすべての変換ロジックを含む普遍的な仮想データレイヤーを作成します。
これらの仮想データ列とその変換によって、プラットフォーム上でいつでも生データを照会できるようになるため、データの移動やコピーが不要となり、生データの最新の変更をすばやく照会結果に反映させることが可能になります。スキーマの変更が検出されると、プラットフォームはデータレイヤーで必要な調整を行い、生のデータ要素を正しく参照するようにします。
仮想のデータ列を追加することで、ビジネスユーザーは仮想のルールを定義し、データを標準化・統合できるようになります。これらのルールはコードで保持されず、仮想的なものとなり、人間が理解できる形で管理されるため、ビジネスユーザーをはじめとした誰もが容易に管理することができます。Alteryxではクエリ時にのみ、テーブルやビューの作成に必要となるコードを自動的に作成します。
データの変換時に維持されるルールには、次の3種類があります。
分類ルール:このルールでは、パートナーのデータの列と値を、データアグリゲーターのデータとマッピングします。例えば、パートナーは、取引に「決済金額」と「決済タイプ」の2つの列があると記述することができ、タイプは3つのオプションのうちのいずれかとなります。
再整形ルール:このルールでは、パートナー側からどのようにデータの要素を収集し、データアグリゲーター側でどのように配分するかを指定します。例えば、小売業者が全取引データを1つのファイルで提供し、アグリゲーターがそれらを3つのテーブル(取引用、小売業者用、消費者用)に分割する必要がある場合に、このルールを適用します。
セマンティックルール:これらのルールでは、データの要素が持つ意味と、それらがどのようにビジネスに用いられるかの定義を記述・明確化します。たとえば、「何を持って取引が成立したとみなすべきか?」「返金を考慮した最終的な決済額をどのように計算するべきか?」といったことが挙げられます。各データプロバイダーは、その事業の領域内で有効な独自のセマンティクスを持っており、データアグリゲーターは、これらすべてのプロバイダー間でデータの定義の一貫性を確保する必要があります。
Alteryxでは、こうしたルールを、視覚的なツールを用いて容易に定義することができます。また、多彩な変換機能も備えているため、データの標準化をスムーズに進められます。例えば、ユーザーは列をマッピングして値を標準的なセットに変換したり、XML、CSV、JSON、EDIなどを含む複数のファイルからデータを抽出・統合することができます。
列の順序の変更、列名の変更、値の変更、列の値や種類の変更などの一般的な問題は、自動的に処理されます。また、SQLコンソールを使用して、より複雑なロジックを記述することもできます。さらに、データの検証やレポート作成により、すべての標準化が正しく行われたかどうかを監視・確認することができます。新規のファイルやレコードの追加・変更時には、データスキャナーがただちにそれらを検出し、関連するSQLコードを動的に生成・実行することで、該当する標準化ルールを適用し、データを標準的な形式で書き出すことができます。
データの標準化で未来を切り拓く
複数のパートナーからのビジネスデータを標準化することは、重要かつ日常的な作業です。そして、ビジネスが拡大し、より多くのステークホルダーと提携し、これらのデータプロバイダーが独自のビジネスロジックに従ってデータセットを生成するようになるにつれ、その重要性と頻度はますます高まっていくと考えられます。データの標準化がビジネスの俊敏性とパフォーマンスに与える影響を考慮すると、複数のソースからデータを収集している企業は、インフラやワークフローの導入、新しいパートナーの受け入れ態勢を慎重に検討する必要があります。
データの標準化を円滑化しませんか?
データプロバイダー独自のビジネスロジックを含み、異なるフォーマットで提供されるデータセットをどのように取り込んで標準化し、比較・集計などの各種分析を一貫して行うかという課題に、多くの企業が直面しています。
AlteryxのAlteryx Analytics Automation platformは、企業がETL(抽出、変換、書き出し)とデータパイプラインを構築するためのエンジニアリングを必要とせずに、さまざまなソース間でデータを準備することを支援します。これにより、理解、調整、ブレンドが困難なデータセットを扱うビジネスユーザーが、さまざまなユースケースに役立つビジネスロジックを即座に取得・検証できるようになり、データの価値を最大化することが可能となります。
次の用語
特徴量エンジニアリング関連リソース
お客様事例
Protected: Saving Over 75 Hours Day with Automated Forecasting
- データ準備と分析
- データサイエンスと機械学習
- プロセスの自動化
お客様事例
Protected: Nippon Caterpillar Japan Streamlines Analysis Operations
- データ準備と分析
- マーケティング
- アジア太平洋地域