データカタログとは
データカタログを使用することで、さまざまなシステムやプロジェクトに分散するすべてのデータアセットの包括的なインベントリを作成できるようになります。組織のデータは、多くの場合、複数のリレーショナルデータベース、データウェアハウス、運用データベース、レガシーシステムなどに分散されています。データカタログは、組織のあらゆるデータを検出し、分析やコンプライアンスの要件に対応することのできる効率的なソリューションを提供します。
2020年にシーゲイトが行った業界調査では、企業が収集するデータの43%が十分に活用されていないことが明らかになりました。なぜこのようなことが起きるのでしょうか?組織のデータアセットはサイロ化しがちであり、そうしたデータアセットを見つけ出し、分析するためのノウハウを持っているチームはごく一部です。本当の問題は、データの不足ではなく、データを整理し、提示することのできるスマートなシステムが存在していないことなのです。データカタログは、データアセットに関連付けられたメタデータを照合することにより、効率的なソリューションを提供します。
データカタログの基礎となるメタデータ
データカタログ化ツールは、組織内のすべてのデータリポジトリをクロールし、メタデータを収集します。メタデータは実際のデータに付随する情報であり、データセットについての説明や、注釈付けを行います。データカタログ化ツールは、自動的にメタデータを照合し、データのセマンティクスを理解し、データ間の関係性を推論します。データセットには、さまざまな種類のメタデータが関連付けられています。以下のようなメタデータを通じて、データのさまざまな側面が定義されます。
- データセットのソースやサプライヤー
- データセットの内容
- テーブルと列の意味
- データの保存場所、データにアクセスできるユーザー
- データセットの履歴と系列
- データセットの信頼性
メタデータは、テクニカルメタデータ、プロセスメタデータ、ビジネスメタデータの3つのグループに大別されます。データカタログでは、これらすべてのタイプのメタデータを利用して、データアセットを一貫した方法で把握することができます。
- テクニカルメタデータはデータセットの構造を記述するため、構造メタデータとも呼ばれます。データテーブルの名前と説明は、テクニカルメタデータに含まれます。また、データテーブルの列や、それらの計算に使用されるビジネスロジックも記述されます。テクニカルメタデータは、データの検出に役立ちます。
- プロセスメタデータは、データセットの系列を構成します。データアセットのソースや作成者と、作成時間に関するインサイトを提供します。また、使用状況に関する情報(過去に誰がいつデータセットを使用したか)も記録されます。プロセスメタデータは、データアナリストが利用するデータが最新かつ信頼できるものであるかどうかを判断するうえで役立ちます。プロセスメタデータは、管理メタデータとも呼ばれます。
- ビジネスメタデータは、組織がデータベースの意思決定を行う必要がある場合に特に役立ちます。ビジネスメタデータには、データセットの品質と信頼性に関する情報や、データが承認済みのものであるかどうかなどが記述されます。
組織のデータアセットには、多様なメタデータが関連付けられている可能性がありますが、そうしたメタデータから価値を引き出すためには、メタデータを照合、分析、推論する必要があり、そこで活躍するのが、データカタログです。データカタログツールでは、メタデータの自動収集に加え、メタデータのクラウドソーシング(データに関わるスタッフが手動でメタデータを追加すること)を行うことができます。これにより、データ所有者がデータセットに利用上のヒントを容易に追加して強化できるため、データのキュレーション(選定・整理)が容易になります。
データカタログの主な機能
データの発見
多くの組織では、データがサイロ化されており、その存在を認識しているのはごく一部のチームだけです。このようなサイロ化によって、意思決定の助けとなるデータを検出しづらい状況が生まれています。その結果、データアナリストが新しいデータセットを作成したり、部分的なデータや信頼性が低いデータに依存したりしなければならなくなることがあります。
データカタログを使用すると、組織内のすべてのデータアセットを一元的に表示できるため、こうした問題を解決できます。ほとんどのデータカタログが、検索エンジンのようなユーザーインターフェイスを提供しており、探しているデータのキーワードを入力するだけで、キーワードや検索フィルターに一致するデータアセットのリストを取得することができます。データカタログでは、データ検出を自動化するためのAPI(アプリケーションプログラマブルインターフェース)も利用できます。
データの同化
データカタログは、データ検索だけでなく、ユーザーがデータをよりよく理解するうえでも役立ちます。テクニカルメタデータを使用して、データカタログにデータセットの詳細な説明を表示することで、データセットとそのビジネスロジックの意味について理解を深められるようになります。
データ品質の評価
データカタログは、プロセスおよびビジネスメタデータを照合することで、データ品質の評価を容易にします。ユーザーは、データセットの履歴と系列に基づいて、データが最新かつ信頼できるものであるかどうかを判断できます。データカタログは、メタデータのクラウドソーシングや手作業によるデータのキュレーションを可能にし、データセットの品質をさらに向上させます。また、ユーザーからのレビューやヒントを組み込み、継続的に進化させることも可能です。これらにより、データアセットに対する組織の信頼を高められるようになります。
データの取得
ユーザーは、信頼性の高いデータセットを見つけたら、それを取得して分析したいと考えるかもしれません。データカタログは、こうした分析用のデータへのアクセスや統合を容易にします。高度なデータカタログでは、ボタンを押すだけで、目的のツールに含まれるデータやダウンロード用のデータにアクセスすることができます。データアクセスの時間を短縮化することで、意思決定のためのインサイトを得るまでの時間も短縮できるようになります。データカタログは、データの取得手順を標準化するうえでも有用です。
なぜデータカタログが重要なのか
データ量の急増
組織においては、日々膨大な量のデータが生成・収集されています。こうした大量のデータアセットが、複雑に分散して存在する状況では、分析に必要な適切なデータが存在するかどうかを把握することさえ困難です。また、社内のデータリソースを可視化できないため、意思決定にデータを活用することも容易ではありません。さらに、データの爆発的な増加により、信頼性の高いデータを見つけ出すことがますます難しくなっています。その結果、適切なデータにたどり着くことが困難となり、信頼性のないデータ、部分的なデータ、信頼性の低いデータなどで済ませがちになり、適切なデータアセットが十分に活用されなくなってしまう恐れがあります。データカタログを使用すれば、データがどこに保存されているかにかかわらず、誰もが高品質のデータを検出し、活用できるようになります。
データ規制とガバナンスのニーズ
組織が膨大な量のデータを所有している場合、そのデータを管理・保護することは容易でななく、偶発的なデータ漏洩につながる恐れもあります。一般データ保護規則(GDPR)のような厳しいデータ保護規制に対処するためには、適切な人材のみが、適切な量のデータにアクセスできるようにしておく必要があります。データカタログは、データアクセスを制御し、データガバナンスを促進するのに役立ちます。データカタログによって、企業はさまざまな制御機能を取り入れて、データリソースに適切な可視性と権限を付与できるようになります。また、コンプライアンスの担当者がデータセットの潜在的なセキュリティ問題を発見するのにも役立ちます。
より適切で迅速な意思決定
データカタログは、データの系列に関する情報を照合します。こうした系列情報には、データの出所や使用履歴が含まれます。また、データカタログを使用することで、評価やレビューを通じてデータアセットを手動で整理することもできます。データ管理者は、データセットを効果的に使用するためのヒントやこつを追加することもできます。データカタログは、意思決定者が信頼できる質の高いデータに裏付けられた確かな情報に基づいた意思決定を行うことを可能にします。
データ管理を分散化
データカタログは、データ管理に文化的な変革をもたらします。これまでデータの管理や整理は、データアナリスト、サイエンティスト、ITチームなどの少数のチームが行うことが一般的でしたが、データカタログは、こうした中央集権的なデータ管理のパラダイムを、コミュニティベースでのデータキュレーションプロセスへと生まれ変わらせます。
データカタログは、データ作業者にとってどのように役立つか
データカタログは、組織内のさまざまなデータ作業者に幅広い役割を提供できる汎用性の高いサービスです。
データアナリスト
データカタログは、アナリストが関連するデータセットをすばやく検出できるよう支援します。データに適切な注釈が付けられ、系列が明確に示されるようになるため、アナリストがさまざまな選択肢の中から適切なデータセットを選ぶことができるようになります。また、データアセットに関連するヒント、レビュー、コメントにより、効率的なデータ分析が可能となります。
データコンプライアンス担当者
データカタログは、組織が正当なデータアクセスを確保するうえで役立ちます。コンプライアンス担当者は、データカタログを使用して認証手続きを実施することができます。また、データカタログは透明性のあるデータアクセスを実現し、組織のデータガバナンスのロードマップを支援します。データカタログは、GDPRのような厳しい規制への準拠にも役立ちます。
データアーキテクトとストラテジスト
データカタログは、データアーキテクトが、権限のある社員が重要なエンタープライズデータを発見、再利用、共有するための、管理されたセルフサービスアプローチを作成するのに役立ちます。データカタログを活用することで、ユーザーは必要な社内データや、データの品質や特性を評価するのに役立つメタデータを1つのツールで検出できるようになります。
データカタログがサポートすべき主要機能
データアセットのカタログ化
データカタログは、データレイク、ウェアハウス、リレーショナルデータベース、ファイルシステム内のエンタープライズデータをクロールして、すべてのメタデータを自動的に収集し、データセット間の関連性を推測するとともに、メタデータを使用してデータセットにタグ付けを行う必要があります。また、データセットを照合するだけでなく、レポートやWikiなどの非構造化データアセットを照合できるものでなければなりません。
データ検索機能
データカタログは、シンプルかつ自然言語ベースで利用できる検索機能を提供する必要があります。キーワードやビジネス用語を入力することで、関連するデータアセットが検索条件順に表示されるようにするとともに、ユーザーのアクセスレベルに応じた検索結果を表示し、不正なユーザーからデータを保護するために、データの難読化機能を備えている必要もあります。
データ評価機能
ユーザーがキーワードまたは検索語に関連付けられたデータセットを検出したら、データカタログを介してそのデータを評価します。データにアクセスする権限を持つユーザーが、データセットをデータカタログを通してプレビューし、データの系列、所有権、認証などを確認したり、ユーザーによる評価やレビューを照合し、表示できるようにします。
データセキュリティ
データカタログは、組織のデータガバナンスの手順をサポートする必要があります。組織のデータセキュリティの実践と認証手続きを促すとともに、データセット、テーブル、列といったあらゆる粒度でのデータのセキュリティを強化します。
データの取得
ユーザーがデータセットを検出・評価した後は、そのデータセットを取得できるようにします。その際に、データカタログを通じて容易にデータを取得できるようにしておく必要があります。また、社内のデータアセットをウェブ検索のように簡単に見つけられるようにすることに加え、必要なデータアセットが存在しない場合にユーザーがリクエストをかけられるようなプロセスを確立することも重要です。
データ品質の向上
データカタログは、データの検出、評価、取得に加えて、組織におけるデータ品質の向上にも役立つものでなければなりません。データカタログは、データの競合を表示し、不完全で信頼性の低いデータセットにフラグを立てる必要があります。また、自動化された品質管理とは別に、ユーザー自身がデータセットを評価し、その品質についてコメントすることのできるコミュニティベースの品質管理機能も取り入れます。
手動でのデータキュレーション
自動化されたメタデータの照合とデータのタグ付けに加え、手動でデータを強化できるようにする必要があります。信頼性が低いと思われるデータセットについては、カタログから削除できるようにすることに加え、データセットにキーワードやタグを追加する、機密データにフラグを立てる、メタデータを追加する、データアセットの活用方法のヒントを共有する、などを検討します。
クラウドソーシング機能
データカタログは、データアセットのコミュニティベースのキュレーションを強化する機能を備えており、ユーザー自身がメタデータを追加したり、データ品質を評価したり、レビューやヒントを追加したりできるものである必要があります。データアセットのキュレーションにおいては、どんなユーザーでも簡単に関与できることが不可欠です。
データカタログを今すぐ活用しませんか?
Alteryx Connectは、あらゆるデータのカタログ化の要件に対応する強力なツールであり、データおよびビジネスアセットの容易な検出と最大活用を可能にします。また、データを全社的にまとめて管理し、強化するのにも役立ちます。Alteryx Connectの活用により、信頼性の高いデータカタログをすばやく作成することが可能となります。データ管理ポリシーと計画への重要な一歩を踏み出すために、Alteryx Connectのデータシートをぜひご覧ください。
次の用語
ユーザー定義関数(UDF)関連リソース
お客様事例
Protected: Saving Over 75 Hours Day with Automated Forecasting
- データ準備と分析
- データサイエンスと機械学習
- プロセスの自動化
お客様事例
Protected: Nippon Caterpillar Japan Streamlines Analysis Operations
- データ準備と分析
- マーケティング
- アジア太平洋地域