Data Catalog
はじめに
ビジネスにおいてデータの重要性は従来より認識されていましたが、機械学習、深層学習、ビッグデータ活用といったデータを中心とした技術が成長している今日ではさらに重要度が増しています。しかし、データ資産を企業全体に対して把握することは困難であったため、必要なデータがどこにあるか分からない、もしくはそもそも存在しているかどうかが分からない、といったことが多かったかと思います。
Azure Data Catalogは構造化・非構造化、オンプレミス・クラウド問わずデータソースを一元管理できるため、必要なデータの有無や場所をすばやく把握することができ、データ資産からの価値創出に役立てることができます。
Azure Data Catalogでできること
Azure Data Catalogでは、以下の機能を活用してデータ資産の管理及びデータ資産からの価値創出をサポートします。
データソースの登録
メタデータをデータソースから抽出して、Azure Data Catalogに登録します。メタデータに加えて、データのサンプルを抽出して登録することも可能です。
SQL Data Warehouseからの抽出例:
データソースの登録は、登録ツール、API、手動にて行うことができます。サポートされているデータソースと登録方法については、以下のリンクを参照してください。
Azure Data Catalog でサポートされるデータ ソース
データソースの検出
検索とフィルタ機能により、Azure Data Catalogに登録されているデータソースを検出することができます。
検索では、通常のキーワード検索に加えて検索構文による検索も可能です。例えば、「name」プロパティに「CRMOL」というワード、「tags」プロパティに「Crossover」というワードが含まれているデータソースを検索する場合は、
name:CRMOL AND tags:Crossover
という検索構文を使用できます。
検索構文による検索例:
データソースの注釈付け
データソースを分かりやすくするために、データソースから抽出されたメタデータを補完する説明用のメタデータ(説明やタグ)を追加することができます。
データソースの文書化
データの用途や業務シナリオといった、よりユーザーに役立つ情報を管理する方法として、ドキュメント作成のためのリッチテキストエディタを提供しています。このエディタでは他のドキュメントへのリンクも追加できるため、ニーズに応じた粒度でのドキュメント作成が可能です。
データの参照
Azure Data Catalogはデータソースへのサンプルデータを保持してるため、データソースにアクセスせずにサンプルデータを参照することができます。クライアントツールを用いて、データ資産への接続及びデータの参照も行うことができます。サポートされているクライアントツールは以下になります。
- Excel (Excel 2010以降)
- Power Query (Excel 2016、Power Query for Excel アドインがインストールされている Excel 2010 または Excel 2013)
- Power BI Desktop
- SQL Server Data Tools (SQL Server ツールがインストールされている Visual Studio 2013 Update 4 以降)
- レポートマネージャー (SQL Server Reporting Services のブラウザーの要件を参照してください)
また、Azure Data Catalogではデータソースに対する接続情報もメタデータとして管理できるため、こちらを使用してデータ資産に接続することも可能です。
サンプルデータの参照とクライアントツールの呼び出し例:
データソースのプロファイリング
データをより理解するためには、データそのものに加えてデータの統計や情報も助けになります。Azure Data Catalogはデータソースのメタデータに加えて、データの統計や定義といったプロファイル情報も抽出することができます。
例えばデータソースがデータベース表の場合、以下のプロファイル情報が抽出されます。
- 行数
- 表のサイズ
- 最後に更新された日付
- 列のデータ型
- 個別の値の数
- NULL 値を含んだ行の数
- 列の値の最小、最大、平均、標準偏差
データのプロファイル例:
データ資産の所有権の管理
Azure Data Catalogで管理しているデータ資産の所有権を指定し、必要なユーザーのみがデータ資産にアクセスできるように制御することができます。