Azure Data Factory と Microsoft Azure Purview を接続する方法

このドキュメントでは、データ系列を追跡し、データ ソースを取り込むために、Azure Data Factory アカウントを Microsoft Purview アカウントに接続するために必要な手順について説明します。 また、このドキュメントでは、アクティビティ カバレッジ スコープとサポートされている系列パターンの詳細についても説明します。

Azure Data Factoryを Microsoft Purview に接続すると、サポートされているAzure Data Factory アクティビティが実行されるたびに、アクティビティのソース データ、出力データ、アクティビティに関するメタデータがMicrosoft Purview データ マップに自動的に取り込まれます。

データ ソースが既にスキャンされていて、データ マップに存在する場合、インジェスト プロセスによって、Azure Data Factoryからの系列情報がその既存のソースに追加されます。 ソースまたは出力がデータ マップに存在せず、Azure Data Factory系列でサポートされている場合、Microsoft Purview はルート コレクションの下のデータ マップにAzure Data Factoryからメタデータを自動的に追加します。

これは、ユーザーがAzure Data Factoryを使用して情報を移動および変換する際に、データ資産を監視するための優れた方法です。

既存の Data Factory 接続を表示する

系列情報をプッシュするために、複数の Azure Data Factory を 1 つの Microsoft Azure Purview に接続できます。 現在の制限では、Microsoft Purview の管理センターから一度に最大 10 個の Data Factory アカウントを接続できます。 Microsoft Purview アカウントに接続されている Data Factory アカウントのリストを表示するには、次のことを行います:

  1. 左側のナビゲーション ウィンドウで [管理] を選択します。

  2. [Lineage connections](系列接続) で、 [Data Factory] を選択します。

  3. Data Factory 接続の一覧が表示されます。

    Data Factory 接続の一覧を示すスクリーンショット。

  4. 次の接続の [状態] のさまざまな値に注意してください。

    • 接続中: データ ファクトリは Microsoft Purview アカウントに接続されています。
    • 切断: Data Factory はカタログにアクセスできますが、別のカタログに接続されています。 その結果、データ系列がこのカタログに自動的には報告されません。
    • アクセス不可: 現在のユーザーは Data Factory にアクセスできないため、接続の状態は不明です。

注意

Data Factory の接続を表示するには、次のロールが割り当てられている必要があります。 管理グループからのロールの継承はサポートされていません。 ルート コレクションに対するコレクション管理者ロール。

新しい Data Factory 接続を作成する

注意

Data Factory の接続を追加または削除するには、次のロールが割り当てられている必要があります。 管理グループからのロールの継承はサポートされていません。 ルート コレクションに対するコレクション管理者ロール。

さらに、ユーザーはデータ ファクトリの "所有者" または "共同作成者" である必要があります。

データ ファクトリでは、システム割り当てマネージド ID を有効にしておく必要があります。

既存のデータ ファクトリを Microsoft Purview アカウントに接続するには、次のステップに従います。 Data Factory を ADF から Microsoft Purview アカウントに接続することもできます。

  1. 左側のナビゲーション ウィンドウで [管理] を選択します。

  2. [Lineage connections](系列接続) で、 [Data Factory] を選択します。

  3. [Data Factory connection] (Data Factory 接続) ページで [新規] を選択します。

  4. 一覧から Data Factory アカウントを選択し、 [OK] を選択します。 この一覧を制限するために、サブスクリプション名でフィルター処理することもできます。

    Data Factory が現在の Microsoft Purview アカウントに既に接続されているか、または Data Factory にマネージド ID がない場合は、一部の Data Factory インスタンスが無効になっている可能性があります。

    選択されている Data Factory のいずれかが他の Microsoft Purview アカウントに既に接続されている場合は、警告メッセージが表示されます。 OK を選択すると、他の Microsoft Purview アカウントとの Data Factory 接続は切断されます。 その他の確認は必要ありません。

    Azure Data Factory を切断するという警告を示すスクリーンショット。

注意

一度に最大 10 個のAzure Data Factory アカウントを追加できます。 10 を超えるデータ ファクトリ アカウントを追加する場合は、複数のバッチで追加します。

認証のしくみ

データ ファクトリのマネージド ID は、データ ファクトリから Microsoft Purview への系列のプッシュ操作を認証するために使用されます。 UI 上で Microsoft Purview にデータ ファクトリを接続すると、ロールの割り当てが自動的に追加されます。

データ ファクトリのマネージド ID に、Microsoft Azure Purview ルート コレクションに対するデータ キュレーター ロールを付与します。 詳細については、Microsoft Azure Purview でのアクセスの制御およびコレクションを使用したロールの追加とアクセスの制限を参照してください。

Data Factory 接続を削除する

Data Factory 接続を削除するには、次の操作を行います。

  1. [Data Factory connection] (Data Factory 接続) ページで、1 つ以上の Data Factory 接続の横にある [削除] ボタンを選択します。

  2. ポップアップの [確認] を選択して、選択されている Data Factory 接続を削除します。

    接続を削除する Data Factory を選択する方法を示すスクリーンショット。

Microsoft Purview ガバナンス ポータルでは、Data Factory リンクを監視できます。

サポートされる Azure Data Factory アクティビティ

Microsoft Purview は、次の Azure Data Factory アクティビティからランタイムの系列をキャプチャします:

重要

ソースまたは変換先でサポートされていないデータ ストレージ システムが使用されている場合、Microsoft Purview は系列を削除します。

以降のセクションで説明されているように、Data Factory と Microsoft Purview の間の統合では、Data Factory がサポートするデータ システムのサブセットのみがサポートされています。

Copy アクティビティのサポート

データ ストア サポートされています
Azure Blob Storage はい
Azure Cognitive Search はい
Azure Cosmos DB for NoSQL * はい
Azure Cosmos DB for MongoDB * はい
Azure Data Explorer * はい
Azure Data Lake Storage Gen1 はい
Azure Data Lake Storage Gen2 はい
Azure Database for MariaDB * はい
Azure Database for MySQL * はい
Azure Database for PostgreSQL * はい
Azure Files はい
Azure SQL Database * はい
Azure SQL Managed Instance * はい
Azure Synapse Analytics * はい
Azure 専用 SQL プール (以前の SQL DW) * はい
Azure Table Storage はい
Amazon S3 はい
Hive * はい
Oracle * はい
SAP テーブル (SAP ECC または SAP S/4HANA に接続中) はい
SQL Server * はい
Teradata * はい

* Microsoft Purview は現在、系列またはスキャンのためのクエリやストアド プロシージャをサポートしていません。 系列は、テーブルとビューのソースだけに制限されています。

セルフホステッド統合ランタイムを使用する場合は、以下に対する系列のサポートを備えた最小バージョンに注意してください。

  • 任意のユース ケース: バージョン 5.9.7885.3 以降
  • Oracle からのデータのコピー: バージョン 5.10 以降
  • COPY コマンドまたは PolyBase による Azure Synapse Analytics へのデータのコピー: バージョン 5.10 以降

コピー アクティビティの系列に関する制限事項

現在、次のコピー アクティビティの機能を使用する場合、系列はまだサポートされていません。

  • バイナリ形式を使用して Azure Data Lake Storage Gen1 にデータをコピーする。
  • バイナリ、区切りテキスト、Excel、JSON、および XML ファイルの圧縮設定。
  • Azure SQL Database、Azure SQL Managed Instance、Azure Synapse Analytics、SQL Server、および SAP テーブルのソース パーティション オプション。
  • ファイルごとの最大行数設定を使用して、ファイルベースのシンクにデータをコピーする。
  • 列レベルの系列は、現在、リソース セットの ADF コピーではサポートされていません。

データ系列の追加では、次のコネクタのデータ資産スキーマ ([資産] -> [スキーマ] タブに表示) がレポートされます。

  • Azure Blob、Azure Files、ADLS Gen1、ADLS Gen2、Amazon S3 の CSV ファイルと Parquet ファイル
  • Azure Data Explorer、Azure SQL Database、Azure SQL Managed Instance、Azure Synapse Analytics、SQL Server、Teradata

Data Flow サポート

データ ストア サポートされています
Azure Blob Storage はい
Azure Cosmos DB for NoSQL * はい
Azure Data Lake Storage Gen1 はい
Azure Data Lake Storage Gen2 はい
Azure Database for MySQL * はい
Azure Database for PostgreSQL * はい
Azure SQL Database * はい
Azure SQL Managed Instance * はい
Azure Synapse Analytics * はい
Azure 専用 SQL プール (以前の SQL DW) * はい

* Microsoft Purview は現在、系列またはスキャンのためのクエリやストアド プロシージャをサポートしていません。 系列は、テーブルとビューのソースだけに制限されています。

データ フローの系列に関する制限事項

現在、データ フローの系列は、Microsoft Purview のリソース セットと統合されていません。

SSIS パッケージの実行のサポート

サポートされるデータ ストアを参照してください。

セキュリティで保護された Microsoft Purview アカウントにアクセスする

Microsoft Purview アカウントがファイアウォールで保護されている場合、Microsoft Purview プライベート エンドポイントを利用して、セキュリティで保護されている Microsoft Purview アカウントに Data Factory でアクセスする方法を覚えてください。

Data Factory の系列を Microsoft Purview に取り込む

エンドツーエンドのチュートリアルについては、「チュートリアル: Data Factory 系列データを Microsoft Azure Purview にプッシュする」をフォローしてください。

サポートされる系列パターン

Microsoft Azure Purview でサポートされる系列のパターンはいくつかあります。 生成される系列データは、Data Factory アクティビティで使用されるソースとシンクの種類に基づいています。 Data Factory は 80 を超えるソースとシンクをサポートしていますが、Microsoft Azure Purview では、「サポートされる Azure Data Factory アクティビティ」に示されているサブセットのみがサポートされています。

系列情報を送信するように Data Factory を構成するには、「系列の使用を開始する」を参照してください。

系列ビューの情報を検索するための他の方法には、次のようなものがあります。

  • [系列] タブで、図形をマウスでポイントすると、そのアセットに関する追加情報がツールヒントにプレビューされます。
  • ノードまたはエッジを選択すると、それが属するアセットの種類が表示されるか、またはアセットが切り替えられます。
  • [系列] タブの左側には、データセットの列が表示されます。列レベルの系列の詳細については、「データセット列の系列」を参照してください。

1:1 の操作のデータ系列

データ系列をキャプチャするための最も一般的なパターンは、1 つの入力データセットから 1 つの出力データセットに、その間に 1 つのプロセスを使用してデータを移動することです。

このパターンの例には、次のものがあります。

  • 1 つのソース/入力: Customer (SQL テーブル)
  • 1 つのシンク/出力: Customer1.csv (Azure BLOB)
  • 1 つのプロセス: CopyCustomerInfo1#Customer1.csv (Data Factory の Copy アクティビティ)

1:1 の Data Factory のコピー操作の系列を示すスクリーンショット。

1:1 の系列とワイルドカードのサポートを使用したデータ移動

系列をキャプチャするためのもう 1 つの一般的なシナリオは、ワイルドカードを使用して、1 つの入力データセットから 1 つの出力データセットにファイルをコピーすることです。 ワイルドカードにより、コピー アクティビティはファイル名の共通の部分を使用して、コピーする複数のファイルを一致させることができます。 Microsoft Azure Purview は、対応するコピー アクティビティによってコピーされた個々のファイルのファイル レベルの系列をキャプチャします。

このパターンの例には、次のものがあります。

  • ソース/入力: CustomerCall*.csv (ADLS Gen2 パス)
  • シンク/出力: CustomerCall*.csv (Azure BLOB ファイル)
  • 1 つのプロセス: CopyGen2ToBlob#CustomerCall.csv (Data Factory の Copy アクティビティ)

ワイルドカードのサポートを使用した 1:1 のコピー操作の系列を示すスクリーンショット。

n:1 の系列を使用したデータ移動

Data Flow アクティビティを使用してデータ操作 (merge や join など) を実行できます。 複数のソース データセットを使用してターゲット データセットを生成できます。 この例では、Microsoft Azure Purview は、個々の入力ファイルのファイル レベルの系列を Data Flow アクティビティの一部である SQL テーブルにキャプチャします。

このパターンの例には、次のものがあります。

  • 2 つのソース/入力: Customer.csvSales.parquet (ADLS Gen2 パス)
  • 1 つのシンク/出力: Company data (Azure SQL テーブル)
  • 1 つのプロセス: DataFlowBlobsToSQL (Data Factory Data Flow アクティビティ)

n:1 の A D F Data Flow 操作の系列を示すスクリーンショット。

リソース セットの系列

リソース セットは、基になるストレージ内の多数のパーティション ファイルを表す、カタログ内の論理オブジェクトです。 詳細については、「リソース セットについて」を参照してください。 Microsoft Azure Purview は、Azure Data Factory から系列をキャプチャするときに、個々のパーティション ファイルを正規化して 1 つの論理的オブジェクトを作成するためのルールを適用します。

次の例では、Azure BLOB から Azure Data Lake Gen2 リソース セットが生成されます。

  • 1 つのソース/入力: Employee_management.csv (Azure BLOB)
  • 1 つのシンク/出力: Employee_management.csv (Azure Data Lake Gen 2)
  • 1 つのプロセス: CopyBlobToAdlsGen2_RS (Data Factory の Copy アクティビティ)

リソース セットの系列を示すスクリーンショット。

次の手順

チュートリアル: Data Factory 系列データを Microsoft Purview にプッシュする

カタログ系列ユーザー ガイド

系列のための Azure Data Share へのリンク