Microsoft Purview 統合カタログのデータ品質の概要
[アーティクル] 2025/03/24
1 人の共同作成者
フィードバック
この記事の内容
データ品質のライフ サイクル
サポートされているデータ品質リージョン
サポートされているマルチクラウド データ ソース
データ品質機能
Microsoft Purview 統合カタログのデータ品質により、ガバナンス ドメインとデータ所有者は、データ エコシステムの品質を評価して監視できるようになり、目標とする改善アクションが容易になります。 今日の AI 主導の環境では、データの信頼性が AI 主導の分析情報と推奨事項の精度に直接影響します。 信頼できるデータがないと、AI システムに対する信頼が損なわれ、導入が妨げられるリスクがあります。
データ品質の低下や互換性のないデータ構造は、ビジネス プロセスと意思決定機能を妨げる可能性があります。 データ品質は、既定の (OOB) ルールや AI によって生成されたルールなど、コードなし/低コードルールを使用してデータ品質を評価する機能をユーザーに提供することで、これらの課題に対処します。 これらのルールは列レベルで適用され、集計され、データ資産、データ製品、ガバナンス ドメインのレベルでスコアが提供され、各ドメイン内のデータ品質がエンドツーエンドで可視化されます。
データ品質には、AI を利用したデータ プロファイリング機能も組み込まれており、プロファイリングの列を推奨しながら、人間の介入によってこれらの推奨事項を改善できます。 この反復プロセスは、データ プロファイルの精度を向上させるだけでなく、基になる AI モデルの継続的な改善にも貢献します。
データ品質を適用することで、組織はデータ資産の品質を効果的に測定、監視、強化し、AI 主導の分析情報の信頼性を強化し、AI ベースの意思決定プロセスに対する信頼を高めることができます。
すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます 。
Microsoft Purview データ マップでデータ ソースを登録 してスキャン します。
データ製品にデータ資産を追加する
データ品質評価のためにソースを準備するために、データ ソース接続を設定します 。
データ ソース内の資産のデータ プロファイルを構成して実行します。
プロファイリングが完了したら、データ資産の各列の結果を参照して、データの現在の構造と状態を把握します。
プロファイリング結果に基づいてデータ品質ルールを設定 し、データ資産に適用します。
データ製品でデータ品質スキャンを構成して実行 し、データ製品でサポートされているすべての資産の品質を評価します。
スキャン結果を確認 して、データ製品の現在のデータ品質を評価します。
データ資産のライフ サイクルで手順 5 から 8 を定期的に繰り返して、品質を維持します。
データ品質を継続的に監視する
データ品質アクションを確認 して、問題を特定して解決します。
品質の問題を警告するようにデータ品質通知を設定 します。
現在、データ品質は 次のリージョンでサポートされています 。
サポートされているデータ ソース の一覧を表示します。
重要
Parquet ファイルのデータ品質は、次をサポートするように設計されています。
Parquet パーツ ファイルを含むディレクトリ。 例: ./Sales/{Parquet Part Files} 。 完全修飾名は、 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
に従う必要があります。 ディレクトリ/サブディレクトリ構造に {n} パターンがないことを確認します。{SparkPartitions} につながる直接の FQN である必要があります。
年と月でパーティション分割された売上データなど、データセット内の列でパーティション分割されたパーティション分割された Parquet ファイルを含むディレクトリ。 例: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
これらの重要なシナリオはどちらもサポートされています。これは、一貫性のある Parquet データセット スキーマを示します。
制約: Parquet Files を使用したディレクトリの N 個の任意の階層をサポートするようには設計されていないか、サポートされません。
(1) または (2) 構築構造でデータを提示することをお勧めします。
現在、Microsoft Purview では、 マネージド ID を 認証オプションとして使用するデータ品質スキャンのみを実行できます。 データ品質サービスは 、Apache Spark 3.4 と Delta Lake 2.4 で実行されます。
データ ソース接続の構成
Purview DQ SaaS アプリケーションが品質スキャンとプロファイリングのためにデータへの読み取りアクセスを許可するように接続を構成します。
MS Purview では、認証オプションとしてマネージド ID が使用されます
データ プロファイリング
AI 対応データ プロファイル エクスペリエンス
業界標準の統計スナップショット (分布、最小値、最大値、標準偏差、一意性、完全性、重複、...
列レベルのプロファイリング メジャーをドリルダウンします。
データ品質ルール
6 つの業界標準データ品質ディメンション (完全性、一貫性、適合性、正確性、鮮度、一意性) を測定するための標準外ルール
カスタム ルール作成機能には、すぐに使用する関数と式の値の数が含まれます。
AI 統合エクスペリエンスを使用して自動生成されたルール
データ品質スキャン
データ品質スキャンの列にルールを選択して割り当てます。
エンティティ/テーブル レベルでデータの鮮度ルールを適用して、データの鮮度 SLA を測定します。
データ品質スキャン ジョブの期間のスケジュール設定 (時間単位、日単位、週単位、月単位など)
データ品質ジョブの監視
データ品質ジョブの状態の監視 (アクティブ、完了、失敗など) を有効にする
DQ スキャン履歴の参照を有効にします。
データ品質スコアリング
ルール レベルのデータ品質スコア (列に適用されたルールの品質スコアとは)
データ資産、データ製品、およびガバナンス ドメインのデータ品質スコア (1 つのガバナンス ドメインには多くのデータ製品を含めることができます。1 つのデータ製品には多くのデータ資産を含め、1 つのデータ資産には多くのデータ列を含めることができます)
重要なデータ要素 (CDEs) のデータ品質
これは、データ品質の主要な機能の 1 つであり、データ品質ルールを CDE の論理コンストラクトに適用し、それを構成する物理データ要素に伝達する機能です。 CDEs レベルでデータ品質規則を定義することで、組織は、品質を維持するために CDEs が満たす必要がある特定の基準としきい値を確立できます
データ品質アラート
データ品質のしきい値が予想を超えた場合にデータ所有者、データ スチュワードに通知するようにアラートを構成します。
データ品質の問題に関する通知を送信するように電子メール エイリアスまたは配布グループを構成します。
データ品質アクション
DQ のアクション センターでは、DQ の異常状態に対処するためのアクションが含まれます。これには、DQ スチュワードの診断クエリを特定のデータに対してゼロにして、異常状態ごとに修正します。
データ品質マネージド仮想ネットワーク
プライベート エンドポイントと Azure データ ソースに接続するデータ品質によって管理される仮想ネットワーク。
データ品質メタデータとプロファイルの概要は、Microsoft マネージド ストレージ アカウントに格納されます。 これらはデータ ソースと同じリージョンに格納されるため、データ所在地はそのまま残ります。 すべてのデータが暗号化されます。 Microsoft では、すべての暗号化を処理し、すべての Microsoft Purview サービスで一般的なメタデータに Microsoft Purview Resource Provider リージョン ユーザー データ ストアを利用しています。 CMK (カスタマー マネージド暗号化キー) を使用してデータ暗号化をより詳細に制御する場合は、別のプロセスがあります。 ( Microsoft Purview カスタマー キー の詳細については、こちらをご覧ください)。
データ品質の使用状況は、データ ガバナンス処理ユニット (DGPU) 従量課金制メーターに基づいて課金されます。 DGPU は、60 分間消費されるサービス パフォーマンスの量であり、基本、標準、高度の 3 つの異なるパフォーマンス オプションで利用できます。 基本 SKU オプションは、より高いオプションが選択されるまで、既定のパフォーマンス オプションとして設定されます。 たとえば、顧客が 1 日に 100 個のデータ品質ルールを実行し、各実行で Basic SKU で 0.02 DGPU が生成される場合、その日の DGPU の合計は 2 つの DGPU になり、顧客のコストは 30 ドルになります。 基本 SKU の価格は、処理単位あたり 15 ドル、Standard SKU の価格は 1 つの処理単位あたり 60 ドル、事前 SKU の価格は処理単位あたり 240 ドルです。
Microsoft Purview 統合カタログ価格 の詳細については、こちらを参照してください。
標準 SKU でテストされる、さまざまなデータ ボリュームの基本ルールから複雑なルールに対して使用される処理単位の例を次に示します。
テーブルを展開する
ルールの複雑さ
10,000 レコード
-
100,000 レコード
-
1,000,000 レコード
-
10,000,000 レコード
-
100,000,000 レコード
-
1,000,000,000 レコード
-
期間
PU
期間
PU
期間
PU
期間
PU
期間
PU
期間
PU
シンプル
経過時間: 1m 1s
0.02
経過時間: 1m 1s
0.02
経過時間: 1m 1s
0.02
経過時間: 1m 16s
0.02
経過時間: 1m 16s
0.02
経過時間: 1m 31s
0.03
中
経過時間: 1m 1s
0.02
経過時間: 1m 1s
0.02
経過時間: 1m 1s
0.02
経過時間: 1m 16s
0.02
経過時間: 1m 31s
0.03
経過時間: 2m 1s
0.03
高
経過時間: 1m 1s
0.02
経過時間: 1m 1s
0.02
経過時間: 1m 31s
0.03
経過時間: 1m 32s
0.03
経過時間: 2m 1s
0.03
経過時間: 2m 51s
0.04
vNet は、Google Big Query、Snowflake、Azure Databricks Unity Catalog ではサポートされていません。
すべてのデータ品質機能を使用するには、統合カタログでユーザーにデータ品質スチュワードのアクセス許可を割り当てます 。
データ品質評価のためにソースを準備するために、データ ソース接続を設定します 。
データ ソース内の資産のデータ プロファイルを構成して実行します。