[アーティクル]
06/15/2011

データプロファイルタスク

データプロファイルタスクでは、データソースについて詳細に理解し、解決する必要があるデータの問題を特定するために役立つさまざまなプロファイルが計算されます。

Integration Services パッケージ内のデータプロファイルタスクを使用すると、SQL Server に格納されているデータをプロファイルし、発生する可能性のあるデータ品質の問題を特定することができます。

注
このトピックでは、データプロファイルタスクの機能と要件についてのみ説明します。データプロファイルタスクの使用方法のチュートリアルについては、「データプロファイルタスクと Data Profile Viewer を使用したデータのプロファイル」を参照してください。

重要
データプロファイルタスクは、SQL Server 2000 以降のバージョンに格納されているデータでのみ機能します。このタスクは、サードパーティまたはファイルベースのデータソースでは機能しません。さらに、データプロファイルタスクが含まれているパッケージを実行するには、tempdb データベースに対する Read/Write 権限 (CREATE TABLE 権限を含む) があるアカウントを使用する必要があります。

データプロファイルタスクは、SQL Server 2000 以降のバージョンに格納されているデータでのみ機能します。このタスクは、サードパーティまたはファイルベースのデータソースでは機能しません。

さらに、データプロファイルタスクが含まれているパッケージを実行するには、tempdb データベースに対する Read/Write 権限 (CREATE TABLE 権限を含む) があるアカウントを使用する必要があります。

このタスクを使用してデータプロファイルを計算し、ファイルに保存したら、スタンドアロンの Data Profile Viewer を使用してプロファイル出力を確認できるようになります。Data Profile Viewer では、プロファイル出力で特定されたデータ品質の問題を理解するために役立つドリルダウン機能もサポートされています。詳細については、「Data Profile Viewer でのプロファイル出力の表示」を参照してください。

重要
出力ファイルには、データベースに関する機密データやデータベースに格納されているデータが含まれる場合があります。このファイルの安全性を高める方法の推奨事項については、「パッケージで使用するファイルへのアクセスの制御」を参照してください。 Data Profile Viewer に用意されているドリルダウン機能は、元のデータソースにライブクエリを送信します。

出力ファイルには、データベースに関する機密データやデータベースに格納されているデータが含まれる場合があります。このファイルの安全性を高める方法の推奨事項については、「パッケージで使用するファイルへのアクセスの制御」を参照してください。

Data Profile Viewer に用意されているドリルダウン機能は、元のデータソースにライブクエリを送信します。

使用可能なプロファイルについて

データプロファイルタスクでは、8 つの異なるデータプロファイルを計算できます。これらのプロファイルのうち 5 つは個々の列を分析し、残りの 3 つは複数の列または列とテーブル間のリレーションシップを分析します。

次の 5 つのプロファイルで、個々の列を分析できます。

個々の列を分析するプロファイル	説明
列長分布プロファイル	選択された列に含まれる文字列値の長さごとに、その長さと、テーブル内におけるその長さの行の比率を報告します。このプロファイルを使用すると、無効な値などのデータの問題を特定できます。たとえば、2 文字の米国州コードの列をプロファイルし、3 文字以上の値を検出できます。
列の NULL 比プロファイル	選択した列の NULL 値の比率を報告します。このプロファイルを使用すると、列の NULL 値の比率が予想外に高いなどのデータの問題を特定できます。たとえば、郵便番号列をプロファイルすると、許容範囲を超える欠落した郵便番号の比率を検出できます。
列パターンプロファイル	文字列型の列に含まれる指定された比率の値に対応する一連の正規表現を報告します。このプロファイルを使用すると、無効な文字列などのデータの問題を特定できます。また、このプロファイルには、新しい値を検証するために将来使用できる正規表現も提示されます。たとえば、米国郵便番号列のパターンプロファイルでは、\d{5}-\d{4}、\d{5}、および \d{9} という正規表現が生成されます。その他の正規表現が示された場合、データに無効な値または形式が正しくない値が含まれている可能性があります。
列統計プロファイル	数値型列の最小値、最大値、平均値、標準偏差や、datetime 列の最小値、最大値などの統計を報告します。このプロファイルを使用すると、無効な日付などのデータの問題を特定できます。たとえば、履歴の日付の列をプロファイルし、将来の日付の最大値を検出できます。
列の値分布プロファイル	選択された列に含まれる値ごとに、その値と、テーブル内におけるその値の行の比率を報告します。また、テーブル内の指定された比率を超えている行の値も報告できます。このプロファイルを使用すると、列に含まれる個別の値の数が正しくないなどのデータの問題を特定できます。たとえば、米国の州を想定している列をプロファイルし、50 個を超える個別の値を検出できます。

次の 3 つのプロファイルで、複数の列または列とテーブル間のリレーションシップを分析できます。

複数の列を分析するプロファイル	説明
候補キープロファイル	列または列のセットが、選択したテーブルのキーまたは近似キーであるかどうかを報告します。このプロファイルを使用すると、キーとなる可能性がある列の重複値などのデータの問題を特定できます。
機能依存プロファイル	ある列 (依存列) の値が別の列または列のセット (決定列) の値にどの程度依存しているかを報告します。このプロファイルを使用すると、無効な値などのデータの問題を特定できます。たとえば、米国郵便番号を含む列と米国の州を含む列の間の依存関係をプロファイルできます。郵便番号によって州が一意に決定されますが、このプロファイルでは、この依存関係の違反を検出できます。
値包含プロファイル	2 つの列間または列のセット間の値の重複を計算します。このプロファイルでは、列または列のセットが、選択したテーブル間の外部キーとして適しているかどうかを判断できます。このプロファイルを使用すると、無効な値などのデータの問題を特定できます。たとえば、Sales テーブルの ProductID 列をプロファイルし、この列に Products テーブルの ProductID 列には存在しない値が含まれていることを検出できます。

候補キープロファイル

列または列のセットが、選択したテーブルのキーまたは近似キーであるかどうかを報告します。

このプロファイルを使用すると、キーとなる可能性がある列の重複値などのデータの問題を特定できます。

機能依存プロファイル

ある列 (依存列) の値が別の列または列のセット (決定列) の値にどの程度依存しているかを報告します。

このプロファイルを使用すると、無効な値などのデータの問題を特定できます。たとえば、米国郵便番号を含む列と米国の州を含む列の間の依存関係をプロファイルできます。郵便番号によって州が一意に決定されますが、このプロファイルでは、この依存関係の違反を検出できます。

値包含プロファイル

2 つの列間または列のセット間の値の重複を計算します。このプロファイルでは、列または列のセットが、選択したテーブル間の外部キーとして適しているかどうかを判断できます。

このプロファイルを使用すると、無効な値などのデータの問題を特定できます。たとえば、Sales テーブルの ProductID 列をプロファイルし、この列に Products テーブルの ProductID 列には存在しない値が含まれていることを検出できます。

有効なプロファイルの前提条件

空ではないテーブルおよび列を選択しない限り、プロファイルは無効です。また、列にプロファイルで有効なデータ型が含まれていない場合も、プロファイルは無効です。

有効なデータ型

使用可能なプロファイルの中には、特定のデータ型に対してのみ意味を持つものもあります。たとえば、数値または datetime 値を含む列に対して列パターンプロファイルを計算しても意味がありません。したがって、このようなプロファイルは無効です。

プロファイル	有効なデータ型*
ColumnStatisticsProfile	数値型または datetime 型の列 (datetime 列の mean および stddev は除く)
ColumnNullRatioProfile	すべての列**
ColumnValueDistributionProfile	integer 型、char 型、および datetime 型の列
ColumnLengthDistributionProfile	char 型の列
ColumnPatternProfile	char 型の列
CandidateKeyProfile	integer 型、char 型、および datetime 型の列
FunctionalDependencyProfile	integer 型、char 型、および datetime 型の列
InclusionProfile	integer 型、char 型、および datetime 型の列

* 上記の有効なデータ型の表に示す integer、char、datetime、および numeric 型には、次の特定のデータ型が含まれます。

整数型には bit、tinyint、smallint、int、および bigint が含まれます。

文字型には char、nchar、varchar、および nvarchar は含まれますが、varchar(max) および nvarchar(max) は含まれません。

日付/時刻型には datetime、smalldatetime、および timestamp が含まれます。

数値型には integer 型 (bit は除く)、money、smallmoney、decimal、float、real、および numeric が含まれます。

** image、text、xml、udt、および variant 型は、列の NULL 比プロファイル以外のプロファイルではサポートされません。

有効なテーブルと列

テーブルまたは列が空の場合、データプロファイルタスクで行われる処理は次のようになります。

選択したテーブルまたはビューが空の場合、データプロファイルタスクではプロファイルが計算されません。
選択した列のすべての値が NULL の場合、データプロファイルタスクでは列の NULL 比プロファイルのみが計算されます。列長分布プロファイル、列パターンプロファイル、列統計プロファイル、または列の値分布プロファイルは計算されません。

データプロファイルタスクの機能

データプロファイルタスクには、次のような便利な構成オプションがあります。

ワイルドカード列 プロファイル要求を構成する際、このタスクでは列名の代わりにワイルドカード (*) を使用できます。これによって構成が容易になり、十分に理解していないデータの特性を検出しやすくなります。タスクの実行時に、適切なデータ型の列がすべてプロファイルされます。
クイック プロファイル [クイックプロファイル] を選択すると、タスクをすばやく構成できます。[クイックプロファイル] では、すべての既定のプロファイルおよび既定の設定を使用してテーブルまたはビューがプロファイルされます。

データプロファイルタスクで使用できるカスタムログメッセージ

次の表は、データプロファイルタスクのカスタムログエントリの一覧です。詳細については、「パッケージへのログ機能の実装」および「ログ記録用のカスタムメッセージ」を参照してください。

ログエントリ	説明
DataProfilingTaskTrace	タスクの状態に関する説明情報を提供します。メッセージには次の情報が含まれます。処理要求の開始クエリの開始クエリの終了計算要求の完了

DataProfilingTaskTrace

タスクの状態に関する説明情報を提供します。メッセージには次の情報が含まれます。

処理要求の開始
クエリの開始
クエリの終了
計算要求の完了

出力とそのスキーマについて

データプロファイルタスクでは、選択したプロファイルは DataProfile.xsd スキーマに従って構造化された XML に出力されます。この XML 出力をファイルに保存するかパッケージ変数に保存するかを指定できます。このスキーマは、https://schemas.microsoft.com/sqlserver/2008/DataDebugger/ からオンラインで表示できます。この Web ページから、スキーマのローカルコピーを保存できます。その後、スキーマのローカルコピーを Microsoft Visual Studio やその他のスキーマエディター、XML エディター、またはメモ帳などのテキストエディターで表示できます。

データ品質情報に関するこのスキーマは、次の場合に役立ちます。

組織内および組織間でデータ品質情報を交換する場合
データ品質情報を処理するカスタムツールを作成する場合

対象名前空間は、https://schemas.microsoft.com/sqlserver/2008/DataDebugger/ のスキーマで識別されます。

パッケージの条件ワークフローでの出力の使用

データプロファイルコンポーネントには、データプロファイルタスクの出力に基づいて Integration Services パッケージのワークフローに条件ロジックを実装する機能は組み込まれていません。ただし、スクリプトタスクで最小限のプログラミングを行って、このロジックを簡単に追加することができます。このコードでは、XML 出力に対して XPath クエリを実行し、その結果をパッケージ変数に保存します。スクリプトタスクを後続のタスクに接続する優先順位制約では、ワークフローを決定する式を使用できます。たとえば、スクリプトタスクによって、列の NULL 値の比率が特定のしきい値を超えていることを検出できます。この条件が満たされた場合は、パッケージを中断し、問題を解決してから続行することができます。

データプロファイルタスクの構成

データプロファイルタスクを構成するには、[データプロファイルタスクエディター] を使用します。このエディターには、次の 2 つのページがあります。

[全般] ページ
[全般] ページでは、出力ファイルまたは変数を指定します。また、[クイックプロファイル] を選択し、既定の設定を使用してプロファイルを計算するようにタスクをすばやく構成することもできます。詳細については、「[単一テーブルクイックプロファイルフォーム] (データプロファイルタスク)」を参照してください。
[プロファイル要求] ページ
[プロファイル要求] ページでは、データソースを指定して、計算するデータプロファイルを選択および構成します。構成できる各種プロファイルの詳細については、次のトピックを参照してください。

最新の Integration Services の入手

マイクロソフトが提供する最新のダウンロード、アーティクル、サンプル、ビデオ、およびコミュニティで選択されたソリューションについては、MSDN または TechNet の Integration Services のページを参照してください。

これらの更新が自動で通知されるようにするには、ページの RSS フィードを定期受信します。

データ プロファイル タスク