複合ドメインの作成
適用対象: SQL Server
このトピックでは、Data Quality Services (DQS) でナレッジ ベースの複合ドメインを作成する方法について説明します。 複合ドメインは、1 つのデータ フィールドに適用される 1 つ以上の単一ドメインで構成されます。 複合ドメインについて詳しくは、「複合ドメインの管理」をご覧ください。
新しい複合ドメインを作成するには、次の 2 つの方法があります。 1 つ目は、ナレッジ検出アクティビティのマップ手順中に、データ サンプルを分析する過程でナレッジを新しいまたは既存のナレッジ ベースに追加するときに行います。 2 つ目は、ドメイン管理アクティビティの実行中に、既存のドメインを変更するのではなく、新しいドメインを作成するときに行います。 複合ドメインを作成するには、複合ドメインに追加する単一ドメインを少なくとも 2 つ作成しておく必要があります。 新しい複合ドメインの作成時には、既存の複合ドメインに追加されていない既に作成済みの単一ドメインのみを使用できます。 単一ドメインを複数の複合ドメインに追加したり、複合ドメインを別の複合ドメインに追加したりすることはできません。
複合ドメインを作成したら、複合ドメインのプロパティの変更、ドメインへの参照データ サービスのアタッチ、ドメイン間のルールの作成、または値のリレーションの作成を行うことができます。 そのためには、 [ドメイン管理] ページの [ドメイン リスト] で複合ドメインを選択し、適切なタブを選択します。
始める前に
前提条件
複合ドメインを作成するには、ナレッジ ベースを作成して開いておく必要があります。また、複合ドメインに追加する単一ドメインを少なくとも 2 つ作成しておく必要があります。
セキュリティ
アクセス許可
複合ドメインを作成するには、DQS_MAIN データベースの dqs_kb_editor ロールまたは dqs_administrator ロールが必要です。
ナレッジ検出アクティビティでの複合ドメインの作成
Data Quality クライアントを開始します。 これを行う方法の詳細については、「Data Quality Client アプリケーションの実行」を参照してください。
Data Quality Client のホーム ページで、 [ナレッジ ベースを開く] をクリックし、ナレッジ ベースを選択するか、 [新しいナレッジ ベース] をクリックし、新しいナレッジ ベースのプロパティを入力します。
アクティビティとして [ナレッジ検出] を選択した後に、 [作成] をクリックして新しいナレッジ ベースを作成するか、 [開く] をクリックして既存のナレッジ ベースを開きます。
[マップ] ページで、データ ソースへの接続を指定します。 詳細については、「 Perform Knowledge Discovery」をご参照ください。
"マッピング" テーブルで、空の行の [ソース列] 列のドロップダウン リストからソース列を選択します。 ソース列に、既存の 2 つの単一ドメインで構成される複合ドメインが含まれていることを確認します。 対応する単一ドメインが存在しない場合は、 [ドメインの作成] アイコンをクリックします。
"マッピング" テーブルで、空の行の [ソース列] 列のドロップダウン リストからソース列を選択します。 ソース列に、各部分が既存の 2 つの単一ドメインで構成される複合ドメインが含まれていることを確認します。 対応する単一ドメインが存在しない場合は、 [ドメインの作成] アイコンをクリックして作成します。 詳細については、「 ドメインの作成」を参照してください。
[複合ドメインの作成] アイコンをクリックします。
ドメイン管理アクティビティでの複合ドメインの作成
Data Quality Services クライアントのホーム ページで、 [ナレッジ ベースを開く] をクリックし、ナレッジ ベースを選択するか、 [新しいナレッジ ベース] をクリックし、新しいナレッジ ベースのプロパティを入力します。
アクティビティとして [ドメイン管理] を選択した後に、 [作成] をクリックして新しいナレッジ ベースを作成するか、 [開く] をクリックして既存のナレッジ ベースを開きます。
複合ドメインに必要な 2 つ以上の単一ドメインが存在することを確認します。 存在しない場合は、 [ドメインの作成] アイコンをクリックして作成します。 詳細については、「 ドメインの作成」を参照してください。
[ドメイン管理] ページで、ドメイン リストの上にある [複合ドメインの作成] アイコンをクリックします。
ナレッジ ベースに一意の名前と 256 文字までの説明を入力します。
[ドメイン リスト]で、複合ドメインの一部となるドメインを選択し、右矢印をクリックして "複合ドメイン内のドメイン" テーブルに移動します。
OK をクリックします。
複合ドメインのプロパティの設定
[複合ドメインの作成] ダイアログ ボックスで、ナレッジ ベースに一意の名前と 256 文字までの説明を入力します。
[ドメイン リスト]で、複合ドメインの一部となるドメインを選択し、右矢印をクリックして "複合ドメイン内のドメイン" テーブルに移動します。 これは、作成する複合ドメインに追加できる単一ドメインの一覧です。 既存の複合ドメインに追加されていない既に作成済みの単一ドメインのみを使用できます。 単一ドメインをナレッジ ベースの複数の複合ドメインに追加したり、複合ドメインを別の複合ドメインに追加したりすることはできません。
詳細設定をクリックします。
[解析方法]で、次のいずれかを選択します。
[参照データ]: 参照データ サービス (RDS) によるデータの書式設定の方法に従ってフィールドの値を解析します。 Data Quality Services は複合ドメインの値を RDS に送信し、RDS は複合ドメイン内のドメインに従って修正および解析されたデータを返します。
[順番]: 複合ドメイン内のドメインの順序に従ってフィールドの値を解析します。 最初の値は最初のドメインに、2 番目の値は 2 番目のドメインに含まれます。
[区切り記号]: [区切り記号] が選択されているときに表示されるオプション ボタンから選択された区切り記号に基づいてフィールドの値を解析します。 [タブ]、 [セミコロン]、 [コンマ]、 [スペース]、または [その他]を選択できます。 [その他]の場合は、区切り記号として使用する値を入力します。
解析方法として [区切り記号] を選択した場合は、 [ナレッジ ベース解析を使用します]を選択することもできます。 詳細については、「 Knowledge-Based Parsing」をご参照ください。
[完了] をクリックし、「 ドメイン管理アクティビティの終了」の説明に従ってドメイン管理アクティビティを完了します。
補足情報: 複合ドメインの作成後
複合ドメインを作成した後、ドメインで他のドメイン管理タスクを実行したり、ナレッジ検出を実行してナレッジをドメインに追加したり、照合ポリシーをドメインに追加することができます。 詳しくは、「ナレッジ検出の実行」、「ドメインの管理」、または「照合ポリシーの作成」をご覧ください。
Knowledge-Based Parsing
Data Quality Services では、区切り記号または順序だけでなく、ナレッジに基づいてデータを解析することができます。 ナレッジ ベースの解析は、参照データ サービスを使用せずに複合ソース データを複合ドメインにマップする場合に使用します。 ナレッジ ベースの解析を使用すると、データ ソースのデータを関連する単一ドメインに解析できます。 ナレッジ ベースの解析では、まず、ナレッジを使用して複合データを単一ドメインに解析する処理が試行されます。 可能な場合は、文字列の一部が 1 つ以上のドメインに属すると見なされ、文字列がそのさまざまなドメインに解析されます。 たとえば、氏名複合ドメインによって表される氏名フィールドに複合値 "John B. Doe" があるとします。 DQS は "John" を "名" ドメインに、"Doe" を "姓" ドメインにとして識別した場合、DQS はドメイン ナレッジに基づいて、"B." を "ミドル ネーム" ドメインに追加します。
ナレッジ ベースの解析は、区切り記号ベースの解析も選択している場合にのみ使用できます。 ナレッジ ベースの解析は区切り記号の解析に代わるものではなく、その解析を強化するものです。 解析を行うためのナレッジが存在しない場合にのみ、区切り記号を使用して解析が行われます。 場合によっては、ナレッジ ベースの解析によって一部の解析が決定されてから、区切り記号ベースの解析によってその他の解析が決定されます。
ナレッジ ベースの解析は、複合ドメインが文字列ドメインで構成されている場合、または複合ドメインが異なる型のドメイン (int、date、time など) を組み合わせて構成されている場合に使用できます。 データ ソースが異なる型のデータで構成されている場合、解析はまず文字列以外のデータ型に対して実行され、次に残りのデータに対して、前述のとおりドメイン ナレッジに基づいて実行されます。
ナレッジ ベースの解析を使用する場合、複合ドメイン内のドメインよりもソース データ内の値の方が少ないときは、不足しているドメインに null が格納されます。 複合ドメイン内のドメインよりもソース データ内の値の方が多いときは、余分なデータがいずれかの列に追加されます。 複数のドメインに同じ値が含まれる場合、データ ソースは最初に一致したドメインに解析されます。