次の方法で共有


用語ベースのリレーションの作成

このトピックでは、Data Quality Services (DQS) でドメインの用語ベースのリレーションシップを作成する方法について説明します。 用語ベースのリレーションシップ (TBR) を使用すると、ドメイン内の値の一部である用語を修正できます。 これにより、共通部分のスペルを除き、同一の複数の値を同じシノニムと見なすことができます。 たとえば、用語 "Inc" を "組み込み" に変更する用語ベースのリレーションシップを設定できます。 "Inc" という用語は、ドメイン内で発生するたびに変更されます。 "Contoso, Inc" のインスタンスは "Contoso, Incorporated" に変更され、2 つの値は正確なシノニムと見なされます。

用語ベースのリレーションを使用するには、"Inc" や "Incorporated"、"Senior" や "Sr" などの Value/Correct To ペアのリストを作成します。 用語ベースのリレーションシップを使用すると、個々のドメイン値をシノニムとして手動で設定することなく、ドメイン全体で用語を変更できます。 ナレッジ検出で以前にその値が検出されていない場合でも、値を修正することを指定できます。 用語ベースのリレーションシップ変換によって 2 つの値が同一になる場合、DQS はそれらの間にシノニムリレーションシップ (ナレッジ検出)、それらの間の修正リレーションシップ (データ修正)、または完全一致 (照合) を作成します。

用語ベースのリレーション変換とシンボル変換 (特殊文字がスペースまたは null に置き換えられる) は、どちらも分析前の前処理段階で行われます。 複合ドメインの解析が要求された場合、区切り記号の解析にはシンボルが必要であるため、2 つの変換の前に実行されます。 ドメイン ルールやドメイン値の変更など、その他の操作は、変換後に実行されます。 照合の場合、クレンジングを実行するかどうかに関係なく、用語ベースのリレーションシップが照合アクティビティの前にソース データに適用されます。

Term-Based リレーションとドメイン管理

ドメイン管理で用語ベースのリレーションシップを適用すると、DQS はナレッジ検出、クレンジング、または照合プロセスの変更を適用します。ただし、DQS では、用語ベースのリレーションシップに準拠するようにドメイン値自体は変更されません。 つまり、[ドメイン管理] ページの [Term-Based リレーション] タブで用語ベースのリレーションを入力して受け入れた場合、同じページの [ドメイン値] タブで変更は行われません。 これにより、後で TBR を変更できます。

Term-Based 関係とデータクリーニング

ドメインに用語ベースのリレーションシップを適用し、データ クレンジング プロセスを実行すると、DQS はクレンジング中に変更を適用しますが、ナレッジ ベースの用語には変更を適用しません。

  • 用語ベースのリレーションシップによって変更された値がドメイン内にあり、シノニムではない場合は、[結果の管理と表示] ページの [修正済み] タブの [修正済み] 列に表示され、[理由] は用語ベースのリレーションシップに設定されます。

  • 用語ベースのリレーションシップによって変更された値がドメイン内に存在せず、DQS で一致する値が見つかると、その値が修正され、[修正済み] タブまたは [推奨] タブの下に信頼レベルに基づいて表示されます。 一致するものが見つからない場合、値は TBR 修正を使用して [新規] の下に表示されます。 これは、TBR を修正しても値が正しいという意味ではないためです。

  • 用語に基づくリレーションによって変更された値がドメイン内に存在し、値が Error/Invalid であり既存の修正が行われている場合、その値は「修正済み」タブの下に修正内容とともに、「ドメイン値」という理由で表示されます。

  • 用語ベースのリレーションシップによって変更された値がドメイン内にあり、値が Error/Invalid で修正がない場合、値は [無効] タブの下に理由ドメイン値と共に表示されます。

Term-Based 関係と知識発見

用語ベースのリレーションシップを適用し、ナレッジ検出プロセスを実行すると、TBR に準拠するすべての値はそのまま残り、正しい値として識別されます。 TBR によって変更された値は正しい値としてインポートされ、TBR に準拠する値のシノニムとして識別されます。

Term-Based 関係を定義し、クレンジングされた値をドメインにインポートする

クレンジング プロセス中に収集されたデータ品質ナレッジをドメインにインポートすると、TBR によって変更された値が正しい値としてインポートされます。

開始する前に

[前提条件]

用語ベースのリレーションを作成するには、ドメイン管理アクティビティでドメインを開く必要があります。

安全

権限

用語ベースのリレーションを作成するには、DQS_MAIN データベースに対するdqs_kb_editorまたはdqs_administratorロールが必要です。

用語ベースのリレーションの作成

  1. Data Quality クライアントを開始します。 これを行う方法の詳細については、「Data Quality Client アプリケーションの実行」を参照してください。

  2. Data Quality Client のホーム画面で、ナレッジ ベースを開くか作成します。 アクティビティとして [ドメイン管理 ] を選択し、[ 開く ] または [作成] をクリックします。 詳細については、「 ナレッジ ベースを作成する」 または「 ナレッジ ベースを開く」を参照してください。

    ドメイン管理は、個別のドメイン管理操作用の 5 つのタブを含む Data Quality Service クライアントのページで実行されます。 これはウィザード駆動型のプロセスではありません。管理操作は個別に実行できます。

  3. [ドメイン管理] ページの [ドメイン] ボックスの一覧から、ドメイン ルールを作成するドメインを選択するか、新しいドメインを作成します。 新しいドメインを作成する必要がある場合は、「ドメイン の作成」を参照してください。

  4. Term-Based 関係 タブをクリックします。

  5. 用語ベースのリレーションを次のように作成します。

    1. [ 新しいリレーションの追加] をクリックして、リレーションテーブルに行を追加します。

    2. 追加した行の [値 ] 列に、選択したドメインの値に出現するたびに変更する用語を入力します。

      用語がドメイン内に値全体として存在する場合、またはドメインに修正値として既に存在する場合は、エラーが発生します。

    3. 修正先列には、列で変更したい用語を入力します。

    4. もう一度 [ 新しいリレーションの追加] をクリックして、別の用語ベースのリレーションを追加します。

    5. [ 選択したリレーションを削除 ]をクリックして、選択した行を Relations テーブルから削除します。 Ctrl キーを押しながら選択されていない行をクリックすると、複数の行を選択できます。

    6. [検索] テキスト ボックスに 1 つ以上の数字を入力して、Relations テーブル内の値を 検索 します。 文字列の一致が強調表示されます。 上矢印と下矢印を使用して、テーブル内の文字列のさまざまなインスタンスに移動します。

    7. スペル チェック: [値 ] 列または [ 修正対象 ] 列の値に波状の赤いアンダースコアがある場合、スペル チェックでは値の修正が提案されます。 アンダースコア付きの値を右クリックし、スペル チェックで提案された値のいずれかを選択します。 または、ショートカット メニューの [追加 ] をクリックして、元の値を続行することもできます。 詳細については、「 DQS スペル チェックの使用 」および「 ドメインプロパティの設定」を参照してください。

      スペル チェックを使用するには、[ドメインのプロパティ] ページで有効にするか、[ドメインのプロパティ] ページで無効にした場合は、[Term-Based リレーション] ページの [スペル チェックの有効化/無効化] アイコンをクリックして、このページで有効にすることができます。

  6. [ 変更の適用 ] をクリックして、用語ベースのリレーションをドメインに適用します。

  7. 「ドメイン管理アクティビティの終了」の説明に従って、ドメイン管理アクティビティを完了するには、[完了] をクリックします。

フォローアップ: Term-Based リレーションを作成した後

用語ベースのリレーションを作成した後、ドメインで他のドメイン管理タスクを実行したり、ナレッジ検出を実行してドメインにナレッジを追加したり、一致するポリシーをドメインに追加したりできます。 詳細については、「 ナレッジ検出の実行」、「 ドメインの管理」、「 照合ポリシーの作成」を参照してください。