Sdílet prostřednictvím


Párování dat

platí pro:SQL Server

Důležité

Služba DQS (Data Quality Services) se odebere v SQL Serveru 2025 (17.x). Stále podporujeme DQS v SQL Serveru 2022 (16.x) a starších verzích.

Proces porovnávání dat DQS (Data Quality Services) umožňuje snížit duplikaci dat a zlepšit přesnost dat ve zdroji dat. Porovnávání analyzuje stupeň duplikace ve všech záznamech jednoho zdroje dat a vrací vážené pravděpodobnosti shody mezi každou sadou záznamů. Pak se můžete rozhodnout, které záznamy odpovídají, a provést odpovídající akci se zdrojovými daty.

Proces párování DQS má následující výhody:

  • Párování umožňuje eliminovat rozdíly mezi datovými hodnotami, které by měly být stejné, určit správnou hodnotu a snížit chyby, které můžou způsobit rozdíly mezi daty. Jména a adresy jsou například často identifikací dat pro zdroj dat, zejména zákaznická data, ale data se můžou v průběhu času zašpinit a zhoršovat. Provádění párování k identifikaci a opravě těchto chyb může usnadnit používání a údržbu dat.

  • Porovnávání umožňuje zajistit, aby hodnoty, které jsou ekvivalentní, ale byly zadány v jiném formátu nebo stylu, jsou vykresleny jednotně.

  • Párování identifikuje přesné a přibližné shody a umožňuje odebrat duplicitní data při jejich definování. Definujete bod, ve kterém je přibližná shoda ve skutečnosti shoda. Definujete, která pole se posuzují pro porovnávání, a která ne.

  • DQS umožňuje vytvořit odpovídající zásadu pomocí procesu s asistencí počítače, interaktivně ji upravit na základě odpovídajících výsledků a přidat ji do znalostní báze, která je opakovaně použitelná.

  • Data zkopírovaná ze zdroje do pracovní tabulky můžete znovu indexovat, nebo nemusíte, v závislosti na stavu shodných zásad a zdrojových dat. Neindexování může zlepšit výkon.

Můžete provést odpovídající proces ve spojení s dalšími procesy čištění dat, abyste zlepšili celkovou kvalitu dat. Odstranění duplicit dat můžete provádět také pomocí funkcí DQS integrovaných do hlavních datových služeb. Další informace najdete v tématu Přehled hlavních datových služeb (MDS).

Následující obrázek ukazuje, jak se v DQS provádí porovnávání dat:

Proces porovnávání v DQS

Jak provádět porovnávání dat

Stejně jako u jiných procesů kvality dat v DQS provádíte porovnávání vytvořením znalostní báze a provedením odpovídající aktivity v projektu kvality dat v následujících krocích:

  1. Vytvoření odpovídajících zásad ve znalostní bázi

  2. Proveďte proces odstranění duplicit v odpovídající aktivitě, která je součástí projektu kvality dat.

Vytvoření zásady pro sladění

Znalostní bázi připravíte na provedení párování vytvořením odpovídající zásady ve znalostní bázi, abyste definovali, jak DQS přiřazuje odpovídající pravděpodobnost. Odpovídající zásada se skládá z jednoho nebo několika odpovídajících pravidel, která identifikují, které domény se použijí, když DQS vyhodnotí, jak dobře se jeden záznam shoduje s druhým, a určí váhu, kterou každá hodnota domény nese v odpovídajícím posouzení. V pravidle zadáte, jestli musí být hodnoty domény přesnou shodou nebo můžou být podobné a v jakém stupni podobnosti. Určíte také, jestli je shoda domény předpokladem.

Aktivita týkající se zásad shody v průvodci správou znalostní báze analyzuje ukázková data použitím každého pravidla shody k porovnání dvou záznamů v celém rozsahu záznamů. Záznamy, jejichž odpovídající skóre jsou větší než zadané minimum, jsou seskupeny v clusterech v odpovídajících výsledcích. Tyto odpovídající výsledky nejsou přidány do znalostní báze; použijete je k ladění odpovídajících pravidel. Vytvoření odpovídající zásady může být iterativní proces, ve kterém upravíte odpovídající pravidla na základě odpovídajících výsledků nebo statistik profilace.

Pro doménu můžete zadat, že datové řetězce budou normalizovány při načítání dat ze zdroje dat do domény. Tento proces se skládá z nahrazení speciálních znaků hodnotou null nebo mezerou, která často odstraňuje rozdíl mezi dvěma řetězci. To může zvýšit přesnost párování a často může umožnit, aby výsledek překročil minimální odpovídající prahovou hodnotu, pokud by bez normalizace neprošel.

Poznámka:

Hodnoty null v odpovídajících polích dvou záznamů budou považovány za shodu.

Odpovídající politika se spouští na doménách, které jsou mapovány na vzorová data. Můžete určit, jestli se data zkopírují ze zdroje dat do pracovní tabulky a znovu indexují při spuštění politiky párování, nebo zda ne. Můžete to udělat jak při vytváření znalostní báze, tak při spuštění odpovídajícího projektu. Neopětovné indexování by mohlo vést k lepšímu výkonu. Opětovné indexování není nutné, pokud platí následující: odpovídající zásada se nezměnila a zdroj dat jste neaktualizovali, znovu namapovali zásadu, vybrali nový zdroj dat nebo namapovali jednu nebo více nových domén.

Každé odpovídající pravidlo se při vytváření uloží do znalostní báze. Znalostní báze je však k dispozici pro použití v projektu kvality dat pouze v případě, že je publikovaná. Kromě toho, dokud znalostní báze nebude publikována, odpovídající pravidla v ní nelze změnit jiným uživatelem než osobou, která ji vytvořila.

Realizace odpovídajícího projektu

DQS provádí odstranění duplicit dat porovnáním jednotlivých řádků ve zdrojových datech s každým druhým řádkem, pomocí odpovídajících zásad definovaných ve znalostní bázi a vytváří pravděpodobnost, že řádky odpovídají. To se provádí v projektu kvality dat s typem párování. Párování je jedním z hlavních kroků v projektu kvality dat. Nejlépe se provádí po čištění dat, aby data, která se mají shodovat, byla bez chyb. Před spuštěním odpovídajícího procesu můžete exportovat výsledky čisticího projektu do tabulky dat nebo .csv souboru a pak vytvořit odpovídající projekt, ve kterém namapujete výsledky čištění na domény v odpovídajícím projektu.

Projekt porovnávání dat se skládá z procesu s asistencí počítače a interaktivního procesu. Odpovídající projekt použije odpovídající pravidla v odpovídajících zásadách na zdroj dat, který se má posoudit. Tento proces vyhodnocuje pravděpodobnost, že se všechny dva řádky shodují s odpovídajícím skóre. Za shodu se považují pouze ty záznamy s pravděpodobností shody větší než hodnota nastavená správcem dat v odpovídajících zásadách.

Když DQS provede odpovídající analýzu, vytvoří clustery záznamů, které DQS považuje za shody. DQS náhodně identifikuje jeden ze záznamů v každém clusteru jako kontingenční nebo úvodní záznam. Správce dat ověří odpovídající výsledky a odmítne všechny záznamy, které nejsou vhodné pro cluster. Správce dat pak vybere pravidlo pro přežití, které DQS použije k určení záznamu, který přežije odpovídající proces, a nahradí odpovídající záznamy. Pravidlo přeživší může být "Kontingenční záznam" (výchozí), "nejúplnější a nejdelší záznam", "nejúplnější záznam" nebo "nejdelší záznam". DQS určuje záznam přeživšího (vedoucího) v každém clusteru na základě toho, který záznam nejvíce odpovídá kritériu nebo kritériím v pravidle přežití. Pokud je v daném clusteru více záznamů v souladu s pravidlem přeživšího, DQS náhodně vybere jeden z těchto záznamů. DQS vám umožňuje zvolit zobrazení clusterů, které mají společné záznamy jako jeden cluster, výběrem možnosti Zobrazit nepřekrývající se clustery. Pokud chcete zobrazit výsledky podle tohoto nastavení, musíte spustit odpovídající proces.

Výsledky odpovídajícího procesu můžete exportovat buď do tabulky SQL Serveru, nebo do souboru .csv. Můžete exportovat výsledky párování ve dvou formách: zaprvé, spárované záznamy a nespárované záznamy, nebo zadruhé, záznamy přežití, které zahrnují pouze konečný (přeživší) záznam pro cluster a nespárované výsledky. Pokud se v záznamech o přeživších identifikuje jeden stejný záznam jako přeživší pro více clusterů, tento záznam se exportuje pouze jednou.

V této sekci

V DQS můžete provádět následující úlohy související s párování:

Popis úkolu Téma
Vytvoření a testování odpovídajících pravidel v odpovídajících zásadách Vytvoření odpovídajících zásad
Spuštění porovnávání v projektu kvality dat Spuštění odpovídajícího projektu