Sdílet prostřednictvím


Profilace dat a oznámení v DQS

platí pro:SQL Server

Důležité

Služba DQS (Data Quality Services) se odebere v SQL Serveru 2025 (17.x). Stále podporujeme DQS v SQL Serveru 2022 (16.x) a starších verzích.

Profilace dat ve službě DQS (Data Quality Services) je proces analýzy dat ve stávajícím zdroji dat a zobrazení statistik o datech v aktivitách DQS. Poskytuje automatizované měření kvality dat. Profilace DQS je integrovaná do projektů správy znalostí DQS a kvality dat. je dynamická a nastavitelná. Profilace má dva hlavní cíle: nejprve vás provede procesy kvality dat a podpoří vaše rozhodnutí a druhý, aby posoudil efektivitu procesů. Profilace DQS má následující výhody:

  • Profilace poskytuje přehled o kvalitě zdrojových dat a pomáhá identifikovat problémy s kvalitou dat.

  • Profilace vyhodnocuje efektivitu procesů kvality dat a vede vás při zjišťování znalostí, čištění dat, odpovídajících zásadách a odpovídající práci.

  • Profilace vám nabídne nejrelevavantnější informace v nejrelevavantnější době.

  • Proces profilace generuje oznámení, která zvýrazňují důležité statistiky nebo události, které si zaslouží akci. V mnoha případech oznámení DQS označují podmínku a doporučují akci, kterou můžete provést k nápravě této podmínky.

Profilace umožňuje používat služby Data Quality Services nejen pro zjišťování znalostí, čištění a porovnávání, ale také jako analytický nástroj. Můžete chtít vytvořit jednu znalostní bázi pro analýzu a pomocí této znalostní báze spustit zjišťování znalostí, abyste zjistili ze statistik profilace, jestli znalostní báze splňuje vaše potřeby zjišťování, čištění a párování.

Jak funguje profilace

Profilace neměří kvalitu znalostní báze. Měří kvalitu zdrojových dat. Profilace poskytuje statistiky, které označují účinek konkrétní operace, kterou provádíte ve správě znalostí nebo projektu kvality dat na zdrojová data. Profilace je vždy v kontextu konkrétní aktivity, kterou děláte. Kliknutím na kartu profilace v obrazovce můžete zobrazit profilovací data, aniž byste opustili aktuální fázi aktivity. Tabulka profilace se vyplní v reálném čase při provádění procesu a umožňuje vyhodnotit úlohy kvality dat při jejich provádění. Můžete určit, jestli jsou zdrojová data lepší po vyčištění nebo odstranění duplicit a o kolik.

Všechna čísla profilace odkazují na počet výskytů hodnoty a v mnoha případech odkazují na procento součtu s výjimkou metrik jedinečnosti. Metriky jedinečnosti odkazují na absolutní počet hodnot bez ohledu na počet výskytů těchto hodnot.

Profilace je součástí řešení založeného na znalostech DQS. Poskytuje informace o procesu čištění znalostí, porovnávání nebo čištění dat na základě mapování mezi poli zdroje dat a doménami znalostní báze. Profilovat můžete pouze po dokončení mapování; během fáze mapování jakékoliv aktivity se neprovádí žádná profilace. Profilace je vždy připojená k aktivitě. Proces profilace se provádí na datech mapovaných na domény, nikoli na data v doménách. Je integrovaný do následujících kroků aktivit:

  • Kroky pro zjišťování a správu hodnot domény aktivity zjišťování znalostí

  • Kroky aktivity Čištění a Správa a zobrazení výsledků

  • Kroky odpovídajících zásad a odpovídajících výsledků aktivity odpovídajících zásad

  • Kroky párování a export v aktivitě Párování

DQS neposkytuje statistiky profilace pro aktivitu Domain Management.

Profilace dat podle aktivity

Profilace DQS používá standardní dimenze kvality dat, které představují kvalitu dat: úplnost (rozsah, v jakém jsou data přítomna), přesnost (rozsah, v jakém lze data použít pro zamýšlené použití) a jedinečnost (rozsah, v jakém různé hodnoty představují různé entity). Ve výchozím nastavení se hodnoty NULL a prázdné považují za chybějící nebo nižší procento úplnosti; Můžete ale také definovat další hodnoty, které mají být ekvivalentní hodnotě NULL, v takovém případě se také považují za chybějící.

Profilace poskytuje statistiky, které potřebujete k vyhodnocení procesů, ale je nutné je interpretovat. Dejte smysl tomu, co vám profilace ukazuje, tím, že se podíváte na každý sloupec statistik jednotlivě.

Aktivity DQS mají různé sady statistik profilace, jak je znázorněno níže:

  • Pouze aktivita čištění má statistiky profilace pro přesnost (v procentech podle domény). Přesnost ovlivňuje platnost, konzistenci, chyby syntaxe a pravidla domény.

  • Pouze aktivita Čištění obsahuje statistiky profilování pro správné, opravené a navrhované hodnoty ve zdroji, jakož i opravené a navrhované hodnoty podle domény (obě v procentech).

  • Aktivity čištění a zjišťování znalostí mají statistiky profilace pro platnost (čištění podle záznamu, zjišťování znalostí podle záznamu a domény). Zásady přiřazování a aktivity přiřazování nemají statistiky týkající se platnosti.

  • Aktivita čištění nemá profilovací statistiky pro jedinečnost. Aktivity zjišťování znalostí, shodovací zásady a shodovací aktivity mají profilové statistiky pro jedinečnost v číslech a procentech pro zdroj a dle domény.

Další informace o konkrétních statistikách profilace souvisejících s aktivitou najdete v oddílech profilace v následujících článcích:

Profilace dat v monitorování aktivit

Profilovací informace pro objevování znalostí, shodné zásady, párování a čištění aktivit jsou k dispozici nejen na stránkách aktivit v klientu pro zajištění kvality dat, ale také v monitoringu aktivit. Monitorování aktivit poskytuje přehled aktuálních a minulých aktivit. Kromě vlastností a souvisejících výpočetních procesů aktivit můžete na jednom místě zobrazit profilovací informace generované pro každou aktivitu. Výběrem aktivity v tabulce aktivit zobrazíte výsledky profilace v tabulce níže. Můžete také exportovat výsledky profilace. Další informace naleznete v tématu Správa DQS.

Oznámení

Kromě shromažďování a zobrazování důležitých statistik a metrik prostřednictvím profilace služba DQS vygeneruje oznámení (pokud je povoleno), která indikují, kdy můžete chtít provést akci na základě zobrazených statistik profilace. DQS používá oznámení ke zdůraznění důležitých faktů o zdroji dat a k zobrazení účinnosti aktuální aktivity v porovnání s účelem, pro který byla provedena. Oznámení poskytují tipy a doporučení, které označují podmínku a doporučují, jak zlepšit zjišťování znalostí, čištění dat nebo aktivitu párování dat.

K vyvolání problému, který vás může zajímat, nebo k řešení potenciálního problému se používá oznámení DQS. To, jestli budete na oznámení reagovat, závisí na tom, jestli je relevantní pro vaše účely. Předpokládejme například, že DQS odešle oznámení, když čištění dat nevygeneruje žádné opravené hodnoty nebo navrhované hodnoty, zatímco úplnost a přesnost jsou 100%. Toto oznámení by značilo, že aktivita nemusí být spuštěná. Jestli se ale rozhodnete aktivitu spustit, je to vaše rozhodnutí.

Upozornění je indikováno popiskem s vykřičníkem na kartě Profilace. Statistiky spojené s upozorněním jsou zvýrazněny červeně, aby indikovaly statistické odůvodnění upozornění.

Můžete povolit (výchozí) nebo zakázat oznámení na kartě Obecné nastavení v části Správa na domovské stránce Klienta kvality dat. Když je oznámení zakázané, nezobrazují se popisy nástrojů a statistiky nejsou červené. Zakázáním oznámení se nijak výrazně nezlepšují výkon. Profilace bude i nadále funkční, pokud oznámení zakážete.

Konkrétní podmínky související s oznámeními o aktivitě najdete v následujících článcích:

Popis úkolu Článek
Popisuje, jak povolit nebo zakázat oznámení v DQS. Povolení nebo zakázání oznámení o profilaci v DQS