Sdílet prostřednictvím


Kvalita dat

Kvalita dat je funkcí správy analýz v cloudovém měřítku. Nachází se v cílové zóně správy dat a je základní součástí zásad správného řízení.

Aspekty kvality dat

Za kvalitu dat zodpovídá každý, kdo vytváří a využívá datové produkty. Tvůrci by měli dodržovat globální a doménová pravidla, zatímco spotřebitelé by měli hlásit nekonzistence dat k vlastnící datové doméně prostřednictvím smyčky zpětné vazby.

Vzhledem k tomu, že kvalita dat má vliv na všechna data poskytovaná tabuli, měla by začít na začátku organizace. Panel by měl mít přehled o kvalitě poskytovaných dat.

Proaktivní ale stále vyžaduje, abyste měli odborníky na kvalitu dat, kteří můžou vyčistit kontejnery dat, která vyžadují nápravu. Vyhněte se odesílání této práce centrálnímu týmu a místo toho zaměřte na datovou doménu s konkrétními znalostmi dat, abyste data vyčistili.

Metriky kvality dat

Metriky kvality dat jsou klíčem k posuzování a zvyšování kvality vašich datových produktů. Na globální úrovni a úrovni domény musíte rozhodnout o metrikách kvality. Doporučujeme minimálně následující metriky.

Metriky Definice metrik
Úplnost = % součtu nenulových hodnot + neprázdných hodnot Měří dostupnost dat, pole v datové sadě, která nejsou prázdná, a výchozí hodnoty, které byly změněny. Pokud záznam například jako data o narození obsahuje 01/01/1900, je vysoce pravděpodobné, že pole nebylo nikdy vyplněno.
Jedinečnost = % neduplikovaných hodnot Měří jedinečné hodnoty v daném sloupci v porovnání s počtem řádků v tabulce. Když třeba v tabulce s pěti řádky nastavíte čtyři různé hodnoty barev (červenou, modrou, žlutou a zelenou), bude toto pole jedinečné z 80 % (nebo 4/5).
Konzistence = % dat se vzory Měří kompatibilitu v rámci daného sloupce s očekávaným datovým typem nebo formátem. Například pole e-mailu obsahující formátované e-mailové adresy nebo pole se jménem s číselnými hodnotami.
Platnost = % shody odkazů Měří úspěšná data odpovídající referenční sadě domény. Například pro pole země/oblast (odpovídající hodnotám taxonomie) v transakčním systému záznamů není hodnota "US of A" platná.
Přesnost = % nezměněných hodnot Měří úspěšnou reprodukci zamýšlených hodnot v různých systémech. Pokud například faktura uvádí skladovou položku a rozšířenou cenu, která se liší od původní objednávky, položka řádku faktury je nepřesná.
Propojení = % dobře integrovaných dat Měří úspěšné přidružení k doprovodným referenčním podrobnostem v jiném systému. Pokud například faktura uvádí nesprávnou skladovou položku nebo popis produktu, řádková položka faktury se nedá propojit.

Profilace dat

Profilace dat zkoumá datové produkty, které jsou zaregistrované v katalogu dat, a shromažďuje statistiky a informace o datech. Pokud chcete poskytnout souhrn a zobrazení trendů o kvalitě dat v průběhu času, uložte tato data v úložišti metadat proti datovému produktu.

Profily dat pomáhají uživatelům odpovídat na otázky týkající se datových produktů, mezi které patří:

  • Dá se použít k vyřešení mého obchodního problému?
  • Odpovídají data konkrétním standardům nebo vzorům?
  • Jaké jsou některé z anomálií zdroje dat?
  • Jaké jsou možné výzvy při integraci těchto dat do aplikace?

Uživatelé můžou zobrazit profil datového produktu pomocí řídicího panelu generování sestav v rámci svého marketplace dat.

Můžete hlásit například tyto položky:

  • Úplnost: Udává procento dat, která nejsou prázdná nebo mají hodnotu null.
  • Jedinečnost: Označuje procento dat, která nejsou duplicitní.
  • Konzistence: Označuje data, u kterých se udržuje integrita dat.

Doporučení ke kvalitě dat

Pokud chcete implementovat kvalitu dat, musíte použít lidský i výpočetní výkon následujícím způsobem:

  • Používejte řešení, která zahrnují algoritmy, pravidla, profilaci dat a metriky.

  • Využijte odborníky na domény, kteří můžou zakroužovat v případech, kdy je potřeba algoritmus vytrénovat kvůli velkému počtu chyb procházejících výpočetní vrstvou.

  • Ověření je možné nejdříve. Tradiční řešení extrahují, transformují a načítají data před tím, než se použije jakákoli kvalita dat. V této době se datový produkt už spotřebovává a v podřízených datových produktech se zobrazí chyby. Místo toho, jak se data ingestují ze zdroje, implementujte kontroly kvality dat v blízkosti zdrojů a před tím, než podřízení spotřebitelé použijí datové produkty. Pokud z datového jezera dochází k dávkovému příjmu dat, proveďte tyto kontroly při přesunu dat ze nezpracovaných dat do obohacených.

    Diagram implementace kvality dat během příjmu dat

  • Před přesunem dat do rozšířené vrstvy se jejich schéma a sloupce kontrolují podle metadat registrovaných v katalogu dat.

  • Pokud data obsahují chyby, načítání se zastaví a tým datových aplikací na chybu upozorní.

  • Pokud jsou kontroly schématu a sloupců úspěšné, data se načtou do obohacených vrstev s odpovídajícími datovými typy.

  • Než přejdete na rozšířenou vrstvu, proces kvality dat zkontroluje dodržování předpisů algoritmů a pravidel.

Tip

Definujte pravidla kvality dat na globální úrovni i na úrovni domény. Tím umožníte firmě definovat standardy pro každý vytvořený datový produkt a umožníte datovým doménám vytvářet další pravidla související s jejich doménou.

Řešení pro kvalitu dat

Od února 2022 microsoft při poskytování řešení kvality dat spoléhá na partnery, opensourcová řešení a vlastní řešení. Doporučujeme vyhodnotit partnery, jako jsou Informatica, Talend, CluedIn a Ataccama One.

U opensourcových řešení implementovaly firmy do svých datových kanálů nástroj Velká očekávání.

Souhrn kvality dat

Oprava kvality dat může mít pro firmu vážné důsledky. To může vést k tomu, že obchodní jednotky interpretují datové produkty různými způsoby. Tato nesprávná interpretace se může ukázat jako nákladná pro firmu, která je založena na datových produktech s nižší kvalitou dat. Oprava datových produktů s chybějícími atributy může být nákladná úloha a může vyžadovat úplné opětovné načtení dat z počtu období.

Včas ověřte kvalitu dat a zaveďte procesy, které proaktivně řeší špatnou kvalitu dat. Například datový produkt nelze vydat do produkčního prostředí, dokud nedosáhne určité míry úplnosti.

Nástroje můžete používat jako bezplatnou volbu, ale ujistěte se, že zahrnují očekávání (pravidla), metriky dat, profilaci a schopnost zabezpečit očekávání, abyste mohli implementovat globální a doménová očekávání.

Další kroky