Sdílet prostřednictvím


Kontrakty dat

Odpovědnost se rozděluje mezi domény ve federované architektuře, což může ztížit dohled nad závislostmi a získání přehledů o využití dat. Kontrakty na data vám můžou pomoct získat přehled o využití dat, protože poskytují informace o tom, kdo vlastní jednotlivé datové produkty. Datové kontrakty vám pomůžou nastavit standardy a bez obav spravovat datové kanály. Jsou nezbytné pro robustní správu dat a poskytují vám informace o:

  • Které datové produkty se využívají.

  • Kteří uživatelé využívají které datové produkty.

  • Jaké účely vedou uživatele ke využívání konkrétních datových produktů?

Distribuce a využití datových produktů má dvě dimenze: technické aspekty a obchodní aspekty. Technické aspekty zahrnují zpracování datových kanálů a očekávání vzájemné stability dat. Obchodní záležitosti zahrnují smlouvy o sdílení dat, které definují použití, ochranu osobních údajů a účelové cíle, včetně jakýchkoli omezení.

Tyto dvě dimenze zahrnují různé role. Obecně platí, že pro technické záležitosti byste měli spoléhat na vlastníky aplikací nebo datové inženýry a pro obchodní záležitosti se spoléhat na vlastníky produktů nebo obchodní zástupce.

Kontrakty dat

Kontrakty na data se podobají kontraktům na služby nebo kontraktům na dodávky dat.

Ve větší nebo distribuované architektuře může být obtížné dohlížet na změny. Přehled si můžete zjednodušit implementací správy verzí a správy kompatibility vždy, když máte oblíbený a široce používaný datový produkt.

Pokud jsou aplikace svázané, znamená to, že mezi propojenými aplikacemi existuje vysoký stupeň závislosti. Aplikace, které přistupují k datům z jiných aplikací nebo je využívají, vždy trpí při spojení. Jakákoli změna například datové struktury může mít přímý vliv na jiné aplikace, které k datům přistupují nebo je využívají. V situacích, kdy máte mnoho aplikací propojených dohromady, je běžné narazit na kaskádový efekt, kdy malá změna jedné aplikace ovlivní mnoho dalších aplikací. Kvůli zvýšené pravděpodobnosti nezamýšlených efektů po i menších změnách se mnoho architektů a softwarových inženýrů vyhýbá vytváření propojených architektur.

Smlouva o datech zaručuje kompatibilitu rozhraní a zahrnuje podmínky služby a smlouvu o úrovni služeb (SLA). Podmínky služby popisují, jak lze data používat, například omezit jejich použití pouze na vývoj, testování nebo produkci. Smlouvy SLA popisují požadovanou kvalitu doručování dat a rozhraní. Mezi podrobnosti o kvalitě, které můžete zadat ve smlouvě SLA, patří:

  • Doba provozu
  • Míra chyb
  • Dostupnost
  • Vyřazení
  • Plán
  • Čísla verzí

Metadata, která zachytí tyto podrobnosti, můžete umístit do správy zdrojového kódu, což umožňuje automatickou aktivaci ověření a nasazení. Další informace o správě zdrojového kódu najdete v tématu Správa zdrojového kódu v Azure Data Factory.

Kontrakty dat poskytují přehled o propojení a závislostech mezi doménami a aplikacemi. Kontrakt také umožňuje testování kontraktu, které zajišťuje, že se všechny změny aplikací a rozhraní ověřují podle požadavků na data vašich spotřebitelů. To, kdy se toky dat stanou zranitelnými vůči změnám nadřazeného zdroje dat, poznáte tak, že zjistíte posun schématu. Další informace najdete v tématu Posun schématu v mapování toku dat.

Kontrakty dat jsou často součástí architektur příjmu dat řízených metadaty. Datové kontrakty můžete ukládat do záznamů metadat v centrálně spravovaném metastoru. Z tohoto centrálního umístění hrají kontrakty dat důležitou roli v datech několik oblastí příjmu dat, včetně:

  • Spuštění kanálu

  • Vytvoření datového produktu

  • Ověření datového typu

  • Schémata

  • Standardy interoperability

  • Verze protokolu

  • Výchozí pravidla pro chybějící data

Kontrakty na data zahrnují velké množství technických metadat. Pokud chcete zdokumentovat datové kanály a datové produkty, musíte mít jasný popis zdrojů dat, všech transformací, které vaše data prošla, a také to, jak je nakonec doručíte.

Diagram znázorňující kontrakty dat

V distribuované architektuře distribuujete architekturu datového kanálu napříč různými doménami a domény odpovídají běžnému způsobu práce. Vzhledem k tomu, že domény zpracovávají data samy, zůstává kontrola a odpovědnost na nich, zatímco rámec a metadata zůstávají v centrálním řízení.

Při implementaci federované metody začněte od začátku. Začněte se základy, jako je úložiště metadat pro ověřování schématu, identifikátory organizace a odkazy na další datové sady v úložišti sdílených metadat. Přidejte podporu rodokmenu dat, která vám pomůže vizualizovat přesun dat. Spusťte své procesy a použijte knihovny, jako je Great Expectations , k implementaci kontrolních mechanismů pro ověřování kvality technických dat.

Všechny ovládací prvky by měly být součástí postupů kontinuální integrace. Zachyťte všechny informace o modulu runtime, včetně metrik a protokolování, a udělejte je jako součást základu metadat pro získání přehledů o stabilitě kanálu dat. Toto nastavení zajistí, že mezi vašimi doménami a kokpitem centrální správy budete mít smyčku zpětné vazby.

Při stabilizaci veškerého přesunu dat zaznamenejte, které atributy dat (jako jsou tabulky a sloupce) používají uživatelé dat, a tyto informace použijte k dalšímu škálování. Tyto informace můžete zahrnout do centrálně spravovaného metastoru. Informace o využití dat umožňují detekovat změny způsobující chybu a identifikovat jejich dopad na producenty a spotřebitele dat. Pokud datová sada datového produktu nemá žádné uživatele, můžete povolit, aby zaznamenala rušivé změny. Pomocí správy zdrojového kódu (jako je Git) můžete povolit proces metody handshake mezi poskytovateli a příjemci vašich dat.

Smlouvy o sdílení dat

Smlouvy o sdílení dat jsou rozšířením smluv o datech. Smlouvy popisují používání, ochranu osobních údajů a účel dat, včetně veškerých omezení. Smlouvy o sdílení dat jsou nezávislé na rozhraní a nabízejí přehled o tom, jaká data se používají k určitému účelu. Fungují také jako vstup pro ovládací prvky zabezpečení dat. Smlouvu o sdílení dat můžete použít k vytvoření přehledu, které filtry nebo ochranu zabezpečení se musí na vaše data použít.

Smlouvy o sdílení dat také pomáhají zabránit chybné komunikaci s používáním dat. Před sdílením jakýchkoli dat by vlastníci domény měli probrat problémy se sdílením dat a jejich využitím. Společná znalost je důležitá pro to, abyste mohli regulovat data a jejich využití a zajistit, abyste mohli vaší organizaci přinést hodnotu. Jakmile všichni vlastníci domény dosáhnou společného porozumění, ujistěte se, že je zdokumentují ve smlouvě o sdílení dat. V této smlouvě můžete také řešit tyto oblasti:

  • Funkční kvalita dat

  • Historizace

  • Správa životního cyklu dat

  • Další distribuce dat

K zabezpečení dat použijte klasifikace a podmínky, jako jsou popisky citlivosti nebo podmínky filtrování.

Diagram předchozí části znázorňuje určité prvky označené datovou sajdkáru produktu. Sajdkárna datového produktu je komponenta nebo vrstva pro vložení provádění zásad, jako jsou řízení přístupu k datům nebo výstupní metody spotřeby dat. Jedná se o abstrakci zabezpečení, která používá kontrakty dat ke zpracování vynucování zabezpečení u dat vaší domény. Sajdkáru datového produktu můžete vytvořit z úložiště kontraktů dat jako seznam řízení přístupu (ACL) nebo bezserverové zobrazení, nebo můžete vytvořit jedno z duplicitní datové sady, kterou vyberete a vyfiltrujete pro konkrétního spotřebitele. V každém případě je cílem odvozovat zobrazení zabezpečení z kontraktů dat plně automatizovaným způsobem.

Propojte atributy kontraktu dat a vaši dokumentaci. Ujistěte se, že jste do glosáře zadali sémantický kontext a vztah, aby vaši uživatelé pochopili, jak se obchodní požadavky překládají na skutečnou implementaci. Pokud je vztah s obchodními podmínkami pro vaši organizaci důležitý, zvažte implementaci zásad, jako je povolení vytváření kontraktů na data pouze po propojení všech atributů datového produktu s entitami obchodních podmínek. Tento typ zásad můžete použít také na kontextové změny, jako jsou úpravy relací nebo definic.

Použití kontraktů dat

Začněte pomalu, když začínáte používat kontrakty dat. Nezavedávejte příliš mnoho změn najednou. Kontrakty s daty vyžadují kulturní posun a vaši uživatelé potřebují čas, aby se s nimi seznámili a pochopili důležitost vlastnictví dat. Musíte také najít místo mezi příliš malým a příliš mnoha atributy metadat ve vašich kontraktech dat.

Následující kroky popisují proces implementace kontraktů na data pro vaši organizaci.

  1. Ujistěte se, že jsou kanály technických dat stabilní. Případy použití se nemůžou dostat do produkčního prostředí, pokud kanály, kterými procházejí, dojde k neočekávaným přerušením.

  2. Nasdílejte jednoduché a účelné procesy, jakmile začnete používat smlouvy o sdílení. Můžete začít návrhem jednoduchého formuláře nebo šablony v Microsoft Forms. Pište jasným a stručným jazykem, kterému čtenáři snadno porozumí. Cílem této první fáze je kulturní posun a shromažďování požadavků. Ujistěte se, že nepřekompilujete věci; přijmout ruční procesy, omezit počáteční požadavky na metadata a iterovat, dokud tyto požadavky nebudou stabilní.

  3. Jakmile budete mít pevně nastavené první procesy, začněte nahrazovat ruční formuláře webovou aplikací, databází nebo frontou zpráv. Váš centrální tým zásad správného řízení dat by měl být i během této fáze zodpovědný za dohled. Členitost přístupu k datům je v tomto okamžiku obvykle odstupňovaná a zaměřuje se na složky nebo soubory. Kdykoli je to možné, použijte rozhraní REST API k automatickému zřízení zásad přístupu k datům nebo seznamůM ACL.

  4. Dejte vlastníkům dat nebo správcům dat na starosti silný pracovní postup pro správu schvalování. Vaše role zásad správného řízení centrálních dat by teď měla dohlížet na schválení jenom z role backseat a pravidelně kontrolovat všechny kontrakty dat. V tuto chvíli byste měli mít spuštěný katalog dat, jako je Azure Purview , který zobrazuje všechny vaše datové produkty připravené ke spotřebě. Vylepšete možnosti vynucování dat a zabezpečení tím, že umožníte jemně odstupňované výběry a filtrování a zvažte použití technik, jako je dynamické maskování dat, abyste zabránili duplikování dat.

  5. V poslední fázi cesty k implementaci smlouvy o datech by vše mělo být samoobslužné a plně automatizované. Automatizované strojové učení by mělo předpovědět schválení dat. Zabezpečení

  6. Na konci cesty bude vše samoobslužné a plně automatizované. To zahrnuje automatizované vynucování zabezpečení a strojové učení pro predikci schválení dat. Po schválení se například automaticky nasadí zabezpečená zobrazení.

Kontrakty dat jsou relativně novým, ale důležitým doplňkem architektury datové sítě, který poskytuje transparentnost pro využití dat a závislosti. Zaměřte se na technickou stabilitu a standardizaci, jakmile začnete používat datové kontrakty a pak při iteraci použijete naučený proces. Pomalu budujte a automatizujte zásady správného řízení dat, abyste nezvyšili režijní náklady vaší organizace.

Další informace o smlouvách o pozorovatelnosti a sdílení dat najdete v průvodci monitorováním cloudu: Pozorovatelnost.

Jako součást dokumentace ke smlouvě o datech potřebujete také podmínky služeb a smlouvy o úrovni služeb (SLA). Pomocí smluv SLA můžete nastínit požadavky na kvalitu pro doručování dat a rozhraní, včetně doby provozu, míry chyb a dostupnosti. Smlouvy SLA můžou také zahrnovat všechny požadavky na vyřazení, plán a číslo verze, které potřebujete definovat.

Další kroky