Uchovávání dat v Fabric Data Warehouse (Preview)

platí pro:✅ Warehouse v Microsoft Fabric

V Microsoft Fabric sklad automaticky zachovává a udržuje různé verze dat na základě nakonfigurované doby uchovávání. Tato doba uchovávání určuje, jak daleko zpátky můžete provádět časové dotazy, vytvářet klony tabulek, používat body obnovení a vytvářet snímky skladu.

Uchovávání dat se spustí automaticky při vytváření skladu. Ve výchozím nastavení uchovávají sklady historii dat po dobu 30 kalendářních dnů. Dobu uchovávání můžete nakonfigurovat na libovolnou hodnotu mezi 1 a 120 dny. Systém po skončení doby uchovávání automaticky odstraní soubory s vypršenou platností.

Sklad uchovává všechna vložení, aktualizace a odstranění v rámci nakonfigurovaného období uchovávání.

  • Zvýšení doby uchovávání poskytuje delší časové období pro dotazy na časové cesty, klony tabulek v minulém bodě v čase, body obnovení a snímky skladu. Delší doba uchovávání ale zvyšuje spotřebu úložiště a související náklady.
  • Snížení doby uchovávání snižuje náklady na úložiště, ale omezuje, jak daleko se můžete dotazovat nebo obnovit historická data.

Jak funguje uchovávání dat

Když jsou data upravena, datový sklad neodstraní okamžitě předchozí verzi stavu. Místo toho se předchozí verze dat zachovají jako součást transakčního protokolu Delta Lake. Tento mechanismus správy verzí umožňuje fungování časových cest, klonů tabulek, bodů obnovení a snímků skladu.

Když historické verze dat překročí nakonfigurovanou dobu uchovávání, proces uvolňování paměti na pozadí automaticky odebere soubory, jejichž platnost vypršela, z OneLake. Tento proces čištění běží asynchronně a nemá vliv na aktivní dotazy ani probíhající transakce.

Sklad měří věk uchovávaných dat v absolutních kalendářních dnech od okamžiku vytvoření datové verze, včetně okamžiku pozastavení kapacity Microsoft Fabric.

Rozsah období uchovávání

Pokud explicitně nenakonfigurujete dobu uchovávání, stávající sklady používají výchozí dobu uchovávání 30 kalendářních dnů. Dobu uchovávání dat můžete nakonfigurovat od 1 do 120 dnů.

Konfigurace uchovávání dat

Nastavte dobu uchovávání dat pro sklad pomocí ALTER DATABASE ... SET T-SQL command. Podrobné kroky a další informace naleznete v tématu Jak konfigurovat uchovávání dat ve Fabric Data Warehouse.

Chování při změně doby uchovávání

Pochopení chování při změně doby uchovávání vám pomůže naplánovat změny, aby nedošlo k neočekávané ztrátě dat nebo zvýšení velikosti úložiště.

Zvýšení doby uchovávání

Když dobu uchovávání zvýšíte, nové nastavení se projeví okamžitě. Nemůžete ale obnovit historická data, která systém už vyčistil za předchozí kratší dobu uchovávání. Z období delšího uchovávání těží pouze verze dat, které ve OneLake existují v době změny.

Pokud má například váš sklad aktuálně 7denní dobu uchovávání a zvýšíte ji na 60 dnů, změna se použije od tohoto bodu dopředu. Verze dat, které systém už vyčistí před změnou (starší než 7 dní), se nedají obnovit. Všechny verze dat však zůstanou v době změny v 7denním intervalu a všechny nově vytvořené verze se zachovají až po dobu 60 dnů.

Snížení doby uchovávání

Když dobu uchovávání snížíte, budou mít verze dat, které teď spadají mimo novou kratší dobu uchovávání, nárok na vyčištění. Proces čištění běží asynchronně na pozadí a neběží okamžitě. Aktivní dotazy, které už probíhají, nejsou ovlivněny.

Pokud má například váš sklad 30denní dobu uchovávání a snížíte ji na 7 dní, stanou se verze dat staré mezi 8 a 30 dny způsobilými k automatickému vyčištění.

Important

Snížení doby uchovávání je nevratné z hlediska přístupu k datům.

I když znovu zvýšíte dobu uchovávání dat, data, která se v tomto období nacházela mimo kratší časové okno, již nebudou přístupná. Před snížením doby uchovávání se ujistěte, že nová doba uchovávání splňuje požadavky vaší organizace na obnovení dat a dodržování předpisů.

Datum ukončení uchovávání

time_travel_retention_cutoff_date Sloupec v zobrazení systémového katalogu sys.databases odpovídá skutečnému nejstaršímu datu, od kterého jsou k dispozici data o cestování v čase, nikoli aktuálně nakonfigurované období uchovávání informací. Nejstarší skutečná data se můžou lišit od nakonfigurované doby uchovávání.

Doba uchovávání nakonfigurovaná uživatelem definuje, kolik dní historie by systém měl zachovat. Skutečná obnovitelná historie ale závisí na tom, jaká data byla zachována před všemi změnami uchovávání informací.

Dvě situace způsobují rozdíly mezi nakonfigurovaným uchováváním a skutečnou dostupnou historií:

  • Doba uchovávání byla zkrácena – Datový sklad okamžitě označí historická data starší než nová doba uchovávání k vyčištění a trvale je odstraní.
  • Uchovávání se následně zvýšilo – Sklad nemůže obnovit odstraněnou historii. Musí počkat, až se nová historie nashromáždí, než bude k dispozici úplné nakonfigurované okno.

Scénáře uchovávání dat

Při rozhodování o konfiguraci doby uchovávání zvažte následující scénáře:

Dodržování předpisů a auditování

Organizace s zákonnými požadavky nebo požadavky na dodržování předpisů mohou potřebovat uchovávat data po delší dobu, aby splnily povinnosti auditu. Konfigurace doby uchovávání 90 nebo 120 dnů může auditorům poskytnout širší historické okno pro kontrolu změn dat v průběhu času.

Vývoj a testování

U pracovních prostorů pro vývoj nebo testování, kde jsou historická data méně důležitá, může kratší doba uchovávání 1 až 7 dnů snížit náklady na úložiště. Toto snížení je užitečné, když se pracovní prostor používá k rychlému vytváření prototypů nebo iterativnímu vývoji.

Optimalizace nákladů

Pokud váš sklad prochází častými rozsáhlými úpravami dat (například denním úplným zatížením), objem uchovávaných historických dat se může podstatně zvětšit. V těchto scénářích pomáhá snížení doby uchovávání řídit náklady na úložiště a současně udržovat přiměřené časové období obnovení.

Připravenost na obnovení dat

U produkčních datových skladů poskytuje zachování delší doby uchovávání větší flexibilitu pro obnovu dat prostřednictvím bodů obnovení, klonů tabulek a dotazů pomocí funkce cestování v čase, v případě náhodného poškození dat.

Vliv konfigurovatelného uchovávání na závislé funkce

Nakonfigurovaná doba uchovávání platí jednotně napříč následujícími funkcemi v Fabric Data Warehouse. Změna doby uchovávání přímo ovlivňuje dostupnost a chování těchto funkcí.

Časová cesta

Cestování časem umožňuje dotazovat se na data, jak existovala v minulosti během doby uchovávání. Tip FOR TIMESTAMP AS OF dotazu může načíst data z libovolného bodu v nakonfigurované době uchovávání.

Pokud je například doba uchovávání nastavená na 15 dnů, můžete zadávat dotazy na data, protože existovaly až 15 kalendářních dnů v minulosti.

Klonovací tabulka

Klony tabulek se spoléhají na dobu uchovávání. Klon tabulky můžete vytvořit v určitém časovém okamžiku pouze v nakonfigurované době uchovávání. Pokud požádáte o klon nad rámec doby uchovávání, dojde k chybě.

Body obnovení systému

Použijte body obnovení k obnovení skladu. Systém uchovává body obnovení generované systémem i uživatelem definované body obnovení pro nakonfigurovanou dobu uchovávání informací. Po vypršení doby uchovávání systém automaticky odstraní body obnovení.

  • Sklad automaticky vytvoří systémové body obnovení každých osm hodin. Tyto body obnovení jsou k dispozici pro nakonfigurovanou dobu uchovávání informací.
  • Uživatelem definované body obnovení jsou k dispozici pro nakonfigurovanou dobu uchovávání informací. Systém tyto body obnovení po vypršení platnosti automaticky odstraní.

Fabric udržuje minimální počet bodů obnovení, aby bylo zajištěno, že jsou vždy k dispozici dostatečné body obnovení.

Snímky skladu

Snímky skladu můžou odkazovat na data v rámci nakonfigurované doby uchovávání informací. Časové razítko snímku lze nastavit na libovolný bod v rámci nakonfigurovaného období uchovávání nebo času vytvoření databáze podle toho, co nastane později.

Fakturace za úložiště

Uchovávání dat přímo ovlivňuje spotřebu úložiště OneLake. Každá zachovaná verze dat zabírá prostor úložiště a delší doby uchovávání vedou k akumulaci více historických verzí.

Při plánování konfigurace uchovávání zvažte kompromis mezi výhodami delšího přístupu k historii dat a souvisejícími náklady na úložiště. Další informace o monitorování úložiště najdete v tématu Fakturování a využití v Fabric Data Warehouse.

  • Uchovávané datové soubory: Historické verze dat uložených jako soubory parquet v úložišti OneLake spotřebovávají úložný prostor. Náklady na úložiště jsou úměrné objemu a frekvenci úprav dat v období uchovávání.
  • Body obnovení: Metadata pro systémem generované a uživatelem definované body obnovení také spotřebovávají úložiště. Body obnovení ale primárně ukládají metadata a odkazují na existující datové soubory, takže režijní náklady na úložiště jsou relativně malé.
  • Žádné poplatky za uchovávání výpočetních prostředků: Za uchovávání historických dat se neúčtují žádné poplatky za výpočetní prostředky. Poplatky za výpočetní prostředky se vztahují jenom v případech, kdy se aktivně dotazujete nebo obnovujete data.

Pokud chcete odhadnout dopad změny doby uchovávání, zvažte následující:

  • Průměrný denní objem úprav dat ve vašem skladu.
  • Aktuální doba uchovávání a navrhovaná nová doba uchovávání.
  • Rozdíl mezi dvěma obdobími vynásobeným průměrným objemem denních úprav představuje přibližnou změnu spotřeby úložiště.

Aspekty návrhu

  • Nakonfigurujte dobu uchovávání na základě požadavků vaší organizace na obnovení dat, dodržování předpisů a nákladů. Výchozí hodnota 30 dnů poskytuje rovnováhu mezi dostupností dat a náklady na úložiště pro většinu úloh.
  • Koordinujte změny doby uchovávání pomocí strategie zálohování a zotavení po havárii. Ujistěte se, že doba uchovávání odpovídá cílům pro obnovovací bod (RPO).
  • Monitorujte spotřebu úložiště OneLake po změně doby uchovávání, abyste pochopili dopad na náklady na úložiště.
  • Pokud je to možné, naplánujte změny doby uchovávání během období s nízkou aktivitou, aby to nemělo žádný dopad na uživatele.
  • Doba uchovávání je nastavená na úrovni skladu. Pokud potřebujete různá období uchovávání pro různé datové sady, zvažte jejich uspořádání do samostatných skladů. Individuální nastavení uchovávání na úrovni tabulky se v současné době nepodporuje.

Omezení

  • Zadejte dobu uchovávání v celých dnech. Desetinné hodnoty nejsou podporované.
  • Snížení doby uchovávání okamžitě neuvolní úložný prostor. Vyčištění dat s vypršenou platností probíhá asynchronně na pozadí.
  • Pozastavení kapacity Microsoft Fabric má vliv na proces čištění nepotřebných dat. Proces neodebere historická data, která jsou starší než aktuální nastavení uchovávání dat, když je kapacita pozastavená. Čisticí aktivity budou pokračovat, jakmile se kapacita obnoví.
  • Nastavení uchovávání se vztahuje pouze na sklady. Koncový bod pro analytické dotazy SQL v rámci *lakehouse* není podporován.
  • Na tyto zásady uchovávání dat se nevztahují nástroje Query Insights a protokoly auditu SQL a spravují se samostatně.

Uchovávání vyřazených položek (Preview)

Uchovávání odstraněných položek zachovává datové sklady a jejich přidružené tabulky, schémata, snímky, oprávnění a uložené dotazy po konfigurovatelnou dobu po jejich zrušení nebo odstranění. Tím se zajistí, že náhodné odstranění nezpůsobí trvalou ztrátu dat nebo výpadky, které mají vliv na firmu. Vyřazené uchovávání zaručuje minimální dobu uchovávání 7 kalendářních dnů a má samostatnou konfiguraci uchovávání na úrovni tenanta. Dobu uchování vyřazené položky můžete nakonfigurovat v nastavení tenanta Obnovení položky.

Další krok