Przechowywanie danych w Fabric Data Warehouse (wersja zapoznawcza)

Dotyczy:✅ Magazyn w systemie Microsoft Fabric

W Microsoft Fabric magazyn automatycznie zachowuje i utrzymuje różne wersje danych na podstawie skonfigurowanego okresu przechowywania. Ten okres przechowywania określa, jak daleko w czasie można wykonywać zapytania dotyczące podróży w czasie, tworzyć klony tabel, używać punktów przywracania i tworzyć migawki magazynu.

Przechowywanie danych jest uruchamiane automatycznie podczas tworzenia magazynu. Domyślnie magazyny zachowują historię danych przez 30 dni kalendarzowych. Okres przechowywania można skonfigurować na dowolną wartość z zakresu od 1 do 120 dni. System automatycznie usuwa wygasłe pliki po zakończeniu okresu przechowywania.

Magazyn danych zachowuje wszystkie wstawienia, aktualizacje i usunięcia w skonfigurowanym okresie przechowywania.

  • Zwiększenie okresu przechowywania zapewnia dłuższe okno dla zapytań dotyczących podróży w czasie, klonów tabel w przeszłości, punktów przywracania i migawek magazynu. Jednak dłuższy okres przechowywania zwiększa zużycie magazynu i związane z nimi koszty.
  • Zmniejszenie okresu przechowywania zmniejsza koszty magazynowania, ale ogranicza, jak daleko można wykonywać zapytania lub odzyskiwać dane historyczne.

Jak działa przechowywanie danych

Gdy dane zostaną zmodyfikowane, magazyn nie natychmiast odrzuci poprzedniego stanu wersji. Zamiast tego poprzednie wersje danych są zachowywane w ramach dziennika transakcji usługi Delta Lake. Ten mechanizm przechowywania wersji umożliwia działanie podróży w czasie, klonów tabel, punktów przywracania i migawek magazynu danych.

Gdy wersje danych historycznych przekraczają skonfigurowany okres przechowywania, proces odzyskiwania pamięci w tle automatycznie usuwa wygasłe pliki z usługi OneLake. Ten proces oczyszczania jest uruchamiany asynchronicznie i nie ma wpływu na aktywne zapytania lub trwające transakcje.

Hurtownia mierzy wiek przechowywanych danych w dniach kalendarzowych od chwili utworzenia wersji danych, wliczając w to każdy okres, w którym pojemność usługi Microsoft Fabric jest wstrzymana.

Zakres okresów przechowywania

Jeśli nie skonfigurujesz jawnie okresu przechowywania, istniejące magazyny używają domyślnego okresu przechowywania 30 dni kalendarzowych. Okres przechowywania danych można skonfigurować z zakresu od 1 do 120 dni.

Konfigurowanie przechowywania danych

Ustaw okres przechowywania danych dla magazynu przy użyciu ALTER DATABASE ... SET polecenie T-SQL. Aby uzyskać instrukcje i więcej informacji, zobacz Jak skonfigurować przechowywanie danych w Fabric Data Warehouse.

Zachowanie podczas zmieniania okresu przechowywania

Zrozumienie zachowania podczas zmiany okresu przechowywania pomaga zaplanować zmiany, aby uniknąć nieoczekiwanej utraty danych lub zwiększenia rozmiaru magazynu.

Zwiększ okres przechowywania

Po zwiększeniu okresu przechowywania nowe ustawienie zostanie zastosowane natychmiast. Nie można jednak odzyskać danych historycznych, które system już wyczyścił w ramach poprzedniego krótszego okresu przechowywania. Tylko wersje danych, które nadal istnieją w usłudze OneLake w momencie zmiany, korzystają z rozszerzonego okresu przechowywania.

Jeśli na przykład magazyn ma obecnie 7-dniowy okres przechowywania i zwiększasz go do 60 dni, zmiana ma zastosowanie od tego momentu do przodu. Nie można odzyskać wersji danych już oczyszczonych przez system (starszych niż 7 dni). Jednak wszystkie wersje danych, które nadal znajdują się w okresie 7-dniowym w momencie dokonania zmiany, wraz ze wszystkimi nowo utworzonymi wersjami, będą przechowywane przez maksymalnie 60 dni.

Zmniejsz okres przechowywania

Po zmniejszeniu okresu przechowywania wersje danych, które obecnie wykraczają poza nowy krótszy okres przechowywania, stają się uprawnione do czyszczenia. Proces oczyszczania jest uruchamiany asynchronicznie w tle i nie jest wykonywany natychmiast. Nie ma to wpływu na aktywne zapytania, które są już w toku.

Jeśli na przykład magazyn ma 30-dniowy okres przechowywania i zmniejszysz go do 7 dni, wersje danych z zakresu od 8 do 30 dni będą kwalifikować się do czyszczenia w tle.

Important

Zmniejszenie okresu przechowywania jest nieodwracalne z perspektywy dostępu do danych.

Nawet jeśli wkrótce potem ponownie zwiększysz okres przechowywania, dane, które wypadły poza krótszy okres, nie będą już dostępne. Przed skróceniem okresu przechowywania upewnij się, że nowy okres przechowywania spełnia wymagania organizacji dotyczące odzyskiwania danych i zgodności.

Data graniczna przechowywania

Kolumna time_travel_retention_cutoff_date w widoku katalogu systemowego sys.databases odzwierciedla rzeczywistą najwcześniejszą datę , z której są dostępne dane podróży, a nie aktualnie skonfigurowany okres przechowywania. Najstarsze rzeczywiste dane mogą różnić się od skonfigurowanego okresu przechowywania.

Skonfigurowany przez użytkownika okres przechowywania określa, ile dni historii system powinien zachować w przyszłości. Jednak rzeczywista możliwa do odzyskania historia zależy od tego, jakie dane zostały zachowane przed zmianami retencji.

Dwie sytuacje powodują rozbieżność między skonfigurowanym przechowywaniem a rzeczywistą dostępną historią:

  • Okres przechowywania został skrócony — hurtownia natychmiast oznacza dane historyczne starsze niż nowy okres przechowywania jako przeznaczone do odśmiecania i trwale je usuwa.
  • Przechowywanie zostało następnie zwiększone — magazyn nie może przywrócić usuniętej historii. Przed udostępnieniem pełnego skonfigurowanego okna musi poczekać na zebranie nowej historii.

Scenariusze przechowywania danych

Podczas podejmowania decyzji o sposobie konfigurowania okresu przechowywania należy wziąć pod uwagę następujące scenariusze:

Zgodność z przepisami i audyty

Organizacje z przepisami lub wymaganiami dotyczącymi zgodności mogą wymagać przechowywania danych przez dłuższy czas w celu spełnienia zobowiązań dotyczących inspekcji. Skonfigurowanie okresu przechowywania 90 lub 120 dni może zapewnić szersze okno historyczne dla audytorów w celu przejrzenia zmian danych w czasie.

Programowanie i testowanie

W przypadku obszarów roboczych programowania lub testowania, w których dane historyczne są mniej ważne, krótszy okres przechowywania od 1 do 7 dni może obniżyć koszty magazynowania. Ta redukcja jest przydatna, gdy obszar roboczy jest używany do szybkiego tworzenia prototypów lub opracowywania iteracyjnego.

Optymalizacja kosztów

Jeśli magazyn danych podlega częstym modyfikacjom danych na dużą skalę (takim jak codzienne pełne ładowanie), ilość przechowywanych danych historycznych może znacznie wzrosnąć. W tych scenariuszach zmniejszenie okresu przechowywania pomaga kontrolować koszty magazynowania przy zachowaniu rozsądnego okna odzyskiwania.

Gotowość do odzyskiwania danych

W przypadku magazynów produkcyjnych utrzymywanie dłuższego okresu przechowywania zapewnia większą elastyczność odzyskiwania danych za pośrednictwem punktów przywracania, klonów tabel i zapytań dotyczących podróży w czasie , jeśli wystąpi przypadkowe uszkodzenie danych.

Jak konfigurowalny okres przechowywania wpływa na funkcje zależne

Skonfigurowany okres przechowywania ma zastosowanie równomiernie w następujących funkcjach w Fabric Data Warehouse. Zmiana okresu przechowywania ma bezpośredni wpływ na dostępność i zachowanie tych funkcji.

Podróż czasowa

Podróż czasowa umożliwia wykonywanie zapytań o dane, które istniały w ostatnim punkcie w czasie w okresie przechowywania. Wskazówka FOR TIMESTAMP AS OF zapytania może pobierać dane z dowolnego punktu w skonfigurowanym okresie przechowywania.

Na przykład, jeśli okres przechowywania jest ustawiony na 15 dni, możesz wykonywać zapytania dotyczące danych, jakie istniały do 15 dni kalendarzowych wstecz.

Klonuj tabelę

Klony tabel opierają się na okresie przechowywania. Możesz utworzyć klon tabeli w ostatnim punkcie w czasie tylko w skonfigurowanym okresie przechowywania. Jeśli zażądasz klonu poza okresem przechowywania, wystąpi błąd.

Punkty przywracania

Użyj punktów przywracania, aby przywrócić magazyn. System zachowuje zarówno punkty przywracania generowane przez system, jak i zdefiniowane przez użytkownika dla skonfigurowanego okresu przechowywania. Po wygaśnięciu okresu przechowywania system automatycznie usuwa punkty przywracania.

  • Magazyn automatycznie tworzy punkty przywracania generowane przez system co osiem godzin. Te punkty przywracania są dostępne dla skonfigurowanego okresu przechowywania.
  • Punkty przywracania zdefiniowane przez użytkownika są dostępne dla skonfigurowanego okresu przechowywania. System automatycznie usuwa te punkty przywracania po wygaśnięciu.

Fabric utrzymuje minimalną liczbę punktów przywracania, aby zapewnić, że wystarczające punkty przywracania są zawsze dostępne.

Zrzuty magazynu

Migawki magazynu mogą odwoływać się do danych w skonfigurowanym okresie przechowywania. Sygnatura czasowa migawki może być ustawiona na dowolny punkt w skonfigurowanym okresie przechowywania lub na czas tworzenia bazy danych, w zależności od tego, co nastąpi później.

Rozliczenia za przechowywanie

Przechowywanie danych bezpośrednio wpływa na zużycie pamięci magazynowej OneLake. Każda zachowana wersja danych zajmuje miejsce do magazynowania, a dłuższe okresy przechowywania gromadzą więcej wersji historycznych.

Podczas planowania konfiguracji przechowywania należy wziąć pod uwagę kompromis między korzyściami z dłuższego dostępu do historii danych a powiązanymi kosztami magazynowania. Aby uzyskać więcej informacji na temat monitorowania magazynu danych, zobacz temat Raportowanie rozliczeń i wykorzystania w usłudze Fabric Data Warehouse.

  • Zachowane pliki danych: Historyczne wersje danych przechowywane jako pliki parquet w usłudze OneLake zużywają magazyn. Koszt magazynowania jest proporcjonalny do ilości i częstotliwości modyfikacji danych w okresie przechowywania.
  • Punkty przywracania: metadane dla punktów przywracania generowanych przez system i zdefiniowanych przez użytkownika również zużywają magazyn. Jednak punkty przywracania przechowują przede wszystkim metadane i odwołują się do istniejących plików danych, więc obciążenie magazynu jest stosunkowo małe.
  • Brak opłat za zasoby obliczeniowe do przechowywania: nie są naliczane opłaty za zasoby obliczeniowe wyłącznie w przypadku przechowywania danych historycznych. Opłaty za obliczenia mają zastosowanie tylko wtedy, gdy aktywnie wykonujesz zapytania o dane lub przywracasz je.

Aby oszacować wpływ magazynu na zmianę okresu przechowywania, rozważ:

  • Średnia dzienna ilość modyfikacji danych w magazynie.
  • Bieżący okres przechowywania i proponowany nowy okres przechowywania.
  • Różnica między dwoma okresami pomnożonymi przez średni dzienny wolumin modyfikacji daje przybliżoną zmianę zużycia magazynu.

Uwagi dotyczące projektowania

  • Skonfiguruj okres przechowywania na podstawie wymagań dotyczących odzyskiwania danych, zgodności i kosztów organizacji. Wartość domyślna 30 dni zapewnia równowagę między dostępnością danych a kosztem magazynu dla większości obciążeń.
  • Koordynowanie zmian okresu przechowywania przy użyciu strategii tworzenia kopii zapasowych i odzyskiwania po awarii. Upewnij się, że okres przechowywania jest zgodny z celami punktu odzyskiwania (RPO).
  • Monitoruj użycie przechowywania w usłudze OneLake po zmianie okresu przechowywania, aby lepiej zrozumieć wpływ na koszty przechowywania.
  • Jeśli jest to możliwe, zaplanuj zmiany okresu przechowywania w okresach niskiej aktywności, aby nie miało to wpływu na użytkownika.
  • Okres przechowywania jest ustawiany na poziomie magazynu. Jeśli potrzebujesz różnych okresów przechowywania dla różnych zestawów danych, rozważ ich zorganizowanie w osobnych magazynach. Indywidualne ustawienia przechowywania na poziomie tabeli nie są obecnie obsługiwane.

Ograniczenia

  • Określ okres przechowywania w ciągu całych dni. Wartości ułamkowe nie są obsługiwane.
  • Zmniejszenie okresu przechowywania nie powoduje natychmiastowego odzyskania magazynu. Czyszczenie wygasłych danych odbywa się asynchronicznie w tle.
  • Wstrzymanie pojemności Microsoft Fabric wpływa na działanie czyszczenia śmieci. Proces nie usuwa danych historycznych starszych niż bieżące ustawienia przechowywania danych podczas wstrzymania pojemności. Działania oczyszczania rozpoczynają się ponownie po wznowieniu wydajności.
  • Ustawienie przechowywania dotyczy tylko magazynów. Punkt końcowy analizy SQL usługi Lakehouse nie jest obsługiwany.
  • Szczegółowe informacje o zapytaniach i dzienniki inspekcji SQL nie podlegają tym zasadom przechowywania danych i są zarządzane oddzielnie.

Przechowywanie porzuconych elementów (wersja zapoznawcza)

Przechowywanie usuniętych elementów zachowuje hurtownie oraz powiązane z nimi tabele, schematy, migawki, uprawnienia i zapisane zapytania przez konfigurowalny okres po ich usunięciu lub skasowaniu. Dzięki temu przypadkowe usunięcia nie powodują trwałej utraty danych ani awarii wpływających na działalność biznesową. Okres przechowywania po usunięciu gwarantuje minimalny okres przechowywania wynoszący 7 dni kalendarzowych i ma oddzielne ustawienia przechowywania na poziomie dzierżawy. Można skonfigurować okres przechowywania opuszczonego elementu w ustawieniu dzierżawy Odzyskiwanie elementów.

Następny krok