Odświeżenie przyrostowe dla Power Query i źródła danych Data Lake Storage

Artykuł
01/31/2024

Odświeżenie przyrostowe źródeł danych przy użyciu Power Query (wersja zapoznawcza) lub Azure Data Lake Storage zapewnia następujące korzyści:

Szybsze odświeżenia — Odświeżane są tylko te dane, które zostały zmienione. Można na przykład odświeżyć tylko ostatnie pięć dni z historycznego zestawu danych.
Zwiększona niezawodność — Wraz z mniejszą liczbą odświeżeń nie jest konieczne długie utrzymywanie połączeń z nietrwałymi systemami źródłowymi, co zmniejsza ryzyko problemów z połączeniem.
Zmniejszone zużycie zasobów — Odświeżanie tylko podzbioru wszystkich danych zwiększa efektywność korzystania z zasobów obliczeniowych i obniża zużycie środowiska.

Konfiguracja odświeżenia przyrostowego dla danych opartych na Power Query (wersja zapoznawcza)

[Ten artykuł stanowi wstępną wersję dokumentacji i może ulec zmianie.]

Skonfiguruj dowolne źródło danych Power Query w Customer Insights - Data , aby przyrostowo odświeżać dane. Parametr źródło danych musi zawierać kolumnę klucza podstawowego, która jednoznacznie identyfikuje rekordy, oraz kolumnę typu data/godzina, która wskazuje, kiedy dane były ostatnio aktualizowane.

Ważne

Jest to funkcja w wersji zapoznawczej.
Funkcje w wersji zapoznawczej nie są przeznaczone do użytku w środowiskach produkcyjnych i mogą mieć ograniczoną funkcjonalność. Te funkcje są udostępniane przed oficjalnym wydaniem, dzięki czemu klienci mogą szybciej uzyskać do nich dostęp i przekazać opinie na ich temat.

Tworzenie nowego źródła danych na podstawie usługi Power Query.
Wybierz źródło danych, które obsługuje odświeżanie przyrostowe, na przykład Azure SQL Database.
Wybierz tabele do pozyskania.
Wykonaj kroki przekształcenia i wybierz Dalej.
W oknie dialogowym Konfigurowanie odświeżania przyrostowego wybierz Konfiguruj, aby otworzyć Ustawienia odświeżania przyrostowego. Jeśli wybierzesz Pomiń, źródło danych odświeży cały zestaw danych.

Porada

Można również zastosować odświeżanie przyrostowe później, edytując istniejące źródło danych.
W Ustawienia odświeżania przyrostowego skonfiguruj odświeżanie przyrostowe dla wszystkich tabel wybranych podczas tworzenia źródła danych.
Wybierz tabelę i wprowadź następujące informacje szczegółowe:
- Zdefiniuj klucz podstawowy: wybierz klucz podstawowy tabeli.
- Definiowanie pola „ostatnia aktualizacja: to pole pokazuje tylko atrybuty typu data lub godzina. Wybierz atrybut wskazujący datę ostatniej aktualizacji rekordu. Ten atrybut identyfikuje rekordy mieszczące się w przedziale czasowym odświeżania przyrostowego.
- Sprawdzaj aktualizacje co: Określ, jak długo ma trwać horyzont czasowy odświeżania przyrostowego.
Wybierz Zapisz, aby zakończyć tworzenie źródła danych. Początkowe odświeżenie danych jest odświeżeniem pełnym. Następnie przyrostowe odświeżanie danych będzie mieć miejsce zgodnie z konfiguracją podaną w poprzednim kroku.

Konfiguruj przyrostowe odświeżanie źródeł danych Azure Data Lake Storage

Microsoft zaleca format Delta Lake, aby uzyskać najlepszą wydajność i wyniki podczas pracy z dużymi zestawami danych. Aplikacja Customer Insights - Data zapewnia łącznik zoptymalizowany pod kątem danych w formacie Delta Lake. Procesy wewnętrzne, takie jak ujednolicenie, są zoptymalizowane tak, aby przyrostowo przetwarzać tylko zmienione dane, co skutkuje krótszym czasem przetwarzania.

Aby użyć przyrostowego pozyskiwania i odświeżania tabeli Data Lake, skonfiguruj tę tabelę podczas dodawania lub edytowania źródła danych Azure Data Lake. Folder danych tabeli musi zawierać następujące foldery:

FullData: z plikami danych zawierającymi początkowe rekordy
IncrementalData: Folder z folderami hierarchii dat/godzin w formacie rrrr/mm/dd/hh zawierający aktualizacje przyrostowe. Oczekuje się, że foldery roku, miesiąca, dnia i godziny będą miały odpowiednio cztery i dwie cyfry. hh reprezentuje godzinę aktualizacji w czasie UTC i zawiera foldery Upsert i Usunięcia. Upserts zawierają pliki danych wraz z aktualizacjami istniejących rekordów lub nowych rekordów. Usunięcia zawierają pliki danych, których rekordy należy usunąć.

Kolejność przetwarzania danych przyrostowych

System przetwarza pliki w folderze IncrementalDatapo określeniu zakończenia godziny w czasie UTC. Na przykład, jeśli system uruchomi przetwarzanie odświeżenia danych w dniu 21 stycznia 2023 r. o 8:15, będą przetwarzane wszystkie pliki z folderu 2023/01/21/07 (reprezentujące pliki danych przechowywane od 7:00 do 8:00). Wszelkie pliki w folderze 2023/01/21/08 (reprezentującym bieżącą godzinę, w której pliki są nadal generowane) nie zostaną przetworzone aż do następnego uruchomienia.

Jeśli istnieją dwa rekordy dla klucza podstawowego, czyli przeniesienia i usunięcia, Customer Insights - Data używa rekord jest używany z najnowszą datą modyfikacji. Na przykład jeśli znacznik czasu usuwania to 2023-01-21T08:00:00, a czas znacznika czasu typu 2023-01-21T08:30:00, jest używany rekord upsert. Jeśli operacja usunięcia wystąpiła po rozbudowie, system założono, że rekord zostanie usunięty.

Konfiguracja odświeżenia przyrostowego dla źródeł danych Azure Data Lake

W przypadku dodawania lub edytowania źródła danych przejdź do okienka Atrybuty tabeli.
Przejrzyj atrybuty. Upewnij się, że atrybut utworzony lub ostatnio zaktualizowany został ustawiony przy użyciu formatu danychdata/godzinai typu semantycznegoKalendarz.Data. W razie potrzeby dokonaj edycji atrybutu i wybierz opcję Wykonane.
W okienku Wybierz tabele dokonaj edycji tabeli. Pole wyboru Pozyskiwanie przyrostowe jest zaznaczone.
1. Przejdź do folderu głównego zawierającego pliki CSV lub .parquet po pełne dane, przeniesienia przyrostowe danych i usunięcia przyrostowe danych.
2. Wprowadź rozszerzenie dla pełnych danych oraz plików (csv or parquet).
3. W przypadku plików .csv wybierz ogranicznik kolumny i jeśli chcesz, aby pierwszy wiersz pliku był nagłówkiem kolumny.
4. Wybierz pozycję Zapisz.
Dla daty ostatniej aktualizacji wybierz atrybut sygnatury czasowej daty.
Jeśli Klucz podstawowy nie jest zaznaczony, wybierz klucz podstawowy. Klucz podstawowy jest atrybutem unikalnym dla danej tabeli. Aby atrybut był prawidłowym kluczem podstawowym, nie może zawierać zduplikowanych wartości, brakujących wartości ani wartości null. Atrybuty typu ciąg, liczba całkowita i GUID są obsługiwane jako klucze podstawowe.
Wybierz Zamknij, by zapisać i zamknąć okienko.
Kontynuuj dodawanie i edytowanie źródła danych.

Uruchom jednorazowe pełne odświeżenie źródeł danych Azure Data Lake

Po skonfigurowaniu odświeżanie przyrostowego dla źródeł danych Azure Data Lake zdarzają się sytuacje, w których dane muszą zostać przetworzone z pełnym odświeżeniem. Folder pełnych danych skonfigurowany do odświeżania przyrostowego musi zawierać lokalizację pełnych danych.

Podczas edytowania źródła danych przejdź do okienka Wybierz tabelę i edytuj tabelę, którą chcesz odświeżyć.
W okienku Edytuj tabelę przewiń do pola wyboru Uruchom jednorazowe pełne odświeżanie i zaznacz je.
W przypadku plików inf. do przetwarzania plików plików, z których należy określić datę i datę, o godzinie ich przechowywania. Pełne dane plus dane przyrostowe rozpoczynają przetwarzanie po określonej dacie i godzinie. Na przykład, jeśli chcesz przeprowadzić częściowe odświeżanie/uzupełnianie danych do końca listopada, zachowując dane przyrostowe od początku grudnia do dzisiaj (30 grudnia), wprowadź 1 grudnia. Aby zastąpić wszystkie dane i zignorować dane w folderze przyrostowym, podaj przyszłą datę.
Wybierz Zamknij, by zapisać i zamknąć okienko.
Wybierz przycisk Zapisz, aby zastosować zmiany i wrócić do strony Źródła danych. To źródło danych jest w stanie Odświeżanie i można go odświeżyć.

Udostępnij za pośrednictwem