Udostępnij za pośrednictwem


Przechwytywanie zmian danych w usługach Azure Data Factory i Azure Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano przechwytywanie zmian danych (CDC) w usłudze Azure Data Factory.

Aby dowiedzieć się więcej, zobacz Omówienie usługi Azure Data Factory lub Omówienie usługi Azure Synapse.

Omówienie

Podczas przeprowadzania integracji danych i procesów ETL w chmurze, zadania mogą działać lepiej i efektywniej. Dzieje się tak, gdy odczytujesz tylko dane źródłowe, które uległy zmianie od ostatniego uruchomienia potoku, zamiast zawsze wykonywać zapytania dotyczące całego zestawu danych przy każdym uruchomieniu. Usługa ADF oferuje wiele różnych metod, dzięki którym można łatwo pobierać wyłącznie dane różnicowe z ostatniego uruchomienia.

Zasób fabryczny przechwytywania zmian danych

Najprostszym i najszybszym sposobem rozpoczęcia pracy z Azure Data Factory wykorzystując funkcję CDC jest użycie zasobu przechwytywania zmian danych na poziomie fabryki. W głównym projektancie potoku wybierz pozycję Nowy w obszarze Zasoby fabryki, aby utworzyć nowe przechwytywanie zmian danych. Zasób fabryki CDC udostępnia środowisko przeglądu konfiguracji, w którym można wybrać źródła i miejsca docelowe, zastosować opcjonalne przekształcenia, a następnie rozpocząć przechwytywanie danych. Dzięki zasobom CDC nie musisz projektować potoków ani działań przepływu danych. Opłaty są również naliczane tylko za cztery rdzenie przepływów danych ogólnego przeznaczenia podczas przetwarzania danych. Możesz ustawić preferowane opóźnienie, którego usługa ADF używa do wznawiania i wyszukiwania zmienionych danych. Ta początkowa kontrola jest jedynym momentem, kiedy naliczane są opłaty. Zasób CDC najwyższego poziomu jest również metodą ADF ciągłego działania Twoich procesów. W usłudze ADF potoki działają jedynie w trybie wsadowym, ale zasób CDC może działać w sposób ciągły.

Wbudowane rejestrowanie zmian danych w przepływie danych w ramach mapowania

Przepływ danych mapowania w usłudze ADF może automatycznie wykrywać i wyodrębniać zmienione dane, w tym wiersze wstawione, zaktualizowane i usunięte ze źródłowych baz danych. Do zidentyfikowania zmian nie są wymagane żadne kolumny sygnatury czasowej ani identyfikatorów, ponieważ w bazach danych są używane natywne technologie przechwytywania danych zmian. Łącząc przekształcenie źródłowe i przekształcenie ujściowe z zestawem danych bazy danych w przepływie danych mapowanego, można zobaczyć, że zmiany wprowadzone w bazie źródłowej będą automatycznie zastosowane w bazie docelowej, co pozwala łatwo zsynchronizować dane między dwiema tabelami. Można również dodać dowolne przekształcenia między dowolną logiką biznesową w celu przetwarzania danych różnicowych. Podczas definiowania miejsca docelowego danych ujścia można ustawić operacje wstawiania, aktualizowania, upsert i usuwania ujścia bez konieczności przekształcenia Alter Row, ponieważ usługa ADF może automatycznie wykrywać twórców wierszy.

Obsługiwane łączniki

Automatyczne wyodrębnianie przyrostowe w przepływie danych mapowania

Niedawno zaktualizowane wiersze lub zaktualizowane pliki mogą być automatycznie wykrywane i wyodrębniane przy użyciu przepływu danych mapowania ADF z zasobów źródłowych. Aby uzyskać dane różnicowe z baz danych, do zidentyfikowania zmian wymagana jest kolumna przyrostowa. Jeśli chcesz załadować nowe pliki lub zaktualizować pliki tylko z magazynu danych, przepływ danych ADF opiera się wyłącznie na czasie ostatniej modyfikacji plików.

Obsługiwane łączniki

Wyodrębnianie różnicowych danych zarządzanych przez klienta w potoku danych

Zawsze możesz utworzyć własny potok wyodrębniania danych różnicowych dla wszystkich obsługiwanych magazynów danych usługi ADF, w tym przy użyciu działania wyszukiwania, aby uzyskać wartość limitu przechowywanego w zewnętrznej tabeli sterowania, działanie kopiowania lub działanie przepływu mapowania danych w celu wykonywania zapytań dotyczących danych różnicowych względem sygnatury czasowej lub kolumny identyfikatorów oraz działania sp w celu zapisania nowej wartości limitu z powrotem do tabeli kontroli zewnętrznej na potrzeby następnego uruchomienia. Gdy chcesz załadować nowe pliki tylko z magazynu, możesz usuwać pliki za każdym razem, gdy zostaną pomyślnie przeniesione do miejsca docelowego, lub użyć folderów partycjonowanych według czasu, nazw plików, lub czasu ostatniej modyfikacji, aby zidentyfikować nowe pliki.

Najlepsze praktyki

Zmienianie przechwytywania danych z baz danych

  • Natywne przechwytywanie danych zmian jest zawsze zalecane jako najprostszy sposób uzyskiwania danych zmian. Powoduje to również znacznie mniejsze obciążenie bazy danych, przy wyodrębnianiu danych zmian przez usługę ADF do dalszego przetwarzania.
  • Jeśli magazyny danych nie są częścią listy łączników ADF z natywną obsługą przechwytywania zmian danych, zalecamy sprawdzenie opcji automatycznego wyodrębniania przyrostowego, gdzie wystarczy wprowadzić kolumnę przyrostową w celu uchwycenia zmian. Usługa ADF zajmie się resztą, w tym tworzeniem dynamicznego zapytania na potrzeby ładowania różnicowego i zarządzaniem punktem kontrolnym dla każdego uruchomienia działania.
  • Wyodrębnianie danych różnicowych zarządzanych przez klienta w ramach potoku danych obejmuje wszystkie obsługiwane bazy danych usługi ADF i zapewnia elastyczność samodzielnej kontroli nad wszystkimi elementami.

Zmiana przechwytywania plików z systemów magazynowania opartych na plikach

  • Jeśli chcesz załadować dane z usługi Azure Blob Storage, Azure Data Lake Storage Gen2 lub Azure Data Lake Storage Gen1, przepływ mapowania danych umożliwia pobranie nowych lub zaktualizowanych plików jedynie za pomocą prostego wyboru. Jest to najprostszy i zalecany sposób na osiągnięcie obciążenia różnicowego z tych magazynów opartych na plikach w przepływie mapowania danych.
  • Możesz uzyskać więcej najlepszych rozwiązań.

Punkt kontrolny

Po włączeniu wbudowanych opcji przechwytywania zmian danych lub automatycznego wyodrębniania przyrostowego w przepływie danych mapowania w ADF, ADF pomaga zarządzać punktem kontrolnym, aby upewnić się, że każde uruchomienie aktywności automatycznie czyta jedynie te dane źródłowe, które zmieniły się od czasu ostatniego uruchomienia potoku. Domyślnie punkt kontrolny jest powiązany z nazwą pipeline i czynności. Jeśli zmienisz nazwę potoku lub nazwę działania, punkt kontrolny zostanie zresetowany, co oznacza, że możesz zacząć od nowa lub pobrać zmiany przy następnym uruchomieniu. Jeśli chcesz zmienić nazwę potoku lub działania, ale nadal zachować punkt kontrolny, aby automatycznie uzyskać zmienione dane z ostatniego uruchomienia, użyj w przepływie danych swojego własnego klucza punktu kontrolnego, aby to osiągnąć. Reguła nazewnictwa dla własnego klucza kontroli punktu jest taka sama jak dla usług połączonych, zestawów danych, przepływów danych i potoków.

Podczas debugowania rury, ta funkcja działa tak samo. Punkt kontrolny jest resetowany podczas odświeżania przeglądarki podczas uruchamiania debugowania. Gdy jesteś zadowolony z wyniku potoku z uruchomienia debugowania, możesz przystąpić do opublikowania i uruchomienia potoku. W momencie, gdy po raz pierwszy uruchamiasz opublikowany potok, automatycznie uruchamia się ponownie od początku lub zaczyna pobierać zmiany od tego momentu.

W sekcji monitorowania zawsze masz możliwość ponownego uruchomienia potoku. Kiedy to robisz, zmienione dane są zawsze zapisywane z poprzedniego punktu kontrolnego wybranego przebiegu potoku.

Samouczki

Poniżej przedstawiono samouczki umożliwiające rozpoczęcie przechwytywania zmian w usłudze Azure Data Factory i usłudze Azure Synapse Analytics.

Szablony

Poniżej przedstawiono szablony do używania przechwytywania zmian danych w usłudze Azure Data Factory i usłudze Azure Synapse Analytics.