Udostępnij za pośrednictwem


Przechwytywanie zmienionych danych z usługi Azure Data Lake Storage Gen2 do usługi Azure SQL Database przy użyciu zasobu przechwytywania zmian danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule użyjesz interfejsu użytkownika usługi Azure Data Factory, aby utworzyć zasób przechwytywania zmian danych (CDC). Zasób pobiera zmienione dane ze źródła usługi Azure Data Lake Storage Gen2 i dodaje je do usługi Azure SQL Database w czasie rzeczywistym.

W tym artykule omówiono sposób wykonywania następujących zadań:

  • Utwórz zasób CDC.
  • Monitorowanie aktywności cdC.

Możesz zmodyfikować i rozwinąć wzorzec konfiguracji w tym artykule.

Wymagania wstępne

Przed rozpoczęciem procedur opisanych w tym artykule upewnij się, że masz następujące zasoby:

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, utwórz bezpłatne konto platformy Azure.
  • Baza danych SQL. Usługa Azure SQL Database jest używana jako źródłowy magazyn danych. Jeśli nie masz bazy danych SQL, utwórz bazę danych w witrynie Azure Portal.
  • Konto magazynu. Usługa Delta Lake jest przechowywana w usłudze Azure Data Lake Storage Gen2 jako docelowy magazyn danych. Jeśli nie masz konta magazynu, zobacz Tworzenie konta magazynu, aby zapoznać się z krokami, które należy utworzyć.

Tworzenie artefaktu CDC

  1. Przejdź do okienka Autor w fabryce danych. Poniżej sekcji Potoki zostanie wyświetlony nowy artefakt najwyższego poziomu o nazwie Change Data Capture (wersja zapoznawcza).

    Zrzut ekranu przedstawiający nowy artefakt najwyższego poziomu umożliwiający przechwytywanie danych zmian w okienku Zasoby fabryki.

  2. Zatrzymaj wskaźnik myszy na przechwytywaniu zmian danych (wersja zapoznawcza) do momentu wyświetlenia trzech kropek. Następnie wybierz pozycję Zmień przechwytywanie danych (wersja zapoznawcza) Akcje.

    Zrzut ekranu przedstawiający przycisk akcji przechwytywania zmian danych wyświetlanych w nowym artefaktie najwyższego poziomu.

  3. Wybierz pozycję Nowa usługa CDC (wersja zapoznawcza). Ten krok otwiera okno wysuwane, aby rozpocząć proces z przewodnikiem.

    Zrzut ekranu przedstawiający listę akcji przechwytywania zmian danych.

  4. Zostanie wyświetlony monit o nadenie nazwy zasobowi CDC. Domyślnie nazwa to "adfcdc" z liczbą, która zwiększa się o 1. Możesz zastąpić tę nazwę domyślną wybraną nazwą.

    Zrzut ekranu przedstawiający pole tekstowe w celu zaktualizowania nazwy zasobu.

  5. Użyj listy rozwijanej, aby wybrać źródło danych. W tym artykule wybierz pozycję RozdzielanyTekst.

    Zrzut ekranu przedstawiający wysuwany proces z przewodnikiem z opcjami źródłowymi na liście rozwijanej.

  6. Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.

    Zrzut ekranu przedstawiający pole wyboru lub utworzenie połączonej usługi.

  7. Użyj obszaru Ustawienia źródła, aby opcjonalnie ustawić zaawansowane konfiguracje źródła, w tym ograniczniki kolumn i wierszy.

    Zrzut ekranu przedstawiający zaawansowane ustawienia źródła w celu ustawienia ograniczników.

    Jeśli te ustawienia źródłowe nie zostaną ręcznie edytowane, zostaną one ustawione na wartości domyślne.

  8. Użyj przycisku Przeglądaj, aby wybrać folder danych źródłowych.

    Zrzut ekranu przedstawiający ikonę folderu do przeglądania ścieżki folderu.

  9. Po wybraniu ścieżki folderu wybierz pozycję Kontynuuj , aby ustawić element docelowy danych.

    Zrzut ekranu przedstawiający przycisk Kontynuuj w procesie z przewodnikiem, aby wybrać cele danych.

    Możesz dodać wiele folderów źródłowych przy użyciu przycisku plus (+). Inne źródła muszą również używać tej samej połączonej usługi, która została już wybrana.

  10. Wybierz wartość Typu docelowego przy użyciu listy rozwijanej. W tym artykule wybierz pozycję Azure SQL Database.

    Zrzut ekranu przedstawiający menu rozwijane wszystkich typów docelowych danych.

  11. Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.

    Zrzut ekranu przedstawiający pole wyboru lub utworzenie połączonej usługi do celu danych.

  12. W przypadku tabel docelowych można utworzyć nową tabelę docelową lub wybrać istniejącą tabelę:

    • Aby utworzyć tabelę docelową, wybierz kartę Nowe jednostki , a następnie wybierz pozycję Edytuj nowe tabele.

      Zrzut ekranu przedstawiający kartę , aby utworzyć nowe tabele dla elementu docelowego.

    • Aby wybrać istniejącą tabelę, wybierz kartę Istniejące jednostki , a następnie użyj pola wyboru, aby wybrać tabelę. Użyj przycisku Podgląd, aby wyświetlić dane tabeli.

      Zrzut ekranu przedstawiający kartę, aby wybrać tabele dla elementu docelowego.

    Jeśli istniejące tabele w obiekcie docelowym mają pasujące nazwy, są domyślnie wybierane w obszarze Istniejące jednostki. Jeśli nie, nowe tabele z pasującymi nazwami są tworzone w obszarze Nowe jednostki. Ponadto można edytować nowe tabele za pomocą przycisku Edytuj nowe tabele .

  13. Możesz użyć pól wyboru, aby wybrać wiele tabel docelowych z bazy danych SQL. Po zakończeniu wybierania tabel docelowych wybierz pozycję Kontynuuj.

    Zrzut ekranu przedstawiający przycisk Kontynuuj w procesie z przewodnikiem, aby przejść do następnego kroku.

  14. Zostanie wyświetlona nowa karta przechwytywania danych zmiany. Ta karta to studio CDC, w którym można skonfigurować nowy zasób.

    Zrzut ekranu przedstawiający studio przechwytywania zmian danych.

    Nowe mapowanie jest tworzone automatycznie. Możesz zaktualizować opcje Tabela źródłowa i Docelowa tabela dla mapowania, korzystając z list rozwijanych.

    Zrzut ekranu przedstawiający mapowanie typu source-to-target w studio przechwytywania zmian danych.

  15. Po wybraniu tabel ich kolumny są domyślnie mapowane z włączonym przełącznikiem Automatyczne mapowanie . Automatyczna mapa automatycznie mapuje kolumny według nazwy w ujściu, pobiera zmiany nowej kolumny po ewolucji schematu źródłowego i przepływa te informacje do obsługiwanych typów ujścia.

    Jeśli chcesz użyć automatycznej mapy i nie chcesz zmieniać żadnych mapowań kolumn, przejdź bezpośrednio do kroku 18.

    Zrzut ekranu przedstawiający przełącznik automatycznego mapowania włączony.

    Jeśli chcesz włączyć mapowania kolumn, wybierz mapowania i wyłącz przełącznik Automap . Następnie wybierz przycisk Mapowania kolumn, aby wyświetlić mapowania.

    Zrzut ekranu przedstawiający wybór mapowania, przełącznik automatycznego mapowania wyłączony i przycisk mapowania kolumn.

    Możesz wrócić do automatycznego mapowania w dowolnym momencie, włączając przełącznik Automapa .

  16. Wyświetl mapowania kolumn. Użyj list rozwijanych, aby edytować mapowania kolumn dla metody mapowania, kolumny źródłowej i kolumny Target.

    Zrzut ekranu przedstawiający stronę do edytowania mapowań kolumn.

    Z poziomu tej strony można:

    • Dodaj więcej mapowań kolumn przy użyciu przycisku Nowe mapowanie . Użyj list rozwijanych, aby dokonać wyboru dla metody mapowania, kolumny źródłowej i kolumny Target.
    • Wybierz kolumnę Klucze , jeśli chcesz śledzić operację usuwania dla obsługiwanych typów ujścia.
    • Wybierz przycisk Odśwież w obszarze Podgląd danych, aby zwizualizować sposób przeglądania danych w miejscu docelowym.

    Zrzut ekranu przedstawiający przycisk dodawania mapowań kolumn, listę rozwijaną metod mapowania, kolumnę Klucze i przycisk Odśwież.

  17. Po zakończeniu mapowania wybierz przycisk strzałki, aby powrócić do głównej kanwy cdC.

    Zrzut ekranu przedstawiający przycisk, aby wrócić do strony mapowania tabeli.

  18. Możesz dodać więcej mapowań typu source-to-target w jednym artefaktie CDC. Użyj przycisku Edytuj, aby dodać więcej źródeł danych i elementów docelowych. Następnie wybierz pozycję Nowe mapowanie i użyj list rozwijanych, aby ustawić nowe źródło i element docelowy. Automatyczne mapowanie można włączyć lub wyłączyć dla każdego z tych mapowań niezależnie.

    Zrzut ekranu przedstawiający przycisk dodawania nowych źródeł i przycisku w celu ustawienia nowego mapowania źródła na cel.

  19. Po zakończeniu mapowania ustaw opóźnienie cdC przy użyciu przycisku Ustaw opóźnienie .

    Zrzut ekranu przedstawiający przycisk Ustaw opóźnienie w górnej części kanwy.

  20. Wybierz opóźnienie usługi CDC, a następnie wybierz pozycję Zastosuj , aby wprowadzić zmiany.

    Domyślnie opóźnienie jest ustawione na 15 minut. W przykładzie w tym artykule użyto opcji czasu rzeczywistego dla opóźnienia. Opóźnienie w czasie rzeczywistym stale pobiera zmiany w danych źródłowych w odstępach czasu krótszym niż 1 minuta.

    W przypadku innych opóźnień (na przykład jeśli wybierzesz 15 minut), przechwytywanie zmian spowoduje przetworzenie danych źródłowych i odebranie wszelkich zmienionych danych od czasu ostatniego przetworzenia.

    Zrzut ekranu przedstawiający opcje ustawiania opóźnienia.

    Uwaga

    Jeśli obsługa jest rozszerzona na integrację danych przesyłanych strumieniowo (usługi Azure Event Hubs i źródła danych platformy Kafka), opóźnienie zostanie domyślnie ustawione na wartość Czasu rzeczywistego.

  21. Po zakończeniu konfigurowania usługi CDC wybierz pozycję Opublikuj wszystko , aby opublikować zmiany.

    Zrzut ekranu przedstawiający przycisk publikowania w górnej części kanwy.

    Uwaga

    Jeśli nie opublikujesz zmian, nie będzie można uruchomić zasobu usługi CDC. Przycisk Uruchom w następnym kroku będzie niedostępny.

  22. Wybierz pozycję Rozpocznij , aby rozpocząć uruchamianie przechwytywania danych zmian.

    Zrzut ekranu przedstawiający przycisk Rozpocznij w górnej części kanwy.

Monitorowanie przechwytywania danych zmian

  1. Otwórz okienko Monitorowanie przy użyciu jednej z następujących metod:

    • Wybierz pozycję Monitoruj w witrynie Azure Portal.

      Zrzut ekranu przedstawiający przycisk Monitoruj w witrynie Azure Portal.

    • Wybierz ikonę monitorowania z projektanta CDC.

      Zrzut ekranu przedstawiający ikonę monitorowania w górnej części kanwy usługi CDC.

  2. Wybierz pozycję Zmień przechwytywanie danych (wersja zapoznawcza), aby wyświetlić zasoby usługi CDC.

    Zrzut ekranu przedstawiający przycisk Zmień przechwytywanie danych.

    Okienko Przechwytywanie zmian danych zawiera informacje Źródło, Cel, Stan i Ostatnio przetworzone w celu przechwycenia danych zmian.

    Zrzut ekranu przedstawiający przegląd strony monitorowania przechwytywania danych zmian.

  3. Wybierz nazwę usługi CDC, aby wyświetlić więcej szczegółów. Możesz zobaczyć, ile zmian (wstawiania, aktualizowania lub usuwania) zostało odczytanych i zapisanych wraz z innymi informacjami diagnostycznymi.

    Zrzut ekranu przedstawiający szczegółowe monitorowanie wybranego przechwytywania danych zmian.

    Jeśli skonfigurujesz wiele mapowań w przechwytywaniu zmian danych, każde mapowanie będzie wyświetlane jako inny kolor. Wybierz pasek, aby wyświetlić szczegółowe informacje dla każdego mapowania, lub użyj informacji diagnostycznych w dolnej części okienka.

    Zrzut ekranu przedstawiający szczegółowe informacje o monitorowaniu przechwytywania zmian z wieloma mapowaniami typu source-to-target.

    Zrzut ekranu przedstawiający szczegółowy podział poszczególnych mapowań w artefaktu przechwytywania zmian danych.