Przechwytywanie zmienionych danych z usługi Azure Data Lake Storage Gen2 do usługi Azure SQL Database przy użyciu zasobu przechwytywania zmian danych
DOTYCZY: Azure Data Factory Azure Synapse Analytics
Napiwek
Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
W tym artykule użyjesz interfejsu użytkownika usługi Azure Data Factory, aby utworzyć zasób przechwytywania zmian danych (CDC). Zasób pobiera zmienione dane ze źródła usługi Azure Data Lake Storage Gen2 i dodaje je do usługi Azure SQL Database w czasie rzeczywistym.
W tym artykule omówiono sposób wykonywania następujących zadań:
- Utwórz zasób CDC.
- Monitorowanie aktywności cdC.
Możesz zmodyfikować i rozwinąć wzorzec konfiguracji w tym artykule.
Wymagania wstępne
Przed rozpoczęciem procedur opisanych w tym artykule upewnij się, że masz następujące zasoby:
- Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, utwórz bezpłatne konto platformy Azure.
- Baza danych SQL. Usługa Azure SQL Database jest używana jako źródłowy magazyn danych. Jeśli nie masz bazy danych SQL, utwórz bazę danych w witrynie Azure Portal.
- Konto magazynu. Usługa Delta Lake jest przechowywana w usłudze Azure Data Lake Storage Gen2 jako docelowy magazyn danych. Jeśli nie masz konta magazynu, zobacz Tworzenie konta magazynu, aby zapoznać się z krokami, które należy utworzyć.
Tworzenie artefaktu CDC
Przejdź do okienka Autor w fabryce danych. Poniżej sekcji Potoki zostanie wyświetlony nowy artefakt najwyższego poziomu o nazwie Change Data Capture (wersja zapoznawcza).
Zatrzymaj wskaźnik myszy na przechwytywaniu zmian danych (wersja zapoznawcza) do momentu wyświetlenia trzech kropek. Następnie wybierz pozycję Zmień przechwytywanie danych (wersja zapoznawcza) Akcje.
Wybierz pozycję Nowa usługa CDC (wersja zapoznawcza). Ten krok otwiera okno wysuwane, aby rozpocząć proces z przewodnikiem.
Zostanie wyświetlony monit o nadenie nazwy zasobowi CDC. Domyślnie nazwa to "adfcdc" z liczbą, która zwiększa się o 1. Możesz zastąpić tę nazwę domyślną wybraną nazwą.
Użyj listy rozwijanej, aby wybrać źródło danych. W tym artykule wybierz pozycję RozdzielanyTekst.
Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.
Użyj obszaru Ustawienia źródła, aby opcjonalnie ustawić zaawansowane konfiguracje źródła, w tym ograniczniki kolumn i wierszy.
Jeśli te ustawienia źródłowe nie zostaną ręcznie edytowane, zostaną one ustawione na wartości domyślne.
Użyj przycisku Przeglądaj, aby wybrać folder danych źródłowych.
Po wybraniu ścieżki folderu wybierz pozycję Kontynuuj , aby ustawić element docelowy danych.
Możesz dodać wiele folderów źródłowych przy użyciu przycisku plus (+). Inne źródła muszą również używać tej samej połączonej usługi, która została już wybrana.
Wybierz wartość Typu docelowego przy użyciu listy rozwijanej. W tym artykule wybierz pozycję Azure SQL Database.
Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.
W przypadku tabel docelowych można utworzyć nową tabelę docelową lub wybrać istniejącą tabelę:
Aby utworzyć tabelę docelową, wybierz kartę Nowe jednostki , a następnie wybierz pozycję Edytuj nowe tabele.
Aby wybrać istniejącą tabelę, wybierz kartę Istniejące jednostki , a następnie użyj pola wyboru, aby wybrać tabelę. Użyj przycisku Podgląd, aby wyświetlić dane tabeli.
Jeśli istniejące tabele w obiekcie docelowym mają pasujące nazwy, są domyślnie wybierane w obszarze Istniejące jednostki. Jeśli nie, nowe tabele z pasującymi nazwami są tworzone w obszarze Nowe jednostki. Ponadto można edytować nowe tabele za pomocą przycisku Edytuj nowe tabele .
Możesz użyć pól wyboru, aby wybrać wiele tabel docelowych z bazy danych SQL. Po zakończeniu wybierania tabel docelowych wybierz pozycję Kontynuuj.
Zostanie wyświetlona nowa karta przechwytywania danych zmiany. Ta karta to studio CDC, w którym można skonfigurować nowy zasób.
Nowe mapowanie jest tworzone automatycznie. Możesz zaktualizować opcje Tabela źródłowa i Docelowa tabela dla mapowania, korzystając z list rozwijanych.
Po wybraniu tabel ich kolumny są domyślnie mapowane z włączonym przełącznikiem Automatyczne mapowanie . Automatyczna mapa automatycznie mapuje kolumny według nazwy w ujściu, pobiera zmiany nowej kolumny po ewolucji schematu źródłowego i przepływa te informacje do obsługiwanych typów ujścia.
Jeśli chcesz użyć automatycznej mapy i nie chcesz zmieniać żadnych mapowań kolumn, przejdź bezpośrednio do kroku 18.
Jeśli chcesz włączyć mapowania kolumn, wybierz mapowania i wyłącz przełącznik Automap . Następnie wybierz przycisk Mapowania kolumn, aby wyświetlić mapowania.
Możesz wrócić do automatycznego mapowania w dowolnym momencie, włączając przełącznik Automapa .
Wyświetl mapowania kolumn. Użyj list rozwijanych, aby edytować mapowania kolumn dla metody mapowania, kolumny źródłowej i kolumny Target.
Z poziomu tej strony można:
- Dodaj więcej mapowań kolumn przy użyciu przycisku Nowe mapowanie . Użyj list rozwijanych, aby dokonać wyboru dla metody mapowania, kolumny źródłowej i kolumny Target.
- Wybierz kolumnę Klucze , jeśli chcesz śledzić operację usuwania dla obsługiwanych typów ujścia.
- Wybierz przycisk Odśwież w obszarze Podgląd danych, aby zwizualizować sposób przeglądania danych w miejscu docelowym.
Po zakończeniu mapowania wybierz przycisk strzałki, aby powrócić do głównej kanwy cdC.
Możesz dodać więcej mapowań typu source-to-target w jednym artefaktie CDC. Użyj przycisku Edytuj, aby dodać więcej źródeł danych i elementów docelowych. Następnie wybierz pozycję Nowe mapowanie i użyj list rozwijanych, aby ustawić nowe źródło i element docelowy. Automatyczne mapowanie można włączyć lub wyłączyć dla każdego z tych mapowań niezależnie.
Po zakończeniu mapowania ustaw opóźnienie cdC przy użyciu przycisku Ustaw opóźnienie .
Wybierz opóźnienie usługi CDC, a następnie wybierz pozycję Zastosuj , aby wprowadzić zmiany.
Domyślnie opóźnienie jest ustawione na 15 minut. W przykładzie w tym artykule użyto opcji czasu rzeczywistego dla opóźnienia. Opóźnienie w czasie rzeczywistym stale pobiera zmiany w danych źródłowych w odstępach czasu krótszym niż 1 minuta.
W przypadku innych opóźnień (na przykład jeśli wybierzesz 15 minut), przechwytywanie zmian spowoduje przetworzenie danych źródłowych i odebranie wszelkich zmienionych danych od czasu ostatniego przetworzenia.
Uwaga
Jeśli obsługa jest rozszerzona na integrację danych przesyłanych strumieniowo (usługi Azure Event Hubs i źródła danych platformy Kafka), opóźnienie zostanie domyślnie ustawione na wartość Czasu rzeczywistego.
Po zakończeniu konfigurowania usługi CDC wybierz pozycję Opublikuj wszystko , aby opublikować zmiany.
Uwaga
Jeśli nie opublikujesz zmian, nie będzie można uruchomić zasobu usługi CDC. Przycisk Uruchom w następnym kroku będzie niedostępny.
Wybierz pozycję Rozpocznij , aby rozpocząć uruchamianie przechwytywania danych zmian.
Monitorowanie przechwytywania danych zmian
Otwórz okienko Monitorowanie przy użyciu jednej z następujących metod:
Wybierz pozycję Zmień przechwytywanie danych (wersja zapoznawcza), aby wyświetlić zasoby usługi CDC.
Okienko Przechwytywanie zmian danych zawiera informacje Źródło, Cel, Stan i Ostatnio przetworzone w celu przechwycenia danych zmian.
Wybierz nazwę usługi CDC, aby wyświetlić więcej szczegółów. Możesz zobaczyć, ile zmian (wstawiania, aktualizowania lub usuwania) zostało odczytanych i zapisanych wraz z innymi informacjami diagnostycznymi.
Jeśli skonfigurujesz wiele mapowań w przechwytywaniu zmian danych, każde mapowanie będzie wyświetlane jako inny kolor. Wybierz pasek, aby wyświetlić szczegółowe informacje dla każdego mapowania, lub użyj informacji diagnostycznych w dolnej części okienka.