Teilen über


Erfassen geänderter Daten aus Azure Data Lake Storage Gen2 in Azure SQL-Datenbank mithilfe einer Change Data Capture-Ressource

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

In diesem Artikel verwenden Sie die Benutzeroberfläche von Azure Data Factory, um eine CDC-Ressource (Change Data Capture) zu erstellen. Die Ressource erfasst geänderte Daten aus einer Azure Data Lake Storage Gen2-Quelle und fügt sie in Echtzeit Azure SQL-Datenbank hinzu.

In diesem Artikel werden folgende Vorgehensweisen behandelt:

  • Erstellen einer CDC-Ressource
  • Überwachen der CDC-Aktivität

Sie können das Konfigurationsmuster in diesem Artikel ändern und erweitern.

Voraussetzungen

Bevor Sie mit den Verfahren in diesem Artikel beginnen, stellen Sie sicher, dass Sie über folgende Ressourcen verfügen:

  • Azure-Abonnement. Erstellen Sie ein kostenloses Azure-Konto, falls Sie nicht über ein Azure-Abonnement verfügen.
  • SQL-Datenbank. Sie verwenden Azure SQL-Datenbank als Quelldatenspeicher. Wenn Sie keine SQL-Datenbank besitzen, erstellen Sie eine im Azure-Portal.
  • Speicherkonto: Sie verwenden eine in Azure Data Lake Storage Gen2 gespeicherte Delta Lake-Instanz als Zieldatenspeicher. Wenn Sie kein Speicherkonto besitzen, finden Sie unter Erstellen eines Speicherkontos die Schritte zum Erstellen eines solchen Kontos.

Erstellen eines CDC-Artefakts

  1. Navigieren Sie in Ihrer Data Factory zum Bereich Autor. Unter Pipelines wird ein neues Artefakt der obersten Ebene mit dem Namen Change Data Capture (Vorschau) angezeigt.

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Zeigen Sie auf Change Data Capture (Vorschau), bis drei Punkte angezeigt werden. Wählen Sie dann Change Data Capture-Aktionen (Vorschau) aus.

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Wählen Sie Neues CDC (Vorschau) aus. Dadurch wird ein Flyout geöffnet, um mit dem geführten Prozess zu beginnen.

    Screenshot of a list of change data capture actions.

  4. Sie werden aufgefordert, Ihre CDC-Ressource zu benennen. Standardmäßig lautet der Name „adfcdc“ mit einer Zahl, die um 1 erhöht wird. Sie können diesen Standardnamen durch einen von Ihnen ausgewählten Namen ersetzen.

    Screenshot of the text box to update the name of a resource.

  5. Verwenden Sie die Dropdownliste, um Ihre Datenquelle auszuwählen. Wählen Sie in diesem Artikel DelimitedText aus.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.

    Screenshot of the box to choose or create a linked service.

  7. Verwenden Sie den Bereich Quelleinstellungen, um optional erweiterte Quellkonfigurationen festzulegen, einschließlich Spalten- und Zeilentrennzeichen.

    Screenshot of advanced source settings to set delimiters.

    Wenn Sie diese Quelleinstellungen nicht manuell bearbeiten, werden sie auf die Standardwerte festgelegt.

  8. Verwenden Sie die Schaltfläche Durchsuchen, um Ihren Quelldatenordner auszuwählen.

    Screenshot of a folder icon to browse for a folder path.

  9. Nachdem Sie einen Ordnerpfad ausgewählt haben, wählen Sie Weiter aus, um Ihr Datenziel festzulegen.

    Screenshot of the Continue button in the guided process to select data targets.

    Mit der Plusschaltfläche (+) können Sie mehrere Quellordner hinzufügen. Die anderen Quellen müssen ebenfalls denselben verknüpften Dienst verwenden, den Sie bereits ausgewählt haben.

  10. Wählen Sie mithilfe der Dropdownliste einen Wert für Zieltyp aus. Wählen Sie in diesem Artikel Azure SQL-Datenbank aus.

    Screenshot of a dropdown menu of all data target types.

  11. Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.

    Screenshot of the box to choose or create a linked service to your data target.

  12. Unter Zieltabellen können Sie eine neue Zieltabelle erstellen oder eine vorhandene Tabelle auswählen:

    • Um eine Zieltabelle zu erstellen, wählen Sie die Registerkarte Neue Entitäten und dann Neue Tabellen bearbeiten aus.

      Screenshot of the tab to create new tables for your target.

    • Um eine vorhandene Tabelle auszuwählen, wählen Sie die Registerkarte Vorhandene Entitäten aus, und verwenden Sie dann das Kontrollkästchen, um eine Tabelle auszuwählen. Über die Schaltfläche Vorschau können Sie Ihre Tabellendaten anzeigen.

      Screenshot of the tab to choose tables for your target.

    Wenn vorhandene Tabellen am Ziel übereinstimmende Namen aufweisen, werden sie standardmäßig unter Vorhandene Entitäten ausgewählt. Andernfalls werden neue Tabellen mit übereinstimmenden Namen unter Neue Entitäten erstellt. Darüber hinaus können Sie neue Tabellen über die Schaltfläche Neue Tabellen bearbeiten bearbeiten.

  13. Sie können die Kontrollkästchen verwenden, um mehrere Zieltabellen aus Ihrer SQL-Datenbank auszuwählen. Nachdem Sie die Auswahl der Zieltabellen abgeschlossen haben, wählen Sie Weiter aus.

    Screenshot of the Continue button in the guided process to proceed to the next step.

  14. Eine neue Registerkarte zum Erfassen von Änderungsdaten wird angezeigt. Diese Registerkarte ist die CDC Studio-Instanz, in der Sie Ihre neue Ressource konfigurieren können.

    Screenshot of the change data capture studio.

    Eine neue Zuordnung wird automatisch für Sie erstellt. Sie können die Auswahl für Quelltabelle und Zieltabelle Ihrer Zuordnung mithilfe der Dropdownlisten aktualisieren.

    Screenshot of the source-to-target mapping in the change data capture studio.

  15. Nachdem Sie Ihre Tabellen ausgewählt haben, werden deren Spalten standardmäßig zugeordnet, wobei die Umschaltfläche Automatische Zuordnung aktiviert ist. Die automatische Zuordnung ordnet die Spalten in der Senke automatisch nach Namen zu, übernimmt neue Spaltenänderungen, wenn sich das Quellschema weiterentwickelt, und überträgt diese Informationen an die unterstützten Senkentypen.

    Wenn Sie Automatische Zuordnung verwenden und keine Spaltenzuordnungen ändern möchten, fahren Sie direkt mit Schritt 18 fort.

    Screenshot of the toggle for automatic mapping turned on.

    Wenn Sie die Spaltenzuordnungen aktivieren möchten, wählen Sie die Zuordnungen aus, und deaktivieren Sie die Umschaltfläche Automatische Zuordnung. Wählen Sie dann die Schaltfläche Spaltenzuordnungen aus, um die Zuordnungen anzuzeigen.

    Screenshot of mapping selection, the toggle for automatic mapping turned off, and the button for column mappings.

    Sie können jederzeit zur automatischen Zuordnung zurückkehren, indem Sie die Umschaltfläche Automatische Zuordnung aktivieren.

  16. Zeigen Sie Ihre Spaltenzuordnungen an. Verwenden Sie die Dropdownlisten, um Ihre Spaltenzuordnungen für Zuordnungsmethode, Quellspalte und Zielspalte zu bearbeiten.

    Screenshot of the page for editing column mappings.

    Auf der Seite haben Sie folgende Möglichkeiten:

    • Fügen Sie mithilfe der Schaltfläche Neue Zuordnung weitere Spaltenzuordnungen hinzu. Verwenden Sie die Dropdownlisten, um eine Auswahl für Zuordnungsmethode, Quellspalte und Zielspalte zu treffen.
    • Wenn Sie den Löschvorgang für unterstützte Senkentypen nachverfolgen möchten, wählen Sie die Spalte Schlüssel aus.
    • Wählen Sie die Schaltfläche Aktualisieren unter Datenvorschau aus, um zu visualisieren, wie die Daten im Ziel aussehen.

    Screenshot of the button for adding column mappings, the dropdown list for mapping methods, the Keys column, and the Refresh button.

  17. Wenn die Zuordnung fertig ist, wählen Sie die Pfeilschaltfläche aus, um zur CDC-Hauptcanvas zurückzukehren.

    Screenshot of the button to go back to the table mapping page.

  18. Sie können in einem einzelnen CDC-Artefakt mehrere Zuordnungen zwischen Quelle und Ziel hinzufügen. Verwenden Sie die Schaltfläche Bearbeiten, um weitere Datenquellen und Ziele hinzuzufügen. Wählen Sie dann Neue Zuordnung aus, und verwenden Sie die Dropdownlisten, um eine neue Quelle und ein neues Ziel festzulegen. Sie können Automatische Zuordnung für jede dieser Zuordnungen unabhängig aktivieren oder deaktivieren.

    Screenshot of the button to add new sources and the button to set a new source-to-target mapping.

  19. Geben Sie nach Abschluss der Zuordnungen mithilfe der Schaltfläche Wartezeit festlegen die CDC-Wartezeit an.

    Screenshot of the Set Latency button at the top of the canvas.

  20. Wählen Sie die Wartezeit Ihrer CDC-Instanz aus, und wählen Sie dann Übernehmen aus, um die Änderungen vorzunehmen.

    Standardmäßig ist die Wartezeit auf 15 Minuten festgelegt. Im Beispiel in diesem Artikel wird die Option Echtzeit für die Wartezeit verwendet. Mit der Wartezeit „Echtzeit“ werden kontinuierlich Änderungen in Ihren Quelldaten in einem Intervall von weniger als einer Minute erfasst.

    Bei anderen Wartezeiten (beispielsweise bei Auswahl von 15 Minuten) verarbeitet Change Data Capture Ihre Quelldaten und erfasst alle geänderten Daten seit dem Zeitpunkt der letzten Verarbeitung.

    Screenshot of the options for setting latency.

    Hinweis

    Wenn die Unterstützung auf die Streamingdatenintegration (Azure Event Hubs- und Kafka-Datenquellen) erweitert wird, wird die Wartezeit standardmäßig auf Echtzeit festgelegt.

  21. Nachdem Sie Ihre CDC-Instanz konfiguriert haben, wählen Sie Alle veröffentlichen aus, um Ihre Änderungen zu veröffentlichen.

    Screenshot of the publish button at the top of the canvas.

    Hinweis

    Wenn Sie Ihre Änderungen nicht veröffentlichen, können Sie die CDC-Ressource nicht starten. Die Schaltfläche Starten im nächsten Schritt ist nicht verfügbar.

  22. Wählen Sie Starten aus, um mit der Ausführung von Change Data Capture zu beginnen.

    Screenshot of the Start button at the top of the canvas.

Überwachen Ihrer Change Data Capture-Instanz

  1. Öffnen Sie den Bereich Überwachen mit einer der folgenden Methoden:

    • Wählen Sie im Azure-Portal die Option Überwachen aus.

      Screenshot of the Monitor button in the Azure portal.

    • Wählen Sie im CDC-Designer das Überwachungssymbol aus.

      Screenshot of the monitoring icon at the top of the CDC canvas.

  2. Wählen Sie Change Data Capture (Vorschau) aus, um Ihre CDC-Ressourcen anzuzeigen.

    Screenshot of the Change Data Capture button.

    Im Bereich Change Data Capture werden die Informationen für Quelle, Ziel, Status und Zuletzt verarbeitete für Ihre Change Data Capture-Instanz angezeigt.

    Screenshot of an overview of the change data capture monitoring page.

  3. Wählen Sie den Namen der CDC aus, um weitere Details anzuzeigen. Sie können sehen, wie viele Änderungen (Einfügen, Aktualisieren oder Löschen) gelesen und geschrieben wurden, und erhalten weitere Diagnoseinformationen.

    Screenshot of the detailed monitoring of a selected change data capture.

    Wenn Sie in Ihrer Change Data Capture-Instanz mehrere Zuordnungen eingerichtet haben, wird jede Zuordnung in einer anderen Farbe angezeigt. Wählen Sie den Balken aus, um spezifische Details für jede Zuordnung anzuzeigen, oder verwenden Sie die Diagnoseinformationen unten im Bereich.

    Screenshot of the detailed monitoring information for a change data capture with multiple source-to-target mappings.

    Screenshot of a detailed breakdown of each mapping in a change data capture artifact.