Erweiterte Konfigurationsoptionen in Azure Synapse Link

Artikel
03/28/2023

Azure Synapse Link bietet mehrere Möglichkeiten zum Schreiben und Lesen Ihrer Daten für verschiedene analytische Szenarien.

Hinweis

Azure Synapse Link for Dataverse war früher als „In Data Lake exportieren“ bekannt. Der Dienst wurde mit Wirkung zum Mai 2021 umbenannt und exportiert weiterhin Daten nach Azure Data Lake sowie Azure Synapse Analytics.

Dieser Artikel befasst sich mit:

In-Place-Updates vs. Nur-anhängen-Schreiben.
Benutzer-spezifische Datenpartitionierung.

Direkten Updates im Vergleich zu Schreibvorgängen, die nur angehängt werden

Beim Schreiben von Dataverse Tabellendaten zum Azure Data Lake, basierend auf dem createdOn Wert, dh Datum und Uhrzeit der Erstellung des Datensatzes, stehen zwei verschiedene Einstellungen zur Auswahl. Das sind Direkter Update und Nur anhängen.

Die Standardeinstellung (für Tabellen, in denen createdOn verfügbar ist) ist eine direkte Aktualisierung oder ein Upsert (Aktualisierung oder Einfügung) der inkrementellen Daten im Ziel. Wenn die Änderung neu ist und keine entsprechende Zeile im Lake vorhanden ist, werden im Falle einer Erstellung die Zieldateien gescannt und die Änderungen in die entsprechende Dateipartition im Lake eingefügt. Wenn es sich bei der Änderung um eine Aktualisierung handelt und eine Zeile im Lake vorhanden ist, wird die entsprechende Datei im Lake mit den inkrementellen Daten aktualisiert und nicht eingefügt. Mit anderen Worten, die Standardeinstellung für alle CUD (erstellen, aktualisieren, löschen)-Änderungen in Dataverse Tabellen, wo createdOn verfügbar ist es, eine direkte Aktualisierung im Ziel in Azure Data Lake durchzuführen.

Sie können das Standardverhalten eines direkten Updates mithilfe einer optionalen Einstellung namens Nur anhängen ändern. Anstatt eines direkten Update im Modus Nur anhängen werden inkrementelle Daten von Dataverse Tabellen an die entsprechende Dateipartition im Lake angehängt. Dies ist eine Einstellung pro Tabelle und als Kontrollkästchen unter Erweitert > Erweiterte Konfigurationseinstellungen anzeigen verfügbar. Für Dataverse Tabellen, bei denen Nur anhängen aktiviert ist, werden alle CUD-Änderungen schrittweise an die entsprechenden Zieldateien im Lake angehängt. Wenn Sie diese Option auswählen, ist die Partitionsstrategie standardmäßig auf Jahr festgelegt. Wenn Daten in den Data Lake geschrieben werden, werden sie auf jährlicher Basis partitioniert. Nur anfügen ist auch die Standardeinstellung für Dataverse-Tabellen, die keinen createdOn-Wert haben.

In der folgenden Tabelle wird beschrieben, wie Zeilen im Lake gegen CUD-Ereignisse für jede der Datenschreiboptionen behandelt werden.

Veranstaltung	Direkter Update	Nur anfügen
Erstellen	Die Zeile wird in die Partitionsdatei eingefügt und basiert auf dem `createdOn` Wert in der Zeile.	Die Zeile wird am Ende der Partitionsdatei hinzugefügt und basiert auf dem `createdOn` Wert des Datensatzes.
Aktualisieren	Wenn die Zeile in der Partitionsdatei vorhanden ist, wird sie durch aktualisierte Daten ersetzt oder aktualisiert. Wenn sie nicht existiert, wird sie in die Datei eingefügt.	Die Zeile wird zusammen mit der aktualisierten Version am Ende der Partitionsdatei hinzugefügt.
Entf	Wenn die Zeile in der Partitionsdatei vorhanden ist, wird sie aus der Datei entfernt.	Die Zeile wird zusammen mit der aktualisierten Version am Ende der Partitionsdatei mit `IsDelete column = True` hinzugefügt.

Hinweis

Für Dataverse Tabellen, bei denen die Option Nur anhängen aktiviert ist, wird beim Löschen einer Zeile in der Quelle die Zeile im Lake nicht gelöscht oder entfernt. Stattdessen wird die gelöschte Zeile als neue Zeile im Lake angehängt und die Spalte isDeleted wird auf Wahr gesetzt.

Der ungültige Lesevorgang (ALLOW_INCONSISTENT_READS) für serverloses Lesen ist für den „Nur anhängen“-Modus aktiviert. ALLOW_INCONSISTENT_READS bedeutet, dass der Benutzer die Dateien lesen kann, die ständig geändert werden können, während die SELECT-Abfrage ausgeführt wird. Die Ergebnisse sind konsistent und entsprechen dem Lesen einer Momentaufnahme der Datei. (Aufgrund der unterschiedlichen Erstellungszeit der Momentaufnahme entspricht dies nicht der Isolierung von Datenbank-Momentaufnahmen.)

Nicht alle CUD-Änderungen werden in nur anhängen erfasst: Der Synapse Link verarbeitet Änderungen an Daten in Gruppen oder „Batches“, bevor sie im Data Lake veröffentlicht werden. Wenn der Benutzer innerhalb eines kurzen Zeitintervalls Änderungen vornimmt, werden daher nicht alle CUD-Änderungen im Data Lake erfasst.

Hier sind einige weitere Details darüber, wann Sie eine der Optionen verwenden sollten.

In-situ aktualisieren: Diese Option ist die Standardeinstellung und wird nur empfohlen, wenn Sie eine direkte Verbindung zu den Daten im Lake herstellen möchten und den aktuellen Status benötigen (kein Verlauf, keine inkrementellen Änderungen). Die Datei enthält das vollständige DataSet und kann über Power BI oder durch Kopieren des gesamten DataSet für ETL-Pipelines (Extrahieren, Übertragen, Laden) verwendet werden.
Nur anhängen: Wählen Sie diese Option, wenn Sie keine direkte Verbindung zu Daten im Lake herstellen und Daten mithilfe von ETL-Pipelines schrittweise auf ein anderes Ziel kopieren möchten. Diese Option bietet einen Änderungsverlauf, um KI- und ML-Szenarien zu aktivieren.

Sie können die Erweiterte Konfigurationseinstellungen anzeigen unter Fortgeschritten im Azure Synapse Link for Dataverse, um Ihre Datenpartitionsstrategie anzupassen und Optionen zum Schreiben in den Azure Data Lake auszuwählen.

Erweiterte Konfiguration anzeigen

Datenpartitionierung

Wenn Sie Dataverse Tabellendaten in Azure Data Lake Storage mit Azure Synapse Link schreiben, werden die Tabellen (anstelle einer einzelnen Datei) im See basierend auf dem Wert createdOn für jede Zeile in der Quelle partioniert. Die Standardpartitionierungsstrategie ist monatlich und die Daten werden monatlich im Azure Data Lake partitioniert.

Basierend auf dem Volumen der Tabelle Dataverse und der Datenverteilung können Sie Ihre Daten nach Jahren partitionieren. Mit dieser Option werden die Daten der Tabelle Dataverse, wenn sie in den Azure Data-Lake geschrieben werden, jährlich auf der Grundlage des Wertes createdOn in jeder Zeile der Quelle partitioniert. Bei Tabellen ohne die Spalte createdOn werden die Datenzeilen alle 5.000.000 Datensätze in eine neue Datei partitioniert. Dies ist eine Einstellung pro Tabelle und steht als Kontrollkästchen unter Erweitert > Erweiterte Konfigurationseinstellungen anzeigen zur Verfügung.

Weitere Details mit Beispielen, wie Daten im Lake mit jährlicher oder monatlicher Partitionsstrategie behandelt werden:

Partitionsstrategie

Siehe auch

Azure Synapse Link for Dataverse

Hinweis

Können Sie uns Ihre Präferenzen für die Dokumentationssprache mitteilen? Nehmen Sie an einer kurzen Umfrage teil. (Beachten Sie, dass diese Umfrage auf Englisch ist.)

Die Umfrage dauert etwa sieben Minuten. Es werden keine personenbezogenen Daten erhoben. (Datenschutzbestimmungen).

Freigeben über

Erweiterte Konfigurationsoptionen in Azure Synapse Link

Direkten Updates im Vergleich zu Schreibvorgängen, die nur angehängt werden

Datenpartitionierung

Siehe auch

Feedback

Zusätzliche Ressourcen