Zusammenführung mit geringem Shuffle auf Azure Databricks

Hinweis

Low Shuffle Merge ist in Databricks Runtime 10.4 LTS und höher allgemein verfügbar (GA) und in Databricks Runtime 9.1 LTS in der Öffentlichen Vorschau. Databricks empfiehlt, dass Preview-Kunden zu Databricks Runtime 10.4 LTS oder höher migrieren.

Der BEFEHL MERGE wird verwendet, um gleichzeitige Aktualisierungen, Einfügungen und Löschungen aus einer Delta Lake-Tabelle auszuführen. Azure Databricks verfügt über eine optimierte Implementierung von MERGE, die die Leistung für häufige Workloads erheblich verbessert, indem die Anzahl der Shuffle-Vorgänge reduziert wird.

Databricks low shuffle merge bietet eine bessere Leistung, indem unmodifizierte Zeilen in einem separaten, optimierteren Verarbeitungsmodus verarbeitet werden, anstatt sie zusammen mit den geänderten Zeilen zu verarbeiten. Somit wird die Menge der durchmischten Daten erheblich reduziert, was zu einer verbesserten Leistung führt. Die Zusammenführung mit niedrigem Shuffle reduziert auch die Notwendigkeit, dass Benutzer einen OPTIMIZE Vorgang nach der Durchführung einer MERGE-Operation erneut ausführen müssen.

Optimierte Leistung

Viele MERGE Workloads aktualisieren nur eine relativ kleine Anzahl von Zeilen in einer Tabelle. Delta-Tabellen können jedoch nur pro Datei aktualisiert werden. Wenn der MERGE Befehl eine kleine Anzahl von Zeilen aktualisieren oder löschen muss, die in einer bestimmten Datei gespeichert sind, muss er auch alle verbleibenden Zeilen verarbeiten und neu schreiben, die in derselben Datei gespeichert sind, auch wenn diese Zeilen unverändert sind. Die Zusammenführung mit geringem Shuffle optimiert die Verarbeitung nicht geänderter Zeilen. Zuvor wurden sie auf die gleiche Weise wie geänderte Zeilen verarbeitet und durchliefen mehrere Shuffle-Phasen und teure Berechnungen. Bei der Zusammenführung mit geringem Shuffle werden die nicht geänderten Zeilen stattdessen ohne Shuffles, teure Verarbeitung oder sonstigen zusätzlichen Aufwand verarbeitet.

Optimiertes Datenlayout

Die Zusammenführung mit geringem Shuffle ist schneller auszuführen und profitiert von nachfolgenden Vorgängen. Die frühere MERGE Implementierung hat das Datenlayout von nicht geänderten Daten vollständig geändert, was die Leistung bei nachfolgenden Vorgängen beeinträchtigt. Die Zusammenführung mit geringem Shuffle behält das vorhandene Datenlayout der nicht geänderten Datensätze auf Beste-Effort-Basis bei, einschließlich des Liquid Clustering-Layouts. Die Leistung verschlechtert sich langsamer nach dem Ausführen eines oder mehrerer Befehle.

Hinweis

Die Zusammenführung mit geringem Shuffle versucht, das Datenlayout für vorhandene Daten beizubehalten, die nicht geändert werden. Das Datenlayout von aktualisierten oder neu eingefügten Daten ist möglicherweise nicht optimal, daher kann es dennoch erforderlich sein, OPTIMIZE auf Tabellen mit aktiviertem Liquid Clustering auszuführen.

Verfügbarkeit

Die Zusammenführung mit geringem Shuffle ist in Databricks Runtime 10.4 und höher standardmäßig aktiviert. In früher unterstützten Databricks-Runtime-Versionen kann sie durch Festlegen der Konfiguration spark.databricks.delta.merge.enableLowShuffle auf trueaktiviert werden. Dieses Kennzeichen hat keine Auswirkung in Databricks Runtime 10.4 und höher.

Veraltete Z-Sortierung

Auf bestmöglicher Basis versucht die Zusammenführung mit geringer Umverteilung bei Tabellen, die Z-Ordnung verwenden, auch das vorhandene Z-Ordnung-Layout auf unveränderten Daten beizubehalten. Das Datenlayout aktualisierter oder neu eingefügter Daten ist möglicherweise nicht optimal. Daher kann es dennoch erforderlich sein, OPTIMIZE ZORDER BY nach einem MERGE-Vorgang auszuführen. Databricks empfiehlt die Verwendung von Flüssigclustering für alle neuen Tabellen.

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-07