Entfernen nicht verwendeter Datendateien mit VACUUM

Die Predictive Optimization führt automatisch VACUUM in verwalteten Tabellen in Unity Catalog aus. Databricks empfiehlt die Aktivierung von prädiktiven Optimierungen für alle verwalteten Tabellen in Unity Catalog, um die Datenwartung zu vereinfachen und die Speicherkosten zu senken. Siehe Prädiktive Optimierung für verwaltete Unity Catalog-Tabellen.

Sie können Datendateien entfernen, auf die nicht mehr von einer Delta-Tabelle verwiesen wird und älter als der Aufbewahrungsschwellenwert sind, indem Sie den Befehl VACUUM für die Tabelle ausführen. Die regelmäßige Ausführung von VACUUM ist aus Kosten- und Compliancegründen wichtig aufgrund der folgenden Überlegungen:

Das Löschen nicht verwendeter Datendateien reduziert die Cloudspeicherkosten.
Durch VACUUM entfernte Datendateien können Datensätze enthalten, die geändert oder gelöscht wurden. Durch das dauerhafte Entfernen dieser Dateien aus dem Cloudspeicher wird sichergestellt, dass auf diese Datensätze nicht mehr zugegriffen werden kann.

Vorbehalte für Vakuum

Der Standardaufbewahrungsschwellenwert für Datendateien nach Ausführung von VACUUM beträgt 7 Tage. Informationen zum Ändern dieses Verhaltens finden Sie unter Konfigurieren der Datenaufbewahrung für Zeitreisen.

Nach VACUUM könnten leere Verzeichnisse verbleiben, nachdem alle Dateien daraus entfernt wurden. Nachfolgende VACUUM-Vorgänge löschen diese leeren Verzeichnisse.

Databricks empfiehlt die Verwendung der prädiktiven Optimierung, um VACUUM automatisch für Deltatabellen auszuführen. Siehe Prädiktive Optimierung für verwaltete Unity Catalog-Tabellen.

Einige Delta Lake-Features verwenden Metadatendateien, um Daten als gelöscht zu markieren, anstatt Datendateien neu zu schreiben. Sie können REORG TABLE ... APPLY (PURGE) verwenden, um diese Löschvorgänge zu committen und Datendateien neu zu schreiben. Weitere Informationen finden Sie unter Bereinigen von Nur-Metadaten-Löschvorgängen, um das Neuschreiben von Daten zu erzwingen.

Wichtig

In Databricks Runtime 13.3 LTS und höher unterscheidet sich die VACUUM-Semantik für flache Klone mit verwalteten Unity Catalog-Tabellen von anderen Deltatabellen. Einzelheiten finden Sie unter Vacuum und flache Klone für Unity Catalog.
VACUUM entfernt alle Dateien aus Verzeichnissen, die nicht von Delta Lake verwaltet werden, und ignoriert dabei Verzeichnisse, die mit _ oder . beginnen. Wenn Sie zusätzliche Metadaten wie Structured Streaming-Prüfpunkte innerhalb eines Delta-Tabellenverzeichnisses speichern, verwenden Sie einen Verzeichnisnamen wie _checkpoints.
- Daten für den Änderungsdatenfeed werden von Delta Lake im Verzeichnis _change_data verwaltet und mit VACUUM entfernt. Siehe Verwenden des Delta Lake-Änderungs-Datenfeeds in Azure Databricks.
- Bloom-Filterindizes verwenden das Verzeichnis _delta_index, das von Delta Lake verwaltet wird. VACUUM bereinigt Dateien in diesem Verzeichnis. Informationen finden Sie unter Bloom-Filterindizes.
Die Möglichkeit, Tabellenversionen abzufragen, die älter als der Aufbewahrungszeitraum sind, geht nach der Ausführung von VACUUM verloren.
Protokolldateien werden nach Prüfpunktvorgängen automatisch und asynchron gelöscht und werden nicht durch VACUUM gesteuert. Während der Standardaufbewahrungszeitraum von Protokolldateien 30 Tage beträgt, werden bei der Ausführung von VACUUM bei einer Tabelle die für Zeitreisen erforderlichen Datendateien entfernt.

Hinweis

Wenn Datenträgercaching aktiviert ist, könnte ein Cluster Daten aus Parquet-Dateien enthalten, die mit VACUUM gelöscht wurden. Deshalb kann es möglich sein, die Daten früherer Tabellenversionen abzufragen, deren Dateien gelöscht wurden. Durch einen Neustart des Clusters werden die zwischengespeicherten Daten entfernt. Siehe Konfigurieren des Datenträgercaches.

Beispielsyntax für VACUUM

VACUUM table_name   -- vacuum files not required by versions older than the default retention period

VACUUM table_name DRY RUN    -- do dry run to get the list of files to be deleted

Details zur Spark SQL-Syntax finden Sie unter VACUUM.

Details zur Syntax von Scala, Java und Python finden Sie in der Dokumentation zur Delta Lake-API.

Hinweis

Verwenden Sie in Databricks Runtime 18.0 und höher die deletedFileRetentionDuration Tabelleneigenschaft, um die Aufbewahrung zu steuern. Bei verwalteten Tabellen im Unity-Katalog gilt dies für Databricks Runtime 12.2 und höher.

Weitere Informationen finden Sie unter Konfigurieren der Datenaufbewahrung für Zeitreiseabfragen.

Vollständiger vs. Lite-Modus

Wichtig

Dieses Feature befindet sich in der öffentlichen Vorschau in Databricks Runtime 16.1 und höher.

Sie können das LITE Schlüsselwort in Ihrer VACUUM-Anweisung angeben, um einen alternativen Modus von VACUUM auszulösen, der verhindert, dass alle Dateien im Tabellenverzeichnis aufgelistet werden.

LITE im Modus wird das Delta-Transaktionsprotokoll verwendet, um Datendateien zu identifizieren, die sich nicht mehr innerhalb des VACUUM Aufbewahrungsschwellenwerts befinden, und entfernt diese Datendateien aus der Tabelle. LITE der Modus ist besonders nützlich für große Tabellen, die häufige VACUUM Vorgänge erfordern, da es nicht erforderlich ist, alle Dateien aufzulisten, um diese Zu entfernenden Datendateien zu identifizieren.

Hinweis

Das Ausführen von VACUUM im LITE Modus löscht keine Dateien, auf die im Transaktionsprotokoll nicht verwiesen wird. Beispielsweise Dateien, die von einer abgebrochenen Transaktion erstellt wurden.

Verwenden Sie die folgende Syntax, um VACUUM im LITE-Modus auszuführen.

VACUUM table_name LITE

LITE der Modus hat die folgende Anforderung:

Sie müssen mindestens einen erfolgreichen VACUUM Vorgang innerhalb des konfigurierten Aufbewahrungsschwellenwerts für Transaktionsprotokolle (standardmäßig 30 Tage) ausgeführt haben.

Wenn diese Anforderung nicht erfüllt ist, wird beim Ausführen VACUUM im LITE Modus die folgende Fehlermeldung angezeigt. Um fortzufahren, müssen Sie VACUUM im FULL-Modus ausführen.

VACUUM <tableName> LITE cannot delete all eligible files as some files are not referenced by the Delta log. Please run VACUUM FULL.

FULL der Modus ist die Standardeinstellung für Vakuum. Sie können den vollständigen Modus explizit mit dem folgenden Befehl ausführen:

VACUUM table_name FULL

Siehe VACUUM.

Bereinigen von Nur-Metadaten-Löschvorgängen, um das Neuschreiben von Daten zu erzwingen

Der REORG TABLE-Befehl stellt die APPLY (PURGE)-Syntax zum Neuschreiben von Daten bereit, um vorläufige Löschvorgänge anzuwenden. Vorläufige Löschvorgänge schreiben keine Daten neu oder löschen keine Datendateien, sondern verwenden Metadatendateien, um anzugeben, dass sich einige Datenwerte geändert haben. Siehe REORG TABLE.

Zu den Vorgängen, die vorläufige Löschvorgänge in Delta Lake erstellen, gehören folgende:

Ablegen von Spalten mit aktivierter Spaltenzuordnung.
Alle Datenänderungen mit aktivierten Löschvektoren.

Bei aktivierten Vorläufiglöschungen bleiben alte Daten möglicherweise physisch in den aktuellen Dateien der Tabelle vorhanden, auch nachdem die Daten gelöscht oder aktualisiert wurden. Führen Sie die folgenden Schritte aus, um diese Daten physisch aus der Tabelle zu entfernen:

Führen Sie REORG TABLE ... APPLY (PURGE)aus. Danach sind die alten Daten nicht mehr in den aktuellen Dateien der Tabelle vorhanden, sind aber weiterhin in den älteren Dateien vorhanden, die für Zeitreisen verwendet werden.
Führen Sie VACUUM aus, um diese älteren Dateien zu löschen.

REORG TABLE erstellt nach Abschluss des Vorgangs eine neue Version der Tabelle. Alle Tabellenversionen im Verlauf vor dieser Transaktion beziehen sich auf ältere Datendateien. Konzeptionell ähnelt dies dem OPTIMIZE-Befehl, bei dem Datendateien neu geschrieben werden, obwohl die Daten in der aktuellen Tabellenversion konsistent bleiben.

Wichtig

Datendateien werden nur gelöscht, wenn die Dateien gemäß dem -Aufbewahrungszeitraum VACUUM sind. Dies bedeutet, dass der VACUUM-Befehl mit einer Verzögerung nach dem REORG-Befehl erfolgen muss, damit die älteren Dateien abgelaufen sind. Der Aufbewahrungszeitraum von VACUUM kann reduziert werden, um die erforderliche Wartezeit zu verkürzen, was jedoch mit einer Verkürzung des maximalen aufbewahrten Zeitreiseverlaufs einhergeht.

Welche Clustergröße benötigt VACUUM?

Um die richtige Clustergröße für VACUUM auszuwählen, hilft es, zu verstehen, dass der Vorgang in zwei Phasen erfolgt:

Der Auftrag beginnt mit der Verwendung aller verfügbaren Executorknoten, um Dateien im Quellverzeichnis parallel aufzulisten. Diese Liste wird mit allen Dateien verglichen, auf die derzeit im Delta-Transaktionsprotokoll verwiesen wird, um zu löschende Dateien zu identifizieren. Der Treiber befindet sich in dieser Zeit im Leerlauf.
Der Treiber gibt dann Löschbefehle für jede Datei aus, die gelöscht werden soll. Das Löschen von Dateien ist ein nur treiberbasierter Vorgang, was bedeutet, dass alle Vorgänge in einem einzelnen Knoten ausgeführt werden, während sich die Workerknoten im Leerlauf befinden.

Um Kosten und Leistung zu optimieren, empfiehlt Databricks Folgendes, insbesondere bei zeitintensiven VACUUM-Aufträgen:

Führen Sie VACUUM auf einem Cluster aus, für den die automatische Skalierung für 1 bis 4 Worker festgelegt ist und jeder Worker über 8 Kerne verfügt.
Wählen Sie einen Treiber mit 8 bis 32 Kernen aus. Erhöhen Sie die Größe des Treibers, um OOM (Out-of-Memory)-Fehler zu vermeiden.

Wenn VACUUM-Vorgänge regelmäßig mehr als 10 000 Dateien löschen oder mehr als 30 Minuten Verarbeitungszeit in Anspruch nehmen, sollten Sie entweder die Größe des Treibers oder die Anzahl der Worker erhöhen.

Wenn Sie feststellen, dass die Verlangsamung während dem Identifizieren der zu entfernenden Dateien auftritt, fügen Sie weitere Workerknoten hinzu. Wenn die Verlangsamung auftritt, während Löschbefehle ausgeführt werden, versuchen Sie, die Größe des Treibers zu erhöhen.

Wie häufig sollte VACUUM ausgeführt werden?

Databricks empfiehlt, VACUUM regelmäßig für alle Tabellen auszuführen, um die Kosten für Clouddatenspeicher zu reduzieren. Der Standardschwellenwert für die Aufbewahrung beträgt 7 Tage. Wenn Sie einen höheren Schwellenwert festlegen, erhalten Sie Zugriff auf einen längeren Verlauf für Ihre Tabelle, dies erhöht jedoch die Anzahl gespeicherter Datendateien und somit die Speicherkosten bei Ihrem Cloudanbieter.

Warum können Sie eine Delta-Tabelle nicht mit einem niedrigen Aufbewahrungsschwellenwert vakuumen?

Warnung

Es wird empfohlen, ein Aufbewahrungsintervall von mindestens 7 Tagen festzulegen, da alte Momentaufnahmen und nicht übergebene Dateien von gleichzeitigen Lesern oder Schreibern für die Tabelle weiterhin verwendet werden können. Wenn VACUUM aktive Dateien bereinigt, können gleichzeitige Reader fehlschlagen oder – noch schlimmer – Tabellen beschädigt werden, wenn VACUUM Dateien löscht, die noch nicht committet wurden. Sie müssen ein Intervall auswählen, das länger ist als die am längsten ausgeführte gleichzeitige Transaktion und der längste Zeitraum, den ein Stream hinter dem neuesten Update der Tabelle zurückbleiben kann.

Bei Delta Lake gibt es eine Sicherheitsüberprüfung, um zu verhindern, dass Sie einen gefährlichen VACUUM-Befehl ausführen. Wenn Sie sicher sind, dass bei dieser Tabelle keine Vorgänge ausgeführt werden, die länger dauern als das Aufbewahrungsintervall, das Sie angeben möchten, können Sie diese Sicherheitsüberprüfung deaktivieren, indem Sie die Spark-Konfigurationseigenschaft spark.databricks.delta.retentionDurationCheck.enabled auf false festlegen.

Überwachungsinformationen

VACUUM-Commits zum Delta-Transaktionsprotokoll enthalten Überwachungsinformationen. Sie können die Überwachungsereignisse mit DESCRIBE HISTORY abfragen.

Feedback

War diese Seite hilfreich?

Last updated on 2025-12-10

Freigeben über

Entfernen nicht verwendeter Datendateien mit VACUUM

Vorbehalte für Vakuum

Beispielsyntax für VACUUM

Vollständiger vs. Lite-Modus

Bereinigen von Nur-Metadaten-Löschvorgängen, um das Neuschreiben von Daten zu erzwingen

Welche Clustergröße benötigt VACUUM?

Wie häufig sollte VACUUM ausgeführt werden?

Warum können Sie eine Delta-Tabelle nicht mit einem niedrigen Aufbewahrungsschwellenwert vakuumen?

Überwachungsinformationen

Feedback

Zusätzliche Ressourcen