VACUUM
A következőkre vonatkozik: Databricks SQL Databricks Runtime
Távolítsa el a nem használt fájlokat egy táblakönyvtárból.
Megjegyzés:
Ez a parancs másként működik attól függően, hogy Delta- vagy Apache Spark-táblán dolgozik.
Delta-tábla kipucolása
A Delta-táblához társított rekurzívan vákuumkönyvtárak. További részletekért és korlátozásokért lásd : A nem használt adatfájlok eltávolítása vákuummal.
VACUUM
Eltávolítja az összes olyan fájlt a táblakönyvtárból, amelyet nem a Delta kezel, valamint azokat az adatfájlokat, amelyek már nem szerepelnek a tábla tranzakciónaplójának legújabb állapotában, és amelyek régebbiek a megőrzési küszöbértéknél. VACUUM
az aláhúzással (_
) kezdődő összes könyvtárat kihagyja, amely tartalmazza a _delta_log
. A tábla aláhúzással kezdődő oszlopon való particionálása kivétel a szabály alól; VACUUM
Megvizsgálja a cél Delta-táblában található összes érvényes partíciót. A Delta-tábla adatfájljai a Delta tranzakciónaplójából logikailag eltávolított időnek és a megőrzési időnek megfelelően törlődnek, nem pedig a tárolási rendszeren lévő módosítási időbélyegek alapján. The default threshold is 7 days.
A Delta-táblákon az Azure Databricks nem aktiválja VACUUM
automatikusan a műveleteket.
Ha Delta-táblán futVACUUM
, elveszíti a megadott adatmegőrzési időszaknál régebbi verzióra való visszautazás lehetőségét.
Figyelmeztetés
Javasoljuk, hogy legalább 7 napos megőrzési időközt állítson be, mert a régi pillanatképeket és a nem véglegesített fájlokat továbbra is használhatják az egyidejű olvasók vagy írók a táblához. Ha VACUUM
eltávolítja az aktív fájlokat, az egyidejű olvasók meghibásodhatnak, vagy rosszabb esetben a táblák megsérülhetnek, ha VACUUM
törli a még nem véglegesített fájlokat. You must choose an interval that is longer than the longest running concurrent transaction and the longest period that any stream can lag behind the most recent update to the table.
A Delta Lake biztonsági ellenőrzéssel megakadályozza, hogy veszélyes VACUUM
parancsot futtasson. A Databricks Runtime-ban biztos lehet abban, hogy ezen a táblán nem hajtanak végre olyan műveleteket, amelyek hosszabb időt vesznek igénybe, mint amennyit meg szeretne adni. Ezt a biztonsági ellenőrzést kikapcsolhatja a Spark konfigurációs tulajdonságának spark.databricks.delta.retentionDurationCheck.enabled
false
beállításával.
VACUUM table_name [RETAIN num HOURS] [DRY RUN]
Parameters
-
Egy meglévő Delta-táblát azonosít. A név nem tartalmazhat időbeli specifikációt.
A SZÁM ÓRÁK MEGTARTÁSA
A megőrzési küszöbérték.
SZÁRAZ FUTTATÁS
Legfeljebb 1000 törölendő fájlból álló listát ad vissza.
Nem Delta-tábla vákuuma
Rekurzív módon vákuumozza a nem Delta táblához társított könyvtárakat, és eltávolítja a megőrzési küszöbértéknél régebbi, nem véglegesített fájlokat. The default threshold is 7 days.
Nem Delta-táblákon az Azure Databricks automatikusan elindítja a VACUUM
műveleteket az adatok írása során.
Syntax
VACUUM table_name [RETAIN num HOURS]
Parameters
-
Egy meglévő táblát azonosít név vagy elérési út alapján.
A SZÁM ÓRÁK MEGTARTÁSA
A megőrzési küszöbérték.