Tabele zarządzane w usłudze Unity Catalog dla Delta Lake i Apache Iceberg

Tabele zarządzane w Unity Catalog są domyślnym i zalecanym typem tabel w Azure Databricks dla Delta Lake i Apache Iceberg. Unity Catalog zarządza wszystkimi operacjami odczytu i zapisu, magazynowaniem oraz optymalizacją. Zobacz Konwertuj zewnętrzne lub obce tabele Delta Lake na tabele zarządzane w Unity Catalog.

Pliki danych dla tabel zarządzanych są przechowywane w schemacie lub wykazie zawierającym je. Zobacz Określanie zarządzanej lokalizacji magazynu w katalogu Unity.

Usługa Databricks zaleca korzystanie z tabel zarządzanych w celu skorzystania z następujących korzyści w porównaniu z tabelami zewnętrznymi i obcymi:

Obniżone koszty magazynowania i zasobów obliczeniowych.
Szybsza wydajność zapytań we wszystkich typach klientów.
Automatyczna konserwacja i optymalizacja tabel.
Bezpieczny dostęp dla klientów zewnętrznych za pośrednictwem otwartych interfejsów API.
Obsługa formatów Delta Lake i Apache Iceberg.
Automatyczne uaktualnienia do najnowszych funkcji platformy.

Możesz pracować z tabelami zarządzanymi we wszystkich językach i produktach obsługiwanych w usłudze Azure Databricks. Musisz mieć pewne uprawnienia do tworzenia, aktualizowania, usuwania lub wykonywania zapytań względem tabel zarządzanych. Zobacz Zarządzanie uprawnieniami w Unity Catalog.

Note

Na tej stronie opisano tylko tabele zarządzane w Unity Catalog. W przypadku tabel zarządzanych w starszym magazynie metadanych Hive, zobacz Obiekty bazy danych w starszym magazynie metadanych Hive.

Zalety tabel zarządzanych w Unity Catalog

Tabele zarządzane w katalogu Unity Catalog optymalizują koszty przechowywania danych i szybkość wykonywania zapytań oraz zapewniają interoperacyjność z narzędziami innych firm obsługującymi Delta Lake i Apache Iceberg. Aby uprościć zarządzanie danymi i wydajność, te tabele zarządzane używają technologii opartych na sztucznej inteligencji, takich jak kompaktowanie rozmiaru plików i inteligentne zbieranie statystyk.

Tabele zarządzane zapewniają interoperacyjność, umożliwiając dostęp klientom Delta Lake i Apache Iceberg. Zobacz Uzyskiwanie dostępu do danych usługi Databricks przy użyciu systemów zewnętrznych.

Następujące funkcje są dostępne wyłącznie w tabelach zarządzanych usługi Unity Catalog i nie są dostępne dla tabel zewnętrznych ani tabel obcych:

Feature	Benefits	Konfiguracja
Zatwierdzenia wykazu	Umożliwia wykonywanie transakcji obejmujących wiele instrukcji w wielu tabelach, szybsze planowanie zapytań dzięki udostępnianiu metadanych bezpośrednio z Unity Catalog, wymuszalne zmiany schematu i ograniczeń oraz bezpieczne zapisy z zewnętrznych silników.	Domyślnie wyłączone. Aby włączyć, ustaw właściwość tabeli `delta.feature.catalogManaged`. Zobacz Włączanie zatwierdzeń katalogu.
Optymalizacja predykcyjna	Automatycznie optymalizuje układ danych i obliczenia przy użyciu sztucznej inteligencji bez konieczności ręcznej konserwacji. Usługa Databricks zaleca włączenie optymalizacji predykcyjnej dla wszystkich zarządzanych tabel w celu zmniejszenia kosztów magazynowania i obliczeń. Uruchamiane automatycznie: `OPTIMIZE`: zwiększa wydajność zapytań przez kompaktowanie rozmiarów plików i przyrostowe klastrowanie nowych danych. `VACUUM`: pomaga zaoszczędzić na kosztach magazynowania, usuwając nieużywane pliki. `ANALYZE`: zbiera statystyki , które pomagają usłudze Azure Databricks implementować pomijanie danych w celu przyspieszenia zapytań.	Domyślnie włączone dla wszystkich nowych kont utworzonych w dniu 11 listopada 2024 r. lub po 11 listopada 2024 r. W przypadku bieżących kont Azure Databricks domyślnie włącza optymalizację predykcyjną. Zobacz Sprawdzanie, czy optymalizacja predykcyjna jest włączona. Aby skonfigurować, zobacz Włączanie optymalizacji predykcyjnej.
Transakcje wielooperacyjne	Umożliwia uruchamianie wielu instrukcji SQL obejmujących jedną lub więcej tabel jako jednej niepodzielnej transakcji, z zachowaniem właściwości ACID. Wszystkie zmiany kończą się powodzeniem lub cofają się razem. Służy do obsługi procedur składowanych i skryptów SQL w obciążeniach magazynowania o znaczeniu krytycznym. Transakcje zapisywane w zarządzanych tabelach Apache Iceberg są dostępne w prywatnej wersji zapoznawczej.	Domyślnie wyłączone. Użyj `BEGIN ATOMIC ... END;` do transakcji nieinterakcyjnych lub `BEGIN TRANSACTION; ... COMMIT;` do transakcji interakcyjnych. Zobacz Tryby transakcji.
Automatyczne klastrowanie cieczy	W przypadku tabel z optymalizacją predykcyjną płynne klastrowanie inteligentnie wybiera klucze klastrowania i automatycznie aktualizuje je, gdy wzorce zapytań zmieniają się, aby zwiększyć wydajność i obniżyć koszty.	Domyślnie wyłączone. Aby skonfigurować, zobacz Włącz klastrowanie liquid.
Buforowanie metadanych	Buforowanie w pamięci metadanych transakcji zwiększa wydajność zapytań, minimalizując żądania do dziennika transakcji przechowywanego w chmurze.	Włączone domyślnie. Nie można skonfigurować.
Indeksy wyszukiwania pełnotekstowego	Przyspiesza wyszukiwanie podciągów i wyrazów kluczowych w kolumnach tekstowych za pomocą funkcji `search` i `isearch`. Gdy indeks ma zastosowanie, Azure Databricks pomija pliki, które nie mogą zawierać pasujących wierszy, zmniejszając ilość skanowanych danych. W wersji beta i wymaga środowiska Databricks Runtime w wersji 18.2 lub nowszej.	Domyślnie wyłączone. Utwórz za pomocą polecenia `CREATE SEARCH INDEX`.
Automatyczne usuwanie plików po poleceniu `DROP TABLE`	Jeśli usuniesz tabelę zarządzaną, Azure Databricks usunie pliki danych w magazynie w chmurze po wygaśnięciu okresu odzyskiwania (domyślnie 7 dni), zmniejszając koszty magazynowania. W przypadku tabel zewnętrznych należy ręcznie usunąć pliki z zasobnika pamięci.	Włączone domyślnie. Okres odzyskiwania można skonfigurować na poziomie wykazu lub schematu. Zobacz Usuwanie zarządzanej tabeli.

Uzyskiwanie dostępu do danych usługi Databricks przy użyciu systemów zewnętrznych

Tabele zarządzane zapewniają interoperacyjność, umożliwiając dostęp klientom Delta Lake i Apache Iceberg.

Dzięki otwartym interfejsom API i udostępnianiu poświadczeń Unity Catalog umożliwia zewnętrznym silnikom, takim jak Trino, DuckDB, Apache Spark i Daft, oraz silnikom zintegrowanym z katalogiem Iceberg REST, takim jak Dremio, uzyskiwanie dostępu do zarządzanych tabel. W przypadku klientów zewnętrznych, którzy nie obsługują otwartych interfejsów API, można użyć trybu zgodności do odczytywania tabel zarządzanych przy użyciu dowolnego klienta usługi Delta Lake lub Apache Iceberg. Usługa OpenSharing, protokół open source, umożliwia bezpieczne, zarządzane udostępnianie danych partnerom zewnętrznym i platformom.

Zapoznaj się z listą obsługiwanych integracji zewnętrznych silników lub sprawdź dokumentację swojego silnika, jeśli nie znajduje się na tej liście.

Następujące otwarte interfejsy API umożliwiają systemom zewnętrznym dostęp do tabel zarządzanych w Unity Catalog:

Unity REST API zapewnia klientom Delta Lake dostęp do odczytu, zapisu i tworzenia w zarządzanych tabelach Delta Lake.
Katalog REST Iceberg (IRC) zapewnia klientom Apache Iceberg dostęp do odczytu, zapisu i tworzenia w przypadku zarządzanych tabel Apache Iceberg oraz dostęp tylko do odczytu do tabel Delta Lake z włączonymi odczytami Apache Iceberg (UniForm).

Oba interfejsy API obsługują wydawanie poświadczeń, które zapewnia tymczasowe, ograniczone poświadczenia dziedziczące uprawnienia podmiotu zabezpieczeń usługi Azure Databricks, który złożył żądanie, zachowując kontrolę i zabezpieczenia.

OpenSharing to protokół open source, który umożliwia bezpieczny i zarządzany dostęp do danych partnerom zewnętrznym i platformom. Możesz użyć funkcji OpenSharing, aby udzielić partnerom tymczasowego dostępu tylko do odczytu.

Wszystkie operacje odczytu i zapisu w zarządzanych tabelach muszą używać nazw tabel oraz, gdzie występują, nazw wykazów i schematów. Na przykład catalog_name.schema_name.table_name. Dostęp oparty na ścieżkach do tabel zarządzanych przez Unity Catalog nie jest obsługiwany (z wyjątkiem trybu zgodności), ponieważ omija mechanizmy kontroli dostępu Unity Catalog i uniemożliwia prawidłowe działanie funkcji zarządzanych tabel.

Tworzenie tabeli zarządzanej

Aby utworzyć zarządzaną tabelę, musisz mieć następujące elementy:

USE SCHEMA w schemacie nadrzędnym tabeli.
USE CATALOG w katalogu nadrzędnym tabeli.
CREATE TABLE w schemacie nadrzędnym tabeli.

Użyj poniższej składni, aby utworzyć pustą tabelę zarządzaną. Zastąp wartości zastępcze:

<catalog-name>: nazwa wykazu, który będzie zawierać tabelę.
<schema-name>: nazwa schematu zawierająca tabelę.
<table-name>: nazwa tabeli.
<column-specification>: Nazwa i typ danych każdej kolumny.

SQL

-- Create a managed Delta table
CREATE TABLE <catalog-name>.<schema-name>.<table-name>
(
  <column-specification>
);

-- Create a managed Iceberg table
CREATE TABLE <catalog-name>.<schema-name>.<table-name>
(
  <column-specification>
)
USING iceberg;

Python

Utwórz zarządzaną tabelę Delta Lake przy użyciu polecenia saveAsTable():

from pyspark.sql.types import StructType, StructField, StringType

schema = StructType([StructField("<column-name>", StringType())])

spark.createDataFrame([], schema).write \
  .saveAsTable("<catalog-name>.<schema-name>.<table-name>")

Alternatywnie, użyj interfejsu API DeltaTableBuilder dla opcji specyficznych dla Delta, takich jak generowane kolumny i właściwości tabel:

from delta.tables import DeltaTable

DeltaTable.create(spark) \
  .tableName("<catalog-name>.<schema-name>.<table-name>") \
  .addColumn("<column-name>", "<data-type>") \
  .property("<key>", "<value>") \
  .execute()

Utwórz zarządzaną tabelę Apache Iceberg:

from pyspark.sql.types import StructType, StructField, StringType

schema = StructType([StructField("<column-name>", StringType())])

spark.createDataFrame([], schema).write \
  .format("iceberg") \
  .saveAsTable("<catalog-name>.<schema-name>.<table-name>")

Aby zachować wydajność operacji odczytu i zapisu, Azure Databricks okresowo uruchamia operacje w celu zoptymalizowania zarządzanych metadanych tabeli Apache Iceberg. To zadanie jest wykonywane przy użyciu obliczeń bezserwerowych, które mają MODIFY uprawnienia do tabeli Apache Iceberg. Ta operacja zapisuje tylko metadane tabeli, a obliczenia zachowują tylko uprawnienia do tabeli przez czas trwania zadania.

Note

Aby utworzyć tabelę Apache Iceberg, jawnie określ wartość USING iceberg. W przeciwnym razie usługa Azure Databricks domyślnie tworzy tabelę Delta Lake.

Tabele zarządzane można tworzyć na podstawie wyników zapytania lub operacji zapisu ramki danych. W poniższych artykułach przedstawiono niektóre z wielu wzorców, których można użyć do utworzenia tabeli zarządzanej w usłudze Azure Databricks:

CREATE TABLE [UŻYCIE]
CREATE TABLE LIKE
tworzenie lub modyfikowanie tabeli przy użyciu przesyłania plików

Aby utworzyć kopię istniejącej tabeli zarządzanej, użyj polecenia clone. Zarządzane tabele usługi Delta Lake obsługują głębokie i płytkie klonowanie. Zarządzane tabele Apache Iceberg obsługują tylko głębokie klonowanie. Zobacz Klonowanie tabeli w usłudze Azure Databricks i Klonowanie zarządzanej tabeli Iceberg.

Usuwanie zarządzanej tabeli

Aby usunąć zarządzaną tabelę, musisz mieć następujące elementy:

MANAGE w tabeli lub musisz być właścicielem tabeli.
USE SCHEMA w schemacie nadrzędnym tabeli.
USE CATALOG w katalogu nadrzędnym tabeli.

Aby usunąć zarządzaną tabelę, uruchom następujące polecenie:

SQL

DROP TABLE IF EXISTS catalog_name.schema_name.table_name;

Python

spark.sql("DROP TABLE IF EXISTS catalog_name.schema_name.table_name")

Alternatywnie w środowisku Databricks Runtime 18.2 lub nowszym użyj polecenia spark.catalog.dropTable():

spark.catalog.dropTable("catalog_name.schema_name.table_name", ifExists=True)

Unity Catalog obsługuje UNDROP TABLE polecenie do odzyskiwania przypadkowo usuniętych tabel zarządzanych. Domyślnie tabele można odzyskać przez 7 dni po usunięciu. Po zakończeniu okresu przywracania Azure Databricks usuwa bazowe pliki danych z Twojej dzierżawy w chmurze w ciągu 48 godzin.

Konfigurowanie okresu odzyskiwania

Important

Konfigurowalny okres odzyskiwania jest w publicznej wersji zapoznawczej.

Możesz skonfigurować czas odzyskiwania usuniętych tabel zarządzanych na poziomie wykazu lub schematu. Jeśli okresy przechowywania są ustawione na obu poziomach, ustawienie na poziomie schematu ma pierwszeństwo dla tabel w tym schemacie.

Aby skonfigurować okres przywracania, musisz mieć uprawnienie MANAGE lub być właścicielem katalogu lub schematu. To ustawienie dotyczy tylko tabel porzuconych po jego skonfigurowaniu. Nie ma to wpływu na tabele, które zostały już usunięte.

Okres odzyskiwania można ustawić na 0 godzin (aby wyłączyć funkcję odzyskiwania) lub na okres od 7 do 30 dni włącznie. Dłuższy okres odzyskiwania (do 30 dni) zapewnia dodatkową ochronę przed przypadkowymi spadkami krytycznych danych produkcyjnych. Krótszy okres odzyskiwania danych lub ustawienie go na 0 powoduje szybsze usuwanie usuniętych danych — co pomaga obniżyć koszty w przypadku obciążeń, w ramach których tabele są często tworzone i usuwane jako część potoków ETL. Ustawienie okresu odzyskiwania na 0 oznacza, że usunięte tabele nie są możliwe do odzyskania przy użyciu polecenia UNDROP. Pliki danych są usuwane z magazynu w chmurze w ciągu 48 godzin od usunięcia tabeli.

Aby ustawić okres odzyskiwania, użyj klauzuli ALTER CATALOG lub ALTER SCHEMA z klauzulą RETAIN DROPPED TO :

SQL

-- Set a 30-day recovery period on a catalog
ALTER CATALOG my_catalog RETAIN DROPPED TO 30 DAYS;

-- Set a 7-day recovery period on a schema (overrides the catalog setting)
ALTER SCHEMA my_catalog.my_schema RETAIN DROPPED TO 7 DAYS;

Python

spark.sql("ALTER CATALOG my_catalog RETAIN DROPPED TO 30 DAYS")
spark.sql("ALTER SCHEMA my_catalog.my_schema RETAIN DROPPED TO 7 DAYS")

Okres odzyskiwania można również ustawić podczas tworzenia katalogu lub schematu za pomocą klauzuli RETAIN DROPPED FOR :

SQL

CREATE CATALOG my_catalog RETAIN DROPPED FOR 30 DAYS;
CREATE SCHEMA my_catalog.my_schema RETAIN DROPPED FOR 7 DAYS;

Python

spark.sql("CREATE CATALOG my_catalog RETAIN DROPPED FOR 30 DAYS")
spark.sql("CREATE SCHEMA my_catalog.my_schema RETAIN DROPPED FOR 7 DAYS")

Aby sprawdzić aktualny okres odzyskiwania, uruchom polecenie DESCRIBE EXTENDED. Dane wyjściowe zawierają wiersz Recovery Period Hours:

SQL

DESCRIBE CATALOG EXTENDED my_catalog;
DESCRIBE SCHEMA EXTENDED my_catalog.my_schema;

Python

spark.sql("DESCRIBE CATALOG EXTENDED my_catalog").show()
spark.sql("DESCRIBE SCHEMA EXTENDED my_catalog.my_schema").show()

Opinia

Czy ta strona była pomocna?

Last updated on 2026-07-22

Tabele zarządzane w usłudze Unity Catalog dla Delta Lake i Apache Iceberg

Zalety tabel zarządzanych w Unity Catalog

Uzyskiwanie dostępu do danych usługi Databricks przy użyciu systemów zewnętrznych

Tworzenie tabeli zarządzanej

SQL

Python

Usuwanie zarządzanej tabeli

SQL

Python

Konfigurowanie okresu odzyskiwania

SQL

Python

SQL

Python

SQL

Python

Opinia

Dodatkowe zasoby