Külső táblákkal dolgozni

A Unity Catalogban egy külső tábla a felhőbeli bérlőn belüli felhőobjektum-tárolóban tárolja az adatfájljait. A Unity Catalog továbbra is kezeli a tábla metaadatait, így minden lekérdezés teljes adatszabályozást biztosít. Azonban nem kezeli az adatok életciklusát, optimalizálását, tárolási helyét vagy elrendezését.

Ha külső Unity Catalog-táblát definiál, meg kell adnia egy tárolóhelyet. Ez a hely egy, a Unity Katalógusban regisztrált külső hely . Külső tábla elvetésekor a Unity Catalog eltávolítja a tábla metaadatait, de nem törli az alapul szolgáló adatfájlokat.

Ez a cikk a Unity Catalog külső tábláira összpontosít. Az örökölt Hive-metaadattár külső táblái eltérő viselkedésűek. Tekintse meg az adatbázis-objektumokat az örökölt Hive-metaadattárban.

Mikor érdemes külső táblákat használni?

A Databricks külső táblák használatát javasolja a következő használati esetekhez:

  • Olyan táblát kell regisztrálnia, amely olyan meglévő adatokon alapul, amelyek nem kompatibilisek a Unity Catalog által felügyelt táblákkal.
  • Közvetlen hozzáférést is igényel a nem Databricks-ügyfelek adataihoz, amelyek nem támogatnak más külső hozzáférési mintákat. A Unity Catalog-jogosultságok nem lesznek kényszerítve, ha a felhasználók külső rendszerekből férnek hozzá adatfájlokhoz. Lásd: Databricks-adatok elérése külső rendszerekkel.

A Databricks a legtöbb esetben a Unity Catalog által felügyelt táblák használatát javasolja az automatikus táblaoptimalizálás, a gyorsabb lekérdezési teljesítmény és a költségek csökkentése érdekében. Ha külső táblákat szeretne felügyelt táblákba migrálni, tekintse meg a külső táblák felügyelt Unity-katalógustáblává alakítása című témakört.

Fontos

Ha nem Databricks-ügyféllel frissíti a külső tábla metaadatait, vagy útvonalalapú hozzáférést használ a Databricksből, akkor a metaadatok nem szinkronizálják automatikusan az állapotot a Unity Katalógussal. A Databricks nem javasolja az ilyen metaadatok frissítését, de ha mégis végrehajt egyet, akkor futtatnia kell a MSCK REPAIR TABLE <table-name> SYNC METADATA-t a séma frissítéséhez a Unity Catalogban. Lásd: REPAIR TABLE.

Fájlformátumok külső táblákhoz

A külső táblák a következő fájlformátumokat használhatják:

  • DELTA
  • CSV
  • JSON
  • AVRO
  • PARKETTA
  • ORK
  • szöveg

Külső tábla létrehozása

Külső táblákat SQL-parancsokkal vagy DataFrame írási műveletekkel hozhat létre.

Kezdés előtt

Külső tábla létrehozása előtt konfigurálnia kell egy külső helyet, amely hozzáférést biztosít a felhőbeli tárolóhoz.

A külső helyek konfigurálásával kapcsolatos további információkért tekintse meg a felhőbeli tároló Azure Databrickshez való csatlakoztatásához szükséges külső hely létrehozását ismertető témakört.

Külső tábla létrehozásához meg kell felelnie az alábbi engedélykövetelményeknek:

  • A CREATE EXTERNAL TABLE jogosultság egy külső helyen, amely hozzáférést biztosít a külső tábla által elért LOCATION.
  • A tábla szülői katalógusának USE CATALOG engedélye.
  • A USE SCHEMA tábla szülőséma engedélyének megadása.
  • A CREATE TABLE tábla szülőséma engedélyének megadása.

Megjegyzés:

Ha egy S3 külső hely több metaadattárhoz van társítva, ne adjon írási hozzáférést azoknak a tábláknak, amelyek ezt az S3-helyet használják, mert a különböző metaadattárakból ugyanarra a külső táblára történő írás konzisztenciaproblémákat okozhat. A több metaadattárban lévő ugyanazon S3 külső helyről való olvasás azonban biztonságos.

SQL-parancsok – példák

Külső tábla létrehozásához használja az alábbi parancsok egyikét egy jegyzetfüzetben vagy az SQL-lekérdezésszerkesztőben.

Az alábbi példákban cserélje le a helyőrző értékeket:

  • <catalog>: A táblát tartalmazó katalógus neve.
  • <schema>: A táblát tartalmazó séma neve.
  • <table-name>: A tábla neve.
  • <column-specification>: Az egyes oszlopok neve és adattípusa.
  • <bucket-path>: Annak a felhőbeli tárolónak az elérési útja, ahol a tábla létre lesz hozva.
  • <table-directory>: Egy könyvtár, amelyben a tábla létrejön. Minden táblához használjon egyedi könyvtárat.

ADLS

CREATE TABLE <catalog>.<schema>.<table-name>
(
  <column-specification>
)
LOCATION 'abfss://<bucket-path>/<table-directory>';

S3

CREATE TABLE <catalog>.<schema>.<table-name>
(
  <column-specification>
)
LOCATION 's3://<bucket-path>/<table-directory>';

További információ a táblalétrehozás paramétereiről: CREATE TABLE.

DataFrame írási műveletek

Külső táblákat is létrehozhat lekérdezési eredményekből vagy DataFrame írási műveletekből. LOCATION A záradék használatával adja meg a külső tároló elérési útját, amikor táblákat hoz létre DataFrame-ekkel.

A DataFrame-műveletekhez az alábbi SQL-szintaxisi beállítások működnek:

Külső tábla eltávolítása

Egy tábla elvetéséhez annak tulajdonosának kell lennie, vagy MANAGE jogosultsággal kell rendelkeznie a táblán. Külső tábla elvetéséhez futtassa a következő SQL-parancsot:

DROP TABLE IF EXISTS catalog_name.schema_name.table_name;

A Unity Catalog nem törli az alapul szolgáló adatokat a felhőbeli tárolóban egy külső tábla elvetésekor. Közvetlenül törölnie kell a mögöttes adatfájlokat, ha el kell távolítania a táblához társított adatokat.

Példajegyzetfüzet: Külső táblák létrehozása

Az alábbi példajegyzetfüzet segítségével katalógust, sémát és külső táblát hozhat létre, és kezelheti az engedélyeit.

Külső tábla létrehozása és kezelése a Unity Catalog-jegyzetfüzetben

Jegyzetfüzet lekérése