Megosztás a következőn keresztül:


Tárterület felfedezése és adatfájlok keresése

Ez a cikk a Unity Catalog-kötetekkel kezelt könyvtárak és adatfájlok felderítésére és felderítésére összpontosít, beleértve a kötetek katalóguskezelővel való felderítésére vonatkozó felhasználói felületi utasításokat is. Ez a cikk példákat is tartalmaz a felhőobjektum-tárolóban lévő adatok mennyiségi útvonalak és felhőalapú URI-k használatával történő programozott feltárására.

A Databricks kötetek használatát javasolja a felhőobjektum-tárolóban lévő adatokhoz való hozzáférés kezeléséhez. A felhőobjektum-tárolóban lévő adatokhoz való csatlakozásról további információt a Csatlakozás adatforrásokhoz című témakörben talál.

A fájlok minden helyen való használatáról a Fájlok használata az Azure Databricksben című témakörben olvashat bővebben.

Fontos

A munkaterület felhasználói felületén található fájlok keresésekor előfordulhat, hogy munkaterületfájlokként tárolt adatfájlokat fedez fel. A Databricks elsősorban kódfájlokhoz (például szkriptekhez és kódtárakhoz), init szkriptekhez vagy konfigurációs fájlokhoz javasolja a munkaterület-fájlok használatát. Ideális esetben a munkaterületfájlokként tárolt adatokat olyan kis adathalmazokra kell korlátoznia, amelyek olyan feladatokhoz használhatók, mint például a fejlesztés és a minőségbiztosítási tesztelés. Lásd: Mik azok a munkaterületfájlok?.

Kötetek és örökölt felhőalapú objektumkonfigurációk

Ha kötetekkel kezeli az adatokhoz való hozzáférést a felhőobjektum-tárolóban, csak a kötetek elérési útját használhatja az adatok eléréséhez, és ezek az útvonalak minden Unity Catalog-kompatibilis számítással elérhetők. Kötetek használatával nem regisztrálhat Unity-katalógustáblákat tartalmazó adatfájlokat. A Databricks azt javasolja, hogy fájlelérési utak helyett táblázatneveket használjon a Unity Catalog-táblákként regisztrált strukturált adatok kezeléséhez. Lásd: Hogyan működnek az elérési utak a Unity Catalog által kezelt adatok esetében?.

Ha örökölt módszert használ a felhőobjektum-tárolóban lévő adatokhoz való hozzáférés konfigurálásához, az Azure Databricks visszaállítja az örökölt tábla ACL-engedélyeit. Azok a felhasználók, akik felhőbeli URI-k használatával szeretnének hozzáférni az adatokhoz AZ SQL-raktárakból vagy a megosztott hozzáférési móddal konfigurált számításhoz, engedélyre ANY FILE van szükségük. Lásd: Hive metaadattár tábla hozzáférés-vezérlése (örökölt).

Az Azure Databricks számos API-t biztosít a felhőobjektum-tárolóban lévő fájlok listázásához. A cikk legtöbb példája a kötetek használatára összpontosít. Példák a kötetek nélkül konfigurált objektumtároló adatainak használatára: URI-kkal rendelkező fájlok listázása.

Kötetek felfedezése

A Katalóguskezelővel feltárhatja a kötetek adatait, és áttekintheti a kötetek részleteit. Csak olyan köteteket láthat, amelyek olvasási engedéllyel rendelkeznek, így az így felderített összes adatot lekérdezheti.

Az SQL használatával megismerheti a köteteket és azok metaadatait. Kötetekben lévő fájlok listázásához használhatja az SQL-t, a magic parancsot vagy a %fs Databricks segédprogramot. Kötetek adatainak használatakor a Unity Catalog által biztosított elérési utat használja, amely mindig a következő formátumot használja:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Kötetek megjelenítése

SQL

Futtassa az alábbi parancsot egy adott sémában lévő kötetek listájának megtekintéséhez.

SHOW VOLUMES IN catalog_name.schema_name;

Lásd: KÖTETEK MEGJELENÍTÉSE.

Katalóguskezelő

Ha köteteket szeretne megjeleníteni egy adott sémában a Catalog Explorerrel, tegye a következőket:

  1. Válassza a Katalógus ikon Katalógus ikont.
  2. Válasszon ki egy katalógust.
  3. Jelöljön ki egy sémát.
  4. Kattintson a Kötetek elemre a séma összes kötetének kibontásához.

Feljegyzés

Ha nincs kötet regisztrálva egy sémában, a Kötetek beállítás nem jelenik meg. Ehelyett megjelenik az elérhető táblák listája.

A kötet részleteinek megtekintése

SQL

Futtassa a következő parancsot egy kötet leírásához.

DESCRIBE VOLUME volume_name

Lásd: A KÖTET LEÍRÁSA.

Katalóguskezelő

Kattintson a kötet nevére, és válassza a Részletek lapot a kötet részleteinek áttekintéséhez.

Fájlok megtekintése kötetekben

SQL

Futtassa a következő parancsot a kötet fájljainak listázásához.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Katalóguskezelő

Kattintson a kötet nevére, és válassza a Részletek lapot a kötet részleteinek áttekintéséhez.

%fs

Futtassa a következő parancsot a kötet fájljainak listázásához.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Databricks-segédprogramok

Futtassa a következő parancsot a kötet fájljainak listázásához.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

Fájlok listázása URI-kkal

A köteteken kívüli metódusokkal konfigurált felhőalapú objektumtárolót URI-k használatával kérdezheti le. A felhőbeli hely eléréséhez jogosultságokkal kell csatlakoznia a számításhoz. Az ANY FILE engedély szükséges az SQL-raktárakhoz és a megosztott hozzáférési móddal konfigurált számítási feladatokhoz.

Feljegyzés

A kötetekkel konfigurált objektumtároló URI-hozzáférése nem támogatott. A Katalóguskezelővel nem tekintheti át a kötetekkel konfigurált objektumtároló tartalmát.

Az alábbi példák az Azure Data Lake Storage Gen2, S3 és GCS használatával tárolt adatok URI-jait tartalmazzák.

SQL

Futtassa a következő parancsot a felhőobjektum-tárolóban lévő fájlok listázásához.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Futtassa a következő parancsot a felhőobjektum-tárolóban lévő fájlok listázásához.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Databricks-segédprogramok

Futtassa a következő parancsot a felhőobjektum-tárolóban lévő fájlok listázásához.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")