Megosztás a következőn keresztül:


Fájlok kezelése kötetekben

Ez a cikk példákat tartalmaz a Unity Catalog-kötetek fájljainak kezelésére különböző felhasználói felületek, eszközök, kódtárak és nyelvek esetében.

A Databricks kötetek használatát javasolja a nem táblázatos adatokhoz való hozzáférés kezeléséhez a felhőobjektum-tárolóban. A nem táblázatos adatok például a következők:

  • Adatfájlok a betöltéshez, például CSV, JSON és Parquet.
  • Szöveg-, kép- és hangfájlok adatelemzési, gépi tanulási és AI-számítási feladatokhoz.
  • Az Azure Databricks által a külső rendszerekkel való integrációhoz írt CSV- vagy JSON-összetevők.

Köteteket használhat fájlok, például kódtárak, init szkriptek és összetevők létrehozásához. Tekintse meg a kötetekben és munkaterületfájlokban lévő fájlokra vonatkozó javaslatokat.

Kötetekben lévő fájlok használata a Katalóguskezelő felhasználói felületével

A Katalóguskezelő a Unity Catalog-kötetekkel tárolt fájlok gyakori fájlkezelési feladataihoz nyújt lehetőségeket.

A kötet fájljainak használatához tegye a következőket:

  1. Az Azure Databricks-munkaterületen kattintson a Katalógus elemre Katalógus ikon .
  2. Keresse meg vagy keresse meg a használni kívánt kötetet, és jelölje ki.

A kötetek létrehozásával és kezelésével kapcsolatos részletekért lásd: Kötetek létrehozása és kezelése.

Fájlok feltöltése kötetre

A Kötet feltöltése gomb megnyitja a fájlok feltöltésére szolgáló párbeszédpanelt. Lásd: Fájlok feltöltése Unity-katalóguskötetbe.

A feltöltött fájlok száma nem haladhatja meg az 5 GB-ot.

Fájlok letöltése kötetről

Ha fájlokat szeretne letölteni egy kötetről, tegye a következőket:

  1. Jelöljön ki egy vagy több fájlt.
  2. A fájlok letöltéséhez kattintson a Letöltés gombra.

Fájlok törlése kötetről

Ha fájlokat szeretne törölni egy kötetből, tegye a következőket:

  1. Jelöljön ki egy vagy több fájlt.
  2. Kattintson a Törlés gombra.
  3. Kattintson a Törlés gombra a megjelenő párbeszédpanel megerősítéséhez.

Üres könyvtár létrehozása

Ha új könyvtárat szeretne létrehozni egy kötetben, tegye a következőket:

  1. Kattintson a Kebab menü kötetnév jobb oldalán található elemre.
  2. Válassza a Címtár létrehozása lehetőséget.
  3. Adjon meg egy könyvtárnevet.
  4. Kattintson a Létrehozás gombra.

Címtárak törlése kötetből

A címtárak kötetből való törléséhez tegye a következőket:

  1. Jelöljön ki egy vagy több könyvtárat.
  2. Kattintson a Törlés gombra.
  3. Kattintson a Törlés gombra a megjelenő párbeszédpanel megerősítéséhez.

Kötetek felhasználói felületi fájlkezelési feladatai

Kattintson a fájlnév melletti kebab menüre Kebab menü a következő műveletek végrehajtásához:

  • Elérési út másolása
  • Fájl letöltése
  • Fájl törlése
  • Tábla létrehozása

Tábla létrehozása kötet adataiból

Az Azure Databricks felhasználói felületet biztosít egy Unity Catalog által felügyelt tábla létrehozásához egy Unity Catalog-kötetben tárolt fájlból, fájlból vagy könyvtárból.

Rendelkeznie CREATE TABLE kell engedélyekkel a célsémában, és hozzá kell férnie egy futó SQL-raktárhoz.

  1. Jelöljön ki egy vagy több fájlt vagy könyvtárat. A fájloknak azonos adatelrendezésűnek kell lennie.

  2. Kattintson a Tábla létrehozása gombra. Megjelenik a Tábla létrehozása kötetekből párbeszédpanel.

  3. A megadott párbeszédpanelen áttekintheti az adatok előnézetét, és elvégezheti a következő konfigurációkat:

    • Új tábla létrehozása vagy meglévő tábla felülírása
    • Válassza ki a célkatalógust és -sémát.
    • Adja meg a tábla nevét.
    • (Nem kötelező) Felülbírálja az alapértelmezett oszlopneveket és -típusokat, vagy zárja ki az oszlopokat.

    Feljegyzés

    További beállítások megtekintéséhez kattintson a Speciális attribútumok elemre.

  4. Kattintson a Tábla létrehozása gombra a megadott attribútumokkal rendelkező tábla létrehozásához. A befejezés után a Katalóguskezelő megjeleníti a táblázat részleteit.

Az Azure Databricks köteteiben lévő fájlok programozott használata

Az alábbi formátumot használva az összes támogatott nyelvről és munkaterület-szerkesztőből olvashat és írhat fájlokat kötetekben:

/Volumes/catalog_name/schema_name/volume_name/path/to/files

A kötetekben lévő fájlokat ugyanúgy kezelheti, mint bármely felhőobjektum-tárolóhelyen lévő fájlokat. Ez azt jelenti, hogy ha jelenleg felhőalapú URI-kat, DBFS-csatlakoztatási útvonalakat vagy DBFS-gyökérútvonalakat használó kódot kezel az adatokkal vagy fájlokkal való interakcióhoz, frissítheti a kódot kötetek használatára.

Feljegyzés

A kötetek csak nem táblázatos adatokhoz használhatók. A Databricks azt javasolja, hogy táblázatos adatokat regisztráljon Unity Catalog-táblákkal, majd táblázatnevekkel olvas és írjon adatokat.

Adatok olvasása és írása kötetekben

Az Apache Spark, a pandas, a Spark SQL és más OSS-kódtárak segítségével adatfájlokat olvashat és írhat kötetekben.

Az alábbi példák egy kötetben tárolt CSV-fájl olvasását mutatják be:

Python

df = spark.read.format("csv").load("/Volumes/catalog_name/schema_name/volume_name/data.csv")

display(df)

Pandák

import pandas as pd

df = pd.read_csv('/Volumes/catalog_name/schema_name/volume_name/data.csv')

display(df)

SQL

SELECT * FROM csv.`/Volumes/catalog_name/schema_name/volume_name/data.csv`

Segédprogram-parancsok kötetekben lévő fájlokhoz

A Databricks a következő eszközöket biztosítja a kötetekben lévő fájlok kezeléséhez:

  • A dbutils.fs Databricks Utilities almodulja. Lásd: Fájlrendszer segédprogram (dbutils.fs).
  • A %fs varázslat, amely egy aliasa .dbutils.fs
  • A %sh varázslat, amely lehetővé teszi a bash parancsot a kötetek ellen.

Ha például ezeket az eszközöket használja a fájlok internetről való letöltéséhez, a fájlok kibontásához és a fájlok ideiglenes blokktárolóból kötetekbe való áthelyezéséhez, tekintse meg az Adatok letöltése az internetről című témakört.

OSS-csomagokat is használhat fájl-segédprogram-parancsokhoz, például a Python-modulhoz os , ahogy az alábbi példában látható:

import os

os.mkdir('/Volumes/catalog_name/schema_name/volume_name/directory_name')

Kötetekben lévő fájlok kezelése külső eszközökről

A Databricks eszközkészletet biztosít a helyi környezetből vagy integrált rendszerekből származó kötetekben lévő fájlok programozott kezeléséhez.

SQL-parancsok kötetekben lévő fájlokhoz

Az Azure Databricks a következő SQL-kulcsszavakat támogatja a kötetekben lévő fájlok kezeléséhez:

Feljegyzés

A Databricks-jegyzetfüzetek vagy lekérdezésszerkesztők csak a LIST parancsot támogatják.

A következő Databricks SQL-összekötők és -illesztőprogramok támogatják a kötetekben lévő fájlok kezelését:

Fájlok kezelése kötetekben a Databricks parancssori felületével

Az alparancsok használata a következőben databricks fs: . Lásd: fs parancscsoport.

Feljegyzés

A Databricks PARANCSSOR megköveteli, hogy a séma dbfs:/ megelőzi az összes kötet elérési útját. Például: dbfs:/Volumes/catalog_name/schema_name/volume_name/path/to/data.

Kötetek fájljainak kezelése SDK-kkal

A következő SDK-k támogatják a kötetekben lévő fájlok kezelését:

Kötetekben lévő fájlok kezelése a REST API-val

A Fájlok API-val kezelheti a kötetekben lévő fájlokat.

REST API-példák kötetekben lévő fájlokhoz

Az alábbi példák a Databricks REST API-val végzik curl el a fájlkezelési feladatokat kötetekben.

Az alábbi példa egy üres mappát my-folder hoz létre a megadott kötetben.

curl --request PUT "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"

Az alábbi példa létrehoz egy fájlt, amely a kötet megadott elérési útján található megadott adatokkal van elnevezve data.csv .

curl --request PUT "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv?overwrite=true" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
--header "Content-Type: application/octet-stream" \
--data-binary $'id,Text\n1,Hello World!'

Az alábbi példa egy kötet tartalmát sorolja fel a megadott elérési úton. Ez a példa jq használatával formázza a válasz törzsének JSON-ját a könnyebb olvashatóság érdekében.

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" | jq .

Az alábbi példa egy kötet egy mappájának tartalmát sorolja fel a megadott elérési úton. Ez a példa jq használatával formázza a válasz törzsének JSON-ját a könnyebb olvashatóság érdekében.

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" | jq .

Az alábbi példa egy fájl tartalmát nyomtatja ki a kötet megadott elérési útján.

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"

Az alábbi példa a megadott elérési úton lévő fájlt törli egy kötetből.

curl --request DELETE "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"

Az alábbi példa egy mappát töröl a megadott kötetből.

curl --request DELETE "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"