Fájlok kezelése kötetekben
Ez a cikk példákat tartalmaz a Unity Catalog-kötetek fájljainak kezelésére különböző felhasználói felületek, eszközök, kódtárak és nyelvek esetében.
A Databricks kötetek használatát javasolja a nem táblázatos adatokhoz való hozzáférés kezeléséhez a felhőobjektum-tárolóban. A nem táblázatos adatok például a következők:
- Adatfájlok a betöltéshez, például CSV, JSON és Parquet.
- Szöveg-, kép- és hangfájlok adatelemzési, gépi tanulási és AI-számítási feladatokhoz.
- Az Azure Databricks által a külső rendszerekkel való integrációhoz írt CSV- vagy JSON-összetevők.
Köteteket használhat fájlok, például kódtárak, init szkriptek és összetevők létrehozásához. Tekintse meg a kötetekben és munkaterületfájlokban lévő fájlokra vonatkozó javaslatokat.
Kötetekben lévő fájlok használata a Katalóguskezelő felhasználói felületével
A Katalóguskezelő a Unity Catalog-kötetekkel tárolt fájlok gyakori fájlkezelési feladataihoz nyújt lehetőségeket.
A kötet fájljainak használatához tegye a következőket:
- Az Azure Databricks-munkaterületen kattintson a Katalógus elemre .
- Keresse meg vagy keresse meg a használni kívánt kötetet, és jelölje ki.
A kötetek létrehozásával és kezelésével kapcsolatos részletekért lásd: Kötetek létrehozása és kezelése.
Fájlok feltöltése kötetre
A Kötet feltöltése gomb megnyitja a fájlok feltöltésére szolgáló párbeszédpanelt. Lásd: Fájlok feltöltése Unity-katalóguskötetbe.
A feltöltött fájlok száma nem haladhatja meg az 5 GB-ot.
Fájlok letöltése kötetről
Ha fájlokat szeretne letölteni egy kötetről, tegye a következőket:
- Jelöljön ki egy vagy több fájlt.
- A fájlok letöltéséhez kattintson a Letöltés gombra.
Fájlok törlése kötetről
Ha fájlokat szeretne törölni egy kötetből, tegye a következőket:
- Jelöljön ki egy vagy több fájlt.
- Kattintson a Törlés gombra.
- Kattintson a Törlés gombra a megjelenő párbeszédpanel megerősítéséhez.
Üres könyvtár létrehozása
Ha új könyvtárat szeretne létrehozni egy kötetben, tegye a következőket:
- Kattintson a kötetnév jobb oldalán található elemre.
- Válassza a Címtár létrehozása lehetőséget.
- Adjon meg egy könyvtárnevet.
- Kattintson a Létrehozás gombra.
Címtárak törlése kötetből
A címtárak kötetből való törléséhez tegye a következőket:
- Jelöljön ki egy vagy több könyvtárat.
- Kattintson a Törlés gombra.
- Kattintson a Törlés gombra a megjelenő párbeszédpanel megerősítéséhez.
Kötetek felhasználói felületi fájlkezelési feladatai
Kattintson a fájlnév melletti kebab menüre a következő műveletek végrehajtásához:
- Elérési út másolása
- Fájl letöltése
- Fájl törlése
- Tábla létrehozása
Tábla létrehozása kötet adataiból
Az Azure Databricks felhasználói felületet biztosít egy Unity Catalog által felügyelt tábla létrehozásához egy Unity Catalog-kötetben tárolt fájlból, fájlból vagy könyvtárból.
Rendelkeznie CREATE TABLE
kell engedélyekkel a célsémában, és hozzá kell férnie egy futó SQL-raktárhoz.
Jelöljön ki egy vagy több fájlt vagy könyvtárat. A fájloknak azonos adatelrendezésűnek kell lennie.
Kattintson a Tábla létrehozása gombra. Megjelenik a Tábla létrehozása kötetekből párbeszédpanel.
A megadott párbeszédpanelen áttekintheti az adatok előnézetét, és elvégezheti a következő konfigurációkat:
- Új tábla létrehozása vagy meglévő tábla felülírása
- Válassza ki a célkatalógust és -sémát.
- Adja meg a tábla nevét.
- (Nem kötelező) Felülbírálja az alapértelmezett oszlopneveket és -típusokat, vagy zárja ki az oszlopokat.
Feljegyzés
További beállítások megtekintéséhez kattintson a Speciális attribútumok elemre.
Kattintson a Tábla létrehozása gombra a megadott attribútumokkal rendelkező tábla létrehozásához. A befejezés után a Katalóguskezelő megjeleníti a táblázat részleteit.
Az Azure Databricks köteteiben lévő fájlok programozott használata
Az alábbi formátumot használva az összes támogatott nyelvről és munkaterület-szerkesztőből olvashat és írhat fájlokat kötetekben:
/Volumes/catalog_name/schema_name/volume_name/path/to/files
A kötetekben lévő fájlokat ugyanúgy kezelheti, mint bármely felhőobjektum-tárolóhelyen lévő fájlokat. Ez azt jelenti, hogy ha jelenleg felhőalapú URI-kat, DBFS-csatlakoztatási útvonalakat vagy DBFS-gyökérútvonalakat használó kódot kezel az adatokkal vagy fájlokkal való interakcióhoz, frissítheti a kódot kötetek használatára.
Feljegyzés
A kötetek csak nem táblázatos adatokhoz használhatók. A Databricks azt javasolja, hogy táblázatos adatokat regisztráljon Unity Catalog-táblákkal, majd táblázatnevekkel olvas és írjon adatokat.
Adatok olvasása és írása kötetekben
Az Apache Spark, a pandas, a Spark SQL és más OSS-kódtárak segítségével adatfájlokat olvashat és írhat kötetekben.
Az alábbi példák egy kötetben tárolt CSV-fájl olvasását mutatják be:
Python
df = spark.read.format("csv").load("/Volumes/catalog_name/schema_name/volume_name/data.csv")
display(df)
Pandák
import pandas as pd
df = pd.read_csv('/Volumes/catalog_name/schema_name/volume_name/data.csv')
display(df)
SQL
SELECT * FROM csv.`/Volumes/catalog_name/schema_name/volume_name/data.csv`
Segédprogram-parancsok kötetekben lévő fájlokhoz
A Databricks a következő eszközöket biztosítja a kötetekben lévő fájlok kezeléséhez:
- A
dbutils.fs
Databricks Utilities almodulja. Lásd: Fájlrendszer segédprogram (dbutils.fs). - A
%fs
varázslat, amely egy aliasa .dbutils.fs
- A
%sh
varázslat, amely lehetővé teszi a bash parancsot a kötetek ellen.
Ha például ezeket az eszközöket használja a fájlok internetről való letöltéséhez, a fájlok kibontásához és a fájlok ideiglenes blokktárolóból kötetekbe való áthelyezéséhez, tekintse meg az Adatok letöltése az internetről című témakört.
OSS-csomagokat is használhat fájl-segédprogram-parancsokhoz, például a Python-modulhoz os
, ahogy az alábbi példában látható:
import os
os.mkdir('/Volumes/catalog_name/schema_name/volume_name/directory_name')
Kötetekben lévő fájlok kezelése külső eszközökről
A Databricks eszközkészletet biztosít a helyi környezetből vagy integrált rendszerekből származó kötetekben lévő fájlok programozott kezeléséhez.
SQL-parancsok kötetekben lévő fájlokhoz
Az Azure Databricks a következő SQL-kulcsszavakat támogatja a kötetekben lévő fájlok kezeléséhez:
Feljegyzés
A Databricks-jegyzetfüzetek vagy lekérdezésszerkesztők csak a LIST
parancsot támogatják.
A következő Databricks SQL-összekötők és -illesztőprogramok támogatják a kötetekben lévő fájlok kezelését:
- A Databricks SQL Connector for Python. Lásd: Fájlok kezelése a Unity-katalógus köteteiben.
- A Databricks SQL Driver for Go. Lásd: Fájlok kezelése a Unity-katalógus köteteiben.
- A Databricks SQL-illesztőprogram Node.js. Lásd: Fájlok kezelése a Unity-katalógus köteteiben.
- A Databricks JDBC-illesztő. Lásd: Fájlok kezelése Unity Catalog-kötetekben a Databricks JDBC-illesztőprogrammal.
- A Databricks ODBC-illesztő. Lásd: Fájlok kezelése Unity Catalog-kötetekben a Databricks ODBC-illesztőprogrammal.
Fájlok kezelése kötetekben a Databricks parancssori felületével
Az alparancsok használata a következőben databricks fs
: . Lásd: fs parancscsoport.
Feljegyzés
A Databricks PARANCSSOR megköveteli, hogy a séma dbfs:/
megelőzi az összes kötet elérési útját. Például: dbfs:/Volumes/catalog_name/schema_name/volume_name/path/to/data
.
Kötetek fájljainak kezelése SDK-kkal
A következő SDK-k támogatják a kötetekben lévő fájlok kezelését:
- A Pythonhoz készült Databricks SDK. Használja az elérhető módszereket a WorkspaceClient.files fájlban. Példák : Fájlok kezelése Unity-katalóguskötetekben.
- A Java-hoz készült Databricks SDK. Használja az elérhető módszereket a WorkspaceClient.files fájlban. Példák : Fájlok kezelése Unity-katalóguskötetekben.
- A Databricks SDK for Go. Használja az elérhető módszereket a WorkspaceClient.files fájlban. Példák : Fájlok kezelése Unity-katalóguskötetekben.
Kötetekben lévő fájlok kezelése a REST API-val
A Fájlok API-val kezelheti a kötetekben lévő fájlokat.
REST API-példák kötetekben lévő fájlokhoz
Az alábbi példák a Databricks REST API-val végzik curl
el a fájlkezelési feladatokat kötetekben.
Az alábbi példa egy üres mappát my-folder
hoz létre a megadott kötetben.
curl --request PUT "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"
Az alábbi példa létrehoz egy fájlt, amely a kötet megadott elérési útján található megadott adatokkal van elnevezve data.csv
.
curl --request PUT "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv?overwrite=true" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
--header "Content-Type: application/octet-stream" \
--data-binary $'id,Text\n1,Hello World!'
Az alábbi példa egy kötet tartalmát sorolja fel a megadott elérési úton. Ez a példa jq használatával formázza a válasz törzsének JSON-ját a könnyebb olvashatóság érdekében.
curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" | jq .
Az alábbi példa egy kötet egy mappájának tartalmát sorolja fel a megadott elérési úton. Ez a példa jq használatával formázza a válasz törzsének JSON-ját a könnyebb olvashatóság érdekében.
curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" | jq .
Az alábbi példa egy fájl tartalmát nyomtatja ki a kötet megadott elérési útján.
curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"
Az alábbi példa a megadott elérési úton lévő fájlt törli egy kötetből.
curl --request DELETE "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"
Az alábbi példa egy mappát töröl a megadott kötetből.
curl --request DELETE "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"