Práce se soubory v Azure Databricks

Azure Databricks má několik nástrojů a rozhraní API pro interakci se soubory v následujících umístěních:

Svazky katalogu Unity
Soubory pracovního prostoru
Cloudové úložiště objektů
Připojení DBFS a kořen DBFS
Dočasné úložiště připojené k uzlu ovladače clusteru

Tento článek obsahuje příklady pro interakci se soubory v těchto umístěních pro následující nástroje:

Apache Spark
Spark SQL a Databricks SQL
Nástroje systému souborů Databricks (dbutils.fs nebo %fs)
Rozhraní příkazového řádku Databricks
Databricks REST API
Příkazy prostředí Bash (%sh)
Instalace knihovny na úrovni notebooku pomocí %pip
Pandy
Nástroje pro správu a zpracování souborů Pythonu v OSS

Důležitý

Některé operace v Databricks, zejména ty, které používají knihovny Java nebo Scala, běží jako procesy JVM, například:

Určení závislosti souboru JAR pomocí --jars v konfiguracích Sparku
Volání cat nebo java.io.File v poznámkových blocích Scala
Vlastní zdroje dat, například spark.read.format("com.mycompany.datasource")
Knihovny, které načítají soubory pomocí Javy FileInputStream nebo Paths.get()

Tyto operace nepodporují čtení ze svazků katalogu Unity nebo souborů pracovního prostoru pomocí standardních souborových cest, například /Volumes/my-catalog/my-schema/my-volume/my-file.csv. Pokud potřebujete přistupovat k souborům svazků nebo souborům pracovního prostoru ze závislostí JAR nebo knihoven založených na JVM, nejprve zkopírujte soubory do místního úložiště výpočetního systému pomocí příkazů v Pythonu nebo %sh, například %sh mv.. Nepoužívejte %fs a dbutils.fs, které používají JVM. Pokud chcete získat přístup k souborům, které jste už zkopírovali místně, použijte příkazy specifické pro jazyk, jako je Python shutil nebo použijte %sh příkazy. Pokud se soubor musí nacházet při spuštění clusteru, nejprve soubor přesuňte pomocí inicializačního skriptu. Viz Co jsou inicializační skripty?.

Musím pro přístup k datům zadat schéma identifikátoru URI?

Cesty přístupu k datům v Azure Databricks se řídí jedním z následujících standardů:

cesty ve stylu identifikátoru URI zahrnují schéma identifikátoru URI. Pro řešení přístupu k datům nativních pro Databricks jsou schémata identifikátorů URI volitelná pro většinu případů použití. Při přímém přístupu k datům v cloudovém úložišti objektů musíte zadat správné schéma identifikátoru URI pro typ úložiště.
POSIXové cesty poskytují přístup k datům relativně ke kořenovému adresáři ovladače (/). Cesty stylu POSIX nikdy nevyžadují schéma. Svazky katalogu Unity nebo připojovací body DBFS můžete použít k poskytování přístupu ve stylu POSIX k datům v cloudovém úložišti objektů. Mnoho architektur ML a dalších modulů OSS Python vyžaduje FUSE a může používat pouze cesty ve stylu POSIX.

Poznámka

Operace se soubory vyžadující přístup k datům FUSE nemají přímý přístup ke cloudovému úložišti objektů pomocí identifikátorů URI. Databricks doporučuje použít svazky katalogu Unity ke konfiguraci přístupu k těmto umístěním pro FUSE.

Na výpočtech nakonfigurovaných s vyhrazeným režimem přístupu (dříve režimem přístupu jednoho uživatele) a Modulem Databricks Runtime 14.3 a novějším Scala podporuje FUSE pro svazky katalogu Unity a soubory pracovního prostoru, s výjimkou podprocesů pocházejících ze Scala, jako je například příkaz Scala "cat /Volumes/path/to/file".!!.

Práce se soubory ve svazcích katalogu Unity

Databricks doporučuje použít svazky katalogu Unity ke konfiguraci přístupu k ne tabulkovým datovým souborům uloženým v cloudovém úložišti objektů. Kompletní dokumentaci ke správě souborů ve svazcích, včetně podrobných pokynů a osvědčených postupů, najdete v tématu Práce se soubory ve svazcích katalogu Unity.

Následující příklady ukazují běžné operace s využitím různých nástrojů a rozhraní:

Nástroj	Příklad
Apache Spark	`spark.read.format("json").load("/Volumes/my_catalog/my_schema/my_volume/data.json").show()`
Spark SQL a Databricks SQL	SELECT * FROM csv.`/Volumes/my_catalog/my_schema/my_volume/data.csv`; `LIST '/Volumes/my_catalog/my_schema/my_volume/';`
Nástroje systému souborů Databricks	`dbutils.fs.ls("/Volumes/my_catalog/my_schema/my_volume/")` `%fs ls /Volumes/my_catalog/my_schema/my_volume/`
Rozhraní příkazového řádku Databricks	`databricks fs cp /path/to/local/file dbfs:/Volumes/my_catalog/my_schema/my_volume/`
Databricks REST API	`POST https://<databricks-instance>/api/2.1/jobs/create` `{"name": "A multitask job", "tasks": [{..."libraries": [{"jar": "/Volumes/dev/environment/libraries/logging/Logging.jar"}],},...]}`
Příkazy prostředí Bash	`%sh curl http://<address>/text.zip -o /Volumes/my_catalog/my_schema/my_volume/tmp/text.zip`
Instalace knihoven	`%pip install /Volumes/my_catalog/my_schema/my_volume/my_library.whl`
Pandas	`df = pd.read_csv('/Volumes/my_catalog/my_schema/my_volume/data.csv')`
Open Source Software Python	`os.listdir('/Volumes/my_catalog/my_schema/my_volume/path/to/directory')`

Informace o omezeních svazků a alternativních řešeních najdete v tématu Omezení práce se soubory ve svazcích.

Práce se soubory pracovního prostoru

Soubory pracovního prostoru Databricks jsou soubory v pracovním prostoru, které jsou uloženy v účtu úložiště pracovního prostoru . Soubory pracovního prostoru můžete použít k ukládání a přístupu k souborům, jako jsou poznámkové bloky, soubory zdrojového kódu, datové soubory a další prostředky pracovního prostoru.

Důležitý

Vzhledem k tomu, že soubory pracovního prostoru mají omezení velikosti, databricks doporučuje ukládat jenom malé datové soubory, a to především pro vývoj a testování. Doporučení týkající se umístění pro ukládání jiných typů souborů najdete v tématu Typy souborů.

Nástroj	Příklad
Apache Spark	`spark.read.format("json").load("file:/Workspace/Users/<user-folder>/data.json").show()`
Spark SQL a Databricks SQL	SELECT * FROM json.`file:/Workspace/Users/<user-folder>/file.json`;
Nástroje systému souborů Databricks	`dbutils.fs.ls("file:/Workspace/Users/<user-folder>/")` `%fs ls file:/Workspace/Users/<user-folder>/`
Rozhraní příkazového řádku Databricks	`databricks workspace list`
Databricks REST API	`POST https://<databricks-instance>/api/2.0/workspace/delete` `{"path": "/Workspace/Shared/code.py", "recursive": "false"}`
Příkazy prostředí Bash	`%sh curl http://<address>/text.zip -o /Workspace/Users/<user-folder>/text.zip`
Instalace knihoven	`%pip install /Workspace/Users/<user-folder>/my_library.whl`
Pandas	`df = pd.read_csv('/Workspace/Users/<user-folder>/data.csv')`
Open Source Software Python	`os.listdir('/Workspace/Users/<user-folder>/path/to/directory')`

Poznámka

Při práci s nástroji Databricks, Apache Sparkem nebo SQL se vyžaduje schéma file:/.

V pracovních prostorech, kde jsou zakázány kořenové a připojené soubory DBFS, můžete také použít dbfs:/Workspace pro přístup k souborům pracovního prostoru pomocí nástrojů Databricks. To vyžaduje Databricks Runtime 13.3 LTS nebo vyšší. Viz Zakázání přístupu ke kořenovému adresáři DBFS a připojení v existujícím pracovním prostoru Azure Databricks.

Omezení při práci se soubory pracovního prostoru najdete v tématu Omezení.

Kam se ukládají odstraněné soubory pracovního prostoru?

Když odstraníte soubor pracovního prostoru, odešle se do koše. Soubory můžete obnovit nebo trvale odstranit z koše pomocí uživatelského rozhraní.

Viz Odstranění objektu.

Práce se soubory v cloudovém úložišti objektů

Databricks doporučuje používat svazky katalogu Unity ke konfiguraci zabezpečeného přístupu k souborům v cloudovém úložišti objektů. Pokud se rozhodnete přistupovat k datům přímo v cloudovém úložišti objektů pomocí identifikátorů URI, musíte nakonfigurovat oprávnění. Viz Spravované a externí svazky.

Následující příklady používají identifikátory URI pro přístup k datům v cloudovém úložišti objektů:

Nástroj	Příklad
Apache Spark	`spark.read.format("json").load("abfss://container-name@storage-account-name.dfs.core.windows.net/path/file.json").show()`
Spark SQL a Databricks SQL	SELECT * FROM csv.`abfss://container-name@storage-account-name.dfs.core.windows.net/path/file.json`; `LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path';`
Nástroje systému souborů Databricks	`dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/")` `%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/`
Rozhraní příkazového řádku Databricks	Nepodporováno
Databricks REST API	Nepodporováno
Příkazy prostředí Bash	Nepodporováno
Instalace knihoven	`%pip install abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl`
Pandas	Nepodporováno
Open Source Software Python	Nepodporováno

Práce se soubory v připojeních DBFS a kořenovém adresáři DBFS

Důležitý

Kořen DBFS a připojení DBFS jsou zastaralé a nejsou doporučovány společností Databricks. Nové účty jsou zřízené bez přístupu k těmto funkcím. Databricks místo toho doporučuje používat svazky katalogu Unity, externí umístění nebo soubory pracovního prostoru .

Nástroj	Příklad
Apache Spark	`spark.read.format("json").load("/mnt/path/to/data.json").show()`
Spark SQL a Databricks SQL	SELECT * FROM json.`/mnt/path/to/data.json`;
Nástroje systému souborů Databricks	`dbutils.fs.ls("/mnt/path")` `%fs ls /mnt/path`
Rozhraní příkazového řádku Databricks	`databricks fs cp dbfs:/mnt/path/to/remote/file /path/to/local/file`
Databricks REST API	`POST https://<host>/api/2.0/dbfs/delete --data '{ "path": "/tmp/HelloWorld.txt" }'`
Příkazy prostředí Bash	`%sh curl http://<address>/text.zip > /dbfs/mnt/tmp/text.zip`
Instalace knihoven	`%pip install /dbfs/mnt/path/to/my_library.whl`
Pandas	`df = pd.read_csv('/dbfs/mnt/path/to/data.csv')`
Open Source Software Python	`os.listdir('/dbfs/mnt/path/to/directory')`

Poznámka

Při práci s rozhraním příkazového řádku Databricks se vyžaduje schéma dbfs:/.

Práce se soubory v dočasném úložišti připojeném k uzlu ovladače

Dočasné úložiště připojené k uzlu ovladače je blokové úložiště s integrovanou cestou založenou na POSIX. Všechna data uložená v tomto umístění zmizí, když se cluster ukončí nebo restartuje.

Nástroj	Příklad
Apache Spark	Nepodporováno
Spark SQL a Databricks SQL	Nepodporováno
Nástroje systému souborů Databricks	`dbutils.fs.ls("file:/path")` `%fs ls file:/path`
Rozhraní příkazového řádku Databricks	Nepodporováno
Databricks REST API	Nepodporováno
Příkazy prostředí Bash	`%sh curl http://<address>/text.zip > /tmp/text.zip`
Instalace knihoven	Nepodporováno
Pandas	`df = pd.read_csv('/path/to/data.csv')`
Open Source Software Python	`os.listdir('/path/to/directory')`

Poznámka

Při práci s nástroji Databricks se vyžaduje schéma file:/.

Přesun dat z dočasného úložiště do svazků

Možná budete chtít přistupovat k datům staženým nebo uloženým do dočasného úložiště pomocí Apache Sparku. Vzhledem k tomu, že dočasné úložiště je připojené k ovladači a Spark je distribuovaný modul pro zpracování, ne všechny operace můžou přímo přistupovat k datům. Předpokládejme, že musíte přesunout data ze systému souborů ovladače do svazků katalogu Unity. V takovém případě můžete kopírovat soubory pomocí magic příkazů nebo nástrojů Databricks, jak je znázorněno v následujících příkladech.

dbutils.fs.cp ("file:/<path>", "/Volumes/<catalog>/<schema>/<volume>/<path>")

%sh cp /<path> /Volumes/<catalog>/<schema>/<volume>/<path>

%fs cp file:/<path> /Volumes/<catalog>/<schema>/<volume>/<path>

Další zdroje informací

Informace o nahrávání místních souborů nebo stahování internetových souborů do Azure Databricks najdete v tématu Nahrání souborů do služby Azure Databricks.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-01-16

Sdílet prostřednictvím

Práce se soubory v Azure Databricks

Musím pro přístup k datům zadat schéma identifikátoru URI?

Práce se soubory ve svazcích katalogu Unity

Práce se soubory pracovního prostoru

Kam se ukládají odstraněné soubory pracovního prostoru?

Práce se soubory v cloudovém úložišti objektů

Práce se soubory v připojeních DBFS a kořenovém adresáři DBFS

Práce se soubory v dočasném úložišti připojeném k uzlu ovladače

Přesun dat z dočasného úložiště do svazků

Další zdroje informací

Váš názor

Další materiály