Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Azure Databricks má několik nástrojů a rozhraní API pro interakci se soubory v následujících umístěních:
- Svazky katalogu Unity
- Soubory pracovního prostoru
- Cloudové úložiště objektů
- Připojení DBFS a kořen DBFS
- Dočasné úložiště připojené k uzlu ovladače clusteru
Tento článek obsahuje příklady pro interakci se soubory v těchto umístěních pro následující nástroje:
- Apache Spark
- Spark SQL a Databricks SQL
- Nástroje systému souborů Databricks (
dbutils.fsnebo%fs) - Rozhraní příkazového řádku Databricks
- Databricks REST API
- Příkazy prostředí Bash (
%sh) - Instalace knihovny na úrovni notebooku pomocí
%pip - Pandy
- Nástroje pro správu a zpracování souborů Pythonu v OSS
Důležitý
Některé operace v Databricks, zejména ty, které používají knihovny Java nebo Scala, běží jako procesy JVM, například:
- Určení závislosti souboru JAR pomocí
--jarsv konfiguracích Sparku - Volání
catnebojava.io.Filev poznámkových blocích Scala - Vlastní zdroje dat, například
spark.read.format("com.mycompany.datasource") - Knihovny, které načítají soubory pomocí Javy
FileInputStreamneboPaths.get()
Tyto operace nepodporují čtení ze svazků katalogu Unity nebo souborů pracovního prostoru pomocí standardních souborových cest, například /Volumes/my-catalog/my-schema/my-volume/my-file.csv. Pokud potřebujete přistupovat k souborům svazků nebo souborům pracovního prostoru ze závislostí JAR nebo knihoven založených na JVM, nejprve zkopírujte soubory do místního úložiště výpočetního systému pomocí příkazů v Pythonu nebo %sh, například %sh mv.. Nepoužívejte %fs a dbutils.fs, které používají JVM. Pokud chcete získat přístup k souborům, které jste už zkopírovali místně, použijte příkazy specifické pro jazyk, jako je Python shutil nebo použijte %sh příkazy. Pokud se soubor musí nacházet při spuštění clusteru, nejprve soubor přesuňte pomocí inicializačního skriptu. Viz Co jsou inicializační skripty?.
Musím pro přístup k datům zadat schéma identifikátoru URI?
Cesty přístupu k datům v Azure Databricks se řídí jedním z následujících standardů:
cesty ve stylu identifikátoru URI zahrnují schéma identifikátoru URI. Pro řešení přístupu k datům nativních pro Databricks jsou schémata identifikátorů URI volitelná pro většinu případů použití. Při přímém přístupu k datům v cloudovém úložišti objektů musíte zadat správné schéma identifikátoru URI pro typ úložiště.
POSIXové cesty poskytují přístup k datům relativně ke kořenovému adresáři ovladače (
/). Cesty stylu POSIX nikdy nevyžadují schéma. Svazky katalogu Unity nebo připojovací body DBFS můžete použít k poskytování přístupu ve stylu POSIX k datům v cloudovém úložišti objektů. Mnoho architektur ML a dalších modulů OSS Python vyžaduje FUSE a může používat pouze cesty ve stylu POSIX.
Poznámka
Operace se soubory vyžadující přístup k datům FUSE nemají přímý přístup ke cloudovému úložišti objektů pomocí identifikátorů URI. Databricks doporučuje použít svazky katalogu Unity ke konfiguraci přístupu k těmto umístěním pro FUSE.
Na výpočtech nakonfigurovaných s vyhrazeným režimem přístupu (dříve režimem přístupu jednoho uživatele) a Modulem Databricks Runtime 14.3 a novějším Scala podporuje FUSE pro svazky katalogu Unity a soubory pracovního prostoru, s výjimkou podprocesů pocházejících ze Scala, jako je například příkaz Scala "cat /Volumes/path/to/file".!!.
Práce se soubory ve svazcích katalogu Unity
Databricks doporučuje použít svazky katalogu Unity ke konfiguraci přístupu k ne tabulkovým datovým souborům uloženým v cloudovém úložišti objektů. Kompletní dokumentaci ke správě souborů ve svazcích, včetně podrobných pokynů a osvědčených postupů, najdete v tématu Práce se soubory ve svazcích katalogu Unity.
Následující příklady ukazují běžné operace s využitím různých nástrojů a rozhraní:
| Nástroj | Příklad |
|---|---|
| Apache Spark | spark.read.format("json").load("/Volumes/my_catalog/my_schema/my_volume/data.json").show() |
| Spark SQL a Databricks SQL | SELECT * FROM csv.`/Volumes/my_catalog/my_schema/my_volume/data.csv`;LIST '/Volumes/my_catalog/my_schema/my_volume/'; |
| Nástroje systému souborů Databricks | dbutils.fs.ls("/Volumes/my_catalog/my_schema/my_volume/")%fs ls /Volumes/my_catalog/my_schema/my_volume/ |
| Rozhraní příkazového řádku Databricks | databricks fs cp /path/to/local/file dbfs:/Volumes/my_catalog/my_schema/my_volume/ |
| Databricks REST API | POST https://<databricks-instance>/api/2.1/jobs/create{"name": "A multitask job", "tasks": [{..."libraries": [{"jar": "/Volumes/dev/environment/libraries/logging/Logging.jar"}],},...]} |
| Příkazy prostředí Bash | %sh curl http://<address>/text.zip -o /Volumes/my_catalog/my_schema/my_volume/tmp/text.zip |
| Instalace knihoven | %pip install /Volumes/my_catalog/my_schema/my_volume/my_library.whl |
| Pandas | df = pd.read_csv('/Volumes/my_catalog/my_schema/my_volume/data.csv') |
| Open Source Software Python | os.listdir('/Volumes/my_catalog/my_schema/my_volume/path/to/directory') |
Informace o omezeních svazků a alternativních řešeních najdete v tématu Omezení práce se soubory ve svazcích.
Práce se soubory pracovního prostoru
Soubory pracovního prostoru Databricks jsou soubory v pracovním prostoru, které jsou uloženy v účtu úložiště pracovního prostoru . Soubory pracovního prostoru můžete použít k ukládání a přístupu k souborům, jako jsou poznámkové bloky, soubory zdrojového kódu, datové soubory a další prostředky pracovního prostoru.
Důležitý
Vzhledem k tomu, že soubory pracovního prostoru mají omezení velikosti, databricks doporučuje ukládat jenom malé datové soubory, a to především pro vývoj a testování. Doporučení týkající se umístění pro ukládání jiných typů souborů najdete v tématu Typy souborů.
| Nástroj | Příklad |
|---|---|
| Apache Spark | spark.read.format("json").load("file:/Workspace/Users/<user-folder>/data.json").show() |
| Spark SQL a Databricks SQL | SELECT * FROM json.`file:/Workspace/Users/<user-folder>/file.json`; |
| Nástroje systému souborů Databricks | dbutils.fs.ls("file:/Workspace/Users/<user-folder>/")%fs ls file:/Workspace/Users/<user-folder>/ |
| Rozhraní příkazového řádku Databricks | databricks workspace list |
| Databricks REST API | POST https://<databricks-instance>/api/2.0/workspace/delete{"path": "/Workspace/Shared/code.py", "recursive": "false"} |
| Příkazy prostředí Bash | %sh curl http://<address>/text.zip -o /Workspace/Users/<user-folder>/text.zip |
| Instalace knihoven | %pip install /Workspace/Users/<user-folder>/my_library.whl |
| Pandas | df = pd.read_csv('/Workspace/Users/<user-folder>/data.csv') |
| Open Source Software Python | os.listdir('/Workspace/Users/<user-folder>/path/to/directory') |
Poznámka
Při práci s nástroji Databricks, Apache Sparkem nebo SQL se vyžaduje schéma file:/.
V pracovních prostorech, kde jsou zakázány kořenové a připojené soubory DBFS, můžete také použít dbfs:/Workspace pro přístup k souborům pracovního prostoru pomocí nástrojů Databricks. To vyžaduje Databricks Runtime 13.3 LTS nebo vyšší. Viz Zakázání přístupu ke kořenovému adresáři DBFS a připojení v existujícím pracovním prostoru Azure Databricks.
Omezení při práci se soubory pracovního prostoru najdete v tématu Omezení.
Kam se ukládají odstraněné soubory pracovního prostoru?
Když odstraníte soubor pracovního prostoru, odešle se do koše. Soubory můžete obnovit nebo trvale odstranit z koše pomocí uživatelského rozhraní.
Viz Odstranění objektu.
Práce se soubory v cloudovém úložišti objektů
Databricks doporučuje používat svazky katalogu Unity ke konfiguraci zabezpečeného přístupu k souborům v cloudovém úložišti objektů. Pokud se rozhodnete přistupovat k datům přímo v cloudovém úložišti objektů pomocí identifikátorů URI, musíte nakonfigurovat oprávnění. Viz Spravované a externí svazky.
Následující příklady používají identifikátory URI pro přístup k datům v cloudovém úložišti objektů:
| Nástroj | Příklad |
|---|---|
| Apache Spark | spark.read.format("json").load("abfss://container-name@storage-account-name.dfs.core.windows.net/path/file.json").show() |
| Spark SQL a Databricks SQL |
SELECT * FROM csv.`abfss://container-name@storage-account-name.dfs.core.windows.net/path/file.json`;
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path';
|
| Nástroje systému souborů Databricks |
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/")
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/
|
| Rozhraní příkazového řádku Databricks | Nepodporováno |
| Databricks REST API | Nepodporováno |
| Příkazy prostředí Bash | Nepodporováno |
| Instalace knihoven | %pip install abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl |
| Pandas | Nepodporováno |
| Open Source Software Python | Nepodporováno |
Práce se soubory v připojeních DBFS a kořenovém adresáři DBFS
DBFS mounty nelze zabezpečit pomocí katalogu Unity a Databricks je již nedoporučuje. Data uložená v kořenovém adresáři DBFS jsou přístupná všem uživatelům v pracovním prostoru. Databricks nedoporučuje ukládat jakýkoli citlivý nebo produkční kód nebo data do kořene DBFS. Viz Co je DBFS?.
| Nástroj | Příklad |
|---|---|
| Apache Spark | spark.read.format("json").load("/mnt/path/to/data.json").show() |
| Spark SQL a Databricks SQL | SELECT * FROM json.`/mnt/path/to/data.json`; |
| Nástroje systému souborů Databricks | dbutils.fs.ls("/mnt/path")%fs ls /mnt/path |
| Rozhraní příkazového řádku Databricks | databricks fs cp dbfs:/mnt/path/to/remote/file /path/to/local/file |
| Databricks REST API | POST https://<host>/api/2.0/dbfs/delete --data '{ "path": "/tmp/HelloWorld.txt" }' |
| Příkazy prostředí Bash | %sh curl http://<address>/text.zip > /dbfs/mnt/tmp/text.zip |
| Instalace knihoven | %pip install /dbfs/mnt/path/to/my_library.whl |
| Pandas | df = pd.read_csv('/dbfs/mnt/path/to/data.csv') |
| Open Source Software Python | os.listdir('/dbfs/mnt/path/to/directory') |
Poznámka
Při práci s rozhraním příkazového řádku Databricks se vyžaduje schéma dbfs:/.
Práce se soubory v dočasném úložišti připojeném k uzlu ovladače
Dočasné úložiště připojené k uzlu ovladače je blokové úložiště s integrovanou cestou založenou na POSIX. Všechna data uložená v tomto umístění zmizí, když se cluster ukončí nebo restartuje.
| Nástroj | Příklad |
|---|---|
| Apache Spark | Nepodporováno |
| Spark SQL a Databricks SQL | Nepodporováno |
| Nástroje systému souborů Databricks | dbutils.fs.ls("file:/path")%fs ls file:/path |
| Rozhraní příkazového řádku Databricks | Nepodporováno |
| Databricks REST API | Nepodporováno |
| Příkazy prostředí Bash | %sh curl http://<address>/text.zip > /tmp/text.zip |
| Instalace knihoven | Nepodporováno |
| Pandas | df = pd.read_csv('/path/to/data.csv') |
| Open Source Software Python | os.listdir('/path/to/directory') |
Poznámka
Při práci s nástroji Databricks se vyžaduje schéma file:/.
Přesun dat z dočasného úložiště do svazků
Možná budete chtít přistupovat k datům staženým nebo uloženým do dočasného úložiště pomocí Apache Sparku. Vzhledem k tomu, že dočasné úložiště je připojené k ovladači a Spark je distribuovaný modul pro zpracování, ne všechny operace můžou přímo přistupovat k datům. Předpokládejme, že musíte přesunout data ze systému souborů ovladače do svazků katalogu Unity. V takovém případě můžete kopírovat soubory pomocí magic příkazů nebo nástrojů Databricks, jak je znázorněno v následujících příkladech.
dbutils.fs.cp ("file:/<path>", "/Volumes/<catalog>/<schema>/<volume>/<path>")
%sh cp /<path> /Volumes/<catalog>/<schema>/<volume>/<path>
%fs cp file:/<path> /Volumes/<catalog>/<schema>/<volume>/<path>
Další zdroje informací
Informace o nahrávání místních souborů nebo stahování internetových souborů do Azure Databricks najdete v tématu Nahrání souborů do služby Azure Databricks.