Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Soubory pracovního prostoru jsou soubory uložené a spravované v systému souborů pracovního prostoru Databricks. Soubory pracovního prostoru můžou být téměř jakýkoliv typ souboru. Mezi běžné příklady patří:
- Poznámkové bloky (
.ipynb) - Zdrojové poznámkové bloky (
.py,.sql,.ra.scala) - Dotazy SQL (
.dbquery.ipynb) - Řídicí panely (
.lvdash.json) - Výstrahy (
.dbalert.json) - Soubory Pythonu (
.py) používané ve vlastních modulech - Konfigurace YAML (
.yamlnebo.yml) - Soubory Markdownu (
.md), napříkladREADME.md - Textové soubory (
.txt) nebo jiné malé datové soubory (.csv) - Knihovny (
.whl,.jar) - Soubory protokolu (
.log)
Poznámka:
Prostory Genie a experimenty nemůžou být soubory pracovního prostoru.
Pro doporučení týkající se práce se soubory se podívejte do tématu Doporučení pro soubory ve svazcích a souborech pracovních prostorů.
Váš souborový strom pracovního prostoru Azure Databricks může obsahovat složky připojené k úložišti Git s názvem "Složky Git Databricks". Složky Gitu mají některá další omezení typu souboru. Seznam typů souborů podporovaných ve složkách Gitu (dříve Repos) najdete v tématu Typy prostředků podporované složkami Gitu.
Důležité
Soubory pracovního prostoru jsou ve výchozím nastavení povolené všude v Databricks Runtime verze 11.2. Pro produkční úlohy použijte Databricks Runtime 11.3 LTS nebo vyšší. Pokud k této funkci nemáte přístup, obraťte se na správce pracovního prostoru.
Co můžete dělat se soubory pracovního prostoru?
Azure Databricks poskytuje funkce podobné místnímu vývoji pro mnoho typů souborů pracovního prostoru, včetně integrovaného editoru souborů. Nepodporují se všechny případy použití pro všechny typy souborů.
Můžete vytvářet, upravovat a spravovat přístup k souborům pracovního prostoru pomocí známých vzorů z interakcí poznámkových bloků. Relativní cesty můžete použít pro importy knihoven ze souborů pracovního prostoru, podobně jako při místním vývoji. Další podrobnosti najdete v tématu:
- Základní používání souborů v pracovním prostoru
- Interakce se soubory pracovního prostoru prostřednictvím kódu programu
- Práce s moduly pro Python a R
- Zobrazení obrázků
- Správa poznámkových bloků
- ACL souborů
Inicializační skripty uložené v souborech pracovního prostoru mají zvláštní chování. Soubory pracovního prostoru můžete použít k ukládání a odkazování na inicializační skripty v libovolné verzi Databricks Runtime. Viz Ukládání inicializačních skriptů v souborech pracovního prostoru.
Poznámka:
Ve službě Databricks Runtime 14.0 a vyšší je výchozí aktuální pracovní adresář (CWD) pro kód spuštěný místně, je adresář obsahující spuštěný poznámkový blok nebo skript. Jedná se o změnu chování z Databricks Runtime 13.3 LTS a níže. Podívejte se, co je výchozí aktuální pracovní adresář?
Omezení
- Pokud váš pracovní postup používá zdrojový kód umístěný ve vzdáleném úložišti Git, nemůžete zapisovat do aktuálního adresáře nebo zapisovat pomocí relativní cesty. Zapisujte data do jiných možností umístění.
- Příkazy nelze použít
gitpři ukládání do souborů pracovního prostoru. Vytváření adresářů.gitnení v souborech pracovního prostoru povolené. - Čtení ze souborů pracovního prostoru pomocí exekutorů Sparku (například
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) se nepodporuje na bezserverových výpočetních prostředcích. - Exekutory nemohou zapisovat do souborů pracovního prostoru.
- Symlinky jsou podporovány pouze pro cílové adresáře v kořenové složce
/Workspace, napříklados.symlink("/Workspace/Users/someone@example.com/Testing", "Testing"). - K souborům pracovního prostoru není možné přistupovat z uživatelem definovaných funkcí (UDF) v clusterech se standardním režimem přístupu v Databricks Runtime 14.2 a níže.
- Poznámkové bloky jsou podporovány jenom jako soubory pracovních prostorů v Databricks Runtime 16.2 a vyšších a v bezserverovém prostředí 2 a vyšším.
- Notebook nelze importovat jako modul Pythonu v Databricks Runtime 16.0 a novější. Místo toho změňte formát poznámkového bloku nebo pokud chcete importovat kód, refaktorujte poznámkový blok do souboru Pythonu.
- Dotazy, upozornění a řídicí panely se podporují jenom jako soubory pracovních prostorů v Databricks Runtime 16.4 a novějších a v bezserverovém prostředí 2 a novějším. Tyto soubory pracovního prostoru se navíc nedají přejmenovat.
- Pouze poznámkové bloky a soubory podporují prohlížení a úpravy pomocí příkazů systému souborů, jako například
%sh ls. - Použití
dbutils.fspříkazů pro přístup k souborům pracovního prostoru není podporováno na bezserverových výpočetních prostředcích. Při spouštění poznámkových bloků na bezserverových výpočetních prostředcích používejte buňku%shv poznámkových blocích nebo jazykově specifické příkazy, jako jeshutilv Pythonu.
Omezení velikosti souboru
- Velikost souboru pracovního prostoru je omezená na 500 MB. Operace, které se pokusí stáhnout nebo vytvořit soubory větší, než je tento limit, selžou.
Omezení oprávnění přístupu k souborům
Oprávnění pro přístup k souborům ve složkách pod /Workspace vyprší po 36 hodinách pro interaktivní výpočty a po 30 dnech pro úlohy. Databricks doporučuje spouštět dlouhé běhy jako úlohy, pokud potřebují přístup k souborům v /Workspace.
Povolení souborů pracovního prostoru
Pokud chcete povolit podporu souborů jiných než poznámkových bloků v pracovním prostoru Databricks, volejte rozhraní REST API /api/2.0/workspace-conf z poznámkového bloku nebo jiného prostředí s přístupem k pracovnímu prostoru Databricks. Soubory pracovního prostoru jsou ve výchozím nastavení povolené .
Pokud chcete povolit nebo znovu povolit podporu souborů, které nejsou poznámkovými bloky v pracovním prostoru Databricks, zavolejte /api/2.0/workspace-conf a získejte hodnotu klíče enableWorkspaceFileSystem. Jestliže je hodnota true, soubory, které nejsou notebookové, už jsou pro váš pracovní prostor povolené.
Následující příklad ukazuje, jak lze volat toto rozhraní API z notebooku pro kontrolu, zda jsou soubory pracovního prostoru zakázány, a pokud ano, znovu je povolit.
Příklad: Poznámkový blok pro opětovné povolení podpory souborů pracovního prostoru Databricks
Získejte poznámkový blok