Sdílet prostřednictvím


Co jsou soubory pracovního prostoru?

Soubory pracovního prostoru jsou soubory uložené a spravované v systému souborů pracovního prostoru Databricks. Soubory pracovního prostoru můžou být téměř jakýkoliv typ souboru. Mezi běžné příklady patří:

  • Poznámkové bloky (.ipynb)
  • Zdrojové poznámkové bloky (.py, .sql, .ra .scala)
  • Dotazy SQL (.dbquery.ipynb)
  • Řídicí panely (.lvdash.json)
  • Výstrahy (.dbalert.json)
  • Soubory Pythonu (.py) používané ve vlastních modulech
  • Konfigurace YAML (.yaml nebo .yml)
  • Soubory Markdownu (.md), například README.md
  • Textové soubory (.txt) nebo jiné malé datové soubory (.csv)
  • Knihovny (.whl, .jar)
  • Soubory protokolu (.log)

Poznámka:

Prostory Genie a experimenty nemůžou být soubory pracovního prostoru.

Pro doporučení týkající se práce se soubory se podívejte do tématu Doporučení pro soubory ve svazcích a souborech pracovních prostorů.

Váš souborový strom pracovního prostoru Azure Databricks může obsahovat složky připojené k úložišti Git s názvem "Složky Git Databricks". Složky Gitu mají některá další omezení typu souboru. Seznam typů souborů podporovaných ve složkách Gitu (dříve Repos) najdete v tématu Typy prostředků podporované složkami Gitu.

Důležité

Soubory pracovního prostoru jsou ve výchozím nastavení povolené všude v Databricks Runtime verze 11.2. Pro produkční úlohy použijte Databricks Runtime 11.3 LTS nebo vyšší. Pokud k této funkci nemáte přístup, obraťte se na správce pracovního prostoru.

Co můžete dělat se soubory pracovního prostoru?

Azure Databricks poskytuje funkce podobné místnímu vývoji pro mnoho typů souborů pracovního prostoru, včetně integrovaného editoru souborů. Nepodporují se všechny případy použití pro všechny typy souborů.

Můžete vytvářet, upravovat a spravovat přístup k souborům pracovního prostoru pomocí známých vzorů z interakcí poznámkových bloků. Relativní cesty můžete použít pro importy knihoven ze souborů pracovního prostoru, podobně jako při místním vývoji. Další podrobnosti najdete v tématu:

Inicializační skripty uložené v souborech pracovního prostoru mají zvláštní chování. Soubory pracovního prostoru můžete použít k ukládání a odkazování na inicializační skripty v libovolné verzi Databricks Runtime. Viz Ukládání inicializačních skriptů v souborech pracovního prostoru.

Poznámka:

Ve službě Databricks Runtime 14.0 a vyšší je výchozí aktuální pracovní adresář (CWD) pro kód spuštěný místně, je adresář obsahující spuštěný poznámkový blok nebo skript. Jedná se o změnu chování z Databricks Runtime 13.3 LTS a níže. Podívejte se, co je výchozí aktuální pracovní adresář?

Omezení

  • Pokud váš pracovní postup používá zdrojový kód umístěný ve vzdáleném úložišti Git, nemůžete zapisovat do aktuálního adresáře nebo zapisovat pomocí relativní cesty. Zapisujte data do jiných možností umístění.
  • Příkazy nelze použít git při ukládání do souborů pracovního prostoru. Vytváření adresářů .git není v souborech pracovního prostoru povolené.
  • Čtení ze souborů pracovního prostoru pomocí exekutorů Sparku (například spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) se nepodporuje na bezserverových výpočetních prostředcích.
  • Exekutory nemohou zapisovat do souborů pracovního prostoru.
  • Symlinky jsou podporovány pouze pro cílové adresáře v kořenové složce /Workspace, například os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing").
  • K souborům pracovního prostoru není možné přistupovat z uživatelem definovaných funkcí (UDF) v clusterech se standardním režimem přístupu v Databricks Runtime 14.2 a níže.
  • Poznámkové bloky jsou podporovány jenom jako soubory pracovních prostorů v Databricks Runtime 16.2 a vyšších a v bezserverovém prostředí 2 a vyšším.
  • Notebook nelze importovat jako modul Pythonu v Databricks Runtime 16.0 a novější. Místo toho změňte formát poznámkového bloku nebo pokud chcete importovat kód, refaktorujte poznámkový blok do souboru Pythonu.
  • Dotazy, upozornění a řídicí panely se podporují jenom jako soubory pracovních prostorů v Databricks Runtime 16.4 a novějších a v bezserverovém prostředí 2 a novějším. Tyto soubory pracovního prostoru se navíc nedají přejmenovat.
  • Pouze poznámkové bloky a soubory podporují prohlížení a úpravy pomocí příkazů systému souborů, jako například %sh ls.
  • Použití dbutils.fs příkazů pro přístup k souborům pracovního prostoru není podporováno na bezserverových výpočetních prostředcích. Při spouštění poznámkových bloků na bezserverových výpočetních prostředcích používejte buňku %sh v poznámkových blocích nebo jazykově specifické příkazy, jako je shutil v Pythonu.

Omezení velikosti souboru

  • Velikost souboru pracovního prostoru je omezená na 500 MB. Operace, které se pokusí stáhnout nebo vytvořit soubory větší, než je tento limit, selžou.

Omezení oprávnění přístupu k souborům

Oprávnění pro přístup k souborům ve složkách pod /Workspace vyprší po 36 hodinách pro interaktivní výpočty a po 30 dnech pro úlohy. Databricks doporučuje spouštět dlouhé běhy jako úlohy, pokud potřebují přístup k souborům v /Workspace.

Povolení souborů pracovního prostoru

Pokud chcete povolit podporu souborů jiných než poznámkových bloků v pracovním prostoru Databricks, volejte rozhraní REST API /api/2.0/workspace-conf z poznámkového bloku nebo jiného prostředí s přístupem k pracovnímu prostoru Databricks. Soubory pracovního prostoru jsou ve výchozím nastavení povolené .

Pokud chcete povolit nebo znovu povolit podporu souborů, které nejsou poznámkovými bloky v pracovním prostoru Databricks, zavolejte /api/2.0/workspace-conf a získejte hodnotu klíče enableWorkspaceFileSystem. Jestliže je hodnota true, soubory, které nejsou notebookové, už jsou pro váš pracovní prostor povolené.

Následující příklad ukazuje, jak lze volat toto rozhraní API z notebooku pro kontrolu, zda jsou soubory pracovního prostoru zakázány, a pokud ano, znovu je povolit.

Příklad: Poznámkový blok pro opětovné povolení podpory souborů pracovního prostoru Databricks

Získejte poznámkový blok