Co jsou soubory pracovního prostoru?
Soubor pracovního prostoru je jakýkoli soubor v pracovním prostoru Azure Databricks, který není poznámkovým blokem Databricks. Soubory pracovního prostoru můžou být libovolný typ souboru. K běžným příkladům patří:
.py
soubory používané ve vlastních modulech..md
soubory, napříkladREADME.md
..csv
nebo jiné malé datové soubory..txt
soubory..whl
knihovny.- Soubory protokolu
Soubory pracovního prostoru zahrnují soubory dříve označované jako "Soubory v reposích". Doporučení pro práci se soubory najdete v tématu Doporučení pro soubory ve svazcích a souborech pracovních prostorů.
Důležité
Soubory pracovního prostoru jsou ve výchozím nastavení povolené všude v Databricks Runtime verze 11.2, ale správci ho můžou zakázat pomocí rozhraní REST API. Pro produkční úlohy použijte Databricks Runtime 11.3 LTS nebo vyšší. Pokud k této funkci nemáte přístup, obraťte se na správce pracovního prostoru.
Co můžete dělat se soubory pracovního prostoru
Azure Databricks poskytuje funkce podobné místnímu vývoji pro mnoho typů souborů pracovního prostoru, včetně integrovaného editoru souborů. Nepodporují se všechny případy použití pro všechny typy souborů.
Můžete vytvářet, upravovat a spravovat přístup k souborům pracovního prostoru pomocí známých vzorů z interakcí poznámkových bloků. Relativní cesty můžete použít pro importy knihoven ze souborů pracovního prostoru, podobně jako místní vývoj. Další podrobnosti najdete v tématu:
- Základní využití souborů pracovního prostoru
- Interakce se soubory pracovního prostoru prostřednictvím kódu programu
- Práce s moduly Pythonu a R
- Zobrazení obrázků
- Správa poznámkových bloků
- Seznamy ACL souborů
Inicializační skripty uložené v souborech pracovního prostoru mají zvláštní chování. Soubory pracovního prostoru můžete použít k ukládání a odkazování na inicializační skripty v libovolné verzi Databricks Runtime. Viz Ukládání inicializačních skriptů v souborech pracovního prostoru.
Poznámka:
Ve službě Databricks Runtime 14.0 a vyšší je výchozí aktuální pracovní adresář (CWD) pro kód spuštěný místně, je adresář obsahující spuštěný poznámkový blok nebo skript. Jedná se o změnu chování z Databricks Runtime 13.3 LTS a níže. Podívejte se, co je výchozí aktuální pracovní adresář?
Omezení
Úplný seznam omezení souborů pracovního prostoru najdete v omezeních souborů pracovního prostoru.
Omezení velikosti souboru
Soubory jednotlivých pracovních prostorů jsou omezené na 500 MB.
Uživatelé můžou nahrát soubory o velikosti až 500 MB z uživatelského rozhraní. Maximální povolená velikost souboru při zápisu z clusteru je 256 MB.
Verze Modulu runtime Databricks pro soubory ve složkách Gitu s clusterem se službou Azure Databricks Container Services
Na clusterech s Modulem Databricks Runtime 11.3 LTS a novějším umožňují výchozí nastavení používat soubory pracovního prostoru ve složkách Gitu se službou Azure Databricks Container Services (DCS).
V clusterech s modulem Databricks Runtime verze 10.4 LTS a 9.1 LTS musíte nakonfigurovat soubor dockerfile pro přístup k souborům pracovního prostoru ve složkách Git v clusteru s DCS. Informace o požadované verzi Databricks Runtime najdete v následujících souborech dockerfile:
Viz Přizpůsobení kontejnerů pomocí služby Databricks Container Service
Povolení souborů pracovního prostoru
Pokud chcete povolit podporu souborů jiných než poznámkových bloků v pracovním prostoru Databricks, volejte rozhraní REST API /api/2.0/workspace-conf z poznámkového bloku nebo jiného prostředí s přístupem k pracovnímu prostoru Databricks. Soubory pracovního prostoru jsou ve výchozím nastavení povolené .
Pokud chcete povolit nebo znovu povolit podporu souborů jiných než poznámkových bloků v pracovním prostoru Databricks, zavolejte /api/2.0/workspace-conf
a získejte hodnotu enableWorkspaceFileSystem
klíče. Pokud je nastavená na true
hodnotu , soubory, které nejsou poznámkovými bloky, už jsou pro váš pracovní prostor povolené.
Následující příklad ukazuje, jak můžete volat toto rozhraní API z poznámkového bloku, abyste zkontrolovali, jestli jsou soubory pracovního prostoru zakázané, a pokud ano, znovu je povolte.