Delen via


Wat zijn werkruimtebestanden?

Een werkruimtebestand is een bestand in de Azure Databricks-werkruimte die geen Databricks-notebook is. Werkruimtebestanden kunnen elk bestandstype zijn. Dit zijn enkele veel voorkomende voorbeelden:

  • .py bestanden die worden gebruikt in aangepaste modules.
  • .md bestanden, zoals README.md.
  • .csv of andere kleine gegevensbestanden.
  • .txt archief.
  • .whl Bibliotheken.
  • Logboekbestanden.

Werkruimtebestanden bevatten bestanden die voorheen 'Bestanden in opslagplaatsen' worden genoemd. Zie Aanbevelingen voor bestanden in volumes en werkruimtebestanden voor aanbevelingen voor het werken met bestanden.

Belangrijk

Werkruimtebestanden zijn standaard ingeschakeld in Databricks Runtime versie 11.2, maar kunnen worden uitgeschakeld door beheerders met behulp van de REST API. Voor productieworkloads gebruikt u Databricks Runtime 11.3 LTS of hoger. Neem contact op met uw werkruimtebeheerder als u geen toegang hebt tot deze functionaliteit.

Wat u kunt doen met werkruimtebestanden

Azure Databricks biedt functionaliteit die vergelijkbaar is met lokale ontwikkeling voor veel werkruimtebestandstypen, waaronder een ingebouwde bestandseditor. Niet alle use cases voor alle bestandstypen worden ondersteund.

U kunt de toegang tot werkruimtebestanden maken, bewerken en beheren met behulp van vertrouwde patronen van notebookinteracties. U kunt relatieve paden gebruiken voor bibliotheekimport uit werkruimtebestanden, vergelijkbaar met lokale ontwikkeling. Zie voor meer informatie:

Init-scripts die zijn opgeslagen in werkruimtebestanden, hebben een speciaal gedrag. U kunt werkruimtebestanden gebruiken om init-scripts op te slaan en ernaar te verwijzen in elke Databricks Runtime-versie. Zie Store init-scripts in werkruimtebestanden.

Notitie

In Databricks Runtime 14.0 en hoger is de standaard huidige werkmap (CWD) voor lokaal uitgevoerde code de map met het notebook of script dat wordt uitgevoerd. Dit is een wijziging in gedrag van Databricks Runtime 13.3 LTS en hieronder. Zie Wat is de standaard huidige werkmap?

Beperkingen

Een volledige lijst met beperkingen voor werkruimtebestanden vindt u in beperkingen voor werkruimtebestanden.

Maximale bestandsgrootte

Afzonderlijke werkruimtebestanden zijn beperkt tot 500 MB.

Gebruikers kunnen een bestandsgrootte van maximaal 500 MB uploaden vanuit de gebruikersinterface. De maximale bestandsgrootte die is toegestaan bij het schrijven vanuit een cluster is 256 MB.

Databricks Runtime-versies voor bestanden in Git-mappen met een cluster met Azure Databricks Container Services

Op clusters met Databricks Runtime 11.3 LTS en hoger kunt u met de standaardinstellingen werkruimtebestanden gebruiken in Git-mappen met Azure Databricks Container Services (DCS).

Op clusters met Databricks Runtime-versies 10.4 LTS en 9.1 LTS moet u het dockerfile configureren voor toegang tot werkruimtebestanden in Git-mappen op een cluster met DCS. Raadpleeg de volgende dockerfiles voor de gewenste Databricks Runtime-versie:

Zie Containers aanpassen met Databricks Container Service

Werkruimtebestanden inschakelen

Als u ondersteuning wilt inschakelen voor niet-notebookbestanden in uw Databricks-werkruimte, roept u de REST API /api/2.0/workspace-conf aan vanuit een notebook of een andere omgeving met toegang tot uw Databricks-werkruimte. Werkruimtebestanden zijn standaard ingeschakeld .

Als u ondersteuning voor niet-notebookbestanden in uw Databricks-werkruimte wilt in- of opnieuw inschakelen, roept u de /api/2.0/workspace-conf waarde van de sleutel aan en haalt u deze enableWorkspaceFileSystem op. Als dit is ingesteld op true, zijn niet-notebookbestanden al ingeschakeld voor uw werkruimte.

In het volgende voorbeeld ziet u hoe u deze API vanuit een notebook kunt aanroepen om te controleren of werkruimtebestanden zijn uitgeschakeld en zo ja, schakel ze opnieuw in.

Voorbeeld: Notebook voor het opnieuw inschakelen van ondersteuning voor Databricks-werkruimtebestanden

Notebook downloaden