Wat is het Databricks File System (DBFS)?

Het Databricks File System (DBFS) is een gedistribueerd bestandssysteem dat is gekoppeld aan een Azure Databricks-werkruimte en beschikbaar is op Azure Databricks-clusters. DBFS is een abstractie boven op schaalbare objectopslag die Unix-achtige bestandssysteemaanroepen toe wijst aan systeemeigen API-aanroepen voor cloudopslag.

Notitie

Azure Databricks-werkruimten worden standaard geïmplementeerd met een DBFS-hoofdvolume dat standaard toegankelijk is voor alle gebruikers. Databricks raadt aan om productiegegevens niet op deze locatie op te slaan.

Wat kunt u doen met DBFS?

DBFS biedt het gemak door cloudobjectopslag-URI's toe te staan aan relatieve paden.

  • Hiermee kunt u werken met objectopslag met behulp van map- en bestandssemantiek in plaats van cloudspecifieke API-opdrachten.
  • Hiermee kunt u opslaglocaties voor cloudobjecten koppelen , zodat u opslagreferenties kunt toewijzen aan paden in de Azure Databricks-werkruimte.
  • Vereenvoudigt het proces van het persistent maken van bestanden naar objectopslag, zodat virtuele machines en gekoppelde volumeopslag veilig kunnen worden verwijderd tijdens het beëindigen van het cluster.
  • Biedt een handige locatie voor het opslaan van init-scripts, JAR's, bibliotheken en configuraties voor cluster initialisatie.
  • Biedt een handige locatie voor controlepuntbestanden die zijn gemaakt tijdens modeltraining met OSS Deep Learning-bibliotheken.

Notitie

DBFS is de Azure Databricks-implementatie voor FUSE. Zie Werken met bestanden in Azure Databricks.

Interactie met bestanden in de cloudobjectopslag

DBFS biedt veel opties voor interactie met bestanden in de cloudobjectopslag:

Objectopslag koppelen

Door objectopslag te koppelen aan DBFS kunt u toegang krijgen tot objecten in objectopslag alsof ze zich in het lokale bestandssysteem bevinden. Koppels slaan Hadoop-configuraties op die nodig zijn voor toegang tot opslag, dus u hoeft deze instellingen niet op te geven in code of tijdens de clusterconfiguratie.

Zie Koppelen van cloudobjectopslag in Azure Databricks voor meer informatie.

Wat is de DBFS-hoofdmap?

De DBFS-hoofdmap is de standaardopslaglocatie voor een Azure Databricks-werkruimte, ingericht als onderdeel van het maken van een werkruimte in het cloudaccount met de Azure Databricks-werkruimte. Zie de quickstart voor Azure Databricks voor meer informatie over dbFS-hoofdconfiguratie en -implementatie.

Sommige gebruikers van Azure Databricks verwijzen mogelijk naar de DBFS-hoofdmap 'DBFS' of 'de DBFS'; Het is belangrijk om te onderscheiden dat DBFS een bestandssysteem is dat wordt gebruikt voor interactie met gegevens in de opslag van cloudobjecten en de DBFS-hoofdmap een opslaglocatie voor cloudobjecten is. U gebruikt DBFS om te communiceren met de DBFS-hoofdmap, maar het zijn verschillende concepten en DBFS heeft veel toepassingen buiten de DBFS-hoofdmap.

De DBFS-hoofdmap bevat een aantal speciale locaties die fungeren als standaardwaarden voor verschillende acties die door gebruikers in de werkruimte worden uitgevoerd. Zie voor meer informatie welke directory's zich standaard in de DBFS-hoofdmap bevinden?

Als u door de klant beheerde sleutels wilt configureren voor het opslagaccount dat de DBFS-hoofdmap bevat, raadpleegt u Door de klant beheerde sleutels voor de DBFS-hoofdmap.

Zie Firewall-ondersteuning inschakelen voor uw werkruimteopslagaccount om de netwerktoegang tot het opslagaccount met dbFS te beperken.

Hoe werkt DBFS met Unity Catalog?

Unity Catalog voegt de concepten van externe locaties en beheerde opslagreferenties toe om organisaties te helpen minimale bevoegdheden te verlenen tot gegevens in cloudobjectopslag. Unity Catalog biedt ook een nieuwe standaardopslaglocatie voor beheerde tabellen. Sommige beveiligingsconfiguraties bieden directe toegang tot door de Unity Catalog beheerde resources en DBFS. Databricks heeft aanbevelingen verzameld voor het gebruik van DBFS en Unity Catalog.