Vad är Databricks-filsystemet (DBFS)?

Databricks File System (DBFS) är ett distribuerat filsystem monterat på en Azure Databricks-arbetsyta och tillgängligt i Azure Databricks-kluster. DBFS är en abstraktion ovanpå skalbar objektlagring som mappar Unix-liknande filsystemanrop till interna API-anrop för molnlagring.

Kommentar

Azure Databricks-arbetsytor distribueras med en DBFS-rotvolym som är tillgänglig för alla användare som standard. Databricks rekommenderar att du inte lagrar produktionsdata på den här platsen.

Vad kan du göra med DBFS?

DBFS gör det bekvämt genom att mappa lagrings-URI:er för molnobjekt till relativa sökvägar.

  • Gör att du kan interagera med objektlagring med hjälp av katalog- och filsemantik i stället för molnspecifika API-kommandon.
  • Gör att du kan montera lagringsplatser för molnobjekt så att du kan mappa autentiseringsuppgifter för lagring till sökvägar på Azure Databricks-arbetsytan.
  • Förenklar processen med att spara filer till objektlagring, vilket gör att virtuella datorer och ansluten volymlagring kan tas bort på ett säkert sätt vid klusteravslut.
  • Ger en praktisk plats för att lagra init-skript, JAR:er, bibliotek och konfigurationer för klusterinitiering.
  • Ger en praktisk plats för kontrollpunktsfiler som skapats under modellträningen med OSS-djupinlärningsbibliotek.

Kommentar

DBFS är Azure Databricks-implementeringen för FUSE. Se Arbeta med filer på Azure Databricks.

Interagera med filer i molnbaserad objektlagring

DBFS innehåller många alternativ för att interagera med filer i molnobjektlagring:

Montera objektlagring

Genom att montera objektlagring till DBFS kan du komma åt objekt i objektlagring som om de fanns i det lokala filsystemet. Monteringar lagrar Hadoop-konfigurationer som krävs för åtkomst till lagring, så du behöver inte ange de här inställningarna i kod eller under klusterkonfigurationen.

Mer information finns i Montera molnobjektlagring på Azure Databricks.

Vad är DBFS-roten?

DBFS-roten är standardlagringsplatsen för en Azure Databricks-arbetsyta som etableras som en del av skapandet av arbetsytan i molnkontot som innehåller Azure Databricks-arbetsytan. Mer information om DBFS-rotkonfiguration och -distribution finns i snabbstarten för Azure Databricks.

Vissa användare av Azure Databricks kan referera till DBFS-roten som "DBFS" eller "DBFS"; Det är viktigt att särskilja att DBFS är ett filsystem som används för att interagera med data i molnobjektlagring, och DBFS-roten är en lagringsplats för molnobjekt. Du använder DBFS för att interagera med DBFS-roten, men de är distinkta begrepp, och DBFS har många program utöver DBFS-roten.

DBFS-roten innehåller ett antal särskilda platser som fungerar som standard för olika åtgärder som utförs av användare på arbetsytan. Mer information finns i Vilka kataloger finns i DBFS-roten som standard?.

Hur fungerar DBFS med Unity Catalog?

Unity Catalog lägger till begreppen externa platser och autentiseringsuppgifter för hanterad lagring för att hjälpa organisationer att ge minst behörighet till data i molnobjektlagring. Unity Catalog tillhandahåller också en ny standardlagringsplats för hanterade tabeller. Vissa säkerhetskonfigurationer ger direkt åtkomst till både Enhetskataloghanterade resurser och DBFS. Databricks har sammanställt rekommendationer för att använda DBFS och Unity Catalog.