Qu’est-ce que DBFS (Databricks File System) ?

DBFS (Databricks File System) est un système de fichiers distribué, monté dans un espace de travail Azure Databricks et disponible sur les clusters Azure Databricks. DBFS est une abstraction sur le stockage d’objets scalable qui mappe les appels de système de fichiers de type Unix vers les appels d’API de stockage cloud natif.

Notes

Les espaces de travail Azure Databricks sont déployés avec un volume racine DBFS accessible par défaut à tous les utilisateurs. Databricks déconseille de stocker des données de production dans cet emplacement.

Que pouvez-vous faire avec DBFS ?

L’avantage de DBFS est qu’il mappe les URI de stockage d’objets cloud à des chemins relatifs.

  • Il vous permet d’interagir avec le stockage d’objets en utilisant la sémantique de répertoire et de fichier au lieu des commandes d’API propres au cloud.
  • Il vous permet de monter des emplacements de stockage d’objets cloud afin de pouvoir mapper les informations d’identification de stockage aux chemins dans l’espace de travail Azure Databricks.
  • Il simplifie le processus de conservation des fichiers dans le stockage d’objets, ce qui permet aux machines virtuelles et au stockage de volume attaché d’être supprimés de manière sécurisée lors de l’arrêt du cluster.
  • Il fournit un emplacement pratique pour stocker des scripts d’initialisation, des fichiers JAR, des bibliothèques et des configurations pour l’initialisation du cluster.
  • Il fournit un emplacement pratique pour les fichiers de point de contrôle créés lors de l’entraînement du modèle avec des bibliothèques de Deep Learning OSS.

Notes

DBFS est l’implémentation d’Azure Databricks pour FUSE. Consultez Utiliser des fichiers sur Azure Databricks.

Interagir avec les fichiers dans le stockage d’objets cloud

DBFS fournit de nombreuses options d’interaction avec les fichiers dans le stockage d’objets cloud :

Monter un stockage d’objets

Le montage du stockage d’objets sur DBFS vous permet d’accéder à des objets dans le stockage d’objets comme s’ils étaient sur le système de fichiers local. Les montages stockent les configurations Hadoop nécessaires pour accéder au stockage. Vous n’avez donc pas besoin de spécifier ces paramètres dans le code ou pendant la configuration du cluster.

Pour plus d’informations, consultez Montage de stockage d’objets cloud sur Azure Databricks.

Qu’est-ce que la racine DBFS ?

La racine DBFS est l’emplacement de stockage par défaut d’un espace de travail Azure Databricks, provisionné dans le cadre de la création de l’espace de travail dans le compte cloud contenant l’espace de travail Azure Databricks. Pour plus d’informations sur la configuration et le déploiement de la racine DBFS, consultez le guide de démarrage rapide pour Azure Databricks.

Certains utilisateurs d’Azure Databricks peuvent faire référence à la racine DBFS au moyen des expressions « DBFS » ou « le DBFS » ; il est important de souligner que DBFS est un système de fichiers utilisé pour interagir avec les données dans le stockage d’objets cloud, tandis que la racine DBFS est un emplacement de stockage d’objets cloud. Vous utilisez DBFS pour interagir avec la racine DBFS, mais ce sont des concepts distincts, et DBFS a de nombreuses applications au-delà de la racine DBFS.

La racine DBFS contient un certain nombre d’emplacements spéciaux qui sont utilisés par défaut pour différentes actions effectuées par les utilisateurs dans l’espace de travail. Pour plus d’informations, consultez Quels sont les répertoires qui se trouvent à la racine DBFS par défaut ?.

Comment DBFS fonctionne-t-il avec Unity Catalog ?

Unity Catalog ajoute les concepts d’emplacement externe et d’informations d’identification de stockage managé pour aider les organisations à fournir des privilèges minimum d’accès aux données dans le stockage d’objets cloud. Unity Catalog fournit également un nouvel emplacement de stockage par défaut pour les tables managées. Certaines configurations de sécurité fournissent un accès direct aux ressources managées par Unity Catalog et à DBFS. Databricks a compilé des recommandations pour l’utilisation de DBFS et de Unity Catalog.