Partager via


Recommandations relatives à l’utilisation de la racine DBFS

Azure Databricks utilise le répertoire racine DBFS comme emplacement par défaut pour certaines actions d’espace de travail. Databricks recommande de stocker des données de production ou des informations sensibles à la racine DBFS. Cet article porte sur les recommandations visant à éviter une exposition accidentelle de données sensibles sur la racine DBFS.

Notes

Azure Databricks configure un emplacement de stockage privé distinct pour rendre les données et les configurations persistantes dans un stockage cloud appartenant au client, appelé DBFS interne. Cet emplacement n’est pas exposé aux utilisateurs.

Important

À compter du 6 mars 2023, les nouveaux espaces de travail Azure Databricks utilisent des comptes de stockage Azure Data Lake Storage Gen2 pour la racine DBFS. Les espaces de travail précédemment provisionnés utilisent le Stockage Blob.

Apprendre aux utilisateurs à ne pas stocker de données sur la racine DBFS

Étant donné que la racine DBFS est accessible à tous les utilisateurs d’un espace de travail, tous les utilisateurs peuvent accéder à toutes les données stockées ici. Il est important de demander aux utilisateurs d’éviter d’utiliser cet emplacement pour stocker des données sensibles. L’emplacement par défaut des tables managées dans le metastore Hive sur Azure Databricks est la racine DBFS ; pour empêcher les utilisateurs finaux qui créent des tables managées d’écrire à la racine DBFS, déclarez un emplacement sur un stockage externe lors de la création de bases de données dans le metastore Hive.

Les tables gérées Unity Catalog utilisent un emplacement de stockage sécurisé par défaut. Databricks recommande d’utiliser Unity Catalog pour les tables managées.

Utiliser la journalisation d’audit pour surveiller l’activité

Notes

Pour plus d’informations sur les événements d’audit DBFS, consultez Événements DBFS.

Chiffrer des données racine DBFS avec une clé gérée par le client

Vous pouvez chiffrer les données racine DBFS avec une clé gérée par le client. Voir Clés gérées par le client pour une racine DBFS

Important

Ne désactivez pas Storage account key access pour le compte de stockage qui sauvegarde la racine DBFS. La désactivation de ce paramètre entraîne des erreurs et des comportements inattendus.