Stockage par défaut dans Databricks

Cette page explique comment fonctionne le stockage par défaut sur Azure Databricks et comment créer des catalogues et des objets de données qui l’utilisent.

Qu’est-ce que le stockage par défaut ?

Le stockage par défaut est une plateforme de stockage d’objets entièrement managée qui fournit un stockage prêt à l’emploi dans votre compte Azure Databricks. Certaines fonctionnalités d’Azure Databricks utilisent le stockage par défaut comme alternative au stockage externe.

Les espaces de travail serverless utilisent le stockage par défaut pour le stockage interne et l’espace de travail, et pour le catalogue par défaut créé avec l’espace de travail. Dans les espaces de travail serverless, vous pouvez créer des catalogues supplémentaires dans le stockage par défaut ou dans votre propre stockage d’objets cloud.

Dans les espaces de travail classiques et les espaces de travail serverless, le stockage par défaut est utilisé par des fonctionnalités pour stocker des éléments tels que les métadonnées du plan de contrôle, les données dérivées, les modèles et d’autres artefacts. Par exemple, les salles propres, la classification des données, la détection des anomalies, l’Assistant Connaissances et la restauration de session automatisée pour les notebooks serverless utilisent tous le stockage par défaut d’un espace de travail. Reportez-vous à la documentation des fonctionnalités individuelles pour plus de détails sur ce que chaque fonctionnalité stocke dans le stockage par défaut.

Note

Pour plus d’informations sur la surveillance des coûts de stockage par défaut dans votre compte, consultez Surveiller les coûts de stockage par défaut.

Spécifications

La création de catalogues sur le stockage par défaut est disponible uniquement dans les espaces de travail serverless.
Par défaut, les catalogues qui utilisent le stockage par défaut sont accessibles uniquement à partir de l’espace de travail où ils sont créés. Vous pouvez accorder à d’autres espaces de travail l’accès, y compris les espaces de travail classiques, mais ils doivent utiliser le calcul serverless pour accéder aux données du catalogue. Consultez la liaison catalogue-espace de travail.
Vous devez disposer CREATE CATALOG de privilèges pour créer un catalogue avec un stockage par défaut. Consultez les informations de référence sur les privilèges du catalogue Unity.
Si votre client utilise le pilote ODBC Azure Databricks pour accéder à un catalogue de stockage par défaut à partir d’un pare-feu, vous devez configurer votre pare-feu pour autoriser l’accès aux passerelles de stockage régionales Azure Databricks. Pour plus d’informations sur les adresses IP et le nom de domaine pour le stockage par défaut, consultez adresses IP et domaines pour les services et ressources Azure Databricks.

Créer un catalogue

Effectuez les étapes suivantes pour créer un catalogue à l’aide du stockage par défaut :

Cliquez sur Catalogue dans la barre latérale. L’Explorateur de catalogues s’affiche.
Cliquez sur Créer un catalogue. La boîte de dialogue Créer un nouveau catalogue s’affiche.
Indiquez un nom de catalogue unique dans votre compte.
Sélectionnez l’option permettant d’utiliser le stockage par défaut.
Cliquez sur Créer.

Dans les espaces de travail serverless, vous pouvez également utiliser la commande SQL suivante pour créer un catalogue dans votre stockage par défaut. Vous n’avez pas besoin de spécifier un emplacement pour le catalogue.

CREATE CATALOG [ IF NOT EXISTS ] catalog_name
    [ COMMENT comment ]

Utiliser le stockage par défaut

Toutes les interactions avec le stockage par défaut nécessitent un calcul serverless, compatible avec le catalogue Unity.

Les ressources sauvegardées par le stockage par défaut utilisent le même modèle de privilège que d’autres objets dans le catalogue Unity. Vous devez disposer de privilèges suffisants pour créer, afficher, interroger ou modifier des objets de données. Consultez les informations de référence sur les privilèges du catalogue Unity.

Vous travaillez avec le stockage par défaut en créant et en interagissant avec des tables managées et des volumes managés soutenus par le stockage par défaut. Consultez les tables gérées par le catalogue Unity pour Delta Lake et Apache Iceberg et quels sont les volumes catalogue Unity ?.

Vous pouvez utiliser l’Explorateur catalogue, les notebooks, l’éditeur SQL et les tableaux de bord pour interagir avec les objets de données stockés dans le stockage par défaut.

Exemples de tâches

Voici des exemples de tâches que vous pouvez effectuer avec le stockage par défaut :

Chargez des fichiers locaux dans un volume managé ou créez une table managée. Consultez Utiliser des fichiers dans des volumes de catalogue Unity et créer ou modifier une table à l’aide du chargement de fichiers.
Interroger des données avec des notebooks. Consultez le tutoriel : Interroger et visualiser des données à partir d’un bloc-notes.
Créez un tableau de bord. Consultez Créer un tableau de bord.
Interroger des données avec SQL et planifier des requêtes SQL. Consultez Écrire des requêtes et explorer les données dans le nouvel éditeur SQL.
Ingérer des données d’un volume externe vers une table managée. Consultez Utilisation du chargeur automatique avec le catalogue Unity.
Ingérer des données dans une table managée avec Fivetran. Voir Se connecter à Fivetran.
Utilisez des outils BI pour explorer les tables gérées. Consultez Connecter Tableau et Azure Databricks et Power BI avec Azure Databricks.
Exécutez des notebooks serverless. Consultez Calcul serverless pour les notebooks.
Exécutez des travaux sans serveur. Consultez Exécuter vos travaux Lakeflow avec un calcul serverless pour les flux de travail.
Exécutez les points de terminaison de mise en service de modèle. Consultez Déployer des modèles à l’aide du service de modèle.
Exécutez des pipelines Lakeflow serverless. Consultez Configurer un pipeline serverless.
Utilisez l’optimisation prédictive sur vos tables. Consultez Optimisation prédictive pour les tables managées Unity Catalog.

Cycle de vie du stockage après la suppression d’un objet

Lorsque vous supprimez une table managée ou un volume qui utilise le stockage par défaut, les fichiers de données sont conservés pour permettre une fenêtre de récupération de 7 jours. Une fois la fenêtre de récupération terminée, les fichiers de données sont définitivement supprimés (vidés) dans les 48 heures. La facturation du stockage se poursuit pendant la fenêtre de récupération et s’arrête une fois la fenêtre de récupération terminée. Pour plus d’informations sur le cycle de vie, la facturation et la récupération des fichiers de données, consultez le cycle de vie du stockage d’objets dans le catalogue Unity.

Limites

Les limites suivantes s'appliquent :

Le calcul classique (tout calcul qui n’est pas serverless) ne peut pas interagir avec les ressources de données dans le stockage par défaut.
OpenSharing prend en charge le partage de tables à n’importe quel destinataire ( ouvert ou Azure Databricks) et les destinataires peuvent utiliser le calcul classique pour accéder aux tables partagées (préversion publique). Activez la fonctionnalité OpenSharing pour le stockage par défaut – Fonctionnalité d’accès étendu dans la console de votre compte.
- Cette fonctionnalité n’est pas prise en charge dans les régions suivantes : southcentralus, uksouthet westus2.
- Toutes les autres ressources partageables ne peuvent être partagées qu’avec des destinataires Azure Databricks sur le même cloud. Les destinataires doivent utiliser le calcul sans serveur.
Les tables avec partitionnement activé ne peuvent pas être ouvertes en partage.
Les clients Iceberg et Delta externes ne peuvent pas accéder directement aux métadonnées sous-jacentes, à la liste des manifestes et aux fichiers de données des tables UC sur le stockage par défaut (l’accès FileIO n’est pas pris en charge). Toutefois, les outils décisionnels tels que Power BI et Tableau peuvent accéder aux tables de catalogue Unity sur le stockage par défaut à l’aide de pilotes ODBC et JDBC. Les clients externes peuvent également accéder aux volumes catalogue Unity sur le stockage par défaut à l’aide de l’API Fichiers.
Le stockage par défaut prend en charge l’accès externe via des pilotes ODBC et JDBC Azure Databricks, notamment l’optimisation des performances Cloud Fetch du pilote ODBC pour les requêtes sur des jeux de données plus volumineux. Toutefois, si vous accédez à une table de stockage par défaut depuis un espace de travail pour lequel Private Link frontal est activé, les requêtes du client ODBC qui renvoient des résultats de plus d’environ 5 Mio échoueront, car l’optimisation Cloud Fetch pour les tables de stockage par défaut ne prend actuellement pas en charge les liaisons privées front-end.
La vente d’informations d’identification n’est pas prise en charge, par exemple lorsque les systèmes externes se connectent à l’API REST Unity ou au catalogue REST Iceberg. Consultez Distribution des informations d'authentification d’Unity Catalog pour l'accès à un système externe.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-07-13