Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page explique comment fonctionne le stockage par défaut sur Azure Databricks et comment créer des catalogues et des objets de données qui l’utilisent.
Qu’est-ce que le stockage par défaut ?
Le stockage par défaut est une plateforme de stockage d’objets entièrement managée qui fournit un stockage prêt à l’emploi dans votre compte Azure Databricks. Certaines fonctionnalités d’Azure Databricks utilisent le stockage par défaut comme alternative au stockage externe.
Les espaces de travail serverless utilisent le stockage par défaut pour le stockage interne et l’espace de travail, et pour le catalogue par défaut créé avec l’espace de travail. Dans les espaces de travail serverless, vous pouvez créer des catalogues supplémentaires dans le stockage par défaut ou dans votre propre stockage d’objets cloud.
Dans les espaces de travail classiques et les espaces de travail serverless, le stockage par défaut est utilisé par des fonctionnalités pour stocker des éléments tels que les métadonnées du plan de contrôle, les données dérivées, les modèles et d’autres artefacts. Par exemple, les salles propres, la classification des données, la détection des anomalies et les briques d’agent utilisent tous le stockage par défaut d’un espace de travail. Reportez-vous à la documentation des fonctionnalités individuelles pour plus de détails sur ce que chaque fonctionnalité stocke dans le stockage par défaut.
Spécifications
- La création de catalogues sur le stockage par défaut est disponible uniquement dans les espaces de travail serverless (préversion publique).
- Par défaut, les catalogues qui utilisent le stockage par défaut sont accessibles uniquement à partir de l’espace de travail où ils sont créés. Vous pouvez accorder à d’autres espaces de travail l’accès, y compris les espaces de travail classiques, mais ils doivent utiliser le calcul serverless pour accéder aux données du catalogue. Consultez Limiter l’accès au catalogue à des espaces de travail spécifiques.
- Vous devez disposer
CREATE CATALOGde privilèges pour créer un catalogue avec un stockage par défaut. Consultez Privilèges Unity Catalog et objets sécurisables. - Si votre client utilise le pilote ODBC Azure Databricks pour accéder à un catalogue de stockage par défaut à partir d’un pare-feu, vous devez configurer votre pare-feu pour autoriser l’accès aux passerelles de stockage régionales Azure Databricks. Pour plus d’informations sur les adresses IP et le nom de domaine pour le stockage par défaut, consultez adresses IP et domaines pour les services et ressources Azure Databricks.
Créer un catalogue
Effectuez les étapes suivantes pour créer un catalogue à l’aide du stockage par défaut :
- Cliquez sur
Catalogue dans la barre latérale. L’Explorateur de catalogues s’affiche.
- Cliquez sur Créer un catalogue. La boîte de dialogue Créer un nouveau catalogue s’affiche.
- Indiquez un nom de catalogue unique dans votre compte.
- Sélectionnez l’option permettant d’utiliser le stockage par défaut.
- Cliquez sur Créer.
Dans les espaces de travail serverless, vous pouvez également utiliser la commande SQL suivante pour créer un catalogue dans votre stockage par défaut. Vous n’avez pas besoin de spécifier un emplacement pour le catalogue.
CREATE CATALOG [ IF NOT EXISTS ] catalog_name
[ COMMENT comment ]
Utiliser le stockage par défaut
Toutes les interactions avec le stockage par défaut nécessitent un calcul serverless, compatible avec le catalogue Unity.
Les ressources sauvegardées par le stockage par défaut utilisent le même modèle de privilège que d’autres objets dans le catalogue Unity. Vous devez disposer de privilèges suffisants pour créer, afficher, interroger ou modifier des objets de données. Consultez Privilèges Unity Catalog et objets sécurisables.
Vous travaillez avec le stockage par défaut en créant et en interagissant avec des tables managées et des volumes managés soutenus par le stockage par défaut. Consultez les tables managées du Catalogue Unity dans Azure Databricks pour Delta Lake et Apache Iceberg et les volumes du Catalogue Unity.
Vous pouvez utiliser l’Explorateur catalogue, les notebooks, l’éditeur SQL et les tableaux de bord pour interagir avec les objets de données stockés dans le stockage par défaut.
Exemples de tâches
Voici des exemples de tâches que vous pouvez effectuer avec le stockage par défaut :
- Chargez des fichiers locaux dans un volume managé ou créez une table managée. Consultez Charger des fichiers dans un volume de catalogue Unity et créer ou modifier une table à l’aide du chargement de fichiers.
- Interroger des données avec des notebooks. Consultez le tutoriel : Interroger et visualiser des données à partir d’un bloc-notes.
- Créez un tableau de bord. Consultez Créer un tableau de bord.
- Interroger des données avec SQL et planifier des requêtes SQL. Consultez Écrire des requêtes et explorer les données dans le nouvel éditeur SQL.
- Ingérer des données d’un volume externe vers une table managée. Consultez Utilisation du chargeur automatique avec le catalogue Unity.
- Ingérer des données dans une table managée avec Fivetran. Voir Se connecter à Fivetran.
- Utilisez des outils BI pour explorer les tables gérées. Consultez Connecter Tableau et Azure Databricks et Power BI avec Azure Databricks.
- Exécutez des notebooks serverless. Consultez Calcul serverless pour les notebooks.
- Exécutez des travaux sans serveur. Consultez Exécuter vos travaux Lakeflow avec un calcul serverless pour les flux de travail.
- Exécutez les points de terminaison de déploiement de modèle. Voir Déployer des modèles en utilisant le service de modèles de Mosaïque AI.
- Exécutez des pipelines déclaratifs Spark sans serveur Lakeflow. Voir Configurer un pipeline serverless.
- Utilisez l’optimisation prédictive sur vos tables. Consultez Optimisation prédictive pour les tables managées Unity Catalog.
Limites
Les limites suivantes s'appliquent :
- Le calcul classique (tout calcul qui n’est pas serverless) ne peut pas interagir avec les ressources de données dans le stockage par défaut.
- Delta Sharing prend en charge le partage de tables avec n’importe quel destinataire, ouvert ou Azure Databricks, et les destinataires peuvent utiliser le calcul classique pour accéder aux tables partagées (bêta). Activez le partage delta pour le stockage par défaut : fonctionnalité d’accès étendu dans la console de votre compte.
- Cette fonctionnalité n’est pas prise en charge dans les régions suivantes :
southcentralus,uksouthetwestus2.
- Toutes les autres ressources partageables peuvent uniquement être partagées via Delta avec les destinataires Azure Databricks sur le même cloud. Les destinataires doivent utiliser le calcul sans serveur.
- Cette fonctionnalité n’est pas prise en charge dans les régions suivantes :
- Les tables avec partitionnement activé ne peuvent pas être partagées delta.
- Les clients Iceberg et Delta externes ne peuvent pas accéder directement aux métadonnées sous-jacentes, à la liste des manifestes et aux fichiers de données des tables UC sur le stockage par défaut (l’accès FileIO n’est pas pris en charge). Toutefois, les outils décisionnels tels que Power BI et Tableau peuvent accéder aux tables de catalogue Unity sur le stockage par défaut à l’aide de pilotes ODBC et JDBC. Les clients externes peuvent également accéder aux volumes catalogue Unity sur le stockage par défaut à l’aide de l’API Fichiers.
- Le stockage par défaut prend en charge l’accès externe via des pilotes ODBC et JDBC Azure Databricks, notamment l’optimisation des performances Cloud Fetch du pilote ODBC pour les requêtes sur des jeux de données plus volumineux. Toutefois, si vous accédez à une table de stockage par défaut à partir d’un espace de travail avec liaison privée frontale activée, vos requêtes clientes ODBC supérieures à 100 Mo échouent, car l’optimisation Cloud Fetch pour les tables de stockage par défaut ne prend actuellement pas en charge la liaison privée frontale.