Qu’est-ce que Unity Catalog ?

Cet article présente Unity Catalog, une solution de gouvernance unifiée pour les ressources de données et d’IA sur Databricks Lakehouse.

Vue d’ensemble de Unity Catalog

Unity Catalog fournit des fonctionnalités centralisées de contrôle d’accès, d’audit, de traçabilité et de découverte des données dans les espaces de travail Azure Databricks.

Unity Catalog diagram

Les principales fonctionnalités de Unity Catalog sont les suivantes :

  • Définir une fois, sécuriser partout : Unity Catalog offre un emplacement unique pour gérer les stratégies d’accès aux données qui s’appliquent à tous les espaces de travail.
  • Modèle de sécurité conforme aux normes : le modèle de sécurité de Unity Catalog est basé sur le SQL ANSI standard, et il permet aux administrateurs d’accorder des autorisations dans leur lac de données existant avec une syntaxe familière, au niveau des catalogues, des bases de données (également appelées schémas), des tables et des vues.
  • Audit et traçabilité intégrés : Unity Catalog capture automatiquement les journaux d’audit de niveau utilisateur qui enregistrent l’accès à vos données. Unity Catalog capture également les données de traçabilité qui effectuent le suivi de la création et de l’utilisation des ressources de données dans tous les langages.
  • Découverte des données : Unity Catalog vous permet d’étiqueter et de documenter les ressources de données, et fournit une interface de recherche permettant aux consommateurs de données de trouver des données.
  • Tables système (préversion publique) : Unity Catalog vous permet d’accéder et d’interroger facilement les données opérationnelles de votre compte, notamment les journaux d’audit, l’utilisation facturable et la traçabilité.

Comment Unity Catalog régit-il l’accès aux données et aux ressources IA dans le stockage d’objets cloud ?

Databricks recommande de configurer tout l’accès au stockage d’objets cloud à l’aide de Unity Catalog. Consultez Se connecter au stockage d’objets cloud à l’aide de Unity Catalog.

Unity Catalog introduit les concepts suivants pour gérer les relations entre les données dans Azure Databricks et le stockage d’objets cloud :

Remarque

Lakehouse Federation fournit des intégrations aux données dans d’autres systèmes externes. Ces objets ne sont pas pris en charge par le stockage d’objets cloud.

Modèle objet Unity Catalog

Dans Unity Catalog, la hiérarchie des objets de données principaux passe du metastore à la table ou au volume :

  • Metastore : conteneur de niveau supérieur pour les métadonnées. Chaque metastore expose un espace de noms à trois niveaux (catalog.schema.table) qui organise vos données.
  • Catalogue : première couche de la hiérarchie d’objets, utilisée pour organiser vos ressources de données.
  • Schéma : également appelés bases de données, les schémas sont la deuxième couche de la hiérarchie d’objets et contiennent des tables et des vues.
  • Table, vues et volumes : les tables, les vues et les volumes constituent le niveau le plus bas de la hiérarchie d’objets de données. Les volumes fournissent une gouvernance pour les données non tabulaires.
  • Modèles : bien qu’il ne s’agisse pas à strictement parler de ressources de données, les modèles inscrits peuvent également être gérés dans Unity Catalog, et ils résident au niveau le plus bas dans la hiérarchie d’objets.

Unity Catalog object model diagram

Il s’agit d’une vue simplifiée des objets Unity Catalog sécurisables. Pour plus d’informations, consultez la section Objets sécurisables dans Unity Catalog.

Vous référencez toutes les données de Unity Catalog à l’aide d’un espace de noms à trois niveaux : catalog.schema.asset, où asset peut être une table, une vue, un volume ou un modèle.

Metastores

Un metastore est le conteneur de niveau supérieur des objets dans Unity Catalog. Il inscrit les métadonnées sur les ressources de données et d’IA, ainsi que les autorisations qui régissent l’accès à celles-ci. Il est conseillé aux administrateurs de compte Azure Databricks de créer un metastore pour chaque région dans laquelle ils opèrent et les attribuer à des espaces de travail Azure Databricks dans la même région. Pour qu’un espace de travail utilise Unity Catalog, un metastore Unity Catalog doit lui être attaché.

Un metastore peut éventuellement être configuré avec un emplacement de stockage managé dans un conteneur Azure Data Lake Storage Gen2 ou dans un compartiment Cloudflare R2 de votre propre compte de stockage. Consultez Stockage managé.

Remarque

Ce metastore est distinct du metastore Hive inclus dans les espaces de travail Azure Databricks qui n’ont pas été activés pour Unity Catalog. Si votre espace de travail inclut un metastore Hive hérité, les données de ce metastore restent disponibles en plus des données définies dans Unity Catalog, dans un catalogue nommé hive_metastore. Le catalogue hive_metastore n’est pas géré par Unity Catalog et ne bénéficie pas du même ensemble de fonctionnalités que les catalogues définis dans Unity Catalog.

Consultez Créer un metastore Unity Catalog.

Catalogues

Un catalogue est la première couche de l’espace de noms à trois niveaux de Unity Catalog. Il sert à organiser vos ressources de données. Les utilisateurs peuvent voir tous les catalogues sur lesquels l’USE CATALOGautorisation des données leur a été attribuée.

Selon la façon dont votre espace de travail a été créé et activé pour Unity Catalog, vos utilisateurs peuvent disposer d’autorisations par défaut sur des catalogues approvisionnés automatiquement, y compris le catalogue main ou le catalogue d’espaces de travail (<workspace-name>). Pour plus d’informations, consultez la section Privilèges utilisateur par défaut.

Consultez Créer et gérer des catalogues.

Schémas

Un schéma (également appelé base de données) est la deuxième couche de l’espace de noms à trois niveaux de Unity Catalog. Un schéma organise les tables et les vues. Les utilisateurs peuvent voir tous les schémas pour lesquels l’autorisation USE SCHEMA leur a été attribuée, ainsi que l’autorisation USE CATALOG sur le catalogue parent du schéma. Pour accéder ou répertorier une table ou une vue dans un schéma, les utilisateurs doivent également disposer de l’autorisation SELECT sur la table ou la vue.

Si votre espace de travail a été activé manuellement pour Unity Catalog, il inclut un schéma par défaut nommé default, dans le catalogue main, accessible à tous les utilisateurs de votre espace de travail. Si votre espace de travail a été activé automatiquement pour Unity Catalog et inclut un catalogue <workspace-name>, celui-ci contient un schéma nommé default, accessible à tous les utilisateurs de votre espace de travail.

Consultez Créer et gérer des schémas (bases de données).

Tables

Une table réside dans la troisième couche de l’espace de noms à trois niveaux de Unity Catalog. Elle contient des lignes de données. Pour créer une table, les utilisateurs doivent disposer des autorisations CREATE et USE SCHEMA sur le schéma, et de l’autorisation USE CATALOG sur son catalogue parent. Pour interroger une table, les utilisateurs doivent disposer de l’autorisation SELECT sur la table, de l’autorisation USE SCHEMA sur son schéma parent et de l’autorisation USE CATALOG sur son catalogue parent.

Une table peut être managée ou externe.

Tables managées

Les tables managées constituent la méthode par défaut pour créer des tables dans le catalogue Unity. Unity Catalog gère le cycle de vie et la disposition des fichiers pour ces tables. Vous ne devez pas utiliser d’outils en dehors d’Azure Databricks pour manipuler directement des fichiers dans ces tables. Les tables managées utilisent toujours le format de table Delta.

Pour les espaces de travail activés manuellement pour Unity Catalog, les tables managées sont stockées dans l’emplacement de stockage racine configuré lors de la création d’un metastore. Vous pouvez éventuellement spécifier des emplacements de stockage des tables managées au niveau du catalogue ou du schéma pour remplacer l’emplacement de stockage racine.

Pour les espaces de travail activés automatiquement pour Unity Catalog, l’emplacement de stockage racine du metastore est facultatif et les tables gérées sont généralement stockées aux niveaux du catalogue ou du schéma.

Quand une table managée est supprimée, ses données sous-jacentes sont supprimées de votre locataire cloud dans les 30 jours.

Consultez les Tables managées.

Tables externes

Les tables externes sont des tables dont le cycle de vie des données et la disposition des fichiers ne sont pas gérés par Unity Catalog. Utilisez des tables externes pour inscrire de grandes quantités de données existantes dans Unity Catalog, ou si vous avez besoin d’un accès direct aux données à l’aide d’outils en dehors des clusters Azure Databricks ou des entrepôts SQL Databricks.

Quand vous supprimez une table externe, Unity Catalog ne supprime pas les données sous-jacentes. Vous pouvez gérer les privilèges sur les tables externes et les utiliser dans des requêtes comme vous le feriez avec des tables managées.

Les tables externes peuvent utiliser les formats de fichiers suivants :

  • DELTA
  • CSV
  • JSON
  • AVRO
  • PARQUET
  • ORC
  • TEXT

Consultez les tables externes.

Vues

Une vue est un objet en lecture seule créé à partir d’une ou de plusieurs tables et vues dans un metastore. Elle réside dans la troisième couche de l’espace de noms à trois niveaux de Unity Catalog. Une vue peut être créée à partir de tables et d’autres vues dans plusieurs schémas ou catalogues. Vous pouvez créer des vues dynamiques pour activer les autorisations au niveau des lignes et des colonnes.

Consultez Créer une vue dynamique.

Volumes

Important

Cette fonctionnalité est disponible en préversion publique.

Un volume réside dans la troisième couche de l’espace de noms à trois niveaux de Unity Catalog. Les volumes sont similaires aux tables, aux vues et aux autres objets organisés sous un schéma dans Unity Catalog.

Les volumes contiennent des répertoires et des fichiers pour les données stockées dans tout type de format. Les volumes fournissent un accès non tabulaire aux données, ce qui signifie que les fichiers des volumes ne peuvent pas être inscrits en tant que tables.

  • Pour créer un volume, les utilisateurs doivent disposer des autorisations CREATE VOLUME et USE SCHEMA sur le schéma, et de l’autorisation USE CATALOG sur son catalogue parent.
  • Pour lire des fichiers et des répertoires stockés dans un volume, les utilisateurs doivent disposer de l’autorisation READ VOLUME, de l’autorisation USE SCHEMA sur son schéma parent et de l’autorisation USE CATALOG sur son catalogue parent.
  • Pour ajouter, supprimer ou modifier des fichiers et des répertoires stockés dans un volume, les utilisateurs doivent disposer d’une autorisation WRITE VOLUME, de l’autorisation USE SCHEMA sur son schéma parent et de l’autorisation USE CATALOG sur son catalogue parent.

Un volume peut être managé ou externe.

Remarque

Lorsque vous définissez un volume, vous ne pouvez plus accéder aux chemins qui chevauchent l’emplacement du volume à l’aide d’emplacements externes dans Catalog Explorer ou les URI du cloud.

Volumes managés

Les volumes managés sont une solution pratique lorsque vous souhaitez approvisionner un emplacement régi pour l’utilisation de fichiers non tabulaires.

Les volumes managés stockent les fichiers dans l’emplacement de stockage par défaut d’Unity Catalog pour le schéma dans lequel ils sont contenus. Pour les espaces de travail activés manuellement pour Unity Catalog, les volumes managés sont stockés dans l’emplacement de stockage racine configuré lors de la création d’un metastore. Vous pouvez éventuellement spécifier des emplacements de stockage des volumes managés aux niveaux du catalogue ou du schéma pour remplacer l’emplacement de stockage racine. Pour les espaces de travail activés automatiquement pour Unity Catalog, l’emplacement de stockage racine du metastore est facultatif et les volumes gérés sont généralement stockés aux niveaux du catalogue ou du schéma.

La priorité suivante détermine l’emplacement utilisé pour un volume managé :

  • Emplacement du schéma
  • Emplacement du catalogue
  • Emplacement de stockage racine du metastore Unity Catalog

Lorsque vous supprimez un volume managé, les fichiers stockés dans ce volume sont également supprimés de votre locataire cloud dans les 30 jours.

Consultez Qu’est-ce qu’un volume managé ?.

Volumes externes

Un volume externe est inscrit dans un emplacement externe Unity Catalog et fournit un accès aux fichiers existants dans le stockage cloud sans nécessiter la migration des données. Les utilisateurs doivent disposer de l’autorisation CREATE EXTERNAL VOLUME sur l’emplacement externe pour créer un volume externe.

Les volumes externes prennent en charge les scénarios où les fichiers sont produits par d’autres systèmes et indexés pour y accéder à partir d’Azure Databricks à l’aide du stockage d’objets, ou lorsque des outils en dehors d’Azure Databricks nécessitent un accès direct aux fichiers.

Unity Catalog ne gère pas le cycle de vie ou le layout des fichiers situés dans des volumes externes. Quand vous supprimez un volume externe, Unity Catalog ne supprime pas les données sous-jacentes.

Consultez Qu’est-ce qu’un volume externe ?.

Modèles

Un modèle réside dans la troisième couche de l’espace de noms à trois niveaux de Unity Catalog. Dans ce contexte, « modèle » fait référence à un modèle Machine Learning inscrit dans le Registre des modèles MLflow. Pour créer un modèle dans Unity Catalog, les utilisateurs doivent disposer du privilège CREATE MODEL pour le catalogue ou le schéma. L’utilisateur doit également disposer des privilèges USE CATALOG et USE SCHEMA respectivement sur son catalogue parent et sur son schéma parent.

Stockage managé

Vous pouvez stocker des tables managées et des volumes managés à l’un de ces niveaux dans la hiérarchie d’objets Unity Catalog : metastore, catalogue ou schéma. Le stockage à des niveaux inférieurs dans la hiérarchie remplace le stockage défini à des niveaux plus élevés.

Lorsqu’un administrateur de compte crée un metastore manuellement, il a la possibilité d’attribuer un emplacement de stockage dans un conteneur Azure Data Lake Storage Gen2 ou dans un compartiment Cloudflare R2 de votre propre compte de stockage cloud à utiliser comme stockage au niveau du metastore pour les tables et volumes managés. Si un emplacement de stockage managé au niveau du metastore a été attribué, les emplacements de stockage managés aux niveaux du catalogue et du schéma sont facultatifs. Le stockage au niveau du metastore est facultatif et Databricks recommande d’attribuer un stockage managé au niveau du catalogue pour l’isolement logique des données. Consultez Blocs de construction de la gouvernance des données et de l’isolement des données.

Important

Si votre espace de travail a été activé automatiquement pour Unity Catalog, le metastore de Unity Catalog a été créé sans stockage managé au niveau du metastore. Vous pouvez choisir d’ajouter un stockage au niveau du metastore, mais Databricks recommande d’attribuer un stockage managé aux niveaux du catalogue et du schéma. Pour vous aider à déterminer si vous avez besoin d’un stockage au niveau du metastore, consultez les sections (Facultatif) Créer un stockage au niveau du metastore et Les données sont physiquement séparées dans le stockage.

Le stockage managé a les propriétés suivantes :

  • Les tables managées et les volumes managés stockent les fichiers de données et de métadonnées dans le stockage managé.
  • Les emplacements de stockage managés ne peuvent pas chevaucher des tables externes ou des volumes externes.

Le tableau suivant décrit comment le stockage managé est déclaré et associé aux objets Unity Catalog :

Objet Unity Catalog associé Définition Relation avec les emplacements externes
Metastore Configuré par l’administrateur de compte lors de la création du metastore ou ajouté après la création du metastore si aucun stockage n’a été spécifié lors de la création. Impossible de chevaucher un emplacement externe.
Catalogue Spécifié lors de la création du catalogue avec le mot clé MANAGED LOCATION. Doit être contenu dans un emplacement externe.
schéma Spécifié lors de la création du schéma avec le mot clé MANAGED LOCATION. Doit être contenu dans un emplacement externe.

L’emplacement de stockage managé utilisé pour stocker les données et les métadonnées des tables managées et des volumes managés utilise les règles suivantes :

  • Si le schéma contenant a un emplacement managé, les données sont stockées dans l’emplacement managé par le schéma.
  • Si le schéma contenant n’a pas d’emplacement managé, mais que le catalogue a un emplacement managé, les données sont stockées dans l’emplacement managé par le catalogue.
  • Si ni le schéma conteneur ni le catalogue conteneur n’ont d’emplacement managé, les données sont stockées dans l’emplacement managé du metastore.

Informations d’identification de stockage et emplacements externes

Pour gérer l’accès au stockage cloud sous-jacent pour les tables externes, les volumes externes et le stockage managé, Unity Catalog utilise les types d’objets suivants :

Consultez Se connecter au stockage d’objets cloud à l’aide de Unity Catalog.

Gestion des identités pour Unity Catalog

Unity Catalog utilise les identités dans le compte Azure Databricks pour résoudre les utilisateurs, les principaux de service et les groupes et pour appliquer des autorisations.

Pour configurer des identités dans le compte, suivez les instructions fournies dans Gérer les utilisateurs, les principaux de service et les groupes. Reportez-vous à ces utilisateurs, principaux de service et groupes quand vous créez des stratégies de contrôle d’accès dans Unity Catalog.

Les utilisateurs, principaux de service et groupes Unity Catalog doivent également être ajoutés à des espaces de travail pour accéder aux données Unity Catalog d’un notebook, d’une requête Databricks SQL, de Catalog ’Explorer ou d’une commande API REST. L’attribution d’utilisateurs, de principaux de service et de groupes à des espaces de travail est appelée fédération d’identité.

Tous les espaces de travail auxquels est attaché un metastore Unity Catalog sont activés pour la fédération d’identité.

Considérations spéciales relatives aux groupes

Tous les groupes qui existent déjà dans l’espace de travail sont étiquetés Espace de travail local dans la console de compte. Ces groupes locaux d’espace de travail ne peuvent pas être utilisés dans Unity Catalog pour définir des stratégies d’accès. Vous devez utiliser des groupes au niveau du compte. Si un groupe local d’espace de travail est référencé dans une commande, cette commande retourne une erreur indiquant que le groupe est introuvable. Si vous avez utilisé des groupes locaux d’espace de travail pour gérer l’accès aux notebooks et à d’autres artefacts, ces autorisations restent en vigueur.

Consultez Gérer les groupes.

Rôles d’administrateur pour Unity Catalog

Les administrateurs de compte, les administrateurs de metastore et les administrateurs d’espace de travail sont impliqués dans la gestion de Unity Catalog :

Consultez Privilèges Administrateur dans Unity Catalog.

Autorisations sur les données dans Unity Catalog

Dans Unity Catalog, les données sont sécurisées par défaut. Initialement, les utilisateurs n’ont pas accès aux données d’un metastore. L’accès peut être accordé par un administrateur de metastore, le propriétaire d’un objet ou le propriétaire du catalogue ou du schéma qui contient l’objet. Les objets sécurisables dans Unity Catalog sont hiérarchiques et les privilèges sont hérités vers le bas.

Vous pouvez attribuer et révoquer des autorisations avec Catalog Explorer, les commandes SQL ou les API REST.

Consultez Gérer les privilèges dans Unity Catalog.

Modes d’accès au calcul et au cluster pris en charge pour Unity Catalog

Unity Catalog est pris en charge sur les clusters qui exécutent Databricks Runtime 11.3 LTS ou version ultérieure. Unity Catalog est pris en charge par défaut sur toutes les versions de calcul de l’entrepôt SQL .

Les clusters s’exécutant sur des versions antérieures de Databricks Runtime ne prennent pas en charge toutes les fonctionnalités et fonctionnalités d’Unity Catalog GA.

Pour accéder aux données dans Unity Catalog, les clusters doivent être configurés avec le mode d’accès correct. Unity Catalog est sécurisé par défaut. Si un cluster n’est pas configuré avec l’un des modes d’accès compatibles Unity Catalog (c’est-à-dire, partagé ou attribué), il ne peut pas accéder aux données dans Unity Catalog. Voir Modes d’accès aux fichiers.

Pour plus d’informations sur les modifications apportées aux fonctionnalités de Unity Catalog dans chaque version de Databricks Runtime, consultez les notes de publication.

Les limitations de Unity Catalog varient selon le mode d’accès et la version de Databricks Runtime. Consulter Limitations des mode d’accès au calcul pour Unity Catalog.

Traçabilité des données pour le Catalogue Unity

Vous pouvez utiliser le Catalogue Unity pour capturer la traçabilité des données de runtime entre les requêtes dans n’importe quel langage exécuté sur un cluster Azure Databricks ou un entrepôt SQL. La traçabilité est capturée au niveau de la colonne et inclut des notebooks, des workflows et des tableaux de bord liés à la requête. Pour plus d’informations, consultez Capturer et afficher la traçabilité des données avec le Catalogue Unity.

Lakehouse Federation et Unity Catalog

Lakehouse Federation est la plateforme de fédération de requêtes pour Azure Databricks. Le terme fédération de requêtes décrit une collection de fonctionnalités qui permettent aux utilisateurs et aux systèmes d’exécuter des requêtes sur plusieurs sources de données en silo sans devoir migrer toutes les données vers un système unifié.

Azure Databricks utilise Unity Catalog pour gérer la fédération des requêtes. Vous utilisez Unity Catalog pour configurer desconnexions en lecture seule à des systèmes de base de données externes populaires et créer des catalogues étrangers qui reflètent des bases de données externes. Les outils de gouvernance et de traçabilité des données d’Unity Catalog garantissent que l’accès aux données est géré et audité pour toutes les requêtes fédérées effectuées par les utilisateurs de vos espaces de travail Azure Databricks.

Consultez Présentation de Lakehouse Federation.

Comment configurer Unity Catalog pour mon organisation ?

Pour savoir comment configurer Unity Catalog, consultez Configurer et gérer Unity Catalog.

Régions prises en charge

Toutes les régions prennent en charge Unity Catalog. Pour plus d’informations, consultez Régions Azure Databricks.

Formats de données pris en charge

Unity Catalog prend en charge les formats de tableau suivants :

Limitations de Unity Catalog

Unity Catalog présente les limitations suivantes.

Notes

Si votre cluster s’exécute sur une version de Databricks Runtime antérieure à 11.3, il peut y avoir des limitations supplémentaires, qui ne sont pas indiquées ici. Unity Catalog est pris en charge dans Databricks Runtime 11.3 LTS ou version ultérieure.

Les limitations de Unity Catalog varient en fonction de Databricks Runtime et du mode d’accès. Les charges de travail Structured Streaming présentent des limitations supplémentaires basées sur Databricks Runtime et le mode d’accès. Consulter Limitations des mode d’accès au calcul pour Unity Catalog.

  • Les charges de travail en langage R ne prennent pas en charge les vues dynamiques dans le cadre de la sécurité au niveau des lignes ou des colonnes.

  • Dans Databricks Runtime 13.1 et versions ultérieures, les clones superficiels sont pris en charge pour créer des tables managées Unity Catalog à partir de tables managées Unity Catalog existantes. Dans Databricks Runtime 13.0 et versions ultérieures, il n’y a pas de prise en charge des clones superficiels dans Unity Catalog. Consultez Clone superficiel pour les tables Unity Catalog.

  • Le compartimentage n’est pas pris en charge pour les tables Unity Catalog. Si vous exécutez des commandes qui tentent de créer une table compartimentée dans Unity Catalog, une exception sera levée.

  • L’écriture dans le même chemin d’accès ou dans la même table Delta Lake à partir d’espaces de travail dans plusieurs régions peut entraîner des performances peu fiables si certains clusters accèdent à Unity Catalog et d’autres pas.

  • Les schémas de partition personnalisés créés à l’aide de commandes telles que ALTER TABLE ADD PARTITION ne sont pas pris en charge pour les tables dans Unity Catalog. Unity Catalog peut accéder aux tables qui utilisent le partitionnement de type répertoire.

  • Le mode de remplacement des opérations d’écriture DataFrame dans Unity Catalog est pris en charge pour les tables Delta, mais pas pour les autres formats de fichier. L’utilisateur doit disposer du privilège CREATE sur le schéma parent et doit être le propriétaire de l’objet existant ou avoir le privilège MODIFY sur l’objet.

  • Dans Databricks Runtime 13.2 et les versions ultérieures, les fonctions UDF scalaires Python sont prises en charge. Dans Databricks Runtime 13.1 et versions antérieures, vous ne pouvez pas utiliser les fonctions UDF Python, y compris les fonctions UDAF, UDTF et Pandas sur Spark (applyInPandas et mapInPandas).

  • Dans Databricks Runtime 14.2 et les versions ultérieures, les fonctions UDF scalaires Scala sont prises en charge sur les clusters partagés. Dans Databricks Runtime 14.1 et les versions antérieures, toutes les fonctions UDF Scala ne sont pas prises en charge sur les clusters partagés.

  • Les groupes précédemment créés dans un espace de travail (c’est-à-dire, les groupes au niveau de l’espace de travail) ne peuvent pas être utilisés dans les instructions GRANT de Unity Catalog. Cela permet d’obtenir une vue cohérente des groupes qui peuvent s’étendre sur plusieurs espaces de travail. Pour utiliser des groupes dans des instructions GRANT, créez vos groupes au niveau du compte et mettez à jour n’importe quelle automatisation pour la gestion des principaux ou des groupes, par exemple, SCIM, Okta et Microsoft Entra ID (anciennement Azure Active Directory) pour référencer les points de terminaison de compte au lieu des points de terminaison d’espace de travail. Consultez Différence entre les groupes de comptes et les groupes locaux d’espace de travail.

  • Les pools de threads Scala standard ne sont pas pris en charge. En lieu et place, utilisez les pools de threads spéciaux dans org.apache.spark.util.ThreadUtils, par exemple, org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool. Toutefois, les pools de threads suivants dans ThreadUtils ne sont pas pris en charge : ThreadUtils.newForkJoinPool et tout pool de threads ScheduledExecutorService.

  • La journalisation d’audit est prise en charge pour les événements Unity Catalog au niveau de l’espace de travail uniquement. Les événements qui se produisent au niveau du compte sans référence à un espace de travail, tels que la création d’un metastore, ne sont pas journalisés.

Les limitations suivantes s’appliquent à tous les noms d’objets dans Unity Catalog :

  • Les noms des objets ne doivent pas dépasser 255 caractères.
  • Les caractères spéciaux suivants ne sont pas autorisés :
    • Point (.)
    • Espace ( )
    • Barre oblique (/)
    • Tous les caractères de contrôle ASCII (hexadécimal 00-1F)
    • Caractère SUPPRIMER (hexadécimal 7F)
  • Unity Catalog stocke tous les noms d’objets en minuscules.
  • Lorsque vous référencez des noms UC dans SQL, vous devez utiliser des backticks pour les noms d’échappement qui contiennent des caractères spéciaux tels que des traits d’union (-).

Remarque

Les noms de colonnes peuvent utiliser des caractères spéciaux, mais le nom doit être placé dans une séquence d’échappement avec des backticks dans toutes les instructions SQL si des caractères spéciaux sont utilisés. Unity Catalog conserve la casse des noms de colonne, mais les requêtes sur les tables Unity Catalog ne respectent pas la casse.

Des limitations supplémentaires existent pour les modèles dans Unity Catalog. Consultez Limitations relatives à la prise en charge de Unity Catalog.

Quotas de ressources

Unity Catalog applique des quotas de ressources sur tous les objets sécurisables. Les limites respectent la même organisation hiérarchique dans Unity Catalog. Si vous prévoyez de dépasser ces limites de ressources, contactez l’équipe de votre compte Azure Databricks.

Les valeurs de quota ci-dessous sont exprimées par rapport à l’objet parent (ou grand-parent) dans Unity Catalog.

Object Parent Valeur
table schéma 10000
table metastore 100000
volume schéma 10000
function schéma 10000
modèle inscrit schéma 1 000
modèle inscrit metastore 5 000
version de modèle modèle inscrit 10000
version de modèle metastore 100000
schéma catalogue 10000
catalogue metastore 1 000
connection metastore 1 000
informations d’identification du stockage metastore 200
emplacement externe metastore 500

Pour connaître les limites du partage Delta, consultez Quotas de ressources.