Remarque
L’accès à cette page requiert une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page requiert une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article présente Unity Catalog, une solution de gouvernance unifiée pour les ressources de données et d’IA sur Azure Databricks. Il explique les concepts clés et donne une vue d’ensemble de l’utilisation du catalogue Unity pour régir les données.
Remarque
Unity Catalog est également disponible en tant qu’implémentation open source. Consultez le blog d’annonce et le dépôt GitHub du catalogue Unity public.
Vue d’ensemble de Unity Catalog
Unity Catalog est un catalogue de données centralisé qui fournit le contrôle d’accès, l’audit, la traçabilité, la surveillance de la qualité et les fonctionnalités de découverte des données dans les espaces de travail Azure Databricks.
Les principales fonctionnalités de Unity Catalog sont les suivantes :
- Définissez une fois, sécurisé partout : Unity Catalog offre un emplacement unique pour administrer des stratégies d’accès aux données qui s’appliquent à tous les espaces de travail d’une région.
- Modèle de sécurité conforme aux normes : le modèle de sécurité du catalogue Unity est basé sur ANSI SQL standard et permet aux administrateurs d’accorder des autorisations dans leur lac de données existant à l’aide de la syntaxe familière.
- Audit et traçabilité intégrés : Unity Catalog capture automatiquement les journaux d’audit au niveau de l’utilisateur qui enregistrent l’accès à vos données. Unity Catalog capture également les données de traçabilité qui effectuent le suivi de la création et de l’utilisation des ressources de données dans tous les langages.
- Découverte des données : Unity Catalog vous permet d’étiqueter et de documenter des ressources de données et fournit une interface de recherche pour aider les consommateurs de données à trouver des données.
- Tables système : Unity Catalog vous permet d’accéder et d’interroger facilement les données opérationnelles de votre compte, notamment les journaux d’audit, l’utilisation facturable et la traçabilité.
Metastore
Le metastore est le conteneur de niveau supérieur des métadonnées dans Unity Catalog. Il inscrit les métadonnées sur les ressources de données et d’IA, ainsi que les autorisations qui régissent l’accès à celles-ci. Pour qu’un espace de travail utilise Unity Catalog, un metastore Unity Catalog doit lui être attaché. Vous devez disposer d’un metastore pour chaque région où vous disposez d’espaces de travail.
Contrairement au metastore Hive, le metastore Du catalogue Unity n’est pas une limite de service : il s’exécute dans un environnement multilocataire et représente une limite logique pour la séparation des données par région pour un compte Azure Databricks donné.
Modèle objet du catalogue Unity
Dans un metastore Unity Catalog, la hiérarchie à trois niveaux des objets de base de données se compose de catalogues qui contiennent des schémas, qui eux-mêmes contiennent des données et des objets d’IA, comme des tables et des modèles. Cette hiérarchie est représentée sous la forme d’un espace de noms de trois niveaux (catalog.schema.table-etc
) lorsque vous référencez des tables, des vues, des volumes, des modèles et des fonctions.
Niveau 1 :
- Les catalogues sont utilisés pour organiser vos ressources de données et sont généralement utilisés comme niveau supérieur dans votre schéma d’isolation des données. Les catalogues reflètent souvent des unités d’organisation ou des étendues de cycle de vie de développement logiciel. Voir Quels sont les catalogues dans Azure Databricks ?.
- Les objets non sécurisables de données, tels que les informations d’identification de stockage et les emplacements externes, sont utilisés pour gérer votre modèle de gouvernance des données dans Unity Catalog. Ils se trouvent aussi directement sous le metastore. Elles sont décrites plus en détail dans les objets sécurisables que Unity Catalog utilise pour gérer l’accès aux sources de données externes.
Niveau 2 :
- Les schémas (également appelés bases de données) contiennent des tables, des vues, des volumes, des modèles IA et des fonctions. Les schémas organisent les données et les ressources d’IA en catégories logiques plus granulaires que les catalogues. En règle générale, un schéma représente un seul cas d’utilisation, projet ou bac à sable d’équipe. Découvrez quels sont les schémas dans Azure Databricks ?.
Niveau trois :
- Les tables sont des collections de données organisées par lignes et colonnes. Les tables peuvent être gérées, avec Unity Catalog gérant le cycle de vie complet de la table ou externe, avec Unity Catalog gérant l’accès aux données à partir d’Azure Databricks, mais pas la gestion de l’accès aux données dans le stockage cloud à partir d’autres clients. Consultez Présentation des tables Azure Databricks et des tables et volumes managés ou externes.
- Les vues sont des requêtes sauvegardées sur une ou plusieurs tables. Voir Qu’est-ce qu’une vue ?.
- Les volumes représentent des volumes logiques de données dans le stockage d’objets cloud. Vous pouvez utiliser des volumes pour stocker, organiser et accéder à des fichiers dans n’importe quel format, y compris des données structurées, semi-structurées et non structurées. En règle générale, ils sont utilisés pour les données non tabulaires. Les volumes peuvent être gérés, avec Unity Catalog gérant le cycle de vie complet et la disposition des données dans le stockage, ou externes, avec Unity Catalog gérant l’accès aux données à partir d’Azure Databricks, mais pas la gestion de l’accès aux données dans le stockage cloud à partir d’autres clients. Découvrez quels sont les volumes du catalogue Unity et les différences entre les tables et volumes gérés et externes.
- Les fonctions sont des unités de logique enregistrée qui retournent une valeur scalaire ou un ensemble de lignes. Consultez les fonctions définies par l’utilisateur (UDF) dans le catalogue Unity.
- Les modèles sont des modèles IA empaquetés avec MLflow et inscrits dans le catalogue Unity en tant que fonctions. Consultez Gérer le cycle de vie du modèle dans le catalogue Unity.
Objets sécurisables que Unity Catalog utilise pour gérer l’accès aux sources de données externes
Outre les objets de base de données et les ressources IA contenus dans les schémas, Unity Catalog utilise également les objets sécurisables suivants pour gérer l’accès au stockage cloud et à d’autres sources et services de données externes :
- Informations d’identification de stockage, qui encapsulent des informations d’identification cloud à long terme qui permettent d’accéder au stockage cloud. Consultez Créer des informations d’identification de stockage pour la connexion à Azure Data Lake Storage.
- Emplacements externes, qui référencent à la fois un chemin de stockage cloud et les informations d’identification de stockage requises pour y accéder. Les emplacements externes peuvent être utilisés pour créer des tables externes ou pour affecter un emplacement de stockage managé pour les tables et volumes managés. Consultez Créer un emplacement externe pour connecter le stockage cloud à Azure Databricks, le stockage cloud et l’isolation des données, et spécifier un emplacement de stockage managé dans le catalogue Unity.
- Connexions, qui représentent des informations d’identification qui donnent un accès en lecture seule à une base de données externe dans un système de base de données tel que MySQL à l’aide de Lakehouse Federation. Voir Qu’est-ce que la fédération Lakehouse ?.
- Informations d’identification du service, qui encapsulent des informations d’identification cloud à long terme qui fournissent l’accès à un service externe. Consultez Créer des informations d’identification de service.
Objets sécurisables que le catalogue Unity utilise pour gérer l’accès aux ressources partagées
Unity Catalog utilise les objets sécurisables suivants pour gérer le partage des données et des ressources IA entre les limites du metastore ou de l’organisation :
- Salles propres, qui représentent un environnement géré par Databricks où plusieurs participants peuvent collaborer sur des projets sans partager les données sous-jacentes entre elles. Voir Qu’est-ce qu’Azure Databricks Clean Rooms ?.
- Partages, qui sont des objets Delta Sharing qui représentent une collection en lecture seule de données et de ressources IA qu’un fournisseur de données partage avec un ou plusieurs destinataires.
- Les Destinataires, qui sont des objets Delta Sharing représentant l’entité qui reçoit les partages d’un fournisseur de données.
- Fournisseurs, qui sont des objets Delta Sharing qui représentent une entité qui partage des données avec un destinataire.
Pour plus d’informations sur les objets sécurisables Delta Sharing, consultez Qu’est-ce que le partage Delta ?.
Rôles d’administrateur
Les rôles d’administrateur Azure Databricks suivants disposent de nombreux privilèges de catalogue Unity par défaut :
- Administrateurs de compte : peut créer des metastores, lier des espaces de travail à des metastores, ajouter des utilisateurs et attribuer des privilèges sur les metastores.
- Administrateurs d’espace de travail : peut ajouter des utilisateurs à un espace de travail et gérer de nombreux objets spécifiques à l’espace de travail, tels que des travaux et des notebooks. Selon l’espace de travail, les administrateurs d’espace de travail peuvent également avoir de nombreux privilèges sur le metastore attaché à l’espace de travail.
- Administrateurs de metastore : ce rôle facultatif est requis si vous souhaitez gérer le stockage de tables et de volumes au niveau du metastore. Il est également pratique de gérer les données de manière centralisée sur plusieurs espaces de travail d’une région.
Pour plus d’informations, consultez Privilèges d’administrateur dans le catalogue Unity.
Octroi et révocation de l’accès aux objets sécurisables
Les utilisateurs privilégiés peuvent accorder et révoquer l’accès aux objets sécurisables à n’importe quel niveau de la hiérarchie, y compris le metastore lui-même. L’accès à un objet accorde implicitement le même accès à tous les enfants de cet objet, sauf si l’accès est révoqué.
Vous pouvez utiliser les commandes SQL ANSI classiques pour accorder et révoquer l’accès aux objets dans Unity Catalog. Par exemple :
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
Vous pouvez également utiliser Catalog Explorer, l’interface CLI Databricks et les API REST pour gérer les autorisations d’objets.
Les administrateurs de metastore, les propriétaires d’un objet et les utilisateurs disposant de l’objet MANAGE privilege
peuvent accorder et révoquer l’accès. Pour savoir comment gérer les privilèges dans le catalogue Unity, consultez Gérer les privilèges dans le catalogue Unity.
Accès par défaut aux objets de base de données dans Unity Catalog
Unity Catalog opère selon principe du privilège minimum, à savoir que les utilisateurs disposent de l’accès minimum nécessaire pour effectuer leurs tâches requises. Lorsqu’un espace de travail est créé, les utilisateurs non administrateurs n’ont accès qu’au catalogue d’espaces de travail approvisionné automatiquement, ce qui permet aux utilisateurs d’essayer le processus de création et d’accès aux objets de base de données dans le catalogue Unity. Consultez les privilèges du catalogue d’espaces de travail.
Utilisation d’objets de base de données dans Unity Catalog
L’utilisation d’objets de base de données dans le catalogue Unity est très similaire à celle des objets de base de données inscrits dans un metastore Hive, à l’exception qu’un metastore Hive n’inclut pas de catalogues dans l’espace de noms d’objet. Vous pouvez utiliser la syntaxe ANSI bien connue pour créer des objets de base de données, gérer les objets de base de données, gérer les autorisations et utiliser les données dans Unity Catalog. Vous pouvez également créer des objets de base de données, gérer les objets de base de données et gérer les autorisations sur les objets de base de données à l’aide de l’interface utilisateur de Catalog Explorer.
Pour plus d’informations, consultez Objets de base de données dans Azure Databricks.
Comparaison entre les tables et les volumes managés et externes
Les tables et les volumes peuvent être managés ou externes.
- Les tables managées sont entièrement gérées par Unity Catalog, ce qui signifie que Unity Catalog gère à la fois la gouvernance et les fichiers de données sous-jacents pour chaque table managée. Les tables managées sont stockées à un emplacement managé par Unity Catalog dans votre stockage cloud. Les tables managées utilisent toujours le format Delta Lake. Vous pouvez stocker les tables managées au niveau du metastore, du catalogue ou du schéma.
- Les tables externes sont des tables dont l’accès à partir d’Azure Databricks est géré par Unity Catalog, mais dont le cycle de vie des données et la disposition des fichiers sont gérés à l’aide de votre fournisseur de cloud et d’autres plateformes de données. En règle générale, les tables externes servent à inscrire de grandes quantités de données existantes dans Azure Databricks ou sont également utilisées si vous avez besoin d’un accès en écriture aux données à l’aide d’outils extérieurs à Azure Databricks. Les tables externes sont prises en charge dans plusieurs formats de données. Une fois qu’une table externe est inscrite dans un metastore Unity Catalog, vous pouvez gérer et auditer l’accès à Azure Databricks---and l’utiliser---juster comme vous pouvez avec des tables managées.
- Les volumes managés sont entièrement gérés par Unity Catalog, ce qui signifie que Unity Catalog gère l’accès à l’emplacement de stockage du volume dans votre compte de fournisseur de cloud. Lorsque vous créez un volume managé, il est automatiquement stocké dans l’emplacement de stockage managé affecté au schéma conteneur.
- Les volumes externes représentent des données existantes dans des emplacements de stockage gérés en dehors d’Azure Databricks, mais inscrits dans Unity Catalog pour contrôler et auditer l’accès à partir d’Azure Databricks. Lorsque vous créez un volume externe dans Azure Databricks, vous spécifiez son emplacement, qui doit se trouver sur un chemin défini dans un emplacement externe du catalogue Unity.
Databricks recommande des tables et des volumes managés pour la plupart des cas d’usage, car ils vous permettent de tirer pleinement parti des fonctionnalités de gouvernance et d’optimisations des performances du catalogue Unity. Pour plus d’informations sur les cas d’utilisation classiques pour les tables et les volumes externes, consultez Les tables managées et externes et les volumes managés et externes.
Voir aussi :
- Tables gérées du Unity Catalog dans Azure Databricks pour Delta Lake et Apache Iceberg
- Utiliser des tables externes
- Volumes managés vs externes.
Stockage cloud et isolation des données
Unity Catalog utilise le stockage cloud de deux manières principales :
- Stockage managé : emplacements par défaut pour les tables gérées et les volumes managés (données non structurées et non tabulaires) que vous créez dans Azure Databricks. Ces emplacements de stockage managé peuvent être définis au niveau du metastore, du catalogue ou du schéma. Vous créez des emplacements de stockage managés dans votre fournisseur de cloud, mais leur cycle de vie est entièrement géré par le catalogue Unity.
- Emplacements de stockage où les tables et volumes externes sont stockés. Il s’agit de tables et de volumes dont l’accès à partir d’Azure Databricks est géré par Unity Catalog, mais dont le cycle de vie des données et la disposition des fichiers sont gérés à l’aide de votre fournisseur de cloud et d’autres plateformes de données. En règle générale, vous utilisez des tables ou des volumes externes pour inscrire de grandes quantités de vos données existantes dans Azure Databricks, ou si vous avez également besoin d’un accès en écriture aux données à l’aide d’outils en dehors d’Azure Databricks.
Gouvernance de l’accès au stockage cloud à l’aide d’emplacements externes
Les emplacements de stockage managé et les emplacements de stockage où les tables externes et les volumes sont stockés utilisent des objets sécurisables d’emplacement externe pour gérer l’accès à partir d’Azure Databricks. Les objets d’emplacement externe référencent un chemin de stockage cloud et les informations d’identification de stockage requises pour y accéder. Les informations d’identification de stockage sont elles-mêmes des objets sécurisables du catalogue Unity qui inscrivent les informations d’identification requises pour accéder à un chemin de stockage particulier. Ensemble, ces éléments sécurisables garantissent que l’accès au stockage est contrôlé et suivi par le catalogue Unity.
Le diagramme ci-dessous représente la hiérarchie du système de fichiers d’un seul conteneur de stockage cloud, avec quatre emplacements externes qui partagent une seule information d’identification de stockage.
Pour plus d’informations, consultez Comment le catalogue Unity régit-t-il l’accès au stockage cloud ?.
Hiérarchie des emplacements de stockage managé
Le niveau auquel vous définissez un stockage géré dans le catalogue Unity dépend de votre modèle d’isolation de données préféré. Votre organisation peut exiger que certains types de données soient stockés dans des comptes ou compartiments spécifiques dans votre locataire cloud.
Le catalogue Unity vous permet de configurer des emplacements de stockage managés au niveau du metastore, du catalogue ou du schéma pour répondre à ces exigences.
Par exemple, supposons que votre organisation dispose d’une stratégie de conformité d’entreprise qui nécessite des données de production relatives aux ressources humaines pour résider dans le conteneur abfss://mycompany-.hr-prod@storage-account.dfs.core.windows.net Dans le catalogue Unity, vous pouvez obtenir cette exigence en définissant un emplacement au niveau du catalogue, en créant un catalogue appelé, par exemple hr_prod
, et en lui affectant l’emplacement abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog. Cela signifie que les tables ou volumes gérés créés dans le catalogue hr_prod
(par exemple, à l'aide de CREATE TABLE hr_prod.default.table …
) stockent leurs données dans abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog. Si vous le souhaitez, vous pouvez choisir de fournir des emplacements au niveau du schéma pour organiser les données dans hr_prod catalog
à un niveau plus granulaire.
Si l’isolation du stockage n’est pas exigée pour certains catalogues, vous pouvez éventuellement définir un emplacement de stockage au niveau du metastore. Cet emplacement sert d’emplacement par défaut pour les tables managées et les volumes dans les catalogues et les schémas qui n’ont pas de stockage affecté. Cependant, Databricks vous recommande généralement d’attribuer des emplacements de stockage managés distincts pour chaque catalogue.
Le système évalue la hiérarchie des emplacements de stockage du schéma au catalogue, puis au metastore.
Par exemple, si une table myCatalog.mySchema.myTable
est créée dans my-region-metastore
, l’emplacement de stockage de la table est déterminé en fonction de la règle suivante :
- Si un emplacement a été fourni pour
mySchema
, elle sera stockée là. - Si ce n’est pas le cas et qu’un emplacement a été fourni sur
myCatalog
, elle sera stockée là. - Enfin, si aucun emplacement n’a été fourni sur
myCatalog
, elle sera stockée à l’emplacement associé àmy-region-metastore
.
Pour plus d’informations, consultez Spécifier un emplacement de stockage managé dans le catalogue Unity.
Isolation de l’environnement à l’aide de la liaison workspace-catalog
Par défaut, les propriétaires de catalogue (et les administrateurs de metastore, s’ils sont définis pour le compte) peuvent rendre un catalogue accessible aux utilisateurs dans plusieurs espaces de travail attachés au même metastore Unity Catalog.
Les exigences organisationnelles et de conformité spécifient souvent que vous conservez certaines données, telles que les informations d’identification personnelle, accessibles uniquement dans certains environnements. Vous pouvez également conserver les données de production isolées des environnements de développement ou vous assurer que certains jeux de données et domaines ne sont jamais regroupés.
Dans Azure Databricks, l’espace de travail est l’environnement de traitement des données principal et les catalogues sont le domaine de données principal. Le catalogue Unity permet aux administrateurs de metastore, aux propriétaires de catalogue et aux utilisateurs disposant de l’autorisation MANAGE
d’attribuer ou de « lier » des catalogues à des espaces de travail spécifiques. Ces liaisons prenant en charge l’environnement vous permettent de vous assurer que seuls certains catalogues sont disponibles dans un espace de travail, quels que soient les privilèges spécifiques sur les objets de données accordés à un utilisateur. Cependant, si vous utilisez des espaces de travail pour isoler l’accès aux données utilisateur, vous avez peut-être intérêt à limiter l’accès au catalogue à des espaces de travail spécifiques dans votre compte, afin de garantir que certains types de données ne soient traités que dans ces espaces de travail. Vous pouvez souhaiter disposer d’espaces de travail de production et de développement distincts, par exemple, ou d’un espace de travail distinct pour le traitement des données sensibles. Il s’agit de la liaison catalogue-espace de travail. Consultez Limiter l’accès au catalogue à des espaces de travail spécifiques.
Remarque
Pour une isolation accrue des données, vous pouvez également lier l’accès au stockage cloud et l’accès au service cloud à des espaces de travail spécifiques. Voir (Facultatif) Affecter des informations d’identification de stockage à des espaces de travail spécifiques, (Facultatif) Affecter un emplacement externe à des espaces de travail spécifiques et (Facultatif) Affecter des informations d’identification de service à des espaces de travail spécifiques.
Comment faire configurer le catalogue Unity pour mon organisation ?
Pour utiliser Unity Catalog, votre espace de travail Azure Databricks doit être activé pour Unity Catalog, ce qui signifie que l’espace de travail est attaché à un metastore Unity Catalog.
Comment un espace de travail est-il attaché à un metastore ? Cela dépend du compte et de l’espace de travail :
- En règle générale, lorsque vous créez un espace de travail Azure Databricks dans une région pour la première fois, le metastore est créé automatiquement et attaché à l’espace de travail.
- Pour certains comptes anciens, un administrateur de compte doit créer le metastore et affecter les espaces de travail de cette région au metastore. Pour obtenir des instructions, consultez Créer un metastore de catalogue Unity.
- Si un compte dispose déjà d’un metastore affecté pour une région, un administrateur de compte peut décider s’il faut attacher automatiquement le metastore à tous les nouveaux espaces de travail de cette région. Consultez Activer l’attribution automatique d’un metastore à de nouveaux espaces de travail.
Que votre espace de travail ait été activé automatiquement ou non pour Unity Catalog, les étapes suivantes sont également nécessaires pour commencer à utiliser Unity Catalog :
- Création de catalogues et de schémas en vue d’accueillir les objets de base de données comme les tables et les volumes.
- Création d’emplacements de stockage managés pour stocker les tables et les volumes managés dans ces catalogues et schémas.
- Octroi d’un accès utilisateur aux catalogues, schémas et objets de base de données.
Les espaces de travail qui sont automatiquement activés pour le catalogue Unity approvisionnent un catalogue d’espaces de travail avec des privilèges étendus accordés à tous les utilisateurs de l’espace de travail. Ce catalogue est un point de départ pratique pour essayer Unity Catalog.
Pour obtenir des instructions d’installation détaillées, consultez Prise en main du catalogue Unity.
Mise à niveau d’un espace de travail existant vers le catalogue Unity
Pour savoir comment mettre à niveau un espace de travail catalogue non Unity vers Unity Catalog, consultez Mettre à niveau des espaces de travail Azure Databricks vers le catalogue Unity.
Exigences et restrictions de Unity Catalog
Unity Catalog exige certains types de calcul et de formats de fichiers, dont vous trouverez la description ci-dessous. De même, vous trouverez ensuite mention de certaines fonctionnalités Azure Databricks qui ne sont pas entièrement prises en charge dans Unity Catalog sur toutes les versions de Databricks Runtime.
Prise en charge des régions
Toutes les régions prennent en charge Unity Catalog. Pour plus d’informations, consultez les régions Azure Databricks.
Exigences de calcul
Unity Catalog est pris en charge sur les clusters qui exécutent Databricks Runtime 11.3 LTS ou version ultérieure. Le catalogue Unity est pris en charge par défaut sur toutes les versions de calcul de l’entrepôt SQL .
Les clusters s’exécutant sur des versions antérieures de Databricks Runtime ne prennent pas en charge toutes les fonctionnalités et fonctionnalités d’Unity Catalog GA.
Pour accéder aux données dans le catalogue Unity, les clusters doivent être configurés avec le mode d’accès approprié. Unity Catalog est sécurisé par défaut. Si un cluster n’est pas configuré avec le mode d’accès standard ou dédié, le cluster ne peut pas accéder aux données dans le catalogue Unity. Consultez les modes d’accès.
Pour plus d’informations sur les modifications des fonctionnalités du catalogue Unity dans chaque version de Databricks Runtime, consultez les notes de publication.
Les limitations de Unity Catalog varient selon le mode d’accès et la version de Databricks Runtime. Consultez les limitations du mode d’accès au calcul pour le catalogue Unity.
Prise en charge des formats de fichiers
Unity Catalog prend en charge les formats de tableau suivants :
-
Les tables managées doivent utiliser le format de
delta
tableau. -
Les tables externes peuvent utiliser
delta
,CSV
JSON
avro
parquet
ORC
ou .text
Limites
Unity Catalog présente les limitations suivantes. Certaines d’entre elles sont propres aux anciennes versions de Databricks Runtime et aux modes d’accès au calcul.
Les charges de travail Structured Streaming présentent d’autres limitations, qui dépendent de Databricks Runtime et du mode d’accès. Consultez les limitations du mode d’accès au calcul pour le catalogue Unity.
Databricks publie régulièrement de nouvelles fonctionnalités qui réduisent cette liste.
- Les groupes créés antérieurement dans un espace de travail (c’est-à-dire, des groupes au niveau de l’espace de travail) ne peuvent pas être utilisés dans les instructions
GRANT
de Unity Catalog. Cela permet d’obtenir une vue cohérente des groupes qui peuvent s’étendre sur plusieurs espaces de travail. Pour utiliser des groupes dans les instructionsGRAN
T, créez vos groupes au niveau du compte et mettez à jour toute automatisation dédiée à la gestion des principaux ou des groupes (comme les connecteurs SCIM, Okta et Microsoft Entra ID, et Terraform) afin de référencer les points de terminaison du compte au lieu des points de terminaison de l’espace de travail. Consultez Sources de groupe. - Les charges de travail en langage R ne prennent pas en charge les vues dynamiques dans le cadre de la sécurité au niveau des lignes ou des colonnes sur un calcul exécutant Databricks Runtime 15.3 et les versions antérieures.
Utilisez une ressource de calcul dédiée exécutant Databricks Runtime 15.4 LTS ou une version ultérieure pour les charges de travail dans R qui interrogent des vues dynamiques. Ces charges de travail nécessitent également un espace de travail qui supporte le calcul sans serveur. Pour plus d’informations, consultez Contrôle d’accès affiné sur le calcul dédié.
Les clones superficiels ne sont pas pris en charge dans Unity Catalog sur l'infrastructure de calcul exécutant Databricks Runtime 12.2 LTS et les versions inférieures. Vous pouvez utiliser les clones superficiels pour créer des tables managées sur Databricks Runtime 13.3 LTS et versions supérieures. Vous ne pouvez pas les utiliser pour créer des tables externes, quelle que soit la version de Databricks Runtime. Voir Shallow Clone pour les tables de Unity Catalog.
Le compartimentage n’est pas pris en charge pour les tables Unity Catalog. Si vous exécutez des commandes qui tentent de créer une table compartimentée dans Unity Catalog, une exception est levée.
Écrire dans le même chemin ou dans la même table Delta Lake depuis des espaces de travail situés dans plusieurs régions peut entraîner une performance peu fiable si certains clusters accèdent à Unity Catalog et d'autres non.
Manipulation de partitions pour des tables externes à l’aide de commandes telles que
ALTER TABLE ADD PARTITION
qui nécessite l’activation de la journalisation des métadonnées de partition. Consultez Découverte de partition pour les tables externes.Lorsque vous utilisez le mode de remplacement pour les tables non au format Delta, l’utilisateur doit avoir le CREATE TABLE privilège sur le schéma parent et doit être le propriétaire de l’objet existant OU avoir le privilège MODIFY sur l’objet.
Les UDF Python ne sont pas prises en charge dans Databricks Runtime 12.2 LTS et versions inférieures. Cela englobe les fonctions UDAF, UDTF et Pandas sur Spark (
applyInPandas
etmapInPandas
). Les fonctions UDF scalaires Python sont prises en charge dans Databricks Runtime 13.3 LTS et versions supérieures.Les fonctions définies par l’utilisateur Scala ne sont pas prises en charge dans Databricks Runtime 14.1 et versions antérieures avec le mode d’accès standard. Les fonctions définies par l’utilisateur scalaires Scala sont prises en charge dans Databricks Runtime 14.2 et versions ultérieures avec le mode d’accès standard.
Les pools de threads Scala standard ne sont pas pris en charge. En lieu et place, utilisez les pools de threads spéciaux dans
org.apache.spark.util.ThreadUtils
, par exemple,org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool
. Toutefois, les pools de threads suivants dansThreadUtils
ne sont pas pris en charge :ThreadUtils.newForkJoinPool
et tout pool de threadsScheduledExecutorService
.
- La journalisation d’audit est prise en charge pour les événements Unity Catalog au niveau de l’espace de travail uniquement. Les événements qui se produisent au niveau du compte sans référence à un espace de travail, tels que la création d’un metastore, ne sont pas journalisés.
Les modèles inscrits dans Unity Catalog présentent d’autres limitations. Voir Limitations.
Quotas de ressources
Unity Catalog applique des quotas de ressources sur tous les objets sécurisables. Ces quotas sont répertoriés dans les limites des ressources. Si vous prévoyez de dépasser ces limites de ressources, contactez l’équipe de votre compte Azure Databricks.
Vous pouvez surveiller l’utilisation de vos quotas à l’aide des API de quotas de ressources d’Unity Catalog. Consultez Surveiller votre utilisation des quotas de ressources du catalogue Unity.