Partager via


Accéder aux données Databricks à l’aide de systèmes externes

Cet article fournit une vue d’ensemble des fonctionnalités et des recommandations pour rendre les données gérées et régies par Azure Databricks disponibles pour d’autres systèmes.

Ces modèles se concentrent sur les scénarios où votre organisation doit intégrer des outils ou des systèmes approuvés aux données Azure Databricks. Si vous recherchez des conseils sur le partage de données en dehors de votre organisation, consultez Partager des données et des ressources IA en toute sécurité avec des utilisateurs d’autres organisations.

Quel accès externe Azure Databricks prend-il en charge ?

Azure Databricks recommande d’utiliser Unity Catalog pour régir toutes vos ressources de données. Unity Catalog fournit des intégrations aux clients Delta Lake à l’aide de l’API REST Unity et des clients Apache Iceberg à l’aide du catalogue REST Iceberg. Pour obtenir la liste complète des intégrations prises en charge, consultez intégrations du catalogue Unity.

Le tableau suivant fournit une vue d’ensemble des formats de prise en charge et des modèles d’accès pour les objets Catalogue Unity.

Objet Unity Catalog Formats pris en charge Modèles d’accès
Tables managées Delta Lake, Iceberg API REST Unity, catalogue REST Iceberg, Delta Sharing
Tables externes Delta Lake API REST Unity, catalogue REST Iceberg, Partage Delta, URI du cloud
Tables externes CSV, JSON, Avro, Parquet, ORC, texte API REST Unity, URI cloud
Volumes externes Tous les types de données URI cloud

Remarque

Le support Iceberg décrit les tables écrites par Azure Databricks à l'aide de Delta Lake, mais avec la fonctionnalité de lecture Iceberg (UniForm) activée.

Pour plus d’informations sur ces objets de catalogue Unity, consultez les rubriques suivantes :

Distribution des informations d’identification du catalogue Unity

La gestion des informations d’identification du catalogue Unity permet aux utilisateurs de configurer des clients externes pour obtenir des privilèges sur les données sous la gestion d'Azure Databricks. Les clients Iceberg et Delta peuvent prendre en charge la distribution des informations d’identification. Consultez Fourniture des informations d’identification Unity Catalog pour l’accès à un système externe.

Lire des tables avec des clients Delta

Utilisez l’API REST Unity pour lire les tables managées et externes du catalogue Unity sauvegardées par Delta Lake à partir de clients Delta pris en charge. Consultez les tables Databricks depuis des clients Delta.

Lire des tables avec des clients Iceberg

Azure Databricks fournit aux clients Iceberg une prise en charge en lecture seule des tables inscrites dans le Catalogue Unity. Les clients pris en charge incluent Apache Spark, Apache Flink, Trino et Snowflake. Consultez Accéder aux tables Azure Databricks des clients Apache Iceberg.

Partager des tables en lecture seule entre les domaines

Vous pouvez utiliser le partage Delta pour accorder un accès en lecture seule aux tables Delta managées ou externes entre les domaines et les systèmes pris en charge. Les systèmes logiciels qui prennent en charge les lectures de copie zéro des tables de partage Delta incluent SAP, Amperity et Oracle. Consultez Partager des données et des ressources IA en toute sécurité avec des utilisateurs d’autres organisations.

Remarque

Vous pouvez également utiliser le partage Delta pour accorder un accès en lecture seule aux clients ou aux partenaires. Delta Sharing supporte également les données partagées à l’aide de Databricks Marketplace.

Lire et écrire des tables Delta externes

Vous pouvez accéder aux tables externes du catalogage Unity prises en charge par Delta Lake depuis des clients externes de lecture et d'écriture Delta Lake, en utilisant des URI et des informations d'identification de stockage d'objets cloud.

Unity Catalog ne régit pas les lectures et les écritures effectuées directement sur le stockage d’objets cloud à partir de systèmes externes. Vous devez donc configurer des stratégies et des identifiants supplémentaires dans votre compte cloud pour vous assurer que les stratégies de gouvernance des données sont respectées en dehors d’Azure Databricks.

Remarque

La documentation Azure Databricks répertorie les limitations et les considérations de compatibilité basées sur les versions et fonctionnalités de plateforme databricks Runtime. Vous devez confirmer les protocoles de lecture et d’écriture et les fonctionnalités de table pris en charge par votre client. Voir delta.io.

Accéder aux données tabulaires non Delta Lake avec des tables externes

Les tables externes du catalogue Unity prennent en charge de nombreux formats autres que Delta Lake, notamment Parquet, ORC, CSV et JSON. Les tables externes stockent tous les fichiers de données dans les répertoires dans un emplacement de stockage d’objets cloud spécifié par un URI cloud fourni lors de la création de la table. D’autres systèmes accèdent à ces fichiers de données directement à partir du stockage d’objets cloud.

Unity Catalog ne régit pas les lectures et les écritures effectuées directement sur le stockage d’objets cloud à partir de systèmes externes. Vous devez donc configurer des stratégies et des identifiants supplémentaires dans votre compte cloud pour vous assurer que les stratégies de gouvernance des données sont respectées en dehors d’Azure Databricks.

La lecture et l’écriture dans des tables externes de plusieurs systèmes peuvent entraîner des problèmes de cohérence et une altération des données, car aucune garantie transactionnelle n’est fournie pour les formats autres que Delta Lake.

Le catalogue Unity peut ne pas récupérer de nouvelles partitions écrites dans des tables externes sauvegardées par des formats autres que Delta Lake. Databricks recommande d'exécuter MSCK REPAIR TABLE table_name régulièrement pour garantir que Unity Catalog a répertorié tous les fichiers de données écrits par des systèmes externes.

Accéder aux données non tabulaires avec des volumes externes

Databricks recommande d’utiliser des volumes externes pour stocker des fichiers de données non tabulaires lus ou écrits par des systèmes externes en plus d’Azure Databricks. Découvrez quels sont les volumes du catalogue Unity ?.

Unity Catalog ne régit pas les lectures et les écritures effectuées directement sur le stockage d’objets cloud à partir de systèmes externes. Vous devez donc configurer des stratégies et des identifiants supplémentaires dans votre compte cloud pour vous assurer que les stratégies de gouvernance des données sont respectées en dehors d’Azure Databricks.

Les volumes fournissent des API, des kits SDK et d’autres outils permettant d’obtenir des fichiers et de les placer dans des volumes. Consultez Gérer les fichiers dans les volumes.

Remarque

Le partage Delta vous permet de partager des volumes vers d’autres comptes Azure Databricks, mais ne s’intègre pas aux systèmes externes.