Qu’est-ce qu’Apache Iceberg dans Azure Databricks ?

Important

Les tables Iceberg gérées par le catalogue Unity sont disponibles en préversion publique dans Databricks Runtime 16.4 LTS et versions ultérieures. Les tables Iceberg étrangères sont également disponibles en préversion publique dans Databricks Runtime 16.4 LTS et versions supérieures à celle-ci.

Les fonctionnalités iceberg v3 sont disponibles en préversion publique dans Databricks Runtime 18.0 et versions ultérieures. Consultez Utiliser les fonctionnalités Apache Iceberg v3.

Apache Iceberg est un format de table open source pour les charges de travail d’analytique. Il prend en charge des fonctionnalités telles que l’évolution du schéma, le voyage temporel et le partitionnement masqué. Comme Delta Lake, Iceberg fournit une couche d’abstraction qui active les transactions ACID sur les données stockées dans le stockage d’objets. Azure Databricks prend en charge les tables Iceberg qui utilisent le format de fichier Apache Parquet. Iceberg maintient l’atomicité et la cohérence en écrivant de nouveaux fichiers de métadonnées pour chaque modification de table.

Un catalogue Iceberg est la couche de plus haut niveau de l’architecture de table Iceberg. Il gère les opérations telles que la création, la suppression et le renommage des tables. Sa principale responsabilité est de fournir les métadonnées actuelles lorsqu’une table est chargée. Azure Databricks prend en charge les tables Iceberg gérées par :

Unity Catalogue
Catalogues étrangers, tels que AWS Glue, metastore Hive ou Snowflake Horizon Catalog

Toutes les tables Iceberg de Azure Databricks suivent la spécification ouverte du format de table Iceberg. Consultez la spécification de la table Iceberg.

Créer des tables Iceberg dans le catalogue Unity

Les tables iceberg créées dans le catalogue Unity sont des tables Iceberg gérées. Vous pouvez créer ces tables à l’aide des éléments suivants :

Databricks Runtime ou Databricks SQL
Moteurs compatibles avec Iceberg externes qui prennent en charge l’API du catalogue REST Iceberg, comme Apache Spark, Flink, Trino ou Kafka. Consultez Accéder aux tables Azure Databricks depuis les clients Apache Iceberg.

Les tables Iceberg managées sont entièrement intégrées aux fonctionnalités de plateforme Azure Databricks. Unity Catalog gère les tâches de cycle de vie telles que l’expiration des instantanés et le compactage de fichiers sur ces tables. Les tables Iceberg managées prennent également en charge le clustering liquide, ce qui améliore les performances des requêtes. L’optimisation prédictive automatise ces tâches pour réduire les coûts de stockage et améliorer la vitesse des requêtes. Databricks recommande d’utiliser les clients Iceberg 1.9.2 et versions ultérieures pour lire et écrire dans Unity Catalog.

Lire les tables Iceberg gérées par d’autres catalogues

Une table iceberg étrangère est une table Iceberg gérée par un catalogue en dehors de l'Unity Catalog. Le catalogue externe stocke les métadonnées actuelles de la table. Azure Databricks utilise Lakehouse Federation pour récupérer les métadonnées et lire la table à partir du stockage d’objets.

Les tables Iceberg externes sont en lecture seule dans Azure Databricks et bénéficient d'un support limité de la plateforme.

Accéder aux tables Iceberg à l’aide de systèmes externes

Vous pouvez accéder à toutes les tables Iceberg dans le catalogue Unity à l’aide de l’API du catalogue REST Iceberg. Cette API ouverte prend en charge les opérations de lecture et d’écriture à partir de moteurs Iceberg externes sur différents langages et plateformes. Consultez Accéder aux tables Azure Databricks depuis les clients Apache Iceberg.

Le catalogue REST prend en charge la distribution d'informations d'identification, ce qui délivre des informations d'identification temporaires aux moteurs externes pour accéder au stockage sous-jacent. Pour en savoir plus, veuillez consulter la section Distribution d'informations d'identification Unity Catalog pour l'accès aux systèmes externes.

Avertissement

La vente d’informations d’identification n’est pas prise en charge sur les espaces de travail qui utilisent le stockage par défaut. Consultez Limitations.

Évolution des partitions

Avec l’évolution de la partition, vous pouvez modifier le schéma de partitionnement d’une table Apache Iceberg existante sans réécrire des données. Les nouvelles données sont écrites avec la disposition de partition mise à jour et les données existantes conservent sa disposition de partition d’origine. Apache Iceberg effectue le suivi des spécifications de partition et applique le filtre approprié au moment de la requête. Consultez l’évolution des partitions pour Apache Iceberg.

Note

L’évolution des partitions est prise en charge sur les tables Iceberg gérées via des moteurs Iceberg externes à l’aide du catalogue REST Iceberg, mais pas via Databricks SQL. Les transformations de partition basées sur des expressions telles que years() et bucket() ne sont pas prises en charge pour les tables Iceberg gérées. Consultez les limitations de la table Iceberg.

Pour configurer l’accès externe, consultez Access Azure Databricks tables à partir de clients Apache Iceberg.

Les exemples suivants montrent comment utiliser l’évolution de la partition avec Spark SQL et l’extension Iceberg. Pour connaître la syntaxe d’évolution de partition Apache Iceberg et les transformations prises en charge, consultez Apache Iceberg Spark DDL.

Ajouter un champ de partition

Pour ajouter un nouveau champ de partition à une table existante :

ALTER TABLE catalog.schema.table ADD PARTITION FIELD column_name;

Supprimer un champ de partition

Pour supprimer un champ de partition existant d’une table :

ALTER TABLE catalog.schema.table DROP PARTITION FIELD column_name;

Remplacer un champ de partition

Pour échanger un champ de partition pour un autre sans repartition intermédiaire :

ALTER TABLE catalog.schema.table REPLACE PARTITION FIELD old_column WITH new_column;

Limites des tables Iceberg

Les limitations suivantes s’appliquent aux tables Iceberg dans Azure Databricks et sont susceptibles de changer :

Les tables Iceberg prennent uniquement en charge le format de fichier Apache Parquet.
Azure Databricks prend en charge les versions 1, 2 et 3 de la spécification Iceberg.
- Pour connaître les limitations spécifiques à v3, consultez Limitations.
Les suppressions de position dans Iceberg v2 et les suppressions basées sur l’égalité ne sont pas compatibles. Au lieu de cela, Azure Databricks prend en charge les vecteurs de suppression Iceberg v3 pour les suppressions au niveau des lignes.
La création de branches et l’ajout de balises ne sont pas pris en charge. Seule la branche principale est accessible lors de la lecture des tables Iceberg étrangères.
Partitionnement:
- L'évolution des partitions est prise en charge sur les tables Iceberg gérées uniquement en interaction avec des moteurs Iceberg externes.
- Les tables Iceberg étrangères ne prennent pas en charge l’évolution des partitions.
- Le partitionnement par BINARY type n’est pas pris en charge.
Les vues ne sont pas prises en charge.
Les types de données suivants ne sont pas pris en charge :
- UUID
- Fixed(L)
- TIME
- Imbriqué avec les champs obligatoires STRUCT

Limitations de la table Iceberg managée

Les limitations suivantes s’appliquent spécifiquement aux tables Iceberg gérées :

La recherche vectorielle n’est pas prise en charge.
Iceberg ne prend pas en charge le flux de données modifiées. Par conséquent, le traitement incrémentiel n’est pas pris en charge lors de la lecture des tables Iceberg gérées comme source pour :
- Vues matérialisées et tables de diffusion en continu
- Profilage des données
- Tables en ligne
- Lakebase
- Classification des données
Les tables Iceberg managées ne peuvent être créées que si l’optimisation prédictive est activée pour la maintenance des tables.
Les propriétés de tableau suivantes sont gérées par Unity Catalog et ne peuvent pas être définies manuellement :
- write.location-provider.impl
- write.data.path
- write.metadata.path
- write.format.default
- write.delete.format.default
Le codec de compression pour modifier la compression de table n’est pas pris en charge. Toutes les tables utilisent Zstd par défaut.
Le partitionnement par expressions (par exemple, years(), , months()days(), hours(), bucket()) n’est pas pris en charge.
Les fonctionnalités non prises en charge dans Apache Iceberg ne sont pas également disponibles pour les tables Iceberg managées. Cela inclut les colonnes générées de Delta Lake, les contraintes sur Azure Databricks et la prise en charge de la collation pour Delta Lake.

Limites des tables Iceberg étrangères

Les limitations suivantes s’appliquent spécifiquement aux tables Iceberg étrangères :

Les déplacements temporels sont pris en charge uniquement pour les instantanés Iceberg qui ont été lus précédemment dans Azure Databricks (autrement dit, les instantanés où une instruction SELECT a été exécutée).
L’utilisation de fonctions de transformation de compartiment pour le partitionnement Iceberg peut dégrader les performances des requêtes lorsque des filtres conditionnels sont utilisés.
Les produits de hiérarchisation de stockage cloud tels qu’Amazon S3 ne sont pas intégrés aux tables Iceberg étrangères. L’accès aux tables Iceberg étrangères dans Azure Databricks peut restaurer les données archivées dans des niveaux de stockage à moindre coût.
Sur les clusters en mode d’accès dédié, les lectures et les opérations REFRESH FOREIGN TABLE sur les tables Iceberg nécessitent ALL PRIVILEGES.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-21