Renommer et supprimer des colonnes avec le mappage de colonnes Delta Lake

Cette page décrit comment le mappage de colonnes Delta Lake active les modifications de métadonnées uniquement pour marquer les colonnes comme supprimées ou renommées sans réécriture de fichiers de données.

Azure Databricks prend en charge le mappage de colonnes pour les tables Delta Lake. Le mappage de colonnes active les modifications de métadonnées uniquement pour marquer les colonnes comme supprimées ou renommées sans réécriture de fichiers de données. Le mappage de colonnes vous permet également d’utiliser des caractères non autorisés par Parquet dans les noms de colonnes, tels que les espaces. Cela vous permet d’ingérer directement des données CSV ou JSON dans Delta sans renommer de colonnes.

Conditions préalables et limitations

Avant d’activer le mappage de colonnes, comprenez les limitations suivantes :

Les tables avec mappage de colonnes activés peuvent uniquement être lues dans Databricks Runtime 10.4 LTS et versions ultérieures
L’activation du mappage de colonnes pourrait causer des dysfonctionnements :
- Charges de travail héritées qui s’appuient sur des noms de répertoires pour lire des tables Delta. Les tables partitionnée avec mappage de colonnes utilisent des préfixes aléatoires au lieu des noms de colonnes pour les répertoires de partition. Consultez Delta Lake et Parquet partagent-ils des stratégies de partitionnement ?.
- Opérations en aval utilisant le flux de données de modification Delta. Consultez les limitations du flux de données modifiées pour les tables avec le mappage de colonnes.
- La diffusion en continu est lue à partir de la table Delta, y compris dans les pipelines déclaratifs Spark Lakeflow. Consultez le mappage des colonnes et la diffusion en continu.

Activer le mappage de colonnes

Utilisez la commande suivante pour activer le mappage de colonnes avec id le mode sur une nouvelle table :

CREATE table <table-name> (
  id INT,
  name STRING
)
USING DELTA
TBLPROPERTIES (
  'delta.columnMapping.mode' = 'id'
);

Utilisez la commande suivante pour activer le mappage de colonnes avec le mode name sur une table existante :

ALTER TABLE <table-name> SET TBLPROPERTIES (
  'delta.columnMapping.mode' = 'name'
)

Pour plus d’informations sur les modes de mappage de colonnes, consultez les modes de mappage de colonnes.

Le mappage de colonnes exige les protocoles Delta suivants :

Lecteur PDF version 2 ou ultérieure
Writer version 5 ou ultérieure

Consultez les protocoles et la compatibilité des fonctionnalités Delta Lake.

Renommer une colonne

Remarque

Disponible dans Databricks Runtime 10.4 LTS et versions ultérieures.

Lorsque le mappage de colonnes est activé pour une table Delta, vous pouvez renommer une colonne :

ALTER TABLE <table-name> RENAME COLUMN old_col_name TO new_col_name

Pour plus d’exemples, consultez Mettre à jour le schéma de table.

Supprimer des colonnes

Remarque

Disponible dans Databricks Runtime 11.3 LTS et versions ultérieures.

Lorsque le mappage de colonnes est activé pour une table Delta, vous pouvez supprimer une ou plusieurs colonnes :

ALTER TABLE table_name DROP COLUMN col_name
ALTER TABLE table_name DROP COLUMNS (col_name_1, col_name_2, ...)

Pour plus d’informations, consultez Mettre à jour le schéma de table.

Modes de mappage de colonnes

Les delta.columnMapping.mode contrôles de propriété de table activent les modifications de métadonnées uniquement pour marquer les colonnes comme supprimées ou renommées sans réécriture de fichiers de données. Les modes suivants sont disponibles :

none (valeur par défaut) : le mappage de colonnes n’est pas activé. Les noms de colonnes sont soumis aux contraintes de nommage Parquet.
name: cela active les renommages et les suppressions de colonnes de métadonnées uniquement, et autorise les caractères spéciaux dans les noms de colonnes. name le mode peut être défini sur les tables nouvelles et existantes.
id: cela active les renommages et les suppressions de colonnes de métadonnées uniquement, et autorise les caractères spéciaux dans les noms de colonnes. id Le mode doit être défini lors de la création de table et ne peut pas être défini sur des tables existantes.

Remarque

Databricks recommande le id mode pour la plupart des cas d’usage à des fins de compatibilité. Toutefois, name le mode est automatiquement défini si vous ne fournissez pas de valeur pour delta.columnMapping.mode et que vous activez des fonctionnalités de compatibilité Iceberg telles que UniForm.

Caractères pris en charge dans les noms de colonnes

Lorsque le mappage de colonnes est activé pour une table Delta, vous pouvez inclure des espaces et l’un de ces caractères dans les noms de colonnes : ,;{}()\n\t=.

Supprimer le mappage de colonnes

Vous pouvez supprimer le mappage de colonnes d’une table à l’aide de la commande suivante :

ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.columnMapping.mode' = 'none')

Avertissement

La suppression du mappage de colonnes réécrit tous les fichiers de données pour remplacer les noms de colonnes physiques par des noms logiques. Cette opération ne prend pas en charge la résolution des conflits physiques ou au niveau des lignes.

Les opérations d’écriture simultanées provoquent un ConcurrentModificationException. Avant de supprimer le mappage de colonnes :

Suspendez toutes les opérations d’écriture simultanées, notamment les travaux de streaming et les pipelines ETL.
Désactivez l’optimisation prédictive sur la table.
Pour les tables volumineuses, planifiez cette opération pendant les périodes de faible activité.

Pour une autre approche qui prend en charge la rétrogradation du protocole de table, consultez Désactiver le mappage de colonnes.

Désactiver le mappage de colonnes

Dans Databricks Runtime 15.3 et versions ultérieures, vous pouvez utiliser la commande pour supprimer le DROP FEATURE mappage de colonnes et rétrograder le protocole de table. Utilisez cette approche au lieu de supprimer le mappage de colonnes si vous devez rétrograder les versions de protocole pour la compatibilité avec les lecteurs plus anciens.

Important

La suppression du mappage de colonnes d’une table ne supprime pas les préfixes aléatoires utilisés dans les noms de répertoires pour les tables partitionnée.

Consultez Supprimer une fonctionnalité de table Delta Lake et passer à une version antérieure du protocole de table.

Mappage de colonnes et diffusion en continu

Vous pouvez fournir un emplacement de suivi des schémas pour activer le streaming à partir de tables Delta avec un mappage de colonnes activé. Cela résout un problème où les modifications de schéma non additifs peuvent entraîner des flux rompus.

Chaque lecture en continu effectuée sur une source de données doit avoir son propre schemaTrackingLocation spécifié. Le schemaTrackingLocation spécifié doit être contenu dans le répertoire défini pour le checkpointLocation de la table cible pour l’écriture en streaming. Pour les charges de travail de streaming qui combinent les données de plusieurs tables Delta sources, vous devez spécifier des répertoires uniques dans le checkpointLocation pour chaque table source.

Activer le mappage de colonnes sur un travail en cours d’exécution

Important

Pour activer le mappage de colonnes sur un travail de streaming en cours d’exécution :

Arrêter le travail
Activer le mappage de colonnes sur la table
Redémarrez le travail (premier redémarrage - initialise le mappage de colonnes)
Redémarrez à nouveau le travail (deuxième redémarrage : active les modifications de schéma)

Toute autre modification de schéma (ajout ou suppression de colonnes, modification des types de colonnes) nécessite également le redémarrage du travail.

Spécifier l’emplacement de suivi du schéma

L’exemple suivant montre comment spécifier une schemaTrackingLocation pour une lecture en continu depuis une table Delta avec mappage de colonnes :

checkpoint_path = "/path/to/checkpointLocation"

(spark.readStream
  .option("schemaTrackingLocation", checkpoint_path)
  .table("delta_source_table")
  .writeStream
  .option("checkpointLocation", checkpoint_path)
  .toTable("output_table")
)

Prochaines étapes

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-03-31

Renommer et supprimer des colonnes avec le mappage de colonnes Delta Lake

Conditions préalables et limitations

Activer le mappage de colonnes

Renommer une colonne

Supprimer des colonnes

Modes de mappage de colonnes

Caractères pris en charge dans les noms de colonnes

Supprimer le mappage de colonnes

Désactiver le mappage de colonnes

Mappage de colonnes et diffusion en continu

Activer le mappage de colonnes sur un travail en cours d’exécution

Spécifier l’emplacement de suivi du schéma

Prochaines étapes

Commentaires

Ressources supplémentaires