Partager via


Que sont tous les Delta dans Azure Databricks ?

Cet article constitue une introduction aux technologies regroupées sous la marque Delta sur Azure Databricks. Delta fait référence aux technologies liées au projet open source Delta Lake.

Cet article répond aux questions :

  • Que sont tous les Delta dans Azure Databricks ?
  • Que font-ils ? Ou pour quoi sont-ils utilisés ?
  • Comment sont-ils liés et distincts des uns des autres ?

Quels sont les éléments Delta utilisés ?

Delta est un terme introduit avec Delta Lake, la fondation pour stocker des données et des tables dans le lac de données de Databricks. Delta Lake a été conçu comme un système de gestion de données unifié pour gérer les données transactionnelles en temps réel et en batch, en étendant les fichiers de données Parquet avec un journal des transactions basé sur les fichiers pour des transactions ACID et une gestion évolutive des métadonnées.

Delta Lake : Gestion des données OS pour le lakehouse

Delta Lake est une couche de stockage open source qui apporte une fiabilité aux data lakes en ajoutant une couche de stockage transactionnelle par-dessus les données stockées dans le cloud (sur AWS S3, Azure Storage et GCS). Il permet les transactions ACID, le contrôle de version des données et les fonctionnalités de restauration. Il vous permet de gérer à la fois des données par lots (batch) et des données en streaming de manière unifiée.

Les tables Delta sont construites au-dessus de cette couche de stockage et fournissent une abstraction de table, facilitant ainsi le travail avec des données structurées à grande échelle en utilisant SQL et l'API DataFrame.

Tables Delta : Architecture par défaut des tables de données

La table Delta est le format de table de données par défaut dans Azure Databricks et constitue une fonctionnalité du cadre de données open source Delta Lake. Les tables Delta sont généralement utilisées pour les data lakes, où les données sont ingérées via des flux en continu ou en grandes séries (batches).

Consultez l'article :

Pipelines déclaratifs Lakeflow : pipelines de données

Les pipelines déclaratifs Lakeflow gèrent le flux de données entre de nombreuses tables Delta, ce qui simplifie le travail des ingénieurs données sur le développement et la gestion ETL. Le pipeline est l'unité principale d'exécution des Pipelines Déclaratifs Lakeflow. Lakeflow Declarative Pipelines offre un développement de pipeline déclaratif, une fiabilité améliorée des données et des opérations de production à l’échelle du cloud. Les utilisateurs peuvent effectuer à la fois des opérations par lots (batch) et en streaming sur la même table, et les données sont immédiatement disponibles pour les requêtes. Vous définissez les transformations à effectuer sur vos données, et Lakeflow Declarative Pipelines gère l’orchestration des tâches, la gestion des clusters, la surveillance, la qualité des données et la gestion des erreurs. Les pipelines déclaratifs Lakeflow bénéficient d'une mise à l’échelle automatique améliorée, capable de gérer les charges de travail de streaming qui sont irrégulières et imprévisibles.

Consultez le didacticiel des Pipelines déclaratifs Lakeflow.

Tables delta et pipelines déclaratifs Lakeflow

La table Delta est un moyen de stocker des données dans des tables, tandis que les pipelines déclaratifs Lakeflow vous permettent de décrire comment les données circulent entre ces tables de manière déclarative. Lakeflow Declarative Pipelines est une infrastructure déclarative qui gère de nombreuses tables delta, en les créant et en les conservant à jour. En bref, les tables Delta sont une architecture de table de données tandis que les pipelines déclaratifs Lakeflow sont une infrastructure de pipeline de données.

Delta : Open source ou propriétaire ?

Une force de la plateforme Azure Databricks est qu’elle ne verrouille pas les clients dans des outils propriétaires : une grande partie de la technologie est alimentée par des projets open source, auxquels Azure Databricks contribue.

Les projets open source Delta sont des exemples :

Lakeflow Declarative Pipelines est une infrastructure propriétaire dans Azure Databricks.

Quels sont les autres éléments Delta sur Azure Databricks ?

Vous trouverez ci-dessous des descriptions d’autres fonctionnalités qui incluent Delta dans leur nom.

Partage delta

Un standard ouvert pour le partage sécurisé de données, Delta Sharing permet le partage de données entre des organisations, indépendamment de leur plateforme informatique.

Delta Engine

Un optimiseur de requêtes pour le big data qui utilise la technologie open source Delta Lake incluse dans Databricks. Delta Engine optimise les performances de Spark SQL, Databricks SQL et des opérations DataFrame en déléguant le calcul aux données.

Le journal des transactions Delta Lake (également appelé DeltaLogs)

Une source unique de vérité qui trace toutes les modifications que les utilisateurs apportent à la table et le mécanisme par lequel Delta Lake garantit l'atomicité. Consultez le protocole de journal des transactions Delta sur GitHub.

Le journal des transactions est essentiel pour comprendre Delta Lake, car c'est le fil conducteur qui traverse bon nombre de ses fonctionnalités les plus importantes :

  • Transactions ACID
  • Gestion des métadonnées évolutive
  • Voyage dans le temps
  • Et plus encore.