Inleiding

Voltooid

Linux Foundation Delta Lake is een opensource-opslaglaag voor Spark waarmee relationele databasemogelijkheden voor batch- en streaminggegevens mogelijk zijn. Met behulp van Delta Lake kunt u een data lakehouse-architectuur in Spark implementeren ter ondersteuning van SQL_based semantiek voor gegevensmanipulatie met ondersteuning voor transacties en schema-afdwinging. Het resultaat is een analytische gegevensopslag die veel voordelen biedt van een relationeel databasesysteem met de flexibiliteit van de opslag van gegevensbestanden in een data lake.

In deze module wordt het volgende behandeld:

  • Beschrijf de belangrijkste functies en mogelijkheden van Delta Lake.
  • Delta Lake-tabellen maken en gebruiken in Azure Databricks.
  • Spark-catalogustabellen maken voor Delta Lake-gegevens.
  • Delta Lake-tabellen gebruiken voor het streamen van gegevens.

Notitie

De versie van Delta Lake die beschikbaar is in een Azure Databricks-cluster, is afhankelijk van de versie van de Databricks Runtime die wordt gebruikt. De informatie in deze module weerspiegelt Delta Lake versie 3.x, die is geïnstalleerd met Spark 3.5.0 in Databricks Runtime versie 14.3.