Aan de slag met Delta Lake

Voltooid

Delta Lake is een opensource-opslaglaag die semantiek van relationele databases toevoegt aan gegevensverwerking op basis van Spark. Delta Lake wordt ondersteund in Azure Synapse Analytics Spark-pools voor PySpark-, Scala- en .NET-code.

De voordelen van het gebruik van Delta Lake in Azure Databricks zijn onder andere:

  • Relationele tabellen die ondersteuning bieden voor het uitvoeren van query's en het wijzigen van gegevens. Met Delta Lake kunt u gegevens opslaan in tabellen die CRUD-bewerkingen (maken, lezen, bijwerken en verwijderen) ondersteunen. Met andere woorden, u kunt rijen met gegevens op dezelfde manier selecteren, invoegen, bijwerken en verwijderen als in een relationeel databasesysteem.
  • Ondersteuning voor ACID-transacties. Relationele databases zijn ontworpen ter ondersteuning van transactionele gegevenswijzigingen die atomiciteit bieden (transacties voltooid als één werkeenheid), consistentie (transacties verlaten de database in een consistente status), isolatie (in-process transacties kunnen elkaar niet verstoren) en duurzaamheid (wanneer een transactie is voltooid, worden de aangebrachte wijzigingen behouden). Delta Lake biedt dezelfde transactionele ondersteuning voor Spark door een transactielogboek te implementeren en serialiseerbare isolatie af te dwingen voor gelijktijdige bewerkingen.
  • Versiebeheer van gegevens en tijdreizen. Omdat alle transacties zijn vastgelegd in het transactielogboek, kunt u meerdere versies van elke tabelrij bijhouden en zelfs de functie tijdreizen gebruiken om een eerdere versie van een rij in een query op te halen.
  • Ondersteuning voor batch- en streaminggegevens. Hoewel de meeste relationele databases tabellen bevatten die statische gegevens opslaan, bevat Spark systeemeigen ondersteuning voor het streamen van gegevens via de Structured Streaming-API van Spark. Delta Lake-tabellen kunnen worden gebruikt als zowel sinks (bestemmingen) als bronnen voor streaminggegevens.
  • Standaardindelingen en interoperabiliteit. De onderliggende gegevens voor Delta Lake-tabellen worden opgeslagen in Parquet-indeling, die vaak wordt gebruikt in data lake-opnamepijplijnen.

Tip

Zie de Delta Lake-handleiding in de documentatie van Azure Databricks voor meer informatie over Delta Lake in Azure Databricks.