Overzicht van Linux Foundation Delta Lake

Artikel
06/01/2023

De oorspronkelijke inhoud (hier) van dit artikel is aangepast voor meer duidelijkheid. Gebruik dit artikel om snel de belangrijkste functies van Delta Lake te verkennen. In het artikel vindt u codefragmenten die aangeven hoe u gegevens uit Delta Lake-tabellen leest en hoe u hier gegevens heen schrijft op basis van query's over interactiviteit, batches en streaming. De codefragmenten zijn ook beschikbaar in een aantal notebooks (PySpark hier, Scala hier en C# hier)

Het volgende wordt behandeld:

Een tabel maken
Gegevens lezen
Tabelgegevens bijwerken
Tabelgegevens overschrijven
Voorwaardelijke update zonder overschrijven
Oudere gegevensversies lezen met behulp van Time Travel
Een gegevensstroom naar een tabel schrijven
Een stroom wijzigingen uit een tabel lezen
SQL-ondersteuning

Configuratie

Zorg ervoor dat u het onderstaande aanpast voor zover dat in uw omgeving past.

import random

session_id = random.randint(0,1000000)
delta_table_path = "/delta/delta-table-{0}".format(session_id)

delta_table_path

var sessionId = (new Random()).Next(10000000);
var deltaTablePath = $"/delta/delta-table-{sessionId}";

deltaTablePath

val sessionId = scala.util.Random.nextInt(1000000)
val deltaTablePath = s"/delta/delta-table-$sessionId";

Resulteert in:

'/delta/delta-table-335323'

Een tabel maken

Als u een Delta Lake-tabel wilt schrijven, schrijft u een DataFrame op basis van een DataFrame in de Delta-indeling. U kunt de indeling van Parquet, CSV, JSON, enzovoort, wijzigen in Delta.

In de volgende code ziet u hoe u een nieuwe Delta Lake-tabel maakt met behulp van het schema dat uit uw DataFrame is afgeleid.

data = spark.range(0,5)
data.show()
data.write.format("delta").save(delta_table_path)

var data = spark.Range(0,5);
data.Show();
data.Write().Format("delta").Save(deltaTablePath);

val data = spark.range(0, 5)
data.show
data.write.format("delta").save(deltaTablePath)

Resulteert in:

Id
0
1
2
3
4

Gegevens lezen

U leest gegevens in uw Delta Lake-tabel door het pad naar de bestanden en de Delta-indeling op te geven.

df = spark.read.format("delta").load(delta_table_path)
df.show()

var df = spark.Read().Format("delta").Load(deltaTablePath);
df.Show()

val df = spark.read.format("delta").load(deltaTablePath)
df.show()

Resulteert in:

Id
1
3
4
0
2

De volgorde waarin de resultaten worden opgegeven, is anders dan hierboven staat aangezien er geen expliciete volgorde is opgegeven voordat de resultaten zijn uitgevoerd.

Tabelgegevens bijwerken

Delta Lake ondersteunt verschillende bewerkingen voor het wijzigen van tabellen met behulp van standaard DataFrame-API's. Deze bewerkingen zijn een van de verbeteringen die de Delta-indeling toevoegt. In het volgende voorbeeld wordt een batchtaak uitgevoerd om de gegevens in de tabel te overschrijven.

data = spark.range(5,10)
data.write.format("delta").mode("overwrite").save(delta_table_path)
df.show()

var data = spark.Range(5,10);
data.Write().Format("delta").Mode("overwrite").Save(deltaTablePath);
df.Show();

val data = spark.range(5, 10)
data.write.format("delta").mode("overwrite").save(deltaTablePath)
df.show()

Resulteert in:

Id
7
8
5
9
6

Hier ziet u dat alle vijf records zijn bijgewerkt met nieuwe waarden.

Opslaan als catalogustabellen

Delta Lake kan schrijven naar beheerde of externe catalogustabellen.

data.write.format("delta").saveAsTable("ManagedDeltaTable")
spark.sql("CREATE TABLE ExternalDeltaTable USING DELTA LOCATION '{0}'".format(delta_table_path))
spark.sql("SHOW TABLES").show()

data.Write().Format("delta").SaveAsTable("ManagedDeltaTable");
spark.Sql($"CREATE TABLE ExternalDeltaTable USING DELTA LOCATION '{deltaTablePath}'");
spark.Sql("SHOW TABLES").Show();

data.write.format("delta").saveAsTable("ManagedDeltaTable")
spark.sql(s"CREATE TABLE ExternalDeltaTable USING DELTA LOCATION '$deltaTablePath'")
spark.sql("SHOW TABLES").show

Resulteert in:

database	tableName	isTemporary
standaardinstelling	externaldeltatable	false
standaardinstelling	manageddeltatable	false

Met deze code hebt u een nieuwe tabel in de catalogus gemaakt op basis van een bestaand DataFrame. Deze tabel wordt een beheerde tabel genoemd. Vervolgens hebt u een nieuwe externe tabel in de catalogus gedefinieerd waarvoor een bestaande locatie wordt gebruikt. Dit wordt een externe tabel genoemd. In de uitvoer ziet u dat beide tabellen, ongeacht de manier waarop ze zijn gemaakt, in de catalogus worden vermeld.

Bekijk nu de uitgebreide eigenschappen van beide tabellen

spark.sql("DESCRIBE EXTENDED ManagedDeltaTable").show(truncate=False)

spark.Sql("DESCRIBE EXTENDED ManagedDeltaTable").Show(truncate: 0);

spark.sql("DESCRIBE EXTENDED ManagedDeltaTable").show(truncate=false)

Resulteert in:

col_name	data_type	comment
id	bigint	null

Gedetailleerde tabelgegevens
Database	standaardinstelling
Tabel	manageddeltatable
Eigenaar	trusted-service-user
Gemaakt om	za 25 apr 00:35:34 UTC 2020
Laatste toegang	do 1 jan 00:00:00 UTC 1970
Created By	Spark 2.4.4.2.6.99.201-11401300
Type	BEHEERD
Provider	delta
Tabeleigenschappen	[transient_lastDdlTime=1587774934]
statistieken	2407 bytes
Locatie	abfss://data@<data lake.dfs.core.windows.net/synapse/workspaces/>< workspace name>/warehouse/manageddeltatable
Serde-bibliotheek	org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat	org.apache.hadoop.mapred.SequenceFileInputFormat
OutputFormat	org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
Opslageigenschappen	[serialization.format=1]

spark.sql("DESCRIBE EXTENDED ExternalDeltaTable").show(truncate=False)

spark.Sql("DESCRIBE EXTENDED ExternalDeltaTable").Show(truncate: 0);

spark.sql("DESCRIBE EXTENDED ExternalDeltaTable").show(truncate=false)

Resulteert in:

col_name	data_type	comment
id	bigint	null

Gedetailleerde tabelgegevens
Database	standaardinstelling
Tabel	externaldeltatable
Eigenaar	trusted-service-user
Gemaakt om	za 25 apr 00:35:38 UTC 2020
Laatste toegang	do 1 jan 00:00:00 UTC 1970
Created By	Spark 2.4.4.2.6.99.201-11401300
Type	EXTERN
Provider	DELTA
Tabeleigenschappen	[transient_lastDdlTime=1587774938]
Locatie	abfss://data@<data lake.dfs.core.windows.net/delta/delta-table-587152>
Serde-bibliotheek	org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat	org.apache.hadoop.mapred.SequenceFileInputFormat
OutputFormat	org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
Opslageigenschappen	[serialization.format=1]

Voorwaardelijke update zonder overschrijven

Delta Lake biedt programmatische API's voor het voorwaardelijk bijwerken, verwijderen en samenvoegen van gegevens (deze opdracht wordt vaak een upsert genoemd) in tabellen.

from delta.tables import *
from pyspark.sql.functions import *

delta_table = DeltaTable.forPath(spark, delta_table_path)

delta_table.update(
  condition = expr("id % 2 == 0"),
  set = { "id": expr("id + 100") })
delta_table.toDF().show()

using Microsoft.Spark.Extensions.Delta;
using Microsoft.Spark.Extensions.Delta.Tables;
using Microsoft.Spark.Sql;
using static Microsoft.Spark.Sql.Functions;

var deltaTable = DeltaTable.ForPath(deltaTablePath);

deltaTable.Update(
  condition: Expr("id % 2 == 0"),
  set: new Dictionary<string, Column>(){{ "id", Expr("id + 100") }});
deltaTable.ToDF().Show();

import io.delta.tables._
import org.apache.spark.sql.functions._

val deltaTable = DeltaTable.forPath(deltaTablePath)

// Update every even value by adding 100 to it
deltaTable.update(
  condition = expr("id % 2 == 0"),
  set = Map("id" -> expr("id + 100")))
deltaTable.toDF.show

Resulteert in:

Id
106
108
5
7
9

Hier hebt u 100 toegevoegd aan elke even id.

delta_table.delete("id % 2 == 0")
delta_table.toDF().show()

deltaTable.Delete(condition: Expr("id % 2 == 0"));
deltaTable.ToDF().Show();

deltaTable.delete(condition = expr("id % 2 == 0"))
deltaTable.toDF.show

Resulteert in:

Id
5
7
9

U ziet dat elke even rij is verwijderd.

new_data = spark.range(0,20).alias("newData")

delta_table.alias("oldData")\
    .merge(new_data.alias("newData"), "oldData.id = newData.id")\
    .whenMatchedUpdate(set = { "id": lit("-1")})\
    .whenNotMatchedInsert(values = { "id": col("newData.id") })\
    .execute()

delta_table.toDF().show(100)

var newData = spark.Range(20).As("newData");

deltaTable
    .As("oldData")
    .Merge(newData, "oldData.id = newData.id")
    .WhenMatched()
        .Update(new Dictionary<string, Column>() {{"id", Lit("-1")}})
    .WhenNotMatched()
        .Insert(new Dictionary<string, Column>() {{"id", Col("newData.id")}})
    .Execute();

deltaTable.ToDF().Show(100);

val newData = spark.range(0, 20).toDF

deltaTable.as("oldData").
  merge(
    newData.as("newData"),
    "oldData.id = newData.id").
  whenMatched.
  update(Map("id" -> lit(-1))).
  whenNotMatched.
  insert(Map("id" -> col("newData.id"))).
  execute()

deltaTable.toDF.show()

Resulteert in:

Id
18
15
19
2
1
6
8
3
-1
10
13
0
16
4
-1
12
11
14
-1
17

Hier hebt u een combinatie van de bestaande gegevens. Aan de bestaande gegevens is een waarde van -1 toegewezen in het codepad update(WhenMatched). Die nieuwe gegevens die boven op het codefragment zijn gemaakt en die via het invoegcodepad (WhenNotMatched) zijn toegevoegd, zijn ook toegevoegd.

Geschiedenis

Delta Lake biedt de mogelijkheid om de geschiedenis van een tabel weer te geven. Dat wil zeggen: de wijzigingen die aan de onderliggende Delta-tabel zijn gemaakt. In de onderstaande cel ziet u hoe eenvoudig het is om de geschiedenis te controleren.

delta_table.history().show(20, 1000, False)

deltaTable.History().Show(20, 1000, false);

deltaTable.history.show(false)

Resulteert in:

versie	tijdstempel	userId	userName	bewerking	operationParameters	taak	notebook	clusterId	readVersion	isolationLevel	isBlindAppend
4	25-04-2020 00:36:27	null	null	SAMENVOEGEN	[predicaat -> (oldData.`ID` = newData.`ID`)]	null	null	null	3	null	false
3	25-04-2020 00:36:08	null	null	DELETE	[predicaat -> ["((`ID` % CAST(2 AS BIGINT)) = CAST(0 AS BIGINT)"]]	null	null	null	2	null	false
2	25-04-2020 00:35:51	null	null	UPDATE	[predicaat -> ((ID#744L % cast(2 as bigint)) = cast(0 as bigint))]	null	null	null	1	null	false
1	25-04-2020 00:35:05	null	null	SCHRIJVEN	[modus -> Overschrijven, partitionBy -> []]	null	null	null	0	null	false
0	25-04-2020 00:34:34	null	null	SCHRIJVEN	[modus -> ErrorIfExists, partitionBy -> []]	null	null	null	null	null	true

Hier ziet u alle aanpassingen die op de bovenstaande codefragmenten zijn aangebracht.

Oudere gegevensversies lezen met behulp van Time Travel

U kunt met behulp van de functie Time Travel een query uitvoeren op vorige momentopnamen van uw Delta Lake-tabel. Als u toegang wilt krijgen tot de gegevens die u hebt overschreven, kunt u een query uitvoeren op een momentopname van de tabel voordat u de eerste gegevensset hebt overschreven met behulp van de optie versionAsOf.

Zodra u de onderstaande cel uitvoert, ziet u als het goed is de eerste gegevensset van vóór u deze hebt overschreven. Time Travel is een krachtige functie die gebruikmaakt van de kracht van het Delta Lake-transactielogboek om toegang te krijgen tot gegevens die niet meer in de tabel aanwezig zijn. Als u de versie 0-optie verwijdert (of versie 1 opgeeft), ziet u weer de nieuwere gegevens. Zie Query uitvoeren op een oudere momentopname van een tabel voor meer informatie.

df = spark.read.format("delta").option("versionAsOf", 0).load(delta_table_path)
df.show()

var df = spark.Read().Format("delta").Option("versionAsOf", 0).Load(deltaTablePath);
df.Show();

val df = spark.read.format("delta").option("versionAsOf", 0).load(deltaTablePath)
df.show()

Resulteert in:

Id
0
1
4
3
2

Hier ziet u dat u terug bent gegaan naar de vroegste versie van de gegevens.

Een gegevensstroom naar een tabel schrijven

U kunt ook gegevens naar een Delta Lake-tabel schrijven met behulp van Gestructureerd streamen van Spark. Het Delta Lake-transactielogboek garandeert exact één verwerking, zelfs als er geen andere stromen of batchquery's gelijktijdig worden uitgevoerd op de tabel. Standaard worden stromen uitgevoerd in de toevoegmodus, waarmee nieuwe records aan de tabel worden toegevoegd.

Zie Lees- en schrijfbewerkingen in tabelstreaming voor meer informatie over Delta Lake-integratie met Gestructureerd streamen.

Bekijk bij de onderstaande cellen wat we aan het doen zijn:

Cel 30: de zojuist toegevoegde gegevens weergeven
Cel 31: de geschiedenis inspecteren
Cel 32: de gestructureerde streamingtaak stoppen
Cel 33 Geschiedenis controleren <- U ziet dat toevoegingen zijn gestopt

Eerst gaat u een eenvoudige Spark Streaming-taak instellen om een reeks te genereren en de taak naar uw Delta-tabel te laten schrijven.

streaming_df = spark.readStream.format("rate").load()
stream = streaming_df\
    .selectExpr("value as id")\
    .writeStream\
    .format("delta")\
    .option("checkpointLocation", "/tmp/checkpoint-{0}".format(session_id))\
    .start(delta_table_path)

var streamingDf = spark.ReadStream().Format("rate").Load();
var stream = streamingDf.SelectExpr("value as id").WriteStream().Format("delta").Option("checkpointLocation", $"/tmp/checkpoint-{sessionId}").Start(deltaTablePath);

val streamingDf = spark.readStream.format("rate").load()
val stream = streamingDf.select($"value" as "id").writeStream.format("delta").option("checkpointLocation", s"/tmp/checkpoint-$sessionId").start(deltaTablePath)

Een stroom wijzigingen uit een tabel lezen

Terwijl de stream gegevens naar de Delta Lake-tabel schrijft, kunt u gegevens uit die tabel lezen als een streamingbron. U kunt bijvoorbeeld nog een streamingquery's starten waarmee alle wijzigingen van de Delta Lake-tabel worden afgedrukt.

delta_table.toDF().sort(col("id").desc()).show(100)

deltaTable.ToDF().Sort(Col("id").Desc()).Show(100);

deltaTable.toDF.sort($"id".desc).show

Resulteert in:

Id
19
18
17
16
15
14
13
12
11
10
8
6
4
3
2
1
0
-1
-1
-1

delta_table.history().drop("userId", "userName", "job", "notebook", "clusterId", "isolationLevel", "isBlindAppend").show(20, 1000, False)

deltaTable.History().Drop("userId", "userName", "job", "notebook", "clusterId", "isolationLevel", "isBlindAppend").Show(20, 1000, false);

deltaTable.history.show

Resulteert in:

versie	tijdstempel	bewerking	operationParameters	readVersion
5	25-04-2020 00:37:09	STREAMINGUPDATE	[outputMode -> Toevoegen, queryId -> d26b4f8a-7e5a-44f2-a5fb-23a7bd02aef7, epochId -> 0]	4
4	25-04-2020 00:36:27	SAMENVOEGEN	[predicaat -> (oldData.`id` = newData.`id`)]	3
3	25-04-2020 00:36:08	DELETE	[predicaat -> ["((`id` % CAST(2 AS BIGINT)) = CAST(0 AS BIGINT)"]]	2
2	25-04-2020 00:35:51	UPDATE	[predicaat -> ((id#744L % cast(2 as bigint)) = cast(0 as bigint))]	1
1	25-04-2020 00:35:05	SCHRIJVEN	[modus -> Overschrijven, partitionBy -> []]	0
0	25-04-2020 00:34:34	SCHRIJVEN	[modus -> ErrorIfExists, partitionBy -> []]	null

Hier worden enkele van de minder interessante kolommen verwijderd om de weergave van de geschiedenisweergave te vereenvoudigen.

stream.stop()
delta_table.history().drop("userId", "userName", "job", "notebook", "clusterId", "isolationLevel", "isBlindAppend").show(100, 1000, False)

stream.Stop();
deltaTable.History().Drop("userId", "userName", "job", "notebook", "clusterId", "isolationLevel", "isBlindAppend").Show(100, 1000, false);

stream.stop
deltaTable.history.show

Resulteert in:

versie	tijdstempel	bewerking	operationParameters	readVersion
5	25-04-2020 00:37:09	STREAMINGUPDATE	[outputMode -> Toevoegen, queryId -> d26b4f8a-7e5a-44f2-a5fb-23a7bd02aef7, epochId -> 0]	4
4	25-04-2020 00:36:27	SAMENVOEGEN	[predicaat -> (oldData.`id` = newData.`id`)]	3
3	25-04-2020 00:36:08	DELETE	[predicaat -> ["((`id` % CAST(2 AS BIGINT)) = CAST(0 AS BIGINT)"]]	2
2	25-04-2020 00:35:51	UPDATE	[predicaat -> ((id#744L % cast(2 as bigint)) = cast(0 as bigint))]	1
1	25-04-2020 00:35:05	SCHRIJVEN	[modus -> Overschrijven, partitionBy -> []]	0
0	25-04-2020 00:34:34	SCHRIJVEN	[modus -> ErrorIfExists, partitionBy -> []]	null

Parquet omzetten in Delta

U kunt ter plekke gegevens in de Parquet-indeling omzetten naar Delta.

Hier gaat u testen of de bestaande tabel een delta-indeling heeft of niet.

parquet_path = "/parquet/parquet-table-{0}".format(session_id)
data = spark.range(0,5)
data.write.parquet(parquet_path)
DeltaTable.isDeltaTable(spark, parquet_path)

var parquetPath = $"/parquet/parquet-table-{sessionId}";
var data = spark.Range(0,5);
data.Write().Parquet(parquetPath);
DeltaTable.IsDeltaTable(parquetPath)

val parquetPath = s"/parquet/parquet-table-$sessionId"
val data = spark.range(0,5)
data.write.parquet(parquetPath)
DeltaTable.isDeltaTable(parquetPath)

Resulteert in:

Niet waar

Nu gaat u de gegevens converteren naar de delta-indeling en controleren of het heeft gewerkt.

DeltaTable.convertToDelta(spark, "parquet.`{0}`".format(parquet_path))
DeltaTable.isDeltaTable(spark, parquet_path)

DeltaTable.ConvertToDelta(spark, $"parquet.`{parquetPath}`");
DeltaTable.IsDeltaTable(parquetPath)

DeltaTable.convertToDelta(spark, s"parquet.`$parquetPath`")
DeltaTable.isDeltaTable(parquetPath)

Resulteert in:

Waar

SQL-ondersteuning

Delta biedt ondersteuning voor opdrachten van het hulpprogramma voor tabellen via SQL. U kunt SQL gebruiken voor het volgende:

De geschiedenis van een Delta-tabel ophalen
Een Delta-tabel isoleren
Een Parquet-bestand omzetten in een Delta-indeling

spark.sql("DESCRIBE HISTORY delta.`{0}`".format(delta_table_path)).show()

spark.Sql($"DESCRIBE HISTORY delta.`{deltaTablePath}`").Show();

spark.sql(s"DESCRIBE HISTORY delta.`$deltaTablePath`").show()

Resulteert in:

versie	tijdstempel	userId	userName	bewerking	operationParameters	taak	notebook	clusterId	readVersion	isolationLevel	isBlindAppend
5	25-04-2020 00:37:09	null	null	STREAMINGUPDATE	[outputMode -> Ap...	null	null	null	4	null	true
4	25-04-2020 00:36:27	null	null	SAMENVOEGEN	[predicaat -> (ol...	null	null	null	3	null	false
3	25-04-2020 00:36:08	null	null	DELETE	[predicaat -> ["(...	null	null	null	2	null	false
2	25-04-2020 00:35:51	null	null	UPDATE	[predicaat -> ((i...	null	null	null	1	null	false
1	25-04-2020 00:35:05	null	null	SCHRIJVEN	[modus -> Overschrijven...	null	null	null	0	null	false
0	25-04-2020 00:34:34	null	null	SCHRIJVEN	[modus -> ErrorIfE...	null	null	null	null	null	true

spark.sql("VACUUM delta.`{0}`".format(delta_table_path)).show()

spark.Sql($"VACUUM delta.`{deltaTablePath}`").Show();

spark.sql(s"VACUUM delta.`$deltaTablePath`").show()

Resulteert in:

leertraject
abfss://data@arca...

Nu gaat u controleren of een tabel geen tabel met een deltanotatie is. Vervolgens converteert u de tabel naar de delta-indeling met behulp van Spark SQL en bevestigt u dat deze correct is geconverteerd.

parquet_id = random.randint(0,1000)
parquet_path = "/parquet/parquet-table-{0}-{1}".format(session_id, parquet_id)
data = spark.range(0,5)
data.write.parquet(parquet_path)
DeltaTable.isDeltaTable(spark, parquet_path)
spark.sql("CONVERT TO DELTA parquet.`{0}`".format(parquet_path))
DeltaTable.isDeltaTable(spark, parquet_path)

var parquetId =  (new Random()).Next(10000000);
var parquetPath = $"/parquet/parquet-table-{sessionId}-{parquetId}";
var data = spark.Range(0,5);
data.Write().Parquet(parquetPath);
DeltaTable.IsDeltaTable(parquetPath);
spark.Sql($"CONVERT TO DELTA parquet.`{parquetPath}`");
DeltaTable.IsDeltaTable(parquetPath);

val parquetId = scala.util.Random.nextInt(1000)
val parquetPath = s"/parquet/parquet-table-$sessionId-$parquetId"
val data = spark.range(0,5)
data.write.parquet(parquetPath)
DeltaTable.isDeltaTable(parquetPath)
spark.sql(s"CONVERT TO DELTA parquet.`$parquetPath`")
DeltaTable.isDeltaTable(parquetPath)

Resulteert in:

Waar

Zie de pagina met documentatie voor Delta Lake voor de volledige documentatie

Zie Delta Lake-project voor meer informatie.

Share via

Overzicht van Linux Foundation Delta Lake

Configuratie

Een tabel maken

Gegevens lezen

Tabelgegevens bijwerken

Opslaan als catalogustabellen

Voorwaardelijke update zonder overschrijven

Geschiedenis

Oudere gegevensversies lezen met behulp van Time Travel

Een gegevensstroom naar een tabel schrijven

Een stroom wijzigingen uit een tabel lezen

Parquet omzetten in Delta

SQL-ondersteuning

Volgende stappen

Feedback

Aanvullende resources