API:er för AUTOMATISK CDC: Förenkla insamling av ändringsdata med pipelines

Lakeflow Spark Deklarativa pipelines förenklar insamling av ändringsdata (CDC) med API:erna AUTO CDC och AUTO CDC FROM SNAPSHOT . Dessa API:er automatiserar komplexiteten i att beräkna långsamt föränderliga dimensioner (SCD) typ 1 och typ 2 från antingen ett CDC-flöde eller databasögonblicksbilder. Mer information om dessa begrepp finns i Ändra datainsamling och ögonblicksbilder.

Anmärkning

AUTO CDC API:erna ersätter API:erna APPLY CHANGES och har samma syntax. APPLY CHANGES API:erna är fortfarande tillgängliga, men Databricks rekommenderar att du använder API:erna AUTO CDC i deras ställe.

Det API som du använder beror på källan för dina ändringsdata:

AUTO CDC: Använd detta när källdatabasen har ett CDC-flöde aktiverat. AUTO CDC bearbetar ändringar från en ändringsdatafeed (CDF). Det stöds i både SQL- och Python-pipelinegränssnitten.
AUTO CDC FROM SNAPSHOT: Använd detta när CDC inte är aktiverat i källdatabasen och endast ögonblicksbilder är tillgängliga. Det här API:et jämför ögonblicksbilder för att fastställa ändringar och bearbetar dem sedan. Det stöds endast i Python-gränssnittet.

Båda API:erna stöder uppdatering av tabeller med scd typ 1 och typ 2:

Använd SCD Typ 1 för att uppdatera dataposter direkt. Historik behålls inte för uppdaterade register.
Använd SCD Typ 2 för att behålla en historik över poster, antingen på alla uppdateringar eller vid uppdateringar av en angiven uppsättning kolumner.

AUTO CDC API:er stöds inte av Apache Spark deklarativa pipelines.

Syntax och andra referenser hittar du i AUTO CDC INTO (pipelines), create_auto_cdc_flow och create_auto_cdc_from_snapshot_flow.

Anmärkning

Den här sidan beskriver hur du uppdaterar tabeller i dina pipelines baserat på ändringar i källdata. Information om hur du registrerar och frågar ändringsinformation på radnivå för Delta-tabeller finns i Använda Delta Lake-ändringsdataflöde i Azure Databricks.

Kravspecifikation

Om du vill använda CDC-API:erna måste din pipeline konfigureras för att använda serverlös SDP eller SDP Pro eller Advancedutgåvor.

Så här fungerar AUTO CDC

Om du vill utföra CDC-bearbetning med AUTO CDCskapar du en strömningstabell och använder sedan -instruktionen AUTO CDC ... INTOcreate_auto_cdc_flow() i SQL eller funktionen i Python för att ange källa, nycklar och sekvensering för ändringsflödet. En förklaring av hur sekvensering och SCD-logik fungerar finns i Ändra datainsamling och ögonblicksbilder. Se AUTO CDC-exempel.

För initial hydrering från en källa med ett ändringsflöde använder du AUTO CDC med ett once flöde och fortsätter sedan att bearbeta ändringsflödet. Se Replikera en extern RDBMS-tabell med AUTO CDC.

Syntaxinformation finns i AUTO CDC INTO (pipelines) eller create_auto_cdc_flow.

Så här fungerar AUTO CDC FRÅN SNAPSHOT

AUTO CDC FROM SNAPSHOT avgör ändringar i källdata genom att jämföra ögonblicksbilder i ordning. Det stöds endast i Python-pipelinegränssnittet. Du kan läsa ögonblicksbilder från en Delta-tabell, molnlagringsfiler eller JDBC direkt.

Om du vill utföra CDC-bearbetning med AUTO CDC FROM SNAPSHOT skapar du en strömningstabell och sedan använder du create_auto_cdc_from_snapshot_flow()-funktionen för att ange ögonblicksbild, nycklar och andra argument. Mer information om de två inmatningsmönstren och när du ska använda var och en finns i Mönster för bearbetning av ögonblicksbilder. Se exempel på AUTO CDC FROM SNAPSHOT.

För syntaxdetaljer, se create_auto_cdc_from_snapshot_flow.

Använda flera kolumner för sekvensering

Om du vill sekvenseras efter flera kolumner (till exempel en tidsstämpel och ett ID för att bryta banden) använder du en STRUCT för att kombinera dem. API:t sorterar efter det första fältet först, och vid lika värden beaktar det det andra fältet och så vidare.

SQL

SEQUENCE BY STRUCT(timestamp_col, id_col)

python

sequence_by = struct("timestamp_col", "id_col")

AUTO CDC-exempel

I följande exempel visas SCD-typ 1 och typ 2-bearbetning med hjälp av en ändringsdataflödeskälla. Exempeldata skapar nya användarposter, tar bort en användarpost och uppdaterar användarposter. I scd typ 1-exemplet kommer de sista UPDATE åtgärderna sent och tas bort från måltabellen, vilket visar händelsehantering utan ordning.

Följande är de indataposter som används i de här exemplen. Dessa data skapas genom att köra frågan i avsnittet Skapa exempeldata .

userId	name	city	Operation	sekvensnummer
124	Raul	Oaxaca	INSERT	1
123	Isabel	Monterrey	INSERT	1
125	Mercedes	Tijuana	INSERT	2
126	Lilja	Cancun	INSERT	2
123	noll	noll	DELETE	6
125	Mercedes	Guadalajara	UPDATE	6
125	Mercedes	Mexicali	UPDATE	5
123	Isabel	Chihuahua	UPDATE	5

Om du avkommenterar den sista raden i exempeldatagenereringsfrågan infogar den följande post som anger att tabellen ska trunkeras (rensa tabellen) på sequenceNum=3:

userId	name	city	Operation	sekvensnummer
noll	noll	noll	TRUNKERA	3

Anmärkning

Alla följande exempel har alternativ för att ange både DELETE åtgärder och TRUNCATE operationer, men varje är valfri.

Skapa exempeldata

Kör följande instruktioner för att skapa en exempeldatauppsättning. Den här koden är inte avsedd att köras som en del av en pipelinedefinition. Kör den från utforskningsmappen för din pipeline i stället för mappen transformationer.

CREATE SCHEMA IF NOT EXISTS main.cdc_tutorial;

CREATE TABLE main.cdc_tutorial.users_cdf
AS SELECT
  col1 AS userId,
  col2 AS name,
  col3 AS city,
  col4 AS operation,
  col5 AS sequenceNum
FROM (
  VALUES
  -- Initial load.
  (124, "Raul",     "Oaxaca",      "INSERT", 1),
  (123, "Isabel",   "Monterrey",   "INSERT", 1),
  -- New users.
  (125, "Mercedes", "Tijuana",     "INSERT", 2),
  (126, "Lily",     "Cancun",      "INSERT", 2),
  -- Isabel is removed from the system and Mercedes moved to Guadalajara.
  (123, null,       null,          "DELETE", 6),
  (125, "Mercedes", "Guadalajara", "UPDATE", 6),
  -- This batch of updates arrived out of order. The batch at sequenceNum 6 is the final state.
  (125, "Mercedes", "Mexicali",    "UPDATE", 5),
  (123, "Isabel",   "Chihuahua",   "UPDATE", 5)
  -- Uncomment to test TRUNCATE.
  -- ,(null, null,      null,          "TRUNCATE", 3)
);

Bearbeta SCD Typ 1-uppdateringar

SCD Typ 1 sparar endast den senaste versionen av varje post. Följande exempel läser från ändringsdataflödet som skapades ovan och tillämpar ändringar på en målströmningstabell. Utveckla Lakeflow Spark deklarativa pipelines för att köra denna kod.

python

from pyspark import pipelines as dp
from pyspark.sql.functions import col, expr

@dp.view
def users():
  return spark.readStream.table("main.cdc_tutorial.users_cdf")

dp.create_streaming_table("users_current")

dp.create_auto_cdc_flow(
  target = "users_current",
  source = "users",
  keys = ["userId"],
  sequence_by = col("sequenceNum"),
  apply_as_deletes = expr("operation = 'DELETE'"),
  apply_as_truncates = expr("operation = 'TRUNCATE'"),
  except_column_list = ["operation", "sequenceNum"],
  stored_as_scd_type = 1
)

SQL

CREATE OR REFRESH STREAMING TABLE users_current;

CREATE FLOW apply_cdc AS AUTO CDC INTO
  users_current
FROM
  stream(main.cdc_tutorial.users_cdf)
KEYS
  (userId)
APPLY AS DELETE WHEN
  operation = "DELETE"
APPLY AS TRUNCATE WHEN
  operation = "TRUNCATE"
SEQUENCE BY
  sequenceNum
COLUMNS * EXCEPT
  (operation, sequenceNum)
STORED AS
  SCD TYPE 1;

När du har kört SCD Type 1-exemplet innehåller måltabellen följande poster:

userId	name	city
124	Raul	Oaxaca
125	Mercedes	Guadalajara
126	Lilja	Cancun

Användare 123 (Isabel) har tagits bort och visas inte. Användare 125 (Mercedes) visar endast den senaste staden (Guadalajara) eftersom SCD Typ 1 skriver över tidigare värden. Det tidigare UPDATE på sequenceNum=5 togs bort för att en senare uppdatering hade kommit på sequenceNum=6.

Efter att ha kört exemplet med posten TRUNCATE okommenterad rensas tabellen på sequenceNum=3. Det innebär att dataposter 124 och 126 inte finns i tabellen, och den slutliga måltabellen endast innehåller följande datapost:

userId	name	city
125	Mercedes	Guadalajara

Bearbeta SCD Typ 2-uppdateringar

SCD-typ 2 bevarar en fullständig historik över ändringar genom att skapa nya rader för varje version av en post, med __START_AT och __END_AT kolumner som anger när varje version var aktiv.

python

from pyspark import pipelines as dp
from pyspark.sql.functions import col, expr

@dp.view
def users():
  return spark.readStream.table("main.cdc_tutorial.users_cdf")

dp.create_streaming_table("users_history")

dp.create_auto_cdc_flow(
  target = "users_history",
  source = "users",
  keys = ["userId"],
  sequence_by = col("sequenceNum"),
  apply_as_deletes = expr("operation = 'DELETE'"),
  except_column_list = ["operation", "sequenceNum"],
  stored_as_scd_type = "2"
)

SQL

CREATE OR REFRESH STREAMING TABLE users_history;

CREATE FLOW apply_cdc AS AUTO CDC INTO
  users_history
FROM
  stream(main.cdc_tutorial.users_cdf)
KEYS
  (userId)
APPLY AS DELETE WHEN
  operation = "DELETE"
SEQUENCE BY
  sequenceNum
COLUMNS * EXCEPT
  (operation, sequenceNum)
STORED AS
  SCD TYPE 2;

Efter att ha kört SCD Type 2-exemplet innehåller måltabellen följande rader:

userId	name	city	__START_AT	__END_AT
123	Isabel	Monterrey	1	5
123	Isabel	Chihuahua	5	6
124	Raul	Oaxaca	1	noll
125	Mercedes	Tijuana	2	5
125	Mercedes	Mexicali	5	6
125	Mercedes	Guadalajara	6	noll
126	Lilja	Cancun	2	noll

Tabellen bevarar fullständig historik. Användare 123 har två versioner (avslutades vid sekvens 6 när den togs bort). Användare 125 har tre versioner som visar ändringar i staden. Poster som innehåller __END_AT = null är för närvarande aktiva.

Spåra en kolumnuppsättning med SCD Type 2

Som standard skapar SCD Typ 2 en ny version när ett kolumnvärde ändras. Du kan ange en delmängd av kolumner som ska spåras, så att ändringar i andra kolumner uppdaterar den aktuella versionen på plats i stället för att generera en ny historikpost.

I följande exempel undantas city kolumnen från historikspårning:

python

from pyspark import pipelines as dp
from pyspark.sql.functions import col, expr

@dp.view
def users():
  return spark.readStream.table("main.cdc_tutorial.users_cdf")

dp.create_streaming_table("users_history")

dp.create_auto_cdc_flow(
  target = "users_history",
  source = "users",
  keys = ["userId"],
  sequence_by = col("sequenceNum"),
  apply_as_deletes = expr("operation = 'DELETE'"),
  except_column_list = ["operation", "sequenceNum"],
  stored_as_scd_type = "2",
  track_history_except_column_list = ["city"]
)

SQL

CREATE OR REFRESH STREAMING TABLE users_history;

CREATE FLOW apply_cdc AS AUTO CDC INTO
  users_history
FROM
  stream(main.cdc_tutorial.users_cdf)
KEYS
  (userId)
APPLY AS DELETE WHEN
  operation = "DELETE"
SEQUENCE BY
  sequenceNum
COLUMNS * EXCEPT
  (operation, sequenceNum)
STORED AS
  SCD TYPE 2
TRACK HISTORY ON * EXCEPT
  (city)

Eftersom city ändringarna inte spåras skriver stadsuppdateringar över den aktuella raden i stället för att skapa en ny version. Måltabellen innehåller följande poster:

userId	name	city	__START_AT	__END_AT
123	Isabel	Chihuahua	1	6
124	Raul	Oaxaca	1	noll
125	Mercedes	Guadalajara	2	noll
126	Lilja	Cancun	2	noll

EXEMPEL PÅ AUTOMATISK CDC FRÅN ÖGONBLICKSBILD

Följande avsnitt innehåller exempel på hur du använder AUTO CDC FROM SNAPSHOT för att bearbeta ögonblicksbilder till SCD-måltabeller av typ 1 eller typ 2. Bakgrund om när du ska använda det här API:et finns i Ändra datainsamling och ögonblicksbilder.

Exempel: Bearbeta ögonblicksbilder med pipelineinmatningstid

Använd den här metoden när ögonblicksbilder anländer regelbundet och i ordning och du kan förlita dig på tidsstämpeln för pipelinekörning för versionshantering. En ny ögonblicksbild matas in med varje pipelineuppdatering.

Du kan läsa ögonblicksbilder från flera källtyper, inklusive Delta-tabeller, molnlagringsfiler och JDBC-anslutningar.

Steg 1: Skapa exempeldata

Skapa en tabell som innehåller ögonblicksbilddata. Kör följande kod från en notebook-fil eller Databricks SQL i explorations-mappen för din pipeline:

CREATE SCHEMA IF NOT EXISTS main.cdc_tutorial;

CREATE TABLE main.cdc_tutorial.snapshot (
  userId INT,
  city STRING
);

INSERT INTO main.cdc_tutorial.snapshot VALUES
  (1, 'Oaxaca'),
  (2, 'Monterrey'),
  (3, 'Tijuana');

Steg 2: Kör AUTO CDC FRÅN SNAPSHOT

Utveckla Lakeflow Spark Deklarativa Pipelines för att köra koden i det här steget.

Välj en källtyp för ögonblicksbildvyn (exempelgenereringskoden genererar en Delta-tabell):

Alternativ A: Läsa från en Delta-tabell

from pyspark import pipelines as dp

@dp.view(name="source")
def source():
  return spark.read.table("main.cdc_tutorial.snapshot")

Alternativ B: Läsa från molnlagring

from pyspark import pipelines as dp

@dp.view(name="source")
def source():
  return spark.read.format("csv").option("header", True).load("<snapshot-path>")

Alternativ C: Läsa från JDBC (endast klassisk beräkning)

from pyspark import pipelines as dp

@dp.view(name="source")
def source():
  return (spark.read
    .format("jdbc")
    .option("url", "<jdbc-url>")
    .option("dbtable", "<table-name>")
    .option("user", "<username>")
    .option("password", "<password>")
    .load()
  )

Skriv alla alternativ till målet

Lägg sedan till måltabellen och flödet:

dp.create_streaming_table("target")

dp.create_auto_cdc_from_snapshot_flow(
  target = "target",
  source = "source",
  keys = ["userId"],
  stored_as_scd_type = 2
)

Efter den första pipelinekörningen infogas alla poster som aktiva rader.

userId	city	__END_AT
1	Oaxaca	noll
2	Monterrey	noll
3	Tijuana	noll

Anmärkning

Om du vill använda SCD-typ 1 i stället och endast behålla det aktuella tillståndet anger du stored_as_scd_type=1. I det här fallet inkluderar måltabellen inte __START_AT och __END_AT kolumnerna.

Steg 3: Simulera en ny ögonblicksbild och kör igen

Uppdatera källtabellen för att simulera en ny ögonblicksbild som anländer (kör den här koden från en notebook- eller SQL-fil i explorations-mappen av din pipeline):

TRUNCATE TABLE main.cdc_tutorial.snapshot;

INSERT INTO main.cdc_tutorial.snapshot VALUES
  (2, 'Carmel'),
  (3, 'Los Angeles'),
  (4, 'Death Valley'),
  (6, 'Kings Canyon');

Kör pipelinen igen. AUTO CDC FROM SNAPSHOT jämför den nya ögonblicksbilden med den föregående och identifierar att användare 1 togs bort, användare 2 och 3 uppdaterades och användare 4 och 6 infogades. Detta genererar en ändringsfeed och använder AUTO CDC för att skapa utdatatabellen.

Efter den andra körningen med SCD Typ 2 innehåller måltabellen följande poster:

userId	city	__START_AT	__END_AT
1	Oaxaca	0	1
2	Monterrey	0	1
2	Carmel	1	noll
3	Tijuana	0	1
3	Los Angeles	1	noll
4	Dödsdalen	1	noll
6	Kings Canyon	1	noll

Användare 1 avslutades (togs bort). Användare 2 och 3 har båda två versioner som visar deras stadsändringar. Användare 4 och 6 infogades nyligen.

Efter den andra körningen med SCD Typ 1 visar måltabellen endast det aktuella tillståndet:

userId	city
2	Carmel
3	Los Angeles
4	Dödsdalen
6	Kings Canyon

Exempel: Bearbeta ögonblicksbilder med hjälp av versionsfunktioner

Använd den här metoden när du behöver explicit kontroll över beställning av ögonblicksbilder. Använd till exempel den här metoden när flera ögonblicksbilder anländer samtidigt eller anländer i fel ordning. Du skriver en funktion som anger vilken ögonblicksbild som ska bearbetas härnäst och dess versionsnummer. API:et bearbetar ögonblicksbilder i stigande versionsordning:

Om flera ögonblicksbilder finns i lagringen bearbetas alla i ordning.
Om en ögonblicksbild anländer i fel ordning (till exempel snapshot_3 anländer efter snapshot_4) hoppas den över.
Om det inte finns några nya ögonblicksbilder returnerar None funktionen och ingen bearbetning sker.

Steg 1: Förbereda ögonblicksbildfiler

Skapa CSV-filer som innehåller ögonblicksbildsdata och lägg till dem på en volym- eller molnlagringsplats. Namnge filerna kronologiskt (till exempel snapshot_1.csv, snapshot_2.csv).

Varje fil ska innehålla kolumner för userId och city. Som exempel:

snapshot_1.csv:

userId	city
1	Oaxaca
2	Monterrey
3	Tijuana

snapshot_2.csv:

userId	city
2	Carmel
3	Los Angeles
4	Dödsdalen

Steg 2: Kör AUTO CDC FROM SNAPSHOT med en versionsfunktion

Skapa en ny notebook-fil och klistra in följande pipelinekod. Utveckla sedan Deklarativa pipelines för Lakeflow Spark.

from pyspark import pipelines as dp
from typing import Optional, Tuple
from pyspark.sql import DataFrame

def next_snapshot_and_version(latest_snapshot_version: Optional[int]) -> Optional[Tuple[DataFrame, int]]:
  snapshot_dir = "/Volumes/main/cdc_tutorial/snapshots/" # or the location you created the sample data

  files = dbutils.fs.ls(snapshot_dir)
  snapshot_files = [f.name for f in files if f.name.startswith("snapshot_") and f.name.endswith(".csv")]

  snapshot_versions = []
  for filename in snapshot_files:
    try:
      version = int(filename.replace("snapshot_", "").replace(".csv", ""))
      snapshot_versions.append(version)
    except ValueError:
      continue

  snapshot_versions.sort()

  if latest_snapshot_version is None:
    if snapshot_versions:
      next_version = snapshot_versions[0]
    else:
      return None
  else:
    next_versions = [v for v in snapshot_versions if v > latest_snapshot_version]
    if next_versions:
      next_version = next_versions[0]
    else:
      return None

  snapshot_path = f"{snapshot_dir}snapshot_{next_version}.csv"
  df = spark.read.format("csv").option("header", True).load(snapshot_path)
  return (df, next_version)


dp.create_streaming_table("main.cdc_tutorial.target_versioned")

dp.create_auto_cdc_from_snapshot_flow(
  target = "main.cdc_tutorial.target_versioned",
  source = next_snapshot_and_version,
  keys = ["userId"],
  stored_as_scd_type = 2
)

Anmärkning

Om du vill använda SCD Typ 1 i stället anger du stored_as_scd_type=1.

Efter bearbetningen snapshot_1.csvinnehåller måltabellen följande poster:

userId	city	__START_AT	__END_AT
1	Oaxaca	1	noll
2	Monterrey	1	noll
3	Tijuana	1	noll

Efter bearbetningen snapshot_2.csvinnehåller måltabellen följande poster:

userId	city	__START_AT	__END_AT
1	Oaxaca	1	2
2	Monterrey	1	2
2	Carmel	2	noll
3	Tijuana	1	2
3	Los Angeles	2	noll
4	Dödsdalen	2	noll

Anmärkning

Kom ihåg att för SCD Typ 1 ser tabellen exakt ut som den senaste ögonblicksbilden. Skillnaden är att underordnade frågor kan använda ändringsflödet för att endast bearbeta ändrade poster.

Steg 3: Lägga till nya ögonblicksbilder

Lägg till en ny CSV-fil till lagringsplatsen med ändrade data (till exempel ändrade stadsvärden, nya rader eller borttagna rader). Kör sedan pipelinen igen för att bearbeta den nya ögonblicksbilden.

Begränsningar

Sekvenseringskolumnen måste vara en sorterbar datatyp. NULL sekvenseringsvärden stöds inte.
AUTO CDC FROM SNAPSHOT stöds endast i Python-pipelinegränssnittet. SQL-gränssnittet stöds inte.
Om du vill strömma data från målet för en AUTO CDC-process läser du från dess ändringsflöde. Mer information finns i Läs ett ändringsflöde från en AUTO CDC måltabell.

Ytterligare resurser

Ändra datainsamling och ögonblicksbilder: Lär dig mer om CDC-begrepp, ögonblicksbilder och SCD-typer.
Replikera en extern RDBMS-tabell med AUTO CDC: Lär dig hur du utför inledande hydrering med ett once flöde och fortsätter sedan att bearbeta ändringar.
Avancerade auto CDC-ämnen: Lär dig mer om ändringsåtgärder för AUTOMATISKA CDC-mål, läsning av ändringsdataflöden och bearbetningsmått.
Självstudie: Skapa en ETL-pipeline med hjälp av insamling av ändringsdata

Feedback

Var den här sidan till hjälp?

Last updated on 2026-05-12