Postupná aktualizace pro materializovaná zobrazení

Tento článek popisuje sémantiku a požadavky na přírůstkové aktualizace v materializovaných zobrazeních a identifikuje operace SQL, klíčová slova a klauzule, které podporují přírůstkovou aktualizaci. Obsahuje diskuzi o rozdílech mezi přírůstkovými a úplnými aktualizacemi a obsahuje doporučení pro výběr mezi materializovanými zobrazeními a streamovanými tabulkami.

Při spouštění aktualizací v materializovaných zobrazeních pomocí bezserverových kanálů je možné přírůstkově aktualizovat mnoho dotazů. Postupné aktualizace šetří náklady na výpočetní prostředky tím, že detekují změny ve zdrojích dat používaných k definování materializovaného zobrazení a přírůstkově vypočítávají výsledek.

Aktualizace běží na bezserverových výpočetních prostředcích.

Operace aktualizace se spouští v bezserverových kanálech bez ohledu na to, jestli byla operace definovaná v Databricks SQL nebo pomocí deklarativních kanálů Sparku Lakeflow.

V případě materializovaných zobrazení definovaných pomocí Databricks SQL nemusí být váš pracovní prostor nakonfigurován pro bezserverové deklarativní kanály Spark Lakeflow. Aktualizace bude automaticky používat bezserverový kanál.

V případě materializovaných zobrazení definovaných pomocí deklarativních kanálů Sparku Lakeflow musíte kanál nakonfigurovat tak, aby používal bezserverový. Viz Konfigurace bezserverového kanálu.

Jaké jsou sémantiky aktualizace pro materializovaná zobrazení?

Materializovaná zobrazení zaručují ekvivalentní výsledky dávkových dotazů. Představte si například následující agregační dotaz:

SELECT account_id,
  COUNT(txn_id) txn_count,
  SUM(txn_amount) account_revenue
FROM transactions_table
GROUP BY account_id

Když tento dotaz spustíte pomocí libovolného Azure Databricks produktu, vypočítá se výsledek pomocí dávkové sémantiky k agregaci všech záznamů ve zdrojovém transactions_table, což znamená, že všechna zdrojová data se kontrolují a agregují v jedné operaci.

Note

Některé produkty Azure Databricks ukládají výsledky do mezipaměti automaticky v rámci relací nebo napříč relacemi, pokud se zdroje dat po spuštění posledního dotazu nezměnily. Strategie automatického ukládání do mezipaměti se liší od materializovaných zobrazení.

Následující příklad změní tento dávkový dotaz na materializované zobrazení:

SQL

CREATE OR REPLACE MATERIALIZED VIEW transaction_summary AS
SELECT account_id,
  COUNT(txn_id) txn_count,
  SUM(txn_amount) account_revenue
FROM transactions_table
GROUP BY account_id

Python

@dp.materialized_view()
def transaction_summary():
  return (spark.read.table("transactions_table")
    .groupBy("account_id")
    .agg(
      count("*").alias("txn_count"),
      sum("txn_amount").alias("account_revenue")
    )
  )

Při aktualizaci materializovaného zobrazení se vypočítaný výsledek shoduje s sémantikou dávkového dotazu. Tento dotaz je příkladem materializovaného zobrazení, které lze přírůstkově aktualizovat, což znamená, že se operace aktualizace snaží zpracovat pouze nová nebo změněná data ve zdrojovém transactions_table k výpočtu výsledků.

Důležité informace o zdroji dat pro materializovaná zobrazení

I když můžete definovat materializované zobrazení pro jakýkoli zdroj dat, ne všechny zdroje dat jsou vhodné pro materializovaná zobrazení. Zvažte následující upozornění a doporučení:

Important

Materializovaná zobrazení se snaží provést pokus o přírůstkovou aktualizaci výsledků podporovaných operací. Některé změny ve zdrojích dat vyžadují úplnou aktualizaci. Můžete definovat zásadu aktualizace, která při chybném provedení nespustí úplnou aktualizaci.

Všechny zdroje dat pro materializovaná zobrazení by měly být robustní pro sémantiku úplné aktualizace, i když dotaz definující materializované zobrazení podporuje přírůstkovou aktualizaci.

V případě dotazů, kdy by úplná aktualizace byla nákladná, použijte streamovací tabulky k zajištění přesně jednou zpracování. Mezi příklady patří velmi velké tabulky.
Nedefinujte materializované zobrazení pro zdroj dat, pokud by záznamy měly být zpracovány pouze jednou. Místo toho používejte streamované tabulky. Mezi příklady patří:
- Zdroje dat, které si nezachovávají historii dat, například Kafka.
- Operace ingestování, jako jsou dotazy, které používají Auto Loader k načítání dat z cloudového úložiště objektů.
- Jakýkoli zdroj dat, ve kterém plánujete odstranit nebo archivovat data po zpracování, ale potřebujete zachovat informace v podřízených tabulkách. Například tabulka s datem rozdělená na oddíly, ve které plánujete odstranit záznamy starší než určitou prahovou hodnotu.
Ne všechny zdroje dat podporují přírůstkové aktualizace. Následující zdroje dat podporují přírůstkovou aktualizaci:
- Tabulky Delta, včetně spravovaných tabulek Katalogu Unity a externích tabulek založených na Delta Lake
- Materializované pohledy.
- Streamovací tabulky, včetně cílů operací AUTO CDC ... INTO
- Spravované tabulky Iceberg katalogu Unity (v2 a v3) Pro nejlepší podporu přírůstkové aktualizace se doporučuje Iceberg v3. Viz Použití funkcí Apache Iceberg v3. Externí tabulky Iceberg nejsou podporovány.
Některé operace přírůstkové aktualizace vyžadují povolení sledování řádků u dotazovaných zdrojů dat. Sledování řádků je funkce Delta Lake podporovaná pouze tabulkami Delta, mezi které patří materializovaná zobrazení, streamované tabulky a spravované tabulky Unity Catalog. Podívejte se na sledování řádků v Databricks.
Zdroje dat s filtry řádků nebo maskami sloupců definované nepodporují přírůstkovou aktualizaci. Zobrazit filtry řádků a masky sloupců

Optimalizace materializovaných zobrazení

Pro zajištění nejlepšího výkonu doporučuje Databricks povolit následující funkce ve všech materializovaných zdrojových tabulkách zobrazení:

Tyto funkce můžete nastavit během vytváření nebo později pomocí ALTER TABLE příkazu (spustit z Databricks SQL). Například:

ALTER TABLE <table-name> SET TBLPROPERTIES (
  delta.enableDeletionVectors = true,
  delta.enableRowTracking = true,
  delta.enableChangeDataFeed = true);

Typy aktualizací pro materializovaná zobrazení

Při aktualizaci materializovaného zobrazení můžete zadat obnovení nebo úplné obnovení.

Obnovení se pokusí provést přírůstkovou aktualizaci, ale pokud bude potřeba, provede úplný přepočet dat. Přírůstková aktualizace je dostupná jenom v případech, kdy jsou výpočetní prostředky, ke kterému jste připojení, bez serveru.
Úplná aktualizace vždy přepočítá všechny vstupy do materializovaného zobrazení a resetuje všechny kontrolní body.

Informace o tom, jak určit typ obnovení, který aktualizace použila, naleznete v tématu Určení typu obnovení aktualizace.

Výchozí aktualizace

Výchozí aktualizace materializovaného zobrazení v bezserverovém prostředí se pokouší provést přírůstkovou aktualizaci. Přírůstková aktualizace zpracovává změny v podkladových datech po poslední aktualizaci a pak tato data připojí k tabulce. V závislosti na základních tabulkách a zahrnutých operacích lze přírůstkově aktualizovat pouze určité typy materializovaných zobrazení. Pokud není možná přírůstková aktualizace nebo je připojené výpočetní prostředí klasické místo "serverless" (tedy bez serverové infrastruktury), provede se úplné přepočítání.

Note

Azure Databricks použije úplnou nebo přírůstkovou aktualizaci. Rozhodnutí vychází z toho, která možnost je nákladově efektivnější a jestli dotaz podporuje přírůstkovou aktualizaci. Pokud chcete toto chování změnit, přečtěte si téma Aktualizovat zásady.

Výstup přírůstkové aktualizace a úplné rekomputace jsou stejné. Azure Databricks spustí analýzu nákladů, která zvolí levnější možnost mezi přírůstkovou aktualizací a úplným rekomputem.

Přírůstkovou aktualizaci můžou používat pouze materializovaná zobrazení aktualizovaná pomocí bezserverových kanálů. Materializovaná zobrazení, která nepoužívají bezserverové datové toky, jsou vždy plně znovu vypočítány.

Když vytváříte materializovaná zobrazení s SQL skladem nebo bezserverovými deklarativními kanály Lakeflow Spark, Azure Databricks je přírůstkově aktualizuje, pokud jsou jejich dotazy podporovány. Pokud dotaz používá nepodporované výrazy, Azure Databricks místo toho spustí úplné překomputování, což může zvýšit náklady.

Informace o tom, jak určit typ obnovení, který aktualizace použila, naleznete v tématu Určení typu obnovení aktualizace.

Úplná aktualizace

Úplná aktualizace přepíše výsledky v materializovaném zobrazení vymazáním tabulky a kontrolních bodů a opětovným zpracováním všech dat dostupných ve zdroji.

Pokud chcete provést úplnou aktualizaci materializovaných zobrazení definovaných pomocí Databricks SQL, použijte následující syntaxi:

REFRESH MATERIALIZED VIEW mv_name FULL

Pro materializovaná zobrazení definovaná v deklarativních kanálech Sparku pro Lakeflow můžete spustit úplnou aktualizaci u vybraných datových sad nebo u všech datových sad v kanálu. Vizte sémantika aktualizace potrubí .

Important

Když se úplná aktualizace spustí ve zdroji dat, kde byly záznamy odebrány z důvodu prahové hodnoty uchovávání dat nebo ručního odstranění, odebrané záznamy se ve vypočítaných výsledcích neprojeví. Pokud už data nejsou ve zdroji dostupná, možná nebudete moct obnovit stará data. To může také změnit schéma sloupců, které už ve zdrojových datech neexistují.

podpora pro přírůstkovou aktualizaci materializovaného zobrazení

Následující tabulka uvádí podporu přírůstkové aktualizace podle klíčového slova nebo klauzule SQL. K otestování konkrétního dotazu na přírůstkovou dostupnost můžete použít EXPLAIN CREATE MATERIALIZED VIEW.

Important

Některá klíčová slova a klauzule vyžadují povolení sledování řádků u dotazovaných zdrojů dat. Podívejte se na sledování řádků v Databricks.

Tato klíčová slova a klauzule jsou v následující tabulce označené hvězdičkou (*).

Klíčové slovo nebo klauzule SQL	Ekvivalent datového rámce PySpark	Podpora přírůstkové aktualizace
`SELECT` výrazy*	`df.select()` nebo `df.selectExpr()`	Ano, podporují se výrazy včetně deterministických předdefinovaných funkcí a neměnných uživatelem definovaných funkcí (UDF).
`GROUP BY`	`df.groupBy().agg()`	Yes
`WITH`	Zřetězování proměnných datového rámce	Ano, podporují se běžné výrazy tabulek.
`WITH RECURSIVE`	N/A	Ne. Materializovaná zobrazení, která používají rekurzivní CTE, nejsou způsobilá pro přírůstkové obnovení a vrátí se k úplnému přepočítání.
`UNION ALL`*	`df.union` nebo `df.unionAll`	Yes
`FROM`	`df = spark.read...`	Mezi podporované základní tabulky patří tabulky Delta, tabulky spravované službou Unity Catalog Iceberg, materializovaná zobrazení a streamované tabulky.
`WHERE`, `HAVING`*	`df.filter()`, `df.where()df.groupBy().filter()`	Klauzule filtru, jako `WHERE` a `HAVING`, jsou podporovány.
`INNER JOIN`*	`df.join()`	Yes
`LEFT OUTER JOIN`*	`df.join(... how="left")`	Yes
`FULL OUTER JOIN`*	`df.join(... how="full")`	Yes
`RIGHT OUTER JOIN`*	`df.join(... how="right")`	Yes
`OVER`	`df.over(window.partitionBy)` funkce	Yes. `PARTITION_BY` sloupce musí být zadány pro inkrementaci okenních funkcí.
`QUALIFY`	`df.over(w).filter(...)`	Yes
`EXPECTATIONS`	`@dp.expect`	Ano, materializované pohledy, které obsahují očekávání, lze přírůstkově aktualizovat. Přírůstková aktualizace se ale nepodporuje pro následující případy: Když materializované zobrazení načte ze zobrazení, které obsahuje očekávání. Pokud materializované zobrazení má `DROP` očekávání a obsahuje `NOT NULL` sloupce ve schématu.
UDFs	UDFs	Azure Databricks se pokusí zjistit, kdy se změní chování uživatelsky definované funkce, a poté provést úplnou aktualizaci. Funkce definované uživatelem, které volají jiné funkce nebo knihovny, můžou měnit chování způsobem, který Azure Databricks nerozpozná. Když se chování UDF (funkce definovaná uživatelem) změní, je vaší odpovědností provést úplnou aktualizaci, aby aktualizovaná UDF byla použita na úplné materializované zobrazení.
Ne deterministické funkce	Ne deterministické funkce	Ne deterministické časové funkce jsou podporovány v `WHERE` klauzulích. To zahrnuje funkce, jako jsou `current_date()`, `current_timestamp()` a `now()`. Jiné ne deterministické funkce nejsou podporovány.x
Nepodporované zdroje	Nepodporované zdroje	Zdroje, jako jsou svazky, externí umístění a cizí katalogy, nejsou podporovány. Externí tabulky Iceberg nejsou podporovány. Podporují se tabulky Iceberg spravované službou Unity Catalog.

Určení typu aktualizace

Pokud chcete optimalizovat výkon materializovaných aktualizací zobrazení, Azure Databricks používá k výběru techniky použité pro aktualizaci nákladový model. Následující tabulka popisuje tyto techniky:

Technique	Přírůstková aktualizace?	Description
`FULL_RECOMPUTE`	No	Materializované zobrazení bylo plně přepočítané.
`NO_OP`	Není relevantní	Materializované zobrazení nebylo aktualizováno, protože nebyly zjištěny žádné změny základní tabulky.
Libovolná z těchto možností: `ROW_BASED` `PARTITION_OVERWRITE` `WINDOW_FUNCTION` `APPEND_ONLY` `GROUP_AGGREGATE` `GENERIC_AGGREGATE`	Yes	Materializované zobrazení bylo přírůstkově aktualizováno pomocí zadané techniky.

Přečtěte si také o zásadách aktualizace.

Pokud chcete zjistit použitou techniku, udejte dotaz v logu událostí Deklarativní kanály Lakeflow Spark, kde event_type je planning_information:

SELECT
  timestamp,
  message
FROM
  event_log(TABLE(<fully-qualified-table-name>))
WHERE
  event_type = 'planning_information'
ORDER BY
  timestamp desc;

Nahraďte <fully-qualified-table-name> plně kvalifikovaným názvem materializovaného zobrazení, včetně katalogu a schématu.

Ukázkový výstup pro tento příkaz:

časové razítko	zpráva
`2025-03-21T22:23:16.497+00:00`	`Flow 'sales' has been planned in :re[LDP] to be executed as ROW_BASED.`

Viz protokol událostí kanálu.

Zásady aktualizace

Ve výchozím nastavení Azure Databricks automaticky vybírá nákladově nejefektivnější strategii aktualizace (přírůstkové nebo úplné) na základě struktury dotazů, objemu změn dat a modelování systémových nákladů. Toto výchozí chování optimalizuje výkon aktualizace bez nutnosti ruční konfigurace.

Některé úlohy ale vyžadují předvídatelnější nebo explicitně řízené chování aktualizace. Pro podporu těchto scénářů můžete zadat REFRESH POLICY v definici materializovaného zobrazení. Zásady aktualizace určují, zda Azure Databricks provádí přírůstkovou aktualizaci, kdy se může vrátit k úplné aktualizaci, a zda by aktualizace měla selhat místo provedení úplného přepočtu.

Pomocí REFRESH POLICYnástroje , můžete systém nakonfigurovat na:

AUTO (výchozí) – Použijte automatický výběr založený na nákladech. Databricks vybírá přírůstkovou nebo úplnou aktualizaci na základě efektivity a možností dotazů. Doporučuje se pro většinu uživatelů.
INCREMENTAL - Upřednostněte přírůstkovou aktualizaci. Databricks provádí přírůstkovou aktualizaci, kdykoli je to možné. Pokud plán dotazu už nepodporuje přírůstkovou aktualizaci, vrátí se zpět na úplnou aktualizaci.
INCREMENTAL STRICT – Vyžaduje výhradně přírůstkovou aktualizaci. Přírůstková aktualizace se vyžaduje během normálního provozu. Pokud není inkrementace možná, operace aktualizace nebo vytvoření selže.
FULL – Vždy provádět úplné aktualizace. Databricks nikdy neprovádí přírůstkovou aktualizaci, i když je dotaz přírůstkový.

SQL

-- Create a materialized view with an incremental refresh policy
CREATE MATERIALIZED VIEW IF NOT EXISTS my_mv
REFRESH POLICY INCREMENTAL
AS SELECT a, sum(b) FROM my_catalog.example.my_table GROUP BY a;

Python

from pyspark import pipelines as dp

@dp.materialized_view(
  refresh_policy = 'incremental_strict'
)
def my_mv():
  return spark.read("main.default.source_table")

Optimální zásady aktualizace závisí na vlastnostech vašich úloh:

AUTO je vhodná pro většinu úloh. Vyrovnává náklady a výkon a automaticky se přizpůsobí, když se změní chování dotazů.
INCREMENTAL je užitečný, když přírůstková aktualizace poskytuje výhody, ale je přijatelné, aby Azure Databricks prováděl úplné aktualizace, pokud přírůstkové aktualizace dočasně nejsou dostupné (například když je sledování řádků ve zdrojové tabulce vypnuté).
INCREMENTAL STRICT by měla být použita, pokud je nutná přírůstková aktualizace, aby splňovala omezení nákladů, výkonu nebo smlouvy SLA a neočekávané úplné aktualizace jsou nepřijatelné. Tato zásada se doporučuje, když uživatelé dávají přednost tomu, aby aktualizace selhala, aby mohli problém ladit, a ne pokračovat v úplné aktualizaci.
FULL je vhodný v případě, že přírůstková aktualizace poskytuje malou výhodu, datová sada je malá nebo se struktura dotazů často mění způsoby, které brání inkrementalizaci.

Další podrobnosti a syntaxi najdete v tématu REFRESH klauzule POLICY (pipelines) nebo pokud je datová sada definovaná v Databricks SQL, REFRESH klauzule POLICY.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-05-28

Postupná aktualizace pro materializovaná zobrazení

Aktualizace běží na bezserverových výpočetních prostředcích.

Jaké jsou sémantiky aktualizace pro materializovaná zobrazení?

SQL

Python

Důležité informace o zdroji dat pro materializovaná zobrazení

Optimalizace materializovaných zobrazení

Typy aktualizací pro materializovaná zobrazení

Výchozí aktualizace

Úplná aktualizace

podpora pro přírůstkovou aktualizaci materializovaného zobrazení

Určení typu aktualizace

Zásady aktualizace

SQL

Python

Váš názor

Další materiály