Odświeżanie przyrostowe dla widoków zmaterializowanych

W tym artykule opisano semantyka i wymagania dotyczące odświeżania przyrostowego w zmaterializowanych widokach oraz identyfikuje operacje SQL, słowa kluczowe i klauzule, które obsługują odświeżanie przyrostowe. Obejmuje on omówienie różnic między odświeżaniem przyrostowym i pełnym odświeżaniem, a także zalecenia dotyczące wybierania między zmaterializowanymi widokami i tabelami strumieniowymi.

Podczas uruchamiania aktualizacji na zmaterializowanych widokach przy użyciu potoków bezserwerowych wiele zapytań można odświeżać w sposób przyrostowy. Odświeżanie przyrostowe oszczędza koszty obliczeń, wykrywając zmiany w źródłach danych używanych do definiowania zmaterializowanego widoku i przyrostowego obliczania wyniku.

Operacje odświeżania są uruchamiane w obliczeniach bezserwerowych

Operacje odświeżania są uruchamiane w potokach bezserwerowych, niezależnie od tego, czy operacja została zdefiniowana w usłudze Databricks SQL czy w deklaratywnych potokach Lakeflow Spark.

W przypadku zmaterializowanych widoków zdefiniowanych przy użyciu usługi Databricks SQL obszar roboczy nie musi być włączony dla bezserwerowych potoków deklaratywnych platformy Spark w usłudze Lakeflow. Odświeżanie automatycznie użyje potoku bezserwerowego.

W przypadku zmaterializowanych widoków zdefiniowanych przy użyciu deklaratywnych potoków Lakeflow Spark, należy skonfigurować potok do pracy w trybie bezserwerowym. Zobacz Jak skonfigurować potok bezserwerowy.

Jakie są semantyki odświeżania dla zmaterializowanych widoków?

Zmaterializowane widoki gwarantują równoważne wyniki zapytaniom wsadowym. Rozważmy na przykład następujące zagregowane zapytanie:

SELECT account_id,
  COUNT(txn_id) txn_count,
  SUM(txn_amount) account_revenue
FROM transactions_table
GROUP BY account_id

Po uruchomieniu tego zapytania przy użyciu dowolnego produktu Azure Databricks wynik jest obliczany przy użyciu semantyki wsadowej w celu agregowania wszystkich rekordów w źródle transactions_table, co oznacza, że wszystkie dane źródłowe są skanowane i agregowane w jednej operacji.

Note

Niektóre produkty Azure Databricks automatycznie buforują wyniki w sesji lub między sesjami, jeśli źródła danych nie zmieniły się po wykonaniu ostatniego zapytania. Automatyczny sposób buforowania różni się od zmaterializowanych widoków.

Poniższy przykład przekształca to zapytanie wsadowe w zmaterializowany widok:

SQL

CREATE OR REPLACE MATERIALIZED VIEW transaction_summary AS
SELECT account_id,
  COUNT(txn_id) txn_count,
  SUM(txn_amount) account_revenue
FROM transactions_table
GROUP BY account_id

Python

@dp.materialized_view()
def transaction_summary():
  return (spark.read.table("transactions_table")
    .groupBy("account_id")
    .agg(
      count("*").alias("txn_count"),
      sum("txn_amount").alias("account_revenue")
    )
  )

Podczas odświeżania zmaterializowanego widoku obliczony wynik jest identyczny do semantyki zapytań wsadowych. To zapytanie jest przykładem materializowanego widoku, który może być odświeżany przyrostowo. Oznacza to, że operacja odświeżania stara się przetwarzać jedynie nowe lub zmienione dane w źródle transactions_table, aby obliczyć wyniki.

Zagadnienia dotyczące źródła danych dla zmaterializowanych widoków

Chociaż można zdefiniować zmaterializowany widok dla dowolnego źródła danych, nie wszystkie źródła danych są dobrze dostosowane do zmaterializowanych widoków. Rozważ następujące zastrzeżenia i zalecenia:

Important

Zmaterializowane widoki dokładają najlepszych możliwych starań, aby przeprowadzać przyrostowe odświeżanie wyników obsługiwanych operacji. Niektóre zmiany w źródłach danych wymagają pełnego odświeżenia. Można zdefiniować zasady odświeżania , które kończą się niepowodzeniem, zamiast uruchamiać pełne odświeżanie.

Wszystkie źródła danych dla zmaterializowanych widoków powinny być niezawodne dla semantyki pełnego odświeżania, nawet jeśli zapytanie definiujące zmaterializowany widok obsługuje odświeżanie przyrostowe.

W przypadku zapytań, w których pełne odświeżanie byłoby zbyt kosztowne, użyj tabel strumieniowych, aby zagwarantować jednokrotne przetwarzanie. Przykłady obejmują bardzo duże tabele.
Nie należy definiować zmaterializowanego widoku względem źródła danych, jeśli rekordy powinny być przetwarzane tylko raz. Zamiast tego należy użyć tabel przesyłania strumieniowego. Przykłady obejmują następujące elementy:
- Źródła danych, które nie zachowują historii danych, takie jak Kafka.
- Operacje pobierania, takie jak zapytania używające Auto Loader do wczytywania danych z pamięci masowej w chmurze.
- Każde źródło danych, w którym planujesz usunąć lub zarchiwizować dane po przetworzeniu, ale musi zachować informacje w tabelach podrzędnych. Na przykład tabela podzielona na partycje dat, w której planujesz usunąć rekordy starsze niż określony próg.
Nie wszystkie źródła danych obsługują odświeżanie przyrostowe. Następujące źródła danych obsługują odświeżanie przyrostowe:
- Tabele Delta, w tym tabele zarządzane przez Unity Catalog oraz tabele zewnętrzne wspierane przez Delta Lake.
- Zmaterializowane widoki.
- Tabele przesyłania strumieniowego, w tym obiekty docelowe operacji AUTO CDC ... INTO.
- Tabele Iceberg zarządzane przez Unity Catalog (w wersji 2 i 3). Dla najlepszej obsługi odświeżania przyrostowego zaleca się Iceberg v3. Zobacz Korzystanie z funkcji Apache Iceberg v3. Tabele Iceberg nie są obsługiwane.
Niektóre operacje odświeżania przyrostowego wymagają włączenia śledzenia wierszy dla zapytanych źródeł danych. Śledzenie wierszy to funkcja Delta Lake obsługiwana wyłącznie przez tabele Delta, które obejmują zmaterializowane widoki, tabele strumieniowe oraz tabele zarządzane przez Unity Catalog. Zobacz Śledzenie rzędów w Databricks.
Źródła danych z zdefiniowanymi filtrami wierszy lub maskami kolumn nie obsługują odświeżania przyrostowego. Zobacz Filtry wierszy i maski kolumn

Optymalizowanie zmaterializowanych widoków

Aby uzyskać najlepszą wydajność, usługa Databricks zaleca włączenie następujących funkcji we wszystkich zmaterializowanych tabelach źródłowych widoku:

Te funkcje można ustawić podczas tworzenia lub później za pomocą instrukcji ALTER TABLE (uruchom polecenie z usługi Databricks SQL). Przykład:

ALTER TABLE <table-name> SET TBLPROPERTIES (
  delta.enableDeletionVectors = true,
  delta.enableRowTracking = true,
  delta.enableChangeDataFeed = true);

Typy odświeżania zmaterializowanych widoków

Po zaktualizowaniu zmaterializowanego widoku można określić odświeżanie lub pełne odświeżenie.

Proces odświeżania próbuje wykonać odświeżanie przyrostowe, ale w razie potrzeby wykona pełne przeliczenie danych. Odświeżanie przyrostowe jest dostępne tylko wtedy, gdy obliczenia, z którymi jesteś połączony, są bezserwerowe.
Pełne odświeżanie zawsze ponownie oblicza wszystkie dane wejściowe do zmaterializowanego widoku i resetuje wszystkie punkty kontrolne.

Aby określić, jaki typ odświeżania został użyty w aktualizacji, zobacz Określanie typu odświeżania aktualizacji.

Odświeżanie domyślne

Domyślne odświeżanie zmaterializowanego widoku w przypadku bezserwerowych prób wykonania odświeżania przyrostowego. Odświeżanie przyrostowe przetwarza zmiany w danych bazowych po ostatnim odświeżeniu, a następnie dołącza te dane do tabeli. W zależności od tabel podstawowych i uwzględnionych operacji tylko niektóre typy zmaterializowanych widoków mogą być odświeżane przyrostowo. Jeśli odświeżanie przyrostowe nie jest możliwe lub połączone zasoby obliczeniowe są klasyczne zamiast bezserwerowe, wykonywana jest pełna ponowna kompilacja.

Note

Azure Databricks stosuje pełne lub przyrostowe odświeżanie. Decyzja jest oparta na tym, która opcja jest bardziej opłacalna i czy zapytanie obsługuje odświeżanie przyrostowe. Aby zmienić to zachowanie, zobacz Odświeżanie zasad.

Wyniki odświeżania przyrostowego i pełnego przeliczenia są takie same. Azure Databricks uruchamia analizę kosztów, aby wybrać tańszą opcję między odświeżaniem przyrostowym a pełną ponowną kompilacją.

Tylko zmaterializowane widoki, które można aktualizować przy użyciu potoków bezserwerowych, mogą korzystać z odświeżania przyrostowego. Zmaterializowane widoki, które nie używają potoków bezserwerowych, są zawsze w pełni ponownie skompilowane.

Podczas tworzenia zmaterializowanych widoków przy użyciu magazynu SQL lub bezserwerowych deklaratywnych potoków Spark w Lakeflow, Azure Databricks odświeża je przyrostowo, jeśli obsługują to ich zapytania. Jeśli zapytanie używa nieobsługiwanych wyrażeń, Azure Databricks uruchamia pełną ponowną kompilację, co może zwiększyć koszty.

Aby określić, jaki typ odświeżania został użyty w aktualizacji, zobacz Określanie typu odświeżania aktualizacji.

Pełne odświeżanie

Pełne odświeżanie zastępuje wyniki w zmaterializowanym widoku przez wyczyszczenie tabeli i punktów kontrolnych oraz ponowne przetwarzanie wszystkich danych dostępnych w źródle.

Aby wykonać pełne odświeżanie w zmaterializowanych widokach zdefiniowanych przy użyciu usługi Databricks SQL, użyj następującej składni:

REFRESH MATERIALIZED VIEW mv_name FULL

W przypadku zmaterializowanych widoków zdefiniowanych w potokach deklaratywnych platformy Spark w usłudze Lakeflow można uruchomić pełne odświeżanie wybranych zestawów danych lub wszystkich zestawów danych w potoku. Zobacz semantykę odświeżania potoku .

Important

Gdy pełne odświeżanie jest uruchamiane względem źródła danych, w którym rekordy zostały usunięte z powodu progu przechowywania danych lub ręcznego usuwania, usunięte rekordy nie są odzwierciedlane w obliczonych wynikach. Nie można odzyskać starych danych, jeśli dane nie są już dostępne w źródle. Może to również spowodować zmianę schematu kolumn, które już nie istnieją w danych źródłowych.

Obsługa przyrostowego odświeżania zmaterializowanego widoku

W poniższej tabeli wymieniono obsługę odświeżania przyrostowego według słowa kluczowego LUB klauzuli SQL. Aby przetestować określone zapytanie pod kątem przyrostowej możliwości, możesz użyć polecenia EXPLAIN CREATE MATERIALIZED VIEW.

Important

Niektóre słowa kluczowe i klauzule wymagają włączenia śledzenia wierszy dla zapytanych źródeł danych. Zobacz Śledzenie rzędów w Databricks.

Te słowa kluczowe i klauzule są oznaczone gwiazdką (*) w poniższej tabeli.

Słowo kluczowe lub klauzula SQL	Odpowiednik ramki danych PySpark	Obsługa odświeżania przyrostowego
`SELECT` Wyrażenia*	`df.select()` lub `df.selectExpr()`	Tak, obsługiwane są wyrażenia obejmujące wbudowane funkcje deterministyczne i niezmienne funkcje zdefiniowane przez użytkownika (UDF).
`GROUP BY`	`df.groupBy().agg()`	Yes
`WITH`	Łączenie zmiennych ramek danych.	Tak, obsługiwane są typowe wyrażenia tabeli.
`WITH RECURSIVE`	N/A	Nie. Zmaterializowane widoki korzystające z rekursywnych CTE nie kwalifikują się do odświeżania przyrostowego i wracają do pełnego przeliczenia.
`UNION ALL`*	`df.union` lub `df.unionAll`	Yes
`FROM`	`df = spark.read...`	Obsługiwane tabele podstawowe obejmują tabele Delta, zarządzane przez Unity Catalog tabele Iceberg, zmaterializowane widoki i tabele streamingowe.
`WHERE`, `HAVING`*	`df.filter()`, `df.where()df.groupBy().filter()`	Klauzule filtru, takie jak `WHERE` i `HAVING` , są obsługiwane.
`INNER JOIN`*	`df.join()`	Yes
`LEFT OUTER JOIN`*	`df.join(... how="left")`	Yes
`FULL OUTER JOIN`*	`df.join(... how="full")`	Yes
`RIGHT OUTER JOIN`*	`df.join(... how="right")`	Yes
`OVER`	funkcje `df.over(window.partitionBy)`	Yes. `PARTITION_BY` kolumny muszą być określone dla przyrostowego przetwarzania w funkcjach okiennych.
`QUALIFY`	`df.over(w).filter(...)`	Yes
`EXPECTATIONS`	`@dp.expect`	Tak, zmaterializowane widoki, które zawierają oczekiwania, mogą być odświeżane przyrostowo. Jednak odświeżanie przyrostowe nie jest obsługiwane w następujących przypadkach: Gdy zmaterializowany widok odczytuje z widoku zawierającego oczekiwania. Gdy zmaterializowany widok ma `DROP` oczekiwanie i zawiera `NOT NULL` kolumny w jego schemacie.
UDFs	UDFs	Azure Databricks próbuje wykryć, kiedy funkcja UDF zmienia zachowanie i wykonuje pełne odświeżanie. Jednak funkcje zdefiniowane przez użytkownika wywołujące inne funkcje lub biblioteki mogą zmieniać zachowanie w sposób, których Azure Databricks nie jest w stanie rozpoznać. Gdy zachowanie funkcji zdefiniowanej przez użytkownika ulegnie zmianie, twoim obowiązkiem jest wykonanie pełnego odświeżenia w celu zastosowania zaktualizowanej funkcji zdefiniowanej przez użytkownika do pełnego zmaterializowanego widoku.
Funkcje niedeterministyczne	Funkcje niedeterministyczne	Funkcje czasu niedeterministycznego są obsługiwane w `WHERE` klauzulach. Obejmuje to funkcje, takie jak `current_date()`, `current_timestamp()`i `now()`. Inne funkcje niedeterministyczne nie są obsługiwane.x
Nieobsługiwane źródła	Nieobsługiwane źródła	Źródła, takie jak woluminy, lokalizacje zewnętrzne i katalogi obce, nie są obsługiwane. Tabele Iceberg nie są obsługiwane. Obsługiwane są tabele Iceberg zarządzane przez Unity Catalog.

Określanie typu odświeżania aktualizacji

Aby zoptymalizować wydajność zmaterializowanych odświeżeń widoku, Azure Databricks używa modelu kosztów do wybrania techniki używanej do odświeżania. W poniższej tabeli opisano następujące techniki:

Technique	Odświeżanie przyrostowe?	Description
`FULL_RECOMPUTE`	No	Zmaterializowany widok został w pełni ponownie obliczony
`NO_OP`	Nie dotyczy	Zmaterializowany widok nie został zaktualizowany, ponieważ nie wykryto żadnych zmian w tabeli podstawowej.
Dowolny z: `ROW_BASED` `PARTITION_OVERWRITE` `WINDOW_FUNCTION` `APPEND_ONLY` `GROUP_AGGREGATE` `GENERIC_AGGREGATE`	Yes	Zmaterializowany widok został odświeżony przyrostowo przy użyciu określonej techniki.

Zobacz też Odświeżanie zasad.

Aby określić użytą technikę, wykonaj zapytanie dotyczące dziennika zdarzeń platformy Lakeflow Spark Declarative Pipelines, w którym event_type jest planning_information:

SELECT
  timestamp,
  message
FROM
  event_log(TABLE(<fully-qualified-table-name>))
WHERE
  event_type = 'planning_information'
ORDER BY
  timestamp desc;

Zastąp <fully-qualified-table-name> kompletną i specyficzną nazwą zmaterializowanego widoku, w tym katalogiem i schematem.

Przykładowe dane wyjściowe dla tego polecenia:

sygnatura czasowa	komunikat
`2025-03-21T22:23:16.497+00:00`	`Flow 'sales' has been planned in :re[LDP] to be executed as ROW_BASED.`

Zobacz Dziennik zdarzeń rurociągu.

Odśwież zasady

Important

Ta funkcja jest dostępna w wersji beta. Dostępne w środowisku Databricks Runtime 17.3 lub nowszym.

Domyślnie Azure Databricks automatycznie wybiera najbardziej opłacalną strategię odświeżania — przyrostową lub pełną — na podstawie struktury zapytań, ilości zmian danych i modelowania kosztów systemu. To domyślne zachowanie optymalizuje wydajność odświeżania bez konieczności ręcznej konfiguracji.

Niektóre obciążenia wymagają jednak bardziej przewidywalnego lub jawnego kontrolowanego zachowania odświeżania. Aby obsługiwać te scenariusze, można określić element REFRESH POLICY w zmaterializowanej definicji widoku. Zasady odświeżania określają, czy Azure Databricks wykonuje odświeżanie przyrostowe, gdy może powrócić do pełnego odświeżania i czy odświeżanie powinno zakończyć się niepowodzeniem, zamiast wykonywać pełne ponowne skompilowanie.

Za pomocą programu REFRESH POLICYmożna skonfigurować system w taki sposób, aby:

AUTO (ustawienie domyślne) — użyj automatycznego wyboru opartego na kosztach. Usługa Databricks wybiera odświeżanie przyrostowe lub pełne na podstawie wydajności i możliwości zapytań. Zalecane dla większości użytkowników.
INCREMENTAL — Preferuj odświeżanie przyrostowe. Usługa Databricks wykonuje odświeżanie przyrostowe zawsze, gdy jest to możliwe. Powraca do pełnego odświeżenia, jeśli plan zapytania nie obsługuje już odświeżania przyrostowego.
INCREMENTAL STRICT — Bezwzględnie wymagaj odświeżania przyrostowego. Odświeżanie przyrostowe jest wymagane podczas normalnego działania. Jeśli inkrementacja nie jest możliwa, operacja odświeżania lub tworzenia zakończy się niepowodzeniem.
FULL — Zawsze wykonuj pełne operacje odświeżania. Usługa Databricks nigdy nie wykonuje odświeżania przyrostowego, nawet jeśli zapytanie można przetworzyć przyrostowo.

SQL

-- Create a materialized view with an incremental refresh policy
CREATE MATERIALIZED VIEW IF NOT EXISTS my_mv
REFRESH POLICY INCREMENTAL
AS SELECT a, sum(b) FROM my_catalog.example.my_table GROUP BY a;

Python

from pyspark import pipelines as dp

@dp.materialized_view(
  refresh_policy = 'incremental_strict'
)
def my_mv():
  return spark.read("main.default.source_table")

Optymalne zasady odświeżania zależą od właściwości obciążenia:

AUTO jest odpowiedni dla większości obciążeń. Równoważy koszt i wydajność i dostosowuje się automatycznie, gdy zmienia się zachowanie zapytań.
INCREMENTAL jest przydatne, gdy odświeżanie przyrostowe zapewnia korzyści, ale Azure Databricks może wykonać pełne odświeżanie, gdy odświeżanie przyrostowe staje się tymczasowo niedostępne (np. gdy śledzenie wierszy w tabeli źródłowej jest wyłączone).
INCREMENTAL STRICT należy używać, gdy odświeżanie przyrostowe jest wymagane do spełnienia kosztów, wydajności lub ograniczeń umowy SLA, a nieoczekiwane pełne odświeżanie jest niedopuszczalne. Te zasady są zalecane, gdy użytkownicy preferują niepowodzenie aktualizacji, umożliwiając im debugowanie problemu, a nie kontynuowanie pełnego odświeżania.
FULL jest odpowiedni, gdy odświeżanie przyrostowe zapewnia niewielką korzyść, zestaw danych jest mały lub struktura zapytań często zmienia się w sposób uniemożliwiający zastosowanie przyrostowości.

Aby uzyskać więcej szczegółów oraz zapoznać się ze składnią, zobacz REFRESH KLAUZULA POLICY (potoki) lub, jeśli zestaw danych jest zdefiniowany w Databricks SQL, REFRESH KLAUZULA POLICY.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-21

Odświeżanie przyrostowe dla widoków zmaterializowanych

Operacje odświeżania są uruchamiane w obliczeniach bezserwerowych

Jakie są semantyki odświeżania dla zmaterializowanych widoków?

SQL

Python

Zagadnienia dotyczące źródła danych dla zmaterializowanych widoków

Optymalizowanie zmaterializowanych widoków

Typy odświeżania zmaterializowanych widoków

Odświeżanie domyślne

Pełne odświeżanie

Obsługa przyrostowego odświeżania zmaterializowanego widoku

Określanie typu odświeżania aktualizacji

Odśwież zasady

SQL

Python

Opinia

Dodatkowe zasoby