Co to jest przesyłanie strumieniowe z zachowaniem stanu?

Na tej stronie opisano stanowe zapytania Strukturalnego Przesyłania Strumieniowego, w tym operacje stanowe, zalecenia dotyczące optymalizacji, łańcuchowanie wielu operatorów stanowych i ponowne równoważenie stanu.

Stanowe zapytanie strukturalnego przesyłania strumieniowego wymaga przyrostowych aktualizacji stanu, natomiast bezstanowe zapytanie strukturalnego przesyłania strumieniowego śledzi tylko informacje o tym, które wiersze zostały przetworzone ze źródła do odbiornika. Aby uzyskać informacje o funkcjach optymalizacji dostępnych dla zapytań bezstanowych, zobacz Optymalizowanie zapytań przesyłania strumieniowego bez stanu.

Operacje stanowe

Operacje stanowe obejmują agregację przesyłania strumieniowego, distinct, dropDuplicates, sprzężenia strumieni i niestandardowe aplikacje stanowe.

Informacje o stanie pośrednim wymagane do obsługi stanowych zapytań w Structured Streaming mogą prowadzić do nieoczekiwanych opóźnień i problemów w produkcji, jeśli są źle skonfigurowane.

W środowisku Databricks Runtime 13.3 LTS lub nowszym można włączyć tworzenie punktów kontrolnych dziennika zmian za pomocą bazy danych RocksDB, aby zmniejszyć czas trwania punktu kontrolnego i kompleksowe opóźnienie obciążeń przesyłania strumieniowego ze strukturą. Usługa Databricks zaleca włączenie punktów kontrolnych dziennika zmian dla wszystkich zapytań stanowych przesyłania strumieniowego ze strukturą. Zobacz Zapisywanie punktów kontrolnych dziennika zmian.

Optymalizowanie stanowych zapytań przesyłania strumieniowego ze strukturą

Usługa Databricks zaleca następujące elementy w przypadku stanowych zapytań przesyłania strumieniowego ze strukturą:

Użyj wystąpień zoptymalizowanych pod kątem obliczeń jako procesów roboczych.
Ustaw liczbę partycji mieszania na 1–2 razy liczbę rdzeni w klastrze.

Ważne

Liczba partycji mieszania jest stała w momencie utworzenia punktu kontrolnego. Zmiana spark.sql.shuffle.partitions nie ma wpływu na zapytanie przesyłane strumieniowo, które ma już punkt kontrolny — zapytanie kontynuuje korzystanie z oryginalnej liczby partycji. Aby zastosować nową liczbę partycji, należy uruchomić zapytanie z nową lokalizacją punktu kontrolnego.

W Databricks Runtime 18.0 lub nowszym bezstanowe zapytania przesyłania strumieniowego obsługują dynamiczne zmiany partycji shuffle bez konieczności używania nowego punktu kontrolnego.

W środowisku Databricks Runtime 18 lub nowszym można zmienić liczbę partycji dla zapytań stanowych bez utraty stanu punktu kontrolnego. Zobacz Repartycjonowanie stanu na żądanie dla stanowych zapytań strumieniowych.

Ustaw konfigurację spark.sql.streaming.noDataMicroBatches.enabled na false w usłudze SparkSession. Zapobiega to przetwarzaniu mikropartii przez silnik mikropartii strumieniowych, które nie zawierają danych. Ustawienie tej konfiguracji na false może również spowodować, że operacje stanowe, które korzystają ze znaków wodnych lub limitów czasu przetwarzania, nie będą generować danych wyjściowych, dopóki nie pojawią się nowe dane, zamiast robić to natychmiast.

Databricks zaleca używanie RocksDB z dziennikiem zmian jako punktami kontrolnymi do zarządzania stanem strumieni stanowych. Zobacz Konfigurowanie magazynu stanów bazy danych RocksDB w usłudze Azure Databricks.

Uwaga

Nie można zmienić schematu zarządzania stanem między ponownymi uruchomieniami zapytań. Jeśli zapytanie zostało uruchomione z domyślnym zarządzaniem, należy uruchomić je od podstaw przy użyciu nowej lokalizacji punktu kontrolnego, aby zmienić magazyn stanów.

Praca z wieloma operatorami stanowymi w strumieniowaniu strukturalnym

W wersji Databricks Runtime 13.3 LTS lub nowszej, usługa Azure Databricks oferuje zaawansowaną obsługę operatorów stanowych w obciążeniach strukturalnego przesyłania strumieniowego. Można połączyć ze sobą wielu operatorów stanowych, co oznacza, że dane wyjściowe operacji, takich jak agregacja okienna, mogą być przekazane do innej operacji stanowej, takiej jak łączenie.

W środowisku Databricks Runtime 16.2 lub nowszym można używać transformWithState w obciążeniach z wieloma operatorami stanowymi. Zobacz Zbuduj niestandardową aplikację stanową.

W poniższych przykładach pokazano kilka wzorców, których można użyć.

Ważne

Podczas pracy z wieloma operatorami stanowymi istnieją następujące ograniczenia:

Starsze niestandardowe operatory stanowe (FlatMapGroupWithState i applyInPandasWithState) nie są obsługiwane.
Obsługiwany jest wyłącznie tryb dołączania danych wyjściowych.

Agregacja łańcuchowa okien czasowych

Python

words = ...  # streaming DataFrame of schema { timestamp: Timestamp, word: String }

# Group the data by window and word and compute the count of each group
windowedCounts = words.groupBy(
    window(words.timestamp, "10 minutes", "5 minutes"),
    words.word
).count()

# Group the windowed data by another window and word and compute the count of each group
anotherWindowedCounts = windowedCounts.groupBy(
    window(window_time(windowedCounts.window), "1 hour"),
    windowedCounts.word
).count()

Skala

import spark.implicits._

val words = ... // streaming DataFrame of schema { timestamp: Timestamp, word: String }

// Group the data by window and word and compute the count of each group
val windowedCounts = words.groupBy(
  window($"timestamp", "10 minutes", "5 minutes"),
  $"word"
).count()

// Group the windowed data by another window and word and compute the count of each group
val anotherWindowedCounts = windowedCounts.groupBy(
  window($"window", "1 hour"),
  $"word"
).count()

Agregacja przedziału czasu w dwóch różnych strumieniach, po której następuje łączenie okna strumień-strumień

Python

clicksWindow = clicksWithWatermark.groupBy(
  clicksWithWatermark.clickAdId,
  window(clicksWithWatermark.clickTime, "1 hour")
).count()

impressionsWindow = impressionsWithWatermark.groupBy(
  impressionsWithWatermark.impressionAdId,
  window(impressionsWithWatermark.impressionTime, "1 hour")
).count()

clicksWindow.join(impressionsWindow, "window", "inner")

Skala

val clicksWindow = clicksWithWatermark
  .groupBy(window("clickTime", "1 hour"))
  .count()

val impressionsWindow = impressionsWithWatermark
  .groupBy(window("impressionTime", "1 hour"))
  .count()

clicksWindow.join(impressionsWindow, "window", "inner")

Łączenie strumień-strumień w przedziale czasowym, po którym następuje agregacja w oknie czasowym

Python

joined = impressionsWithWatermark.join(
  clicksWithWatermark,
  expr("""
    clickAdId = impressionAdId AND
    clickTime >= impressionTime AND
    clickTime <= impressionTime + interval 1 hour
    """),
  "leftOuter"                 # can be "inner", "leftOuter", "rightOuter", "fullOuter", "leftSemi"
)

joined.groupBy(
  joined.clickAdId,
  window(joined.clickTime, "1 hour")
).count()

Skala

val joined = impressionsWithWatermark.join(
  clicksWithWatermark,
  expr("""
    clickAdId = impressionAdId AND
    clickTime >= impressionTime AND
    clickTime <= impressionTime + interval 1 hour
  """),
  joinType = "leftOuter"      // can be "inner", "leftOuter", "rightOuter", "fullOuter", "leftSemi"
)

joined
  .groupBy($"clickAdId", window($"clickTime", "1 hour"))
  .count()

Ponowne równoważenie stanu dla Strumieniowania Strukturalnego

Równoważenie stanu jest domyślnie włączone dla wszystkich zadań przetwarzania strumieniowego w potokach Lakeflow. W środowisku Databricks Runtime 11.3 LTS lub nowszym można ustawić następującą opcję konfiguracji w konfiguracji klastra Spark, aby włączyć ponowne równoważenie stanu:

spark.sql.streaming.statefulOperator.stateRebalancing.enabled true

Ponowne równoważenie stanu przynosi korzyści stanowym potokom o strukturze przesyłania strumieniowego, które podlegają zdarzeniom zmiany rozmiaru klastra. Operacje bezstanowego przesyłania strumieniowego nie przynoszą korzyści, niezależnie od zmian rozmiarów klastra.

Uwaga

Automatyczne skalowanie obliczeniowe ma ograniczenia dotyczące zmniejszania rozmiaru klastrów dla obciążeń związanych z przesyłaniem strumieniowym w strukturze. Usługa Databricks zaleca używanie potoków deklaratywnych platformy Spark w usłudze Lakeflow z rozszerzonym skalowaniem automatycznym na potrzeby obciążeń przesyłania strumieniowego. Zobacz Optymalizowanie wykorzystania klastra pipeline’u Lakeflow za pomocą automatycznego skalowania.

Zdarzenia zmiany rozmiaru klastra wywołują ponowne równoważenie stanu. Mikrosady mogą mieć większe opóźnienie podczas ponownego równoważenia zdarzeń, ponieważ stan jest ładowany z magazynu w chmurze do nowych funkcji wykonawczych.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-07-10

Co to jest przesyłanie strumieniowe z zachowaniem stanu?

Operacje stanowe

Optymalizowanie stanowych zapytań przesyłania strumieniowego ze strukturą

Praca z wieloma operatorami stanowymi w strumieniowaniu strukturalnym

Agregacja łańcuchowa okien czasowych

Python

Skala

Agregacja przedziału czasu w dwóch różnych strumieniach, po której następuje łączenie okna strumień-strumień

Python

Skala

Łączenie strumień-strumień w przedziale czasowym, po którym następuje agregacja w oknie czasowym

Python

Skala

Ponowne równoważenie stanu dla Strumieniowania Strukturalnego

Opinia

Dodatkowe zasoby