Konfigurowanie interwałów wyzwalacza strumieniowania ustrukturyzowanego

Strukturalne przesyłanie strumieniowe Apache Spark przetwarza dane przyrostowo, a kontrolowanie interwału wyzwalacza przetwarzania wsadowego pozwala na korzystanie ze Strukturalnego Przesyłania Strumieniowego do obciążeń, w tym przetwarzania niemal w czasie rzeczywistym, odświeżania baz danych co 5 minut lub raz na godzinę, czy przetwarzania wsadowego wszystkich nowych danych w ciągu jednego dnia lub tygodnia.

Ponieważ Databricks Auto Loader używa Structured Streaming do ładowania danych, zrozumienie działania wyzwalaczy pozwala na największą elastyczność kontrolowania kosztów podczas przesyłania danych z wymaganą częstotliwością.

Określanie interwałów wyzwalacza opartego na czasie

Przetwarzanie strumieniowe ze strukturą odnosi się do interwałów wyzwalaczy opartych na czasie jako "mikropartie o stałym interwale". Używając słowa kluczowego processingTime , określ czas trwania jako ciąg, taki jak .trigger(processingTime='10 seconds').

Po określeniu interwału trigger , który jest zbyt mały (mniej niż dziesiątki sekund), system może wykonać niepotrzebne kontrole, aby sprawdzić, czy pojawią się nowe dane. Skonfiguruj czas przetwarzania, aby zrównoważyć wymagania dotyczące opóźnienia i szybkość, z jaką dane docierają do źródła.

Konfigurowanie przyrostowego przetwarzania wsadowego

Ważne

W środowisku Databricks Runtime 11.3 LTS i nowszym ustawienie Trigger.Once jest oznaczone jako przestarzałe. Usługa Databricks zaleca użycie Trigger.AvailableNow do wszystkich obciążeń przyrostowego przetwarzania wsadowego.

Obecnie dostępna opcja wyzwalacza wykorzystuje wszystkie dostępne rekordy jako przyrostową partię z możliwością skonfigurowania jej rozmiaru za pomocą opcji, takich jak maxBytesPerTrigger (opcje określania rozmiaru różnią się w zależności od źródła danych).

Usługa Azure Databricks obsługuje używanie Trigger.AvailableNow do przetwarzania przyrostowego wsadowego z wielu źródeł strumieniowania o strukturze. Poniższa tabela zawiera minimalną obsługiwaną wersję środowiska Databricks Runtime wymaganą dla każdego źródła danych:

Źródło	Minimalna wersja środowiska Databricks Runtime
Źródła plików (JSON, Parquet itp.)	9.1 LTS
Delta Lake	10.4 Długoterminowe Wsparcie (LTS)
Automatyczny ładownik	10.4 Długoterminowe Wsparcie (LTS)
Apache Kafka	10.4 Długoterminowe Wsparcie (LTS)
Kineza	13,1

Jaki jest domyślny interwał wyzwalacza?

Domyślnie przesyłanie strumieniowe ze strukturą wykorzystuje stałe okresy mikropartii o długości 500 ms. Usługa Databricks zaleca, aby zawsze określać dostosowany parametr trigger, aby zminimalizować koszty związane ze sprawdzaniem, czy nadejdą nowe dane, i przetwarzaniem niewielkich partii.

Zmienianie interwałów wyzwalacza między przebiegami

Można zmieniać czas pomiędzy uruchomieniami przy użyciu tego samego punktu kontrolnego.

Jeśli zadanie strumieniowe z użyciem struktury zostanie zatrzymane podczas przetwarzania mikropartii, ta mikropartia musi zostać ukończona, zanim nowy interwał wyzwalacza zostanie zastosowany. W związku z tym można obserwować przetwarzanie mikrosadowe z wcześniej określonymi ustawieniami po zmianie interwału wyzwalacza.

Podczas przechodzenia z interwału opartego na czasie do korzystania z AvailableNow, może to spowodować przetwarzanie mikropartii przed przetworzeniem wszystkich dostępnych rekordów jako partii przyrostowej.

Podczas przechodzenia z AvailableNow do interwału opartego na czasie może to spowodować kontynuowanie przetwarzania wszystkich rekordów, które były dostępne po wyzwoleniu ostatniego AvailableNow zadania. Jest to oczekiwane zachowanie.

Uwaga

Jeśli próbujesz odzyskać sprawność po niepowodzeniu zapytania skojarzonego z partią przyrostową, zmiana interwału wyzwalacza nie rozwiąże tego problemu, ponieważ partia musi być nadal ukończona. Usługa Databricks zaleca skalowanie w górę pojemności obliczeniowej używanej do przetwarzania partii w celu rozwiązania problemu. W rzadkich przypadkach może być konieczne ponowne uruchomienie strumienia przy użyciu nowego punktu kontrolnego.

Co to jest tryb ciągłego przetwarzania?

Platforma Apache Spark obsługuje dodatkowy interwał wyzwalacza znany jako Przetwarzanie ciągłe. Ten tryb został sklasyfikowany jako eksperymentalny od platformy Spark 2.3; skontaktuj się z zespołem kont usługi Azure Databricks, aby upewnić się, że rozumiesz kompromisy związane z tym modelem przetwarzania.

Należy pamiętać, że ten tryb ciągłego przetwarzania w ogóle nie odnosi się do ciągłego przetwarzania stosowanego w Lakeflow Spark w deklaratywnych potokach.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-06-11