Koncepty strukturovaného streamování

Strukturované streamování Apache Sparku je modul zpracování téměř v reálném čase, který nabízí komplexní odolnost proti chybám s přesně jednou zárukou zpracování pomocí známých rozhraní Spark API. Strukturované streamování umožňuje vyjádřit výpočty streamovaných dat stejným způsobem jako dávkové výpočty se statickými daty. Modul strukturovaného streamování provádí výpočty postupně a průběžně aktualizuje výsledek při doručení streamovaných dat.

Podrobný kurz najdete v tématu Spuštění první úlohy strukturovaného streamování.

Čtení z datového streamu

Pomocí strukturovaného streamování můžete přírůstkově ingestovat data z podporovaných zdrojů dat.

funkce Description
Automatický nakladač Nové datové soubory zpracovávejte přírůstkově a efektivně, jakmile dorazí do cloudového úložiště.
Streamované čtení a zápis v Delta tabulkách Tabulky Delta Lake používejte jako zdroje streamování a datové zásobníky s garancí přesně jednoho zpracování.
Standardní konektory Připojte se ke zprávovým autobusům, frontám a podnikovým aplikacím pomocí standardních konektorů.
Velikost mikrodávkové dávky Omezte vstupní frekvence, abyste zachovali konzistentní velikosti dávek a zabránili zpoždění zpracování.

Zápis do datové jímky

Nakonfigurujte, jak strukturované streamování poskytuje data cílovým systémům.

funkce Description
kontrolní body Uložte stav zpracování, který umožňuje odolnost proti chybám a sémantiku doručení přesně jednou.
Výstupní režim Volba mezi režimy připojení, aktualizace a dokončení pro stavové streamovací dotazy.
Intervaly aktivačních událostí Nastavte intervaly aktivačních událostí tak, aby se vyrovnaly latence a náklady na vaše požadavky na zpracování.
Režim v reálném čase ve strukturovaném streamování Zpracovávejte data pro úlohy v reálném čase s end-to-end latencí již od pěti milisekund.

Stavové a bezstavové zpracování

Bezstavové dotazy zpracovávají řádky bez zachování stavu. Stavové dotazy udržují zprostředkující stav pro agregace, spojení a odstranění duplicitních dat.

funkce Description
Dotazy bezstavového streamování Optimalizujte dotazy, které zpracovávají data bez údržby přechodného stavu.
Vodoznaky Určuje, jak dlouho strukturované streamování čeká na pozdní příchod dat ve stavových operacích.
Stavové streamování Správa agregací, spojení datových proudů a odstranění duplicitních dat pomocí stavových operátorů

Sledování a správa

Sledování výkonu dotazů, aplikování optimalizací a řízení přístupu k datům pro produkční úlohy strukturovaného streamování

funkce Description
Monitorování s využitím StreamQueryListener Sledujte průběh dotazů a metriky výkonu pomocí uživatelského rozhraní Sparku a rozhraní API naslouchacího procesu.
Řízení pomocí katalogu Unity Nakonfigurujte Katalog Unity pro úlohy streamování pomocí zásad správného řízení a řízení přístupu.