Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Strukturované streamování Apache Sparku je modul zpracování téměř v reálném čase, který nabízí komplexní odolnost proti chybám s přesně jednou zárukou zpracování pomocí známých rozhraní Spark API. Strukturované streamování umožňuje vyjádřit výpočty streamovaných dat stejným způsobem jako dávkové výpočty se statickými daty. Modul strukturovaného streamování provádí výpočty postupně a průběžně aktualizuje výsledek při doručení streamovaných dat.
Podrobný kurz najdete v tématu Spuštění první úlohy strukturovaného streamování.
Čtení z datového streamu
Pomocí strukturovaného streamování můžete přírůstkově ingestovat data z podporovaných zdrojů dat.
| funkce | Description |
|---|---|
| Automatický nakladač | Nové datové soubory zpracovávejte přírůstkově a efektivně, jakmile dorazí do cloudového úložiště. |
| Streamované čtení a zápis v Delta tabulkách | Tabulky Delta Lake používejte jako zdroje streamování a datové zásobníky s garancí přesně jednoho zpracování. |
| Standardní konektory | Připojte se ke zprávovým autobusům, frontám a podnikovým aplikacím pomocí standardních konektorů. |
| Velikost mikrodávkové dávky | Omezte vstupní frekvence, abyste zachovali konzistentní velikosti dávek a zabránili zpoždění zpracování. |
Zápis do datové jímky
Nakonfigurujte, jak strukturované streamování poskytuje data cílovým systémům.
| funkce | Description |
|---|---|
| kontrolní body | Uložte stav zpracování, který umožňuje odolnost proti chybám a sémantiku doručení přesně jednou. |
| Výstupní režim | Volba mezi režimy připojení, aktualizace a dokončení pro stavové streamovací dotazy. |
| Intervaly aktivačních událostí | Nastavte intervaly aktivačních událostí tak, aby se vyrovnaly latence a náklady na vaše požadavky na zpracování. |
| Režim v reálném čase ve strukturovaném streamování | Zpracovávejte data pro úlohy v reálném čase s end-to-end latencí již od pěti milisekund. |
Stavové a bezstavové zpracování
Bezstavové dotazy zpracovávají řádky bez zachování stavu. Stavové dotazy udržují zprostředkující stav pro agregace, spojení a odstranění duplicitních dat.
| funkce | Description |
|---|---|
| Dotazy bezstavového streamování | Optimalizujte dotazy, které zpracovávají data bez údržby přechodného stavu. |
| Vodoznaky | Určuje, jak dlouho strukturované streamování čeká na pozdní příchod dat ve stavových operacích. |
| Stavové streamování | Správa agregací, spojení datových proudů a odstranění duplicitních dat pomocí stavových operátorů |
Sledování a správa
Sledování výkonu dotazů, aplikování optimalizací a řízení přístupu k datům pro produkční úlohy strukturovaného streamování
| funkce | Description |
|---|---|
| Monitorování s využitím StreamQueryListener | Sledujte průběh dotazů a metriky výkonu pomocí uživatelského rozhraní Sparku a rozhraní API naslouchacího procesu. |
| Řízení pomocí katalogu Unity | Nakonfigurujte Katalog Unity pro úlohy streamování pomocí zásad správného řízení a řízení přístupu. |