Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tato stránka vysvětluje, jak pomocí kontrol vstupu zachovat konzistentní velikost balíku pro streamovací dotazy.
Omezení přístupu omezují vstupní rychlost pro dotazy strukturovaného streamování, což může pomoct udržet konzistentní velikost dávky a zabránit velkým dávkám, aby způsobily přelití a zpoždění zpracování kaskádových mikrodávek.
Azure Databricks nabízí stejné možnosti pro řízení velikostí dávek strukturovaného streamování pro Delta Lake i Auto Loader.
Poznámka:
Nastavení řízení přístupu můžete upravit bez resetování kontrolního bodu pro dotaz streamování. Viz Obnovení po změnách v dotazu strukturovaného streamingu.
Změna nastavení řízení přístupu za účelem zvýšení nebo snížení velikosti dávky má vliv na výkon. K optimalizaci úloh možná budete muset upravit konfigurace výpočetních prostředků.
Výstraha
Pokud se mikrobatch plánuje, když se datový proud zastaví, neprojeví se žádná změna řízení přístupu, dokud se nedokončí plánovaný mikrobatch. Pokud se například datový proud zastaví po neúspěšné transakci, možná budete muset odstranit kontrolní bod, aby datový proud znovu zpracoval transakci pomocí nových pravidel přístupu. K tomuto chování dochází, protože strukturované streamování je idempotentní a mikrobatches musí obsahovat stejná data při opakovaných spuštěních. Viz sémantika strukturovaného streamování.
Omezení vstupní rychlosti pomocí maxFilesPerTrigger
Nastavení maxFilesPerTrigger (nebo cloudFiles.maxFilesPerTrigger pro automatický načítač) určuje horní mez počtu souborů zpracovaných v každé mikrodávce. U Delta Lake i Auto Loader je výchozí hodnota 1000. (Všimněte si, že tato možnost se také nachází v Apache Sparku pro jiné zdroje souborů, kde ve výchozím nastavení neexistuje žádné maximum.)
Omezení vstupní rychlosti pomocí maxBytesPerTriggeru
Nastavení maxBytesPerTrigger (nebo cloudFiles.maxBytesPerTrigger pro Auto Loader) nastaví "soft max" pro množství dat zpracovaných v každé mikrodávce. To znamená, že dávka zpracovává přibližně toto množství dat a může zpracovávat více než limit, aby se dotaz streamování přesunul vpřed v případech, kdy je nejmenší vstupní jednotka větší než tento limit. Pro toto nastavení neexistuje výchozí nastavení.
Pokud například zadáte řetězec bajtů, jako je například 10g, abyste omezili každý mikrobatch na 10 GB dat a máte soubory, které jsou 3 GB, Azure Databricks zpracuje 12 GB v mikrobatchu.
Nastavení více vstupních sazeb společně
Pokud používáte maxBytesPerTrigger ve spojení s maxFilesPerTrigger, mikrodávkové zpracování zpracovává data, dokud nedosáhne dolního limitu maxFilesPerTrigger nebo maxBytesPerTrigger.
Omezení vstupních sazeb pro ostatní zdroje strukturovaného streamování
Zdroje streamování, jako je Apache Kafka, mají vlastní vstupní limity, například maxOffsetsPerTrigger. Další podrobnosti najdete v tématu Standardní konektory ve službě Lakeflow Connect.