Konfigurace velikosti dávky strukturovaného streamování v Azure Databricks

Tento článek vysvětluje, jak pomocí řídicích mechanismů přístupu zachovat konzistentní velikost dávky pro dotazy na streamování.

Omezení přístupu omezují vstupní rychlost pro dotazy strukturovaného streamování, což může pomoct udržet konzistentní velikost dávky a zabránit velkým dávkám, aby způsobily přelití a zpoždění zpracování kaskádových mikrodávek.

Azure Databricks nabízí stejné možnosti pro řízení velikostí dávek strukturovaného streamování pro Delta Lake i Auto Loader.

Poznámka:

Nastavení řízení přístupu můžete upravit bez resetování kontrolního bodu pro dotaz streamování. Viz Obnovení po změnách v dotazu strukturovaného streamingu.

Změna nastavení řízení přístupu za účelem zvýšení nebo snížení velikosti dávky má vliv na výkon. K optimalizaci úloh možná budete muset upravit konfigurace výpočetních prostředků.

Omezení vstupní rychlosti pomocí maxFilesPerTrigger

Nastavení maxFilesPerTrigger (nebo cloudFiles.maxFilesPerTrigger pro automatický načítač) určuje horní mez počtu souborů zpracovaných v každé mikrodávce. U Delta Lake i Auto Loader je výchozí hodnota 1000. (Všimněte si, že tato možnost se také nachází v Apache Sparku pro jiné zdroje souborů, kde ve výchozím nastavení neexistuje žádné maximum.)

Omezení vstupní rychlosti pomocí maxBytesPerTriggeru

Nastavení maxBytesPerTrigger (nebo cloudFiles.maxBytesPerTrigger pro Auto Loader) nastaví "soft max" pro množství dat zpracovaných v každé mikrodávce. To znamená, že dávka zpracovává přibližně toto množství dat a může zpracovávat více než limit, aby se dotaz streamování přesunul vpřed v případech, kdy je nejmenší vstupní jednotka větší než tento limit. Pro toto nastavení neexistuje výchozí nastavení.

Pokud například zadáte řetězec bajtů, jako je například 10g, abyste omezili každý mikrobatch na 10 GB dat a máte soubory, které jsou 3 GB, Azure Databricks zpracuje 12 GB v mikrobatchu.

Nastavení více vstupních sazeb společně

Pokud používáte maxBytesPerTrigger ve spojení s maxFilesPerTrigger, mikrodávkové zpracování zpracovává data, dokud nedosáhne dolního limitu maxFilesPerTrigger nebo maxBytesPerTrigger.

Omezení vstupních sazeb pro ostatní zdroje strukturovaného streamování

Zdroje streamování, jako je Apache Kafka, mají vlastní vstupní limity, například maxOffsetsPerTrigger. Další podrobnosti najdete v tématu Standardní konektory ve službě Lakeflow Connect.

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-05-09