Share via


Strukturált streamelési köteg méretének konfigurálása az Azure Databricksben

A strukturált streamelési lekérdezések bemeneti sebességének korlátozása segít fenntartani a köteg egységes méretét, és megakadályozza, hogy a nagy kötegek kiömlő és kaszkádolt mikroköteg-feldolgozási késésekhez vezessenek.

Az Azure Databricks ugyanazokat a lehetőségeket kínálja a strukturált streamelési kötegméretek szabályozására a Delta Lake és az Automatikus betöltő esetében is.

Bemeneti sebesség korlátozása a maxFilesPerTriggerrel

A beállítás maxFilesPerTrigger (vagy cloudFiles.maxFilesPerTrigger az automatikus betöltő esetében) az egyes mikro kötegekben feldolgozott fájlok számának felső határát adja meg. A Delta Lake és az Automatikus betöltő esetében az alapértelmezett érték 1000. (Vegye figyelembe, hogy ez a beállítás más fájlforrások esetében is megtalálható az Apache Sparkban, ahol alapértelmezés szerint nincs maximális érték.)

Bemeneti sebesség korlátozása a maxBytesPerTriggerrel

A beállítás maxBytesPerTrigger (vagy cloudFiles.maxBytesPerTrigger az Automatikus betöltő esetében) "soft max" értéket állít be az egyes mikro kötegekben feldolgozott adatok mennyiségéhez. Ez azt jelenti, hogy egy köteg körülbelül ennyi adatot dolgoz fel, és a korlátnál többet is feldolgozhat annak érdekében, hogy a streamlekérdezés előrehaladjon olyan esetekben, amikor a legkisebb bemeneti egység nagyobb ennél a korlátnál. Ehhez a beállításhoz nincs alapértelmezett beállítás.

Ha például olyan bájtsztringet ad meg, amely 10g 10 GB-ra korlátozza az egyes mikrobatcheket, és 3 GB-os fájlokat tartalmaz, az Azure Databricks 12 GB-ot dolgoz fel egy mikrobatchben.

Több bemeneti sebesség együttes beállítása

Ha együtt maxFilesPerTriggerhasználjamaxBytesPerTrigger, a mikroköteg addig dolgozza fel az adatokat, amíg el nem éri az alsó korlátot.maxFilesPerTriggermaxBytesPerTrigger

Más strukturált streamelési források bemeneti sebességének korlátozása

Az olyan streamelési források, mint az Apache Kafka, egyéni bemeneti korlátokkal rendelkeznek, például maxOffsetsPerTrigger. További részletekért lásd : Streamelési adatforrások konfigurálása.