Az éles működés megfontolandó szempontjai a strukturált streamelés kapcsán

Ez a cikk javaslatokat tartalmaz az éles növekményes feldolgozási számítási feladatok konfigurálására az Azure Databricks strukturált adatfolyam-átvitelével a valós idejű vagy kötegelt alkalmazások késleltetési és költségkövetelményeinek teljesítése érdekében. Az Azure Databricks strukturált streamelésének legfontosabb fogalmainak megismerése segíthet elkerülni a gyakori buktatókat, amikor felskálázza az adatok mennyiségét és sebességét, és a fejlesztésről az éles környezetre vált.

Az Azure Databricks bevezette a Delta Live Tableset, hogy csökkentse a strukturált streamelési számítási feladatok éles infrastruktúrájának kezelésének összetettségét. A Databricks a Delta Live Tables használatát javasolja az új strukturált streamelési folyamatokhoz; lásd : Mi az a Delta Live Tables?.

Feljegyzés

A számítási automatikus skálázás korlátozásokkal rendelkezik a strukturált streamelési számítási feladatok fürtméretének leskálázásával. A Databricks a Delta Live Tables with Enhanced Autoscaling használatát ajánlja a streaming munkaterhelésekhez. Lásd: A Delta Live Tables-folyamatok fürtkihasználtságának optimalizálása továbbfejlesztett automatikus skálázással.

Jegyzetfüzetek használata strukturált streamelési számítási feladatokhoz

A Databricks-jegyzetfüzetekkel végzett interaktív fejlesztéshez a jegyzetfüzeteket egy fürthöz kell csatolnia a lekérdezések manuális végrehajtásához. A Databricks-jegyzetfüzeteket ütemezheti az automatikus üzembe helyezéshez és a lekérdezési hibák automatikus helyreállításához a Munkafolyamatok használatával.

Strukturált streamelési lekérdezéseket jeleníthet meg a jegyzetfüzetekben az interaktív fejlesztés során, illetve az éles számítási feladatok interaktív monitorozásához. Csak akkor jeleníthet meg strukturált streamelési lekérdezést éles környezetben, ha egy ember rendszeresen figyeli a jegyzetfüzet kimenetét. Bár a paraméterek és checkpointLocation a trigger paraméterek megadása nem kötelező, a Databricks ajánlott eljárásként azt javasolja, hogy mindig éles környezetben adja meg őket.

A köteg méretének és gyakoriságának szabályozása strukturált streameléshez az Azure Databricksben

Az Azure Databricks strukturált streamelése továbbfejlesztett lehetőségeket kínál a költségek és a késés szabályozásához az automatikus betöltővel és a Delta Lake-zel való streamelés során.

Mi az állapotalapú streamelés?

Az állapotalapú strukturált streamelési lekérdezések növekményes frissítéseket igényelnek a köztes állapotinformációkhoz, míg az állapot nélküli strukturált streamelési lekérdezések csak a forrástól a fogadóig feldolgozott sorok adatait követik nyomon.

Az állapotalapú műveletek közé tartozik a stream-összesítés, a streamelés dropDuplicates, a stream-stream illesztések mapGroupsWithStateés flatMapGroupsWithStatea .

Az állapotalapú strukturált streamelési lekérdezésekhez szükséges köztes állapotinformációk váratlan késéshez és éles problémákhoz vezethetnek, ha nincsenek megfelelően konfigurálva.

A Databricks Runtime 13.3 LTS-ben és újabb verziókban engedélyezheti a változásnapló-ellenőrzőpont-ellenőrzést a RocksDB-vel, hogy csökkentse az ellenőrzőpontok időtartamát és a végpontok közötti késést a strukturált streamelési számítási feladatok esetében. A Databricks azt javasolja, hogy engedélyezze a változásnapló-ellenőrzőpontozást az összes strukturált streamelési állapotalapú lekérdezéshez. Lásd: Változásnapló-ellenőrzőpont-ellenőrzés engedélyezése.