Az éles működés megfontolandó szempontjai a strukturált streamelés kapcsán
Ez a cikk javaslatokat tartalmaz az éles növekményes feldolgozási számítási feladatok konfigurálására az Azure Databricks strukturált adatfolyam-átvitelével a valós idejű vagy kötegelt alkalmazások késleltetési és költségkövetelményeinek teljesítése érdekében. Az Azure Databricks strukturált streamelésének legfontosabb fogalmainak megismerése segíthet elkerülni a gyakori buktatókat, amikor felskálázza az adatok mennyiségét és sebességét, és a fejlesztésről az éles környezetre vált.
Az Azure Databricks bevezette a Delta Live Tableset, hogy csökkentse a strukturált streamelési számítási feladatok éles infrastruktúrájának kezelésének összetettségét. A Databricks a Delta Live Tables használatát javasolja az új strukturált streamelési folyamatokhoz; lásd : Mi az a Delta Live Tables?.
Feljegyzés
A számítási automatikus skálázás korlátozásokkal rendelkezik a strukturált streamelési számítási feladatok fürtméretének leskálázásával. A Databricks a Delta Live Tables with Enhanced Autoscaling használatát ajánlja a streaming munkaterhelésekhez. Lásd: A Delta Live Tables-folyamatok fürtkihasználtságának optimalizálása továbbfejlesztett automatikus skálázással.
Jegyzetfüzetek használata strukturált streamelési számítási feladatokhoz
A Databricks-jegyzetfüzetekkel végzett interaktív fejlesztéshez a jegyzetfüzeteket egy fürthöz kell csatolnia a lekérdezések manuális végrehajtásához. A Databricks-jegyzetfüzeteket ütemezheti az automatikus üzembe helyezéshez és a lekérdezési hibák automatikus helyreállításához a Munkafolyamatok használatával.
- Helyreállítás strukturált streamelési lekérdezési hibákból munkafolyamatokkal
- A strukturált streamelés lekérdezéseinek monitorozása az Azure Databricksben
- Ütemezőkészletek használata több streamelési számítási feladathoz
Strukturált streamelési lekérdezéseket jeleníthet meg a jegyzetfüzetekben az interaktív fejlesztés során, illetve az éles számítási feladatok interaktív monitorozásához. Csak akkor jeleníthet meg strukturált streamelési lekérdezést éles környezetben, ha egy ember rendszeresen figyeli a jegyzetfüzet kimenetét. Bár a paraméterek és checkpointLocation
a trigger
paraméterek megadása nem kötelező, a Databricks ajánlott eljárásként azt javasolja, hogy mindig éles környezetben adja meg őket.
A köteg méretének és gyakoriságának szabályozása strukturált streameléshez az Azure Databricksben
Az Azure Databricks strukturált streamelése továbbfejlesztett lehetőségeket kínál a költségek és a késés szabályozásához az automatikus betöltővel és a Delta Lake-zel való streamelés során.
- Strukturált streamelési köteg méretének konfigurálása az Azure Databricksben
- Strukturált streamelési eseményindító időközeinek konfigurálása
Mi az állapotalapú streamelés?
Az állapotalapú strukturált streamelési lekérdezések növekményes frissítéseket igényelnek a köztes állapotinformációkhoz, míg az állapot nélküli strukturált streamelési lekérdezések csak a forrástól a fogadóig feldolgozott sorok adatait követik nyomon.
Az állapotalapú műveletek közé tartozik a stream-összesítés, a streamelés dropDuplicates
, a stream-stream illesztések mapGroupsWithState
és flatMapGroupsWithState
a .
Az állapotalapú strukturált streamelési lekérdezésekhez szükséges köztes állapotinformációk váratlan késéshez és éles problémákhoz vezethetnek, ha nincsenek megfelelően konfigurálva.
A Databricks Runtime 13.3 LTS-ben és újabb verziókban engedélyezheti a változásnapló-ellenőrzőpont-ellenőrzést a RocksDB-vel, hogy csökkentse az ellenőrzőpontok időtartamát és a végpontok közötti késést a strukturált streamelési számítási feladatok esetében. A Databricks azt javasolja, hogy engedélyezze a változásnapló-ellenőrzőpontozást az összes strukturált streamelési állapotalapú lekérdezéshez. Lásd: Változásnapló-ellenőrzőpont-ellenőrzés engedélyezése.