Strukturált streamelési fogalmak

Az Apache Spark strukturált streamelés egy közel valós idejű feldolgozási motor, amely a már jól ismert Spark API-k használatával pontosan egyszeri feldolgozással biztosítja a végpontok közötti hibatűrést. A strukturált streamelés lehetővé teszi, hogy a streamelési adatokon végzett műveleteket ugyanúgy hajtsa végre, mint a statikus adatokon végzett kötegelt számításokat. A strukturált streamelési motor növekményesen végzi el a számítást, és folyamatosan frissíti az eredményt a streamelési adatok érkezésekor.

Részletes oktatóanyagért tekintse meg az első strukturált streamelési számítási feladat futtatását.

Olvasás adatfolyamból

A strukturált streamelés használatával növekményesen betölthet adatokat a támogatott adatforrásokból.

Funkció Leírás
Automatikus betöltő Növekményesen és hatékonyan dolgozza fel az új adatfájlokat a felhőbeli tárolóba érkezve.
Delta-táblastreamelés olvasása és írása A Delta Lake-táblákat streamforrásként és fogadóként használhatja pontosan egyszeri feldolgozási garanciával.
Szabványos csatlakozók Normál összekötőkkel csatlakozhat üzenetbuszokhoz, üzenetsorokhoz és vállalati alkalmazásokhoz.
Mikroadag mérete Korlátozza a bemeneti sebességeket a konzisztens kötegméretek fenntartása és a feldolgozási késések elkerülése érdekében.

Írás adatgyűjtőbe

Konfigurálja, hogy a strukturált stream hogyan kézbesíti az adatokat a célrendszereknek.

Funkció Leírás
Ellenőrzőpontok Tárolja a feldolgozási állapotot a hibatűrés és az egyszeri pontos kézbesítés szemantikájának biztosításához.
Kimeneti mód Válasszon az állapotalapú streamelési lekérdezések hozzáfűzési, frissítési és teljes módjai közül.
Eseményindító időközei Állítson be triggerintervallumokat a feldolgozási követelmények késésének és költségeinek egyensúlyba hozásához.
Valós idejű mód strukturált streamelésben Valós idejű számítási feladatok adatait dolgozza fel, és a végpontok közötti késés akár öt ezredmásodperc is lehet.

Állapotalapú és állapot nélküli feldolgozás

Az állapot nélküli lekérdezések állapotmegőrzés nélkül dolgozzák fel a sorokat. Az állapotalapú lekérdezések köztes állapotot tartanak fenn az aggregációk, illesztések és deduplikációk esetében.

Funkció Leírás
Állapot nélküli streamelési lekérdezések Optimalizálja az adatokat feldolgozó lekérdezéseket köztes állapot fenntartása nélkül.
Vízjelek Annak szabályozása, hogy a strukturált streamelés mennyi ideig várakozik az állapotalapú műveletekben későn érkező adatokra.
Állapotmegtartó streamelés Állapotalapú operátorokkal kezelheti az aggregációkat, stream-adatfolyam-illesztéseket és deduplikációkat.

Megfigyelés és kezelés

Nyomon követheti a lekérdezési teljesítményt, optimalizálást alkalmazhat, és szabályozhatja az adatokhoz való hozzáférést az éles strukturált streamelési munkaterhelésekhez.

Funkció Leírás
Monitorozás a StreamingQueryListenerrel A Lekérdezések előrehaladásának és teljesítménymetrikáinak nyomon követése a Spark felhasználói felület és a figyelő API használatával.
Irányítás a Unity-katalógussal Konfigurálja a Unity Katalógust streamelő munkafolyamatokhoz kormányzással és hozzáférés-szabályozással.