Valós idejű mód strukturált streamelésben

Ez az oldal a strukturált streamelés valós idejű módjának fogalmait ismerteti, többek között azt, hogy mi az, hogyan éri el az alacsony késést, és hogy mikor érdemes használni.

Mi a valós idejű mód?

A valós idejű mód egy triggertípus a strukturált streameléshez, amely lehetővé teszi az ultra-alacsony késleltetésű adatfeldolgozást, amely akár öt ezredmásodpercnyi végpontok közötti késést is lehetővé tesz. Valós idejű módot használhat olyan üzemeltetési számítási feladatokhoz, amelyek azonnali választ igényelnek a streamelési adatokra, például csalásészlelésre, valós idejű személyre szabásra és azonnali döntéshozatali rendszerekre.

Hogyan éri el a valós idejű mód az alacsony késést?

A valós idejű mód a végrehajtási architektúrát a következőkkel javítja:

  • Hosszú ideig futó kötegek végrehajtása (az alapértelmezett érték öt perc), amelyek során a rendszer feldolgozza az adatokat, amint az elérhetővé válik a forrásban.
  • A lekérdezés minden szakaszának egyidejű ütemezése. Ehhez az elérhető tevékenységhelyek számának egyenlőnek vagy nagyobbnak kell lennie, mint a köteg összes szakaszának tevékenységeinek száma.
  • Az adatok átvitele a szakaszok között, amint azok streaming shuffle használatával létrejönnek.

A köteg feldolgozásának végén, majd a következő köteg megkezdése előtt a strukturált streamelési ellenőrzőpontok haladnak, és közzéteszik a metrikákat. A köteg időtartama befolyásolja az ellenőrzőpontok gyakoriságát:

  • Hosszabb kötegek esetén az ellenőrzőpont-képzés ritkábban történik, ami azt jelenti, hogy meghibásodás esetén hosszabb a visszajátszás, és késleltetett a metrikák rendelkezésre állása.
  • Rövidebb kötegek esetén gyakoribb az ellenőrzőpont-ellenőrzés, ami befolyásolhatja a késést.

Azure Databricks azt javasolja, hogy értékelje a valós idejű üzemmódot a célfeladathoz, hogy megtalálja a megfelelő indítási intervallumot.

Mikor érdemes valós idejű módot használni?

Válassza ki a valós idejű módot, ha a használati eset megköveteli:

  • Másodperc alatti késés: Azok az alkalmazások, amelyeknek ezredmásodpercen belül válaszolniuk kell az adatokra. Például blokkolhat vagy megjelölhet egy hitelkártya-tranzakciót valós időben, ha egy csalási pontszám túllépi a küszöbértéket szokatlan hely, nagy tranzakcióméret vagy gyors költési minták alapján.
  • Működési döntéshozatal: Azok a rendszerek, amelyek a bejövő adatok alapján azonnali műveleteket indítanak el. Ha például a kattintásstream adatai között promóciós üzenet jelenik meg, az azt jelzi, hogy a felhasználó egy terméket böngészett, és kedvezményt kínál, ha a következő 15 percen belül vásárol.
  • Folyamatos feldolgozás: Olyan számítási feladatok, ahol az adatokat a beérkezés után azonnal fel kell dolgozni, nem pedig rendszeres kötegekben.

Ha a használati eset megköveteli, használjon mikroköteg módot (az alapértelmezett strukturált streamelési eseményindítót):

  • Elemzési feldolgozás: ETL-folyamatok, adatátalakítások és medallionarchitektúra-implementációk, ahol a késési követelményeket másodpercekben vagy percekben mérik.
  • Költségoptimalizálás: Olyan számítási feladatok, amelyeknél a másodperc alatti késés nem szükséges, mivel a valós idejű mód dedikált számítási erőforrásokat igényel.
  • Az ellenőrzőpont gyakorisága számít: Azok az alkalmazások, amelyek a gyorsabb helyreállítás érdekében gyakrabban ellenőrzik az ellenőrzőpontokat.

Funkciók támogatása és korlátozásai

A támogatott környezetek, nyelvek, számítási típusok, források, fogadók, operátorok és ismert korlátozások teljes listájáért tekintse meg a valós idejű módra vonatkozó hivatkozást.

További erőforrások