Frissítés futtatása Delta Live Tables-folyamaton

Ez a cikk bemutatja, hogy mi a Delta Live Tables-folyamat frissítése, és hogyan futtathat egyet.

Miután létrehozott egy folyamatot, és készen áll a futtatásra, elkezdheti a frissítést. A folyamatfrissítések a következőket végzik el:

  • Elindít egy fürtöt a megfelelő konfigurációval.
  • Felderíti az összes definiált táblát és nézetet, és ellenőrzi az esetleges elemzési hibákat, például az érvénytelen oszlopneveket, a hiányzó függőségeket és a szintaxishibákat.
  • Táblákat és nézeteket hoz létre vagy frissít a legfrissebb elérhető adatokkal.

A folyamat forráskódjában problémákat kereshet anélkül, hogy a táblák létrehozására vagy frissítésére kellene várnia a Frissítés ellenőrzése funkcióval. Ez Validate a funkció akkor hasznos, ha folyamatokat fejleszt vagy tesztel, mivel lehetővé teszi, hogy gyorsan megtalálja és kijavítsa a folyamat hibáit, például helytelen tábla- vagy oszlopneveket.

A folyamat létrehozásának módjáról az oktatóanyagból tájékozódhat : Az első Delta Live Tables-folyamat futtatása.

Folyamatfrissítés indítása

Az Azure Databricks számos lehetőséget kínál a folyamatfrissítések elindítására, többek között az alábbiakat:

  • A Delta Live Tables felhasználói felületén a következő lehetőségek közül választhat:
    • Kattintson a Delta Live Tables Start Icon folyamat részletei lapon található gombra.
    • A folyamatok listájában kattintson Jobbra mutató nyíl ikon a Műveletek oszlopra.
  • Ha egy jegyzetfüzetben szeretne frissítést indítani, kattintson a Delta Live Tables > Start gombra a jegyzetfüzet eszköztárán. Lásd: Delta Live Tables-folyamat megnyitása vagy futtatása jegyzetfüzetből.
  • A folyamatokat programozott módon is aktiválhatja az API vagy a parancssori felület használatával. Tekintse meg a Delta Live Tables API-útmutatót.
  • A folyamat feladatként ütemezhető a Delta Live Tables felhasználói felületén vagy a feladatok felhasználói felületén. Lásd: Folyamat ütemezése.

A Delta Live Tables frissítése táblák és nézetek között

A táblák és nézetek frissülnek, és hogy ezek a táblák hogyan frissülnek, a frissítés típusától függ:

  • Az összes frissítése: Minden élő tábla frissül, hogy tükrözze a bemeneti adatforrások aktuális állapotát. Az összes streamelő tábla esetében új sorok vannak hozzáfűzve a táblához.
  • Teljes frissítés: Minden élő tábla frissül, hogy tükrözze a bemeneti adatforrások aktuális állapotát. Az összes streamelő tábla esetében a Delta Live Tables megpróbálja törölni az összes adatot az egyes táblákból, majd betölteni az összes adatot a streamelési forrásból.
  • Frissítés kiválasztása: A művelet működése refresh selection megegyezik a beállítással refresh all, de csak a kijelölt táblák frissítését teszi lehetővé. A kiválasztott élő táblák frissülnek, hogy tükrözzék a bemeneti adatforrások aktuális állapotát. A kijelölt streamtáblákhoz új sorok vannak hozzáfűzve a táblához.
  • Teljes frissítés kiválasztása: A művelet működése full refresh selection megegyezik a beállítással full refresh all, de csak a kijelölt táblák teljes frissítését teszi lehetővé. A kiválasztott élő táblák frissülnek, hogy tükrözzék a bemeneti adatforrások aktuális állapotát. A kiválasztott streamelő táblák esetében a Delta Live Tables megpróbálja törölni az összes adatot az egyes táblákból, majd betölti az összes adatot a streamforrásból.

Meglévő élő táblák esetén a frissítés működése megegyezik egy materializált nézetben lévő SQL-sel REFRESH . Új élő táblák esetén a viselkedés megegyezik az SQL-művelettel CREATE .

Folyamatfrissítés indítása a kijelölt táblákhoz

Előfordulhat, hogy csak a folyamat kijelölt tábláinak adatait szeretné újra feldolgozni. A fejlesztés során például csak egyetlen táblát módosít, és csökkenteni szeretné a tesztelési időt, vagy egy folyamatfrissítés meghiúsul, és csak a sikertelen táblákat szeretné frissíteni.

Feljegyzés

Szelektív frissítést csak aktivált folyamatokkal használhat.

Ha olyan frissítést szeretne elindítani, amely csak a kijelölt táblákat frissíti, a Folyamat részletei lapon:

  1. Kattintson a Táblák kijelölése frissítéshez elemre. Megjelenik a Táblák kijelölése frissítéshez párbeszédpanel.

    Ha nem látja a Táblák kijelölése frissítéshez gombot, győződjön meg arról, hogy a Folyamat részletei lapon megjelenik a legújabb frissítés, és a frissítés befejeződött. Ha például egy DAG nem jelenik meg a legújabb frissítéshez, mert a frissítés sikertelen volt, akkor a Tábla kiválasztása frissítéshez gomb nem jelenik meg.

  2. A frissíteni kívánt táblák kijelöléséhez kattintson az egyes táblákra. A kijelölt táblák ki vannak emelve és címkézve. Ha el szeretne távolítani egy táblát a frissítésből, kattintson ismét a táblára.

  3. Kattintson a Kijelölés frissítése elemre.

    Feljegyzés

    A Kijelölés frissítése gomb zárójelben jeleníti meg a kijelölt táblák számát.

A kijelölt táblákhoz már betöltött adatok újrafeldolgozásához kattintson Blue Down Caret a Kijelölés frissítése gombra, és válassza a Teljes frissítés lehetőséget.

Folyamatfrissítés indítása sikertelen táblákhoz

Ha egy folyamatfrissítés a folyamatdiagram egy vagy több táblájának hibája miatt hiúsul meg, csak a sikertelen táblák és az alárendelt függőségek frissítését indíthatja el.

Feljegyzés

A kizárt táblák nem frissülnek, még akkor sem, ha egy sikertelen táblától függnek.

A sikertelen táblák frissítéséhez kattintson a Folyamat részletei lapon a Sikertelen táblák frissítése elemre.

Csak a kijelölt sikertelen táblák frissítése:

  1. Kattintson Lefelé gomb a Sikertelen táblák frissítése gomb mellett, majd kattintson a Táblák kijelölése frissítéshez parancsra. Megjelenik a Táblák kijelölése frissítéshez párbeszédpanel.

  2. A frissíteni kívánt táblák kijelöléséhez kattintson az egyes táblákra. A kijelölt táblák ki vannak emelve és címkézve. Ha el szeretne távolítani egy táblát a frissítésből, kattintson ismét a táblára.

  3. Kattintson a Kijelölés frissítése elemre.

    Feljegyzés

    A Kijelölés frissítése gomb zárójelben jeleníti meg a kijelölt táblák számát.

A kijelölt táblákhoz már betöltött adatok újrafeldolgozásához kattintson Blue Down Caret a Kijelölés frissítése gombra, és válassza a Teljes frissítés lehetőséget.

Hibák ellenőrzése a folyamatokban a táblák frissítésére való várakozás nélkül

Fontos

A Delta Live Tables Validate frissítési funkciója nyilvános előzetes verzióban érhető el.

Annak ellenőrzéséhez, hogy egy folyamat forráskódja érvényes-e teljes frissítés futtatása nélkül, használja az Ellenőrzés parancsot. A Validate frissítés feloldja a folyamatban definiált adathalmazok és folyamatok definícióit, de nem hoz létre és nem tesz közzé adathalmazokat. Az ellenőrzés során észlelt hibák, például helytelen tábla- vagy oszlopnevek a felhasználói felületen jelennek meg.

Frissítés futtatásához Validate kattintson Blue Down Careta folyamat részleteinek lapján a Start menügombra, majd az Ellenőrzés gombra.

A Validate frissítés befejezése után az eseménynapló csak a Validate frissítéshez kapcsolódó eseményeket jeleníti meg, és a DAG-ban nem jelennek meg metrikák. Ha hibát talál, a részletek az eseménynaplóban érhetők el.

Csak a legújabb Validate frissítés eredményei láthatók. Ha a Validate frissítés volt a legutóbb futtatott frissítés, az eredményeket a frissítési előzményekben való kijelöléssel tekintheti meg. Ha a Validate frissítés után egy másik frissítés fut, az eredmények már nem érhetők el a felhasználói felületen.

Folyamatos és aktivált folyamat végrehajtása

Ha a folyamat aktivált végrehajtási módot használ, a rendszer leáll a feldolgozással, miután egyszer sikeresen frissítette a folyamat összes tábláját vagy kijelölt tábláját, biztosítva a frissítés részét képező táblák frissítését a frissítés indításakor rendelkezésre álló adatok alapján.

Ha a folyamat folyamatos végrehajtást használ, a Delta Live Tables az adatforrásokban érkező új adatokat dolgozza fel, hogy a táblák naprakészek maradjanak a folyamat egészében.

A végrehajtási mód független a kiszámított tábla típusától. A materializált nézetek és a streamelési táblák mindkét végrehajtási módban frissíthetők. A folyamatos végrehajtási módban történő szükségtelen feldolgozás elkerülése érdekében a folyamatok automatikusan figyelik a függő Delta-táblákat, és csak akkor hajtanak végre frissítést, ha a függő táblák tartalma módosult.

Feljegyzés

A Delta Live Tables futtatókörnyezete nem képes észlelni a nem Delta-adatforrások változásait. A tábla továbbra is rendszeresen frissül, de magasabb alapértelmezett triggerintervallummal, amely megakadályozza, hogy a túlzott újraszámítás lelassítsa a fürt növekményes feldolgozását.

Az adatfolyam végrehajtási módokat összehasonlító táblázat

Az alábbi táblázat a végrehajtási módok közötti különbségeket emeli ki:

Triggerrel indított Folyamatos
Mikor áll le a frissítés? Automatikusan, ha elkészült. A manuális leállításig folyamatosan fut.
Milyen adatokat dolgoznak fel? A frissítés indításakor elérhető adatok. Minden adat a konfigurált forrásokhoz érkezve.
Milyen adatfrissítési követelményeknek felel meg ez a legjobban? Az adatfrissítések 10 percenként, óránként vagy naponta futnak. 10 másodpercenként és néhány percenként szükséges adatfrissítések.

Az aktivált folyamatok csökkenthetik az erőforrás-felhasználást és a költségeket, mivel a fürt csak elég ideig fut a folyamat végrehajtásához. Az új adatok azonban csak a folyamat aktiválása után lesznek feldolgozva. A folyamatos folyamatokhoz mindig futó fürt szükséges, amely drágább, de csökkenti a feldolgozási késést.

A végrehajtási módot a Beállítások Folyamat mód beállításával konfigurálhatja.

Folyamathatárok kiválasztása

A Delta Live Tables-folyamatok képesek feldolgozni egy tábla frissítéseit, több, függő kapcsolattal rendelkező táblát, több, kapcsolat nélküli táblát vagy több független, függő kapcsolattal rendelkező táblát. Ez a szakasz megfontolandó szempontokat tartalmaz a folyamatok megszakításának meghatározásához.

A nagyobb Delta Live Tables-folyamatok számos előnnyel rendelkeznek. Ezek a következők:

  • Hatékonyabban használhatja a fürterőforrásokat.
  • Csökkentse a munkaterületen lévő folyamatok számát.
  • Csökkentse a munkafolyamat-vezénylés összetettségét.

A feldolgozási folyamatok felosztására vonatkozó gyakori javaslatok közé tartoznak a következők:

  • A funkciók felosztása a csapathatárok között. Előfordulhat például, hogy az adatcsoport folyamatokat tart fenn az adatok átalakításához, míg az adatelemzők olyan folyamatokat tartanak fenn, amelyek az átalakított adatokat elemzik.
  • A funkciók felosztása alkalmazásspecifikus határvonalakon az összekapcsolás csökkentése és a közös funkciók újbóli használatának megkönnyítése érdekében.

Fejlesztési és termelési módok

A folyamatvégrehajtást optimalizálhatja a fejlesztési és az éles üzemmódok közötti váltással. Delta Live Tables Environment Kapcsoló ikon A Folyamatok felhasználói felületén található gombokkal válthat a két mód között. Alapértelmezés szerint a folyamatok fejlesztési módban futnak.

Ha fejlesztési módban futtatja a folyamatot, a Delta Live Tables rendszer a következőket teszi:

  • Újra felhasznál egy fürtöt az újraindítások többletterhelésének elkerülése érdekében. Alapértelmezés szerint a fürtök két órán át futnak, ha engedélyezve van a fejlesztési mód. Ezt a pipelines.clusterShutdown.delay számítási beállítások konfigurálása beállítással módosíthatja.
  • Letiltja a folyamat újrapróbálkozását, így azonnal észlelheti és kijavíthatja a hibákat.

Éles módban a Delta Live Tables rendszer a következőket teszi:

  • Újraindítja a fürtöt bizonyos helyreállítható hibák esetén, beleértve a memóriavesztést és az elavult hitelesítő adatokat.
  • Újrapróbálkozza a végrehajtást adott hibák, például fürt indítása sikertelensége esetén.

Feljegyzés

A fejlesztési és éles üzemmódok közötti váltás csak a fürt és a folyamatvégrehajtás viselkedését szabályozza. A katalógusban a közzétételi táblák tárolási helyeit és célsémáit a folyamatbeállítások részeként kell konfigurálni, és a módok közötti váltás nem érinti.

Folyamat ütemezése

Elindíthat manuálisan egy aktivált folyamatot, vagy ütemezés szerint futtathatja a folyamatot egy Azure Databricks-feladattal. Létrehozhat és ütemezhet feladatokat egyetlen folyamattevékenységgel közvetlenül a Delta Live Tables felhasználói felületén, vagy felvehet egy folyamattevékenységet egy többfeladatos munkafolyamatba a feladatok felhasználói felületén.

Egy feladatból álló feladat és ütemezés létrehozása a Feladathoz a Delta Live Tables felhasználói felületén:

  1. Kattintson az Ütemezés ütemezés > hozzáadása parancsra. Az Ütemezés gomb frissül, hogy megjelenítse a meglévő ütemezések számát, ha a folyamat szerepel egy vagy több ütemezett feladatban, például ütemezés (5).
  2. Adja meg a feladat nevét a Feladat neve mezőben.
  3. Állítsa be az ütemezést ütemezettre.
  4. Adja meg az időszakot, a kezdési időt és az időzónát.
  5. Konfiguráljon egy vagy több e-mail-címet, hogy riasztásokat kapjon a folyamat indításáról, sikerességéről vagy sikertelenségéről.
  6. Kattintson a Létrehozás gombra.