Frissítés futtatása Delta Live Tables-folyamaton
Ez a cikk bemutatja, hogy mi a Delta Live Tables-folyamat frissítése, és hogyan futtathat egyet.
Miután létrehozott egy folyamatot, és készen áll a futtatásra, elkezdheti a frissítést. A folyamatfrissítések a következőket végzik el:
- Elindít egy fürtöt a megfelelő konfigurációval.
- Felderíti az összes definiált táblát és nézetet, és ellenőrzi az esetleges elemzési hibákat, például az érvénytelen oszlopneveket, a hiányzó függőségeket és a szintaxishibákat.
- Táblákat és nézeteket hoz létre vagy frissít a legfrissebb elérhető adatokkal.
A folyamat forráskódjában problémákat kereshet anélkül, hogy a táblák létrehozására vagy frissítésére kellene várnia a Frissítés ellenőrzése funkcióval. Ez Validate
a funkció akkor hasznos, ha folyamatokat fejleszt vagy tesztel, mivel lehetővé teszi, hogy gyorsan megtalálja és kijavítsa a folyamat hibáit, például helytelen tábla- vagy oszlopneveket.
A folyamat létrehozásának módjáról az oktatóanyagból tájékozódhat : Az első Delta Live Tables-folyamat futtatása.
Folyamatfrissítés indítása
Az Azure Databricks számos lehetőséget kínál a folyamatfrissítések elindítására, többek között az alábbiakat:
- A Delta Live Tables felhasználói felületén a következő lehetőségek közül választhat:
- Kattintson a folyamat részletei lapon található gombra.
- A folyamatok listájában kattintson a Műveletek oszlopra.
- Ha egy jegyzetfüzetben szeretne frissítést indítani, kattintson a Delta Live Tables > Start gombra a jegyzetfüzet eszköztárán. Lásd: Delta Live Tables-folyamat megnyitása vagy futtatása jegyzetfüzetből.
- A folyamatokat programozott módon is aktiválhatja az API vagy a parancssori felület használatával. Tekintse meg a Delta Live Tables API-útmutatót.
- A folyamat feladatként ütemezhető a Delta Live Tables felhasználói felületén vagy a feladatok felhasználói felületén. Lásd: Folyamat ütemezése.
A Delta Live Tables frissítése táblák és nézetek között
A táblák és nézetek frissülnek, és hogy ezek a táblák hogyan frissülnek, a frissítés típusától függ:
- Az összes frissítése: Minden élő tábla frissül, hogy tükrözze a bemeneti adatforrások aktuális állapotát. Az összes streamelő tábla esetében új sorok vannak hozzáfűzve a táblához.
- Teljes frissítés: Minden élő tábla frissül, hogy tükrözze a bemeneti adatforrások aktuális állapotát. Az összes streamelő tábla esetében a Delta Live Tables megpróbálja törölni az összes adatot az egyes táblákból, majd betölteni az összes adatot a streamelési forrásból.
- Frissítés kiválasztása: A művelet működése
refresh selection
megegyezik a beállítássalrefresh all
, de csak a kijelölt táblák frissítését teszi lehetővé. A kiválasztott élő táblák frissülnek, hogy tükrözzék a bemeneti adatforrások aktuális állapotát. A kijelölt streamtáblákhoz új sorok vannak hozzáfűzve a táblához. - Teljes frissítés kiválasztása: A művelet működése
full refresh selection
megegyezik a beállítássalfull refresh all
, de csak a kijelölt táblák teljes frissítését teszi lehetővé. A kiválasztott élő táblák frissülnek, hogy tükrözzék a bemeneti adatforrások aktuális állapotát. A kiválasztott streamelő táblák esetében a Delta Live Tables megpróbálja törölni az összes adatot az egyes táblákból, majd betölti az összes adatot a streamforrásból.
Meglévő élő táblák esetén a frissítés működése megegyezik egy materializált nézetben lévő SQL-sel REFRESH
. Új élő táblák esetén a viselkedés megegyezik az SQL-művelettel CREATE
.
Folyamatfrissítés indítása a kijelölt táblákhoz
Előfordulhat, hogy csak a folyamat kijelölt tábláinak adatait szeretné újra feldolgozni. A fejlesztés során például csak egyetlen táblát módosít, és csökkenteni szeretné a tesztelési időt, vagy egy folyamatfrissítés meghiúsul, és csak a sikertelen táblákat szeretné frissíteni.
Feljegyzés
Szelektív frissítést csak aktivált folyamatokkal használhat.
Ha olyan frissítést szeretne elindítani, amely csak a kijelölt táblákat frissíti, a Folyamat részletei lapon:
Kattintson a Táblák kijelölése frissítéshez elemre. Megjelenik a Táblák kijelölése frissítéshez párbeszédpanel.
Ha nem látja a Táblák kijelölése frissítéshez gombot, győződjön meg arról, hogy a Folyamat részletei lapon megjelenik a legújabb frissítés, és a frissítés befejeződött. Ha például egy DAG nem jelenik meg a legújabb frissítéshez, mert a frissítés sikertelen volt, akkor a Tábla kiválasztása frissítéshez gomb nem jelenik meg.
A frissíteni kívánt táblák kijelöléséhez kattintson az egyes táblákra. A kijelölt táblák ki vannak emelve és címkézve. Ha el szeretne távolítani egy táblát a frissítésből, kattintson ismét a táblára.
Kattintson a Kijelölés frissítése elemre.
Feljegyzés
A Kijelölés frissítése gomb zárójelben jeleníti meg a kijelölt táblák számát.
A kijelölt táblákhoz már betöltött adatok újrafeldolgozásához kattintson a Kijelölés frissítése gombra, és válassza a Teljes frissítés lehetőséget.
Folyamatfrissítés indítása sikertelen táblákhoz
Ha egy folyamatfrissítés a folyamatdiagram egy vagy több táblájának hibája miatt hiúsul meg, csak a sikertelen táblák és az alárendelt függőségek frissítését indíthatja el.
Feljegyzés
A kizárt táblák nem frissülnek, még akkor sem, ha egy sikertelen táblától függnek.
A sikertelen táblák frissítéséhez kattintson a Folyamat részletei lapon a Sikertelen táblák frissítése elemre.
Csak a kijelölt sikertelen táblák frissítése:
Kattintson a Sikertelen táblák frissítése gomb mellett, majd kattintson a Táblák kijelölése frissítéshez parancsra. Megjelenik a Táblák kijelölése frissítéshez párbeszédpanel.
A frissíteni kívánt táblák kijelöléséhez kattintson az egyes táblákra. A kijelölt táblák ki vannak emelve és címkézve. Ha el szeretne távolítani egy táblát a frissítésből, kattintson ismét a táblára.
Kattintson a Kijelölés frissítése elemre.
Feljegyzés
A Kijelölés frissítése gomb zárójelben jeleníti meg a kijelölt táblák számát.
A kijelölt táblákhoz már betöltött adatok újrafeldolgozásához kattintson a Kijelölés frissítése gombra, és válassza a Teljes frissítés lehetőséget.
Hibák ellenőrzése a folyamatokban a táblák frissítésére való várakozás nélkül
Fontos
A Delta Live Tables Validate
frissítési funkciója nyilvános előzetes verzióban érhető el.
Annak ellenőrzéséhez, hogy egy folyamat forráskódja érvényes-e teljes frissítés futtatása nélkül, használja az Ellenőrzés parancsot. A Validate
frissítés feloldja a folyamatban definiált adathalmazok és folyamatok definícióit, de nem hoz létre és nem tesz közzé adathalmazokat. Az ellenőrzés során észlelt hibák, például helytelen tábla- vagy oszlopnevek a felhasználói felületen jelennek meg.
Frissítés futtatásához Validate
kattintson a folyamat részleteinek lapján a Start menügombra, majd az Ellenőrzés gombra.
A Validate
frissítés befejezése után az eseménynapló csak a Validate
frissítéshez kapcsolódó eseményeket jeleníti meg, és a DAG-ban nem jelennek meg metrikák. Ha hibát talál, a részletek az eseménynaplóban érhetők el.
Csak a legújabb Validate
frissítés eredményei láthatók. Ha a Validate
frissítés volt a legutóbb futtatott frissítés, az eredményeket a frissítési előzményekben való kijelöléssel tekintheti meg. Ha a Validate
frissítés után egy másik frissítés fut, az eredmények már nem érhetők el a felhasználói felületen.
Folyamatos és aktivált folyamat végrehajtása
Ha a folyamat aktivált végrehajtási módot használ, a rendszer leáll a feldolgozással, miután egyszer sikeresen frissítette a folyamat összes tábláját vagy kijelölt tábláját, biztosítva a frissítés részét képező táblák frissítését a frissítés indításakor rendelkezésre álló adatok alapján.
Ha a folyamat folyamatos végrehajtást használ, a Delta Live Tables az adatforrásokban érkező új adatokat dolgozza fel, hogy a táblák naprakészek maradjanak a folyamat egészében.
A végrehajtási mód független a kiszámított tábla típusától. A materializált nézetek és a streamelési táblák mindkét végrehajtási módban frissíthetők. A folyamatos végrehajtási módban történő szükségtelen feldolgozás elkerülése érdekében a folyamatok automatikusan figyelik a függő Delta-táblákat, és csak akkor hajtanak végre frissítést, ha a függő táblák tartalma módosult.
Feljegyzés
A Delta Live Tables futtatókörnyezete nem képes észlelni a nem Delta-adatforrások változásait. A tábla továbbra is rendszeresen frissül, de magasabb alapértelmezett triggerintervallummal, amely megakadályozza, hogy a túlzott újraszámítás lelassítsa a fürt növekményes feldolgozását.
Az adatfolyam végrehajtási módokat összehasonlító táblázat
Az alábbi táblázat a végrehajtási módok közötti különbségeket emeli ki:
Triggerrel indított | Folyamatos | |
---|---|---|
Mikor áll le a frissítés? | Automatikusan, ha elkészült. | A manuális leállításig folyamatosan fut. |
Milyen adatokat dolgoznak fel? | A frissítés indításakor elérhető adatok. | Minden adat a konfigurált forrásokhoz érkezve. |
Milyen adatfrissítési követelményeknek felel meg ez a legjobban? | Az adatfrissítések 10 percenként, óránként vagy naponta futnak. | 10 másodpercenként és néhány percenként szükséges adatfrissítések. |
Az aktivált folyamatok csökkenthetik az erőforrás-felhasználást és a költségeket, mivel a fürt csak elég ideig fut a folyamat végrehajtásához. Az új adatok azonban csak a folyamat aktiválása után lesznek feldolgozva. A folyamatos folyamatokhoz mindig futó fürt szükséges, amely drágább, de csökkenti a feldolgozási késést.
A végrehajtási módot a Beállítások Folyamat mód beállításával konfigurálhatja.
Folyamathatárok kiválasztása
A Delta Live Tables-folyamatok képesek feldolgozni egy tábla frissítéseit, több, függő kapcsolattal rendelkező táblát, több, kapcsolat nélküli táblát vagy több független, függő kapcsolattal rendelkező táblát. Ez a szakasz megfontolandó szempontokat tartalmaz a folyamatok megszakításának meghatározásához.
A nagyobb Delta Live Tables-folyamatok számos előnnyel rendelkeznek. Ezek a következők:
- Hatékonyabban használhatja a fürterőforrásokat.
- Csökkentse a munkaterületen lévő folyamatok számát.
- Csökkentse a munkafolyamat-vezénylés összetettségét.
A feldolgozási folyamatok felosztására vonatkozó gyakori javaslatok közé tartoznak a következők:
- A funkciók felosztása a csapathatárok között. Előfordulhat például, hogy az adatcsoport folyamatokat tart fenn az adatok átalakításához, míg az adatelemzők olyan folyamatokat tartanak fenn, amelyek az átalakított adatokat elemzik.
- A funkciók felosztása alkalmazásspecifikus határvonalakon az összekapcsolás csökkentése és a közös funkciók újbóli használatának megkönnyítése érdekében.
Fejlesztési és termelési módok
A folyamatvégrehajtást optimalizálhatja a fejlesztési és az éles üzemmódok közötti váltással. A Folyamatok felhasználói felületén található gombokkal válthat a két mód között. Alapértelmezés szerint a folyamatok fejlesztési módban futnak.
Ha fejlesztési módban futtatja a folyamatot, a Delta Live Tables rendszer a következőket teszi:
- Újra felhasznál egy fürtöt az újraindítások többletterhelésének elkerülése érdekében. Alapértelmezés szerint a fürtök két órán át futnak, ha engedélyezve van a fejlesztési mód. Ezt a
pipelines.clusterShutdown.delay
számítási beállítások konfigurálása beállítással módosíthatja. - Letiltja a folyamat újrapróbálkozását, így azonnal észlelheti és kijavíthatja a hibákat.
Éles módban a Delta Live Tables rendszer a következőket teszi:
- Újraindítja a fürtöt bizonyos helyreállítható hibák esetén, beleértve a memóriavesztést és az elavult hitelesítő adatokat.
- Újrapróbálkozza a végrehajtást adott hibák, például fürt indítása sikertelensége esetén.
Feljegyzés
A fejlesztési és éles üzemmódok közötti váltás csak a fürt és a folyamatvégrehajtás viselkedését szabályozza. A katalógusban a közzétételi táblák tárolási helyeit és célsémáit a folyamatbeállítások részeként kell konfigurálni, és a módok közötti váltás nem érinti.
Folyamat ütemezése
Elindíthat manuálisan egy aktivált folyamatot, vagy ütemezés szerint futtathatja a folyamatot egy Azure Databricks-feladattal. Létrehozhat és ütemezhet feladatokat egyetlen folyamattevékenységgel közvetlenül a Delta Live Tables felhasználói felületén, vagy felvehet egy folyamattevékenységet egy többfeladatos munkafolyamatba a feladatok felhasználói felületén.
Egy feladatból álló feladat és ütemezés létrehozása a Feladathoz a Delta Live Tables felhasználói felületén:
- Kattintson az Ütemezés ütemezés > hozzáadása parancsra. Az Ütemezés gomb frissül, hogy megjelenítse a meglévő ütemezések számát, ha a folyamat szerepel egy vagy több ütemezett feladatban, például ütemezés (5).
- Adja meg a feladat nevét a Feladat neve mezőben.
- Állítsa be az ütemezést ütemezettre.
- Adja meg az időszakot, a kezdési időt és az időzónát.
- Konfiguráljon egy vagy több e-mail-címet, hogy riasztásokat kapjon a folyamat indításáról, sikerességéről vagy sikertelenségéről.
- Kattintson a Létrehozás gombra.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: