Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Az Azure Databricks egy, a Microsoft Azure-hoz optimalizált Apache Spark-alapú adat- és AI-platform. Egységes környezetet biztosít a big data- és AI-számítási feladatokhoz, és egyesíti a Databricks és az Azure legjobbjait az adatelemzés, az adatelemzés és a gépi tanulás egyszerűsítése érdekében.
Az Azure használatakor a megbízhatóság közös felelősség. A Microsoft számos lehetőséget kínál a rugalmasság és a helyreállítás támogatására. Ön a felelős azért, hogy megértse, hogyan működnek ezek a képességek az összes használt szolgáltatáson belül, és válassza ki azokat a képességeket, amelyekre szüksége van az üzleti célok és az üzemidő céljainak eléréséhez.
Ez a cikk azt ismerteti, hogy az Azure Databricks hogyan tartja fenn a rugalmasságot a különböző lehetséges kimaradások és problémák ellen, és hogyan konfigurálhatja a rugalmasságot a követelményeknek megfelelően. Az útmutató az átmeneti hibákat, a rendelkezésre állási zónák kimaradásait, a régiókimaradásokat és a szolgáltatáskarbantartást ismerteti. Ez a cikk azt is ismerteti, hogyan használhatók biztonsági másolatok más problémák helyreállításához, és ismerteti az Azure Databricks szolgáltatási szint-szerződéssel (SLA) kapcsolatos legfontosabb információkat.
Termelési üzembe helyezési javaslatok
Ha tudni szeretné, hogyan helyezheti üzembe az Azure Databrickset a megoldás megbízhatósági követelményeinek támogatásához, és hogyan befolyásolja a megbízhatóság az architektúra egyéb aspektusait, tekintse meg az Azure Databricks architektúrával kapcsolatos ajánlott eljárásait.
A megbízhatósági architektúra áttekintése
Ismernie kell az Azure Databricks egyes elsődleges összetevőinek megbízhatóságát:
A vezérlősík olyan állapot nélküli szolgáltatások gyűjteménye, amely a munkaterület metaadatait, a felhasználói hozzáférést, a feladatütemezést és a fürtkezelést kezeli. Ezeket a szolgáltatásokat olyan adatbázisok támogatják, amelyek a támogatott régiókban lévő rendelkezésre állási zónák között replikálódnak.
A Databricks Fájlrendszer (DBFS) gyökér egy tárfiók, amelyet az Azure Databricks automatikusan kiépít, amikor Azure Databricks-munkaterületet hoz létre a felhőfiókban. Javasoljuk, hogy ne tárolja az adatokat a DBFS-gyökéren, és ha lehetséges, tiltsa le ezt a tárfiókot.
A Unity Catalog storage egy vagy több tárfiókot tartalmaz, amelyek a Unity Catalog-adatokat a felhőfiókjában tárolják. További információ: Unity Catalog – áttekintés.
A számítástechnikai sík virtuális gépek klaszterei segítségével futtatja az adatfeldolgozási munkaterheléseket. A számítási sík kezeli az átmeneti hibákat, és automatikusan lecseréli a sikertelen csomópontokat felhasználói beavatkozás nélkül. Többféle számítási erőforrás közül választhat. További információ: Compute.
A munkaterület rendelkezésre állása a vezérlősík rendelkezésre állásától függ, de a számítási fürtök továbbra is feldolgozhatják a feladatokat a vezérlősík megszakadása esetén is.
Rugalmasság átmeneti hibákhoz
Az átmeneti hibák rövid, időszakos meghibásodások a komponensekben. Gyakran előfordulnak elosztott környezetben, például a felhőben, és ezek a műveletek szokásos részei. Az átmeneti hibák rövid idő elteltével kijavítják magukat. Fontos, hogy az alkalmazások kezelni tudják az átmeneti hibákat, általában az érintett kérések újrapróbálásával.
Minden felhőalapú alkalmazásnak követnie kell az Azure átmeneti hibakezelési útmutatóját, amikor a felhőben üzemeltetett API-kkal, adatbázisokkal és egyéb összetevőkkel kommunikálnak. További információ: Átmeneti hibák kezelésére vonatkozó javaslatok.
A Lakeflow-feladatok esetében a tevékenységek újrapróbálkozásai szabályozhatók az átmeneti hibák kezeléséhez.
Az Azure Databricksen futó alkalmazások esetében az újrapróbálkozási logikát exponenciális visszalépéssel implementálhatja, amikor külső szolgáltatásokhoz vagy Azure-szolgáltatásokhoz, például a Storage-hoz, az Azure SQL Database-hez vagy az Azure Event Hubshoz csatlakozik. A Databricks Runtime számos Azure-szolgáltatás beépített rugalmasságát tartalmazza, de az alkalmazáskódnak szolgáltatásspecifikus átmeneti hibákat kell kezelnie.
Rugalmasság a rendelkezésre állási zóna hibáival szemben
A rendelkezésre állási zónák fizikailag különálló adatközpont-csoportok egy Azure-régión belül. Ha egy zóna meghibásodik, a szolgáltatások a fennmaradó zónák egyikére is át tudnak adni feladatokat.
Az Azure Databricks támogatja az egyes összetevők zónaredundanciáit :
Vezérlősík: A rendelkezésre állási zónákat támogató régiókban a vezérlősík több rendelkezésre állási zónában fut. A vezérlősík automatikusan kezeli a zónahibákat, minimális hatással és felhasználói beavatkozás nélkül.
A vezérlősík-munkaterület adatai adatbázisokban tárolódnak. A rendelkezésre állási zónákat támogató régiókban a rendszer replikálja az adatbázisokat a régió több zónájában. A Databricks Runtime-lemezképeket kiszolgáló tárfiókok szintén redundánsak a régión belül. Minden régióban vannak másodlagos tárfiókok, amelyeket az elsődleges tárfiók leállásakor használnak.
DBFS-gyökér: A rendelkezésre állási zónákat támogató régiókban konfigurálhatja a DBFS-gyökér tárfiókját zónaredundáns tárolás (ZRS) használatára. A rendelkezésre állási zónákat támogató párosított régiókban szükség esetén geozónára redundáns tárolást (GZRS) is használhat.
Számítási sík: A Databricks támogatja a számítási erőforrások automatikus zónaeloszlását , ami azt jelenti, hogy az erőforrások több rendelkezésre állási zónában vannak elosztva. Ez a disztribúció segít az éles számítási feladatoknak a zónakimaradásokkal szembeni rugalmasság elérésében.
Kiszolgáló nélküli számítás használatakor nem jelöl ki kifejezetten zónákat a számításhoz. A Databricks kezeli a virtuális gépek zónakiválasztását és a zónakimaradások miatt elvesző virtuális gépek cseréjét.
Requirements
A rendelkezésre állási zóna támogatásának az Azure Databricksben való használatához a következő követelményekre van szüksége:
Régiótámogatás: Az Azure Databricks rendelkezésre állási zónájának támogatása minden Olyan Azure-régióban elérhető, amely támogatja az Azure Databrickset, és rendelkezésre állási zónákat biztosít. Az Azure Databrickset támogató régiók listájáért tekintse meg a régiónként elérhető termékeket. A rendelkezésre állási zónákat támogató régiók teljes listájáért tekintse meg a rendelkezésre állási zónákat támogató Azure-régiókat.
Tárolóreplikálás: A munkaterület tárfiókjainak konfigurálása ZRS vagy GZRS használatára (ahol elérhető).
Számítási kapacitás: Győződjön meg arról, hogy elegendő számítási kapacitás található a célrégió több zónájában. Az Azure Databricks automatikusan elosztja a fürtcsomópontokat a zónák között, de ellenőriznie kell, hogy a kiválasztott példánytípusok minden célzónában elérhetők-e.
Megfontolások
Az Azure Databricks automatikusan elosztja a fürtcsomópontokat a rendelkezésre állási zónák között. Az eloszlás az egyes zónákban elérhető kapacitástól függ. Magas keresletű időszakokban előfordulhat, hogy a klaszter csomópontjai kevesebb zónában összpontosulnak. Kiszolgáló nélküli számítás használatakor az Azure Databricks kezeli a virtuális gépek zónakiválasztását és a zónakimaradások miatt elvesző virtuális gépek cseréjét.
Költség
A zónaeloszlás nem befolyásolja a számítási költségeket, mert a rendelkezésre állási zónák elhelyezésétől függetlenül ugyanannyi virtuális gépet kell fizetnie. További információkért tekintse meg az Azure Databricks számítási díjszabását.
A felügyelt tárfiók, vagyis a DBFS-gyökér alapértelmezett redundanciája a georedundáns tárolás (GRS). A ZRS-re vagy GZRS-re való váltás hatással lehet a tárolási költségekre. További információkért tekintse meg az Azure Blob Storage díjszabását.
A rendelkezésre állási zóna támogatásának konfigurálása
Vezérlősík: A vezérlősík automatikusan támogatja a zónaredundanciát a rendelkezésre állási zónákkal rendelkező régiókban. Semmit sem kell konfigurálnia.
DBFS-gyökér: Új munkaterület létrehozásakor vagy meglévő munkaterület módosításakor konfigurálhatja a zónaredundanciát a DBFS gyökértárolóhoz:
Hozzon létre új munkaterületet zónaredundáns DBFS-gyökértárolóval: Új Azure Databricks-munkaterület létrehozásakor igény szerint konfigurálhatja a társított tárfiókot úgy, hogy az alapértelmezett GRS helyett ZRS-t vagy GZRS-t használjon. További információ: Munkaterület-tárterület redundanciabeállításainak módosítása.
Zónaredundancia engedélyezése a DBFS gyökértárolóján: Meglévő munkaterületek esetén a munkaterület tárfiókjának redundanciakonfigurációját ZRS-re vagy GZRS-re módosíthatja. A zónaredundancia engedélyezéséről további információt a tárfiók replikációs beállításainak módosítása című témakörben talál.
Számítási sík: A fürtcsomópontok automatikusan el vannak osztva a rendelkezésre állási zónák között. A zónaeloszláshoz nincs szükség ügyfélkonfigurációra.
Viselkedés, ha minden zóna kifogástalan
Ez a szakasz azt ismerteti, hogy mire számíthat, ha egy munkaterületet a rendelkezésre állási zóna támogatásával konfigurálnak, és az összes rendelkezésre állási zóna működőképes.
Adatreplikálás zónák között: A munkaterület-tárolók adatreplikálása szinkron módon történik a zónák között, amikor a DBFS-gyökér ZRS- vagy GZRS-fiókot használ. Ez a megközelítés erős konzisztenciát és minimális teljesítményhatást biztosít.
Forgalomirányítás zónák között: Az Azure Databricks automatikusan elosztja a fürtcsomópontokat zónák között a fürt létrehozása során. A szolgáltatás kiegyensúlyozza a számítási terhelést a zónák között, miközben megőrzi az adatterületet az optimális teljesítmény érdekében.
Viselkedés zónahiba esetén
Ez a szakasz leírja, mire lehet számítani, ha egy munkaterület rendelkezésre állási zóna támogatással van konfigurálva, és kimaradás történik a rendelkezésre állási zónában.
Észlelés és válasz: A Microsoft automatikusan észleli a zónahibákat, és válasz eljárásokat kezdeményez. Nem kell semmilyen műveletet végrehajtania a zónaszintű feladatátvételhez.
Értesítés: A Microsoft nem értesíti automatikusan, ha egy zóna le van omlva. Az Azure Databricks állapotlapján azonban áttekintheti az összes alapvető Azure Databricks-szolgáltatást. Feliratkozhat az egyes szolgáltatásösszetevők állapotfrissítéseire is, és riasztást kaphat, amikor a szolgáltatás állapota megváltozik.
Aktív kérések: A futó fürtök elveszíthetik a csomópontokat az érintett zónában. A fürtkezelő automatikusan kér cserecsomópontokat a fennmaradó zónákból. Ha az illesztőprogram-csomópont elveszett, a fürt és a feladat teljesen újraindul.
Várható adatvesztés:
Vezérlősík: A zónakimaradás során nem várható adatvesztés.
DBFS-gyökér: A munkaterület adatai továbbra is elérhetők maradnak, ha ZRS- vagy GZRS-tárolókonfigurációkat használnak.
Számítási sík: A virtuális gépeken gyorsítótárazott adatok rövid élettartamúak. A zónahiba során a virtuális gépekről elveszett adatok helyreállnak a tárolóból. Ha a vezérlőcsomópont elveszik, a feladat újraindul, és újraszámítja az eredményeket.
Várható állásidő:
Vezérlősík: A Databricks vezérlősíkja körülbelül 15 percen belül automatikus feladatátvételt végez az kifogástalan állapotú zónákba.
DBFS-gyökér: ZRS-t vagy GZRS-t használó tárfiókok leállása nem várható.
Számítási sík: Ha a csomópontok elvesznek, mert a virtuális gépeik az érintett rendelkezésre állási zónában találhatók, az Azure-fürtkezelő cserecsomópontokat kér az Azure számítási szolgáltatótól. Ha a fennmaradó kifogástalan zónák elegendő kapacitással rendelkeznek a kérés teljesítéséhez, a számítási szolgáltató lekéri a csomópontokat az kifogástalan állapotú zónákból az elveszett csomópontok helyére. Ez a folyamat több percet is igénybe vehet.
Ha a vezetőcsomópont a zónahiba miatt elvész, az egész fürt újraindul, ami hosszabb helyreállítási időt eredményezhet, mint a munkavégző csomópontok elvesztése esetén. Tervezze meg ezt a viselkedést a feladatütemezési és monitorozási stratégiákban.
A kiszolgáló nélküli vagy a példánykészletek használatával csökkentheti ezt az időt.
Forgalom átirányítása:
Vezérlősík: A Databricks vezérlősíkja körülbelül 15 percen belül automatikus feladatátvételt végez az kifogástalan állapotú zónákba.
DBFS-gyökér: Az Azure Storage automatikusan átirányítja a kérelmeket az kifogástalan állapotú zónákban lévő tárolófürtökre.
Számítási sík: A fürtkezelő automatikusan átvált az kifogástalan állapotú zónák csomópontjaira.
Zóna helyreállítása
A sikertelen rendelkezésre állási zóna helyreállításakor az Azure Databricks automatikusan folytatja a normál műveleteket az összes zónában. Előfordulhat, hogy a fürtkezelő újraegyensúlyozza a csomópontok elosztását a későbbi csomópontok létrehozásakor, de a meglévő csomópontok továbbra is futnak az aktuális zónákban, amíg le nem fejeződnek.
A visszaállítási műveletekhez nincs szüksége további intézkedésekre. Új fürttelepítések során a normál zónaelosztás folytatódik.
Zónahibák tesztelése
Az Azure Databricks egy felügyelt szolgáltatás, amelyben a Microsoft automatikusan kezeli a zóna átvitelét, és rendszeres zóna lekapcsolási teszteket végez. Magának a szolgáltatásnak nem kell tesztelnie a zónahibás forgatókönyveket.
Az Azure Databricksen futó alkalmazások esetében tesztelje a feladat rugalmasságát az illesztőprogram-csomópontok hibáinak szimulálásával és a fürt újraindítási viselkedésének figyelésével. Ellenőrizze, hogy az adatfeldolgozási feladatok képesek-e kezelni a klaszter újraindítását és a megfelelő ellenőrzőpontokról való folytatást.
Rugalmasság régiószintű hibákhoz
Az Azure Databricks egy régiós szolgáltatás. Ha a régió nem érhető el, a munkaterület is elérhetetlen. Ha többrégiós üzembe helyezésre van szüksége, tekintse meg az Azure Databricks vészhelyreállítását.
Egyéni többrégiós megoldások a rugalmasság érdekében
Az Azure Databricks nem biztosít beépített többrégiós képességeket. Az elemzési számítási feladatok átfogó többrégiós védelméhez saját megközelítést kell alkalmaznia.
A tipikus többrégiós megoldások két vagy több munkaterületet foglalnak magukban. Számos stratégia közül választhat, beleértve az aktív-passzív és az aktív-aktív architektúrákat is.
Az architektúra kiválasztásához vegye figyelembe a következő tényezőket:
- A számítási feladatok kritikussága a vállalat számára
- A fennakadás lehetséges időtartama (órák vagy akár egy teljes nap)
- A munkaterület teljes működőképessé tételéhez szükséges erőfeszítés
- Az elsődleges régióra való visszaálláshoz vagy visszaváltáshoz szükséges erőfeszítés
A többrégiós védelmet igénylő számítási feladatokért lásd az Azure Databricks vészhelyreállítását.
Biztonsági mentés és helyreállítás
Az Azure Databricks automatikusan biztonsági másolatot készít az adatbázisokról a szolgáltatás felügyelt műveleteinek részeként. Ez a folyamat magában foglalja a jegyzetfüzet tartalmát, a feladatdefiníciókat, a fürtkonfigurációkat és a hozzáférés-vezérlési beállításokat.
Megjegyzés:
Zónahiba esetén az Azure Databricks nem számít adatvesztésre.
Javasoljuk, hogy az adatokat a Unity Catalog storage-ban tárolja. Az adatokat tárreplikációval vagy delta klónozással replikálhatja.
A munkaterületszintű biztonsági mentési és visszaállítási képességek nem érhetők el közvetlenül. Tervezze meg a munkaterületek rekreációs eljárásait, amelyek magukban foglalják a konfigurációk, a felhasználók és a hozzáférés-vezérlés visszaállítását a szinkronizálási folyamatokból.
A szolgáltatás karbantartásával szembeni rugalmasság
Az Azure Databricks automatikus platformkarbantartást végez a biztonsági frissítések alkalmazásához, új funkciók üzembe helyezéséhez és a szolgáltatás megbízhatóságának javításához. A karbantartási ablakokat úgy konfigurálhatja a fürtön, hogy csökkentse a karbantartásnak az éles munkaterhelést érintő valószínűségét. További információért lásd: Automatikus fürtfrissítés.
Szolgáltatásiszint-szerződés
Az Azure-szolgáltatások szolgáltatásiszint-szerződése (SLA) leírja az egyes szolgáltatások várható elérhetőségét, valamint azokat a feltételeket, amelyeket a megoldásnak teljesítenie kell a rendelkezésre állási elvárás eléréséhez. További információ: SLA-k az online szolgáltatásokhoz.