A data lakehouse megbízhatósága
A megbízhatósági pillér architekturális alapelvei azt a képességet kezelik, hogy a rendszer helyreálljon a hibákból, és továbbra is működjön.
A megbízhatóság alapelvei
Hiba tervezése
Nagy mértékben elosztott környezetben üzemkimaradások léphetnek fel. A platform és a különböző számítási feladatok – például a streamelési feladatok, a kötegelt feladatok, a modell betanítása és a BI-lekérdezések – esetében egyaránt számolni kell a hibák elhárításával, és rugalmas megoldásokat kell kidolgozni a megbízhatóság növelése érdekében. A fókuszban az alkalmazások gyors és automatikus helyreállítása áll.
Az adatminőség kezelése
Az adatminőség alapvető fontosságú ahhoz, hogy pontos és értelmes megállapításokat nyerjen az adatokból. Az adatminőség számos dimenzióval rendelkezik, beleértve a teljességet, a pontosságot, az érvényességet és a konzisztenciát. Aktívan kell kezelni a végső adathalmazok minőségének javítása érdekében, hogy az adatok megbízható és megbízható információkként szolgáljanak az üzleti felhasználók számára.
Automatikus méretezés tervezése
A standard ETL-folyamatok, üzleti jelentések és irányítópultok gyakran kiszámítható erőforrás-követelményekkel rendelkeznek a memória és a számítás szempontjából. Az új projektek, a szezonális tevékenységek vagy a speciális megközelítések, például a modellbetanítás (az adatváltozáshoz, az előrejelzéshez és a karbantartáshoz) azonban kiugróan magas erőforrásigényeket eredményeznek. Ahhoz, hogy a szervezet kezelje ezeket a számítási feladatokat, méretezhető tárolási és számítási platformra van szüksége. Az új erőforrások igény szerinti hozzáadásának egyszerűnek kell lennie, és csak a tényleges használatért kell fizetni. A csúcsidőszak vége után az erőforrások felszabadíthatók, és ennek megfelelően csökkenthetők a költségek. Ezt gyakran nevezik horizontális skálázásnak (csomópontok száma) és függőleges skálázásnak (csomópontok mérete).
Helyreállítási eljárások tesztelése
A legtöbb alkalmazás és rendszer nagyvállalati szintű vészhelyreállítási stratégiája megköveteli a prioritások, képességek, korlátozások és költségek értékelését. A megbízható vészhelyreállítási módszer rendszeresen teszteli a számítási feladatok sikertelenségét, és ellenőrzi a helyreállítási eljárásokat. Az automation különböző hibák szimulálására vagy olyan forgatókönyvek újbóli létrehozására használható, amelyek korábban hibákat okoztak.
Üzembe helyezések és számítási feladatok automatizálása
A lakehouse üzemelő példányainak és számítási feladatainak automatizálása segít szabványosítani ezeket a folyamatokat, kiküszöbölni az emberi hibákat, javítani a termelékenységet, és nagyobb ismételhetőséget biztosítani. Ez magában foglalja a "konfiguráció mint kód" használatát a konfigurációs eltérés elkerülése érdekében, valamint az "infrastruktúra mint kód" használatát az összes szükséges lakehouse- és felhőszolgáltatás kiépítésének automatizálásához.
Rendszerek és számítási feladatok monitorozása
A lakehouse számítási feladatai általában integrálják a Databricks platformszolgáltatásokat és a külső felhőszolgáltatásokat, például adatforrásként vagy célként. A sikeres végrehajtás csak akkor fordulhat elő, ha a végrehajtási lánc minden szolgáltatása megfelelően működik. Ha ez nem így van, a figyelés, a riasztás és a naplózás fontos a problémák észleléséhez és nyomon követéséhez, valamint a rendszer viselkedésének megértéséhez.
Következő: Ajánlott eljárások a megbízhatósághoz
Tekintse meg a megbízhatóságra vonatkozó ajánlott eljárásokat.