Megosztás a következőn keresztül:


A data lakehouse megbízhatósága

A megbízhatósági pillér architekturális alapelvei azt a képességet kezelik, hogy a rendszer helyreálljon a hibákból, és továbbra is működjön.

A Databricks megbízhatósági lakehouse-architektúradiagramja.

A megbízhatóság alapelvei

  1. Hiba tervezése

    Nagy mértékben elosztott környezetben üzemkimaradások léphetnek fel. A platform és a különböző számítási feladatok – például a streamelési feladatok, a kötegelt feladatok, a modell betanítása és a BI-lekérdezések – esetében egyaránt számolni kell a hibák elhárításával, és rugalmas megoldásokat kell kidolgozni a megbízhatóság növelése érdekében. A fókuszban az alkalmazások gyors és automatikus helyreállítása áll.

  2. Az adatminőség kezelése

    Az adatminőség alapvető fontosságú ahhoz, hogy pontos és értelmes megállapításokat nyerjen az adatokból. Az adatminőség számos dimenzióval rendelkezik, beleértve a teljességet, a pontosságot, az érvényességet és a konzisztenciát. Aktívan kell kezelni a végső adathalmazok minőségének javítása érdekében, hogy az adatok megbízható és megbízható információkként szolgáljanak az üzleti felhasználók számára.

  3. Automatikus méretezés tervezése

    A standard ETL-folyamatok, üzleti jelentések és irányítópultok gyakran kiszámítható erőforrás-követelményekkel rendelkeznek a memória és a számítás szempontjából. Az új projektek, a szezonális tevékenységek vagy a speciális megközelítések, például a modellbetanítás (az adatváltozáshoz, az előrejelzéshez és a karbantartáshoz) azonban kiugróan magas erőforrásigényeket eredményeznek. Ahhoz, hogy a szervezet kezelje ezeket a számítási feladatokat, méretezhető tárolási és számítási platformra van szüksége. Az új erőforrások igény szerinti hozzáadásának egyszerűnek kell lennie, és csak a tényleges használatért kell fizetni. A csúcsidőszak vége után az erőforrások felszabadíthatók, és ennek megfelelően csökkenthetők a költségek. Ezt gyakran nevezik horizontális skálázásnak (csomópontok száma) és függőleges skálázásnak (csomópontok mérete).

  4. Helyreállítási eljárások tesztelése

    A legtöbb alkalmazás és rendszer nagyvállalati szintű vészhelyreállítási stratégiája megköveteli a prioritások, képességek, korlátozások és költségek értékelését. A megbízható vészhelyreállítási módszer rendszeresen teszteli a számítási feladatok sikertelenségét, és ellenőrzi a helyreállítási eljárásokat. Az automation különböző hibák szimulálására vagy olyan forgatókönyvek újbóli létrehozására használható, amelyek korábban hibákat okoztak.

  5. Üzembe helyezések és számítási feladatok automatizálása

    A lakehouse üzemelő példányainak és számítási feladatainak automatizálása segít szabványosítani ezeket a folyamatokat, kiküszöbölni az emberi hibákat, javítani a termelékenységet, és nagyobb ismételhetőséget biztosítani. Ez magában foglalja a "konfiguráció mint kód" használatát a konfigurációs eltérés elkerülése érdekében, valamint az "infrastruktúra mint kód" használatát az összes szükséges lakehouse- és felhőszolgáltatás kiépítésének automatizálásához.

  6. Rendszerek és számítási feladatok monitorozása

    A lakehouse számítási feladatai általában integrálják a Databricks platformszolgáltatásokat és a külső felhőszolgáltatásokat, például adatforrásként vagy célként. A sikeres végrehajtás csak akkor fordulhat elő, ha a végrehajtási lánc minden szolgáltatása megfelelően működik. Ha ez nem így van, a figyelés, a riasztás és a naplózás fontos a problémák észleléséhez és nyomon követéséhez, valamint a rendszer viselkedésének megértéséhez.

Következő: Ajánlott eljárások a megbízhatósághoz

Tekintse meg a megbízhatóságra vonatkozó ajánlott eljárásokat.