Megosztás a következőn keresztül:


A data lakehouse interoperabilitása és használhatósága

Ez a cikk az együttműködési és használhatósági pillér architekturális alapelveit ismerteti, utalva a lakehouse felhasználókkal és más rendszerekkel való interakciójára. A lakehouse egyik alapvető elképzelése, hogy nagyszerű felhasználói élményt nyújtson a vele dolgozó összes személynek, és hogy képes legyen a külső rendszerek széles ökoszisztémájával kommunikálni.

  • Az interoperabilitás a rendszer azon képessége, hogy más rendszerekkel együttműködjön és integrálható legyen. Ez azt jelenti, hogy a különböző összetevők és termékek, esetleg több gyártótól származó, illetve ugyanazon termék korábbi és jövőbeli verziói közötti interakciót jelenti.
  • A használhatóság annak mértéke, hogy a rendszer milyen jól teszi lehetővé a felhasználók számára a feladatok biztonságos, hatékony és hatékony végrehajtását.

A Databricks együttműködési és használhatósági lakehouse-architektúradiagramja.

Ennek a pillérnek az alapelveit követve a következőket segítheti:

  • Egységes és együttműködésen alapuló felhasználói élmény elérése.
  • Kihasználhatja a felhők közötti szinergiákat.
  • Egyszerűsítse az integrációt a lakehouse-ból és a tóházba.
  • Csökkentse a betanítási és engedélyezési költségeket.

És végül gyorsabb idő-érték arányhoz vezet.

Az interoperabilitás és a használhatóság alapelvei

  1. Integrációs szabványok meghatározása

    Az integrációnak különböző aspektusai vannak, és többféleképpen is elvégezhető. Az eszközök és megközelítések elszaporodásának elkerülése érdekében ajánlott eljárásokat kell meghatározni, és meg kell adni a jól támogatott és előnyben részesített eszközök és összekötők listáját.

    Az architektúra egyik fő alapelve a modularitás és a laza összekapcsolás, nem pedig a szoros integráció. Ez csökkenti az összetevők és a számítási feladatok közötti függőségeket, segít kiküszöbölni a mellékhatásokat, és lehetővé teszi a független fejlesztést különböző időskálákon. Adathalmazok és sémájuk használata szerződésként. Különítse el az olyan számítási feladatokat, mint az adatmegosztó feladatok (például adatok betöltése és átalakítása adattóvá) az értéknövelő feladatoktól (például jelentéskészítés, irányítópultok és adatelemzési funkciók tervezése). Egy központi adatkatalógus definiálása az adatformátumokra, az adatminőségre és az adatéletciklusra vonatkozó irányelvekkel.

  2. Nyílt felületek és nyitott adatformátumok használata

    Gyakran olyan megoldásokat fejlesztenek ki, amelyekben az adatok csak egy adott rendszeren keresztül érhetők el. Ez a szállítók bezárásához vezethet, de hatalmas költség-illesztővé is válhat, ha az ezen a rendszeren keresztüli adathozzáférés licencdíjakat von maga után. A nyílt adatformátumok és felületek használata segít elkerülni ezt. Emellett egyszerűsítik a meglévő rendszerekkel való integrációt, és olyan partnerek ökoszisztémáját nyitják meg, akik már integrálták eszközeiket a lakehouse-ba.

    Ha nyílt forráskód ökoszisztémákat, például Pythont vagy R-t használ adatelemzéshez, vagy a Sparkot vagy az ANSI SQL-t az adathozzáféréshez és a hozzáférési jogok szabályozásához, akkor könnyebben kereshet munkatársakat a projektekhez. Emellett egyszerűsíti a platformra és a platformról történő lehetséges migrálást is.

  3. Új használati esetek implementálásának egyszerűsítése

    Ahhoz, hogy a lehető legtöbbet hozhassa ki a data lake-ben lévő adatokból, a felhasználóknak képesnek kell lenniük arra, hogy egyszerűen üzembe helyezzék a használati eseteket a platformon. Ez a platformhozzáférés és az adatkezelés sovány folyamataival kezdődik. A platformhoz való önkiszolgáló hozzáférés például segít megakadályozni, hogy egy központi csapat szűk keresztmetszetté váljon. A megosztott környezetek és az új környezetek üzembe helyezésének előre meghatározott tervrajzai biztosítják, hogy a platform gyorsan elérhető legyen minden üzleti felhasználó számára.

  4. Adatkonzisztenciának és használhatóságának biztosítása

    Az adatplatformon két fontos tevékenység az adat-közzététel és az adatfelhasználás. Közzétételi szempontból az adatokat termékként kell kínálni. A közzétevőknek egy meghatározott életciklust kell követnie a fogyasztók szem előtt tartásával, és az adatokat egyértelműen meg kell határozni felügyelt sémákkal, leírásokkal stb.

    Emellett fontos szemantikailag konzisztens adatokat biztosítani, hogy a felhasználók könnyen megérthessenek és helyesen kombinálhassák a különböző adatkészleteket. Emellett minden adatnak könnyen felderíthetőnek és hozzáférhetőnek kell lennie a fogyasztók számára egy megfelelően válogatott metaadatokat és adatsorokat tartalmazó központi katalóguson keresztül.

Következő: Ajánlott eljárások az interoperabilitáshoz és a használhatósághoz

Tekintse meg az együttműködési és használhatósági ajánlott eljárásokat.