A Lakehouse végpontok közötti forgatókönyve: áttekintés és architektúra

A Microsoft Fabric egy teljes körű elemzési megoldás a nagyvállalatok számára, amely az adatáthelyezéstől az adatelemzésen át a valós idejű elemzésig és az üzleti intelligenciaig mindent lefed. Átfogó szolgáltatáscsomagot kínál, beleértve a data lake-t, az adatelemzést és az adatintegrációt, mindezt egy helyen. További információ: Mi a Microsoft Fabric?

Ez az oktatóanyag végigvezeti egy végpontok közötti forgatókönyvön az adatgyűjtéstől az adatfelhasználásig. Segít felépíteni a Fabric alapszintű ismeretét, beleértve a különböző élményeket és azok integrálását, valamint az ezen a platformon végzett munkával kapcsolatos szakmai és állampolgári fejlesztői tapasztalatokat. Ez az oktatóanyag nem referenciaarchitektúra, a funkciók és funkciók teljes listája, vagy konkrét ajánlott eljárásokra vonatkozó javaslat.

A Lakehouse végpontok közötti forgatókönyve

A szervezetek hagyományosan modern adattárházakat építenek a tranzakciós és strukturált adatelemzési igényeiknek megfelelően. A big data (félig/strukturálatlan) adatelemzéshez szükséges data lakehouse-ok. Ez a két rendszer párhuzamosan futott, silókat, adatkettőződést és nagyobb teljes bekerülési költséget eredményezett.

A Fabric az adattár egyesítésével és a Delta Lake-formátum szabványosításával lehetővé teszi a silók eltávolítását, az adatreplikációk eltávolítását és a tulajdonjog teljes költségének drasztikus csökkentését.

A Fabric által kínált rugalmassággal implementálhatja a lakehouse- vagy adattárház-architektúrákat, vagy kombinálhatja őket, hogy a lehető legjobbat hozza ki mindkettőből az egyszerű implementációval. Ebben az oktatóanyagban egy kiskereskedelmi szervezet példáját fogjuk felhozni, és az elejétől a végéig felépítjük a lakehouse-t. A medál architektúrát használja, ahol a bronz réteg nyers adatokat, az ezüst réteg az érvényesített és deduplikált adatokat, az aranyréteg pedig rendkívül finomított adatokat. Ugyanezzel a megközelítéssel implementálhat egy lakehouse-t bármely iparágból származó szervezet számára.

Ez az oktatóanyag bemutatja, hogyan hajtja végre a következő lépéseket a kiskereskedelmi tartomány fiktív Wide World Importers vállalatának fejlesztője:

  1. Jelentkezzen be Power BI-fiókjába, és regisztráljon az ingyenes Microsoft Fabric-próbaverzióra. Ha nem rendelkezik Power BI-licenccel, regisztráljon ingyenes Power BI-licencre, és indítsa el a Fabric próbaverzióját.

  2. Hozzon létre és implementáljon egy végpontok közötti lakehouse-t a szervezet számára:

  3. Törölje az erőforrásokat a munkaterület és más elemek törlésével.

Architektúra

Az alábbi képen a lakehouse végpontok közötti architektúra látható. Az érintett összetevőket az alábbi listában ismertetjük.

A Microsoft Fabricben található lakehouse végpontok közötti architektúrájának diagramja.

  • Adatforrások: A Fabric segítségével gyorsan és egyszerűen csatlakozhat az Azure Data Serviceshez, valamint más felhőalapú platformokhoz és helyszíni adatforrásokhoz az egyszerűbb adatbetöltés érdekében.

  • Betöltés: Több mint 200 natív összekötő használatával gyorsan létrehozhat elemzéseket a szervezet számára. Ezek az összekötők integrálva vannak a Háló folyamatba, és a felhasználóbarát húzással történő adatátalakítást használják adatfolyamokkal. Emellett a Háló billentyűparancs funkciójával anélkül csatlakozhat a meglévő adatokhoz, hogy át kellene másolnia vagy áthelyeznie.

  • Átalakítás és tárolás: A Fabric delta Lake formátumban szabványosít. Ez azt jelenti, hogy a Fabric-motorok az adatok duplikálása nélkül is elérhetik és kezelhetik a OneLake-ben tárolt adatkészleteket. Ez a tárolórendszer rugalmasságot biztosít a tóházak medál architektúra vagy adatháló használatával történő összeállításához a szervezeti követelményektől függően. Az adatátalakításhoz alacsony kódszámú vagy kód nélküli felhasználói felület közül választhat, amely folyamatokat/adatfolyamokat vagy jegyzetfüzeteket/Sparkot használ a kód első verziójához.

  • Felhasználás: A Power BI a Lakehouse-ból származó adatokat használhatja fel jelentéskészítéshez és vizualizációhoz. Minden Lakehouse rendelkezik egy beépített TDS-végponttal, az SQL Analytics-végponttal , a más jelentéskészítési eszközökből származó Lakehouse-táblák adatainak egyszerű összekapcsolása és lekérdezése érdekében. Az SQL Analytics-végpont biztosítja a felhasználók számára az SQL-kapcsolat funkcióit.

Mintaadatkészlet

Ez az oktatóanyag a Wide World Importers (WWI) mintaadatbázist használja. A Lakehouse végpontok közötti forgatókönyvéhez elegendő adatot hoztunk létre a Fabric platform méretezési és teljesítménybeli képességeinek megismeréséhez.

A Wide World Importers (WWI) egy nagykereskedelmes termékimportátor és forgalmazó, amely a San Francisco-öböl térségéből működik. Nagykereskedőként a WWI ügyfelei többnyire magánszemélyeknek értékesítő vállalatok. WWI értékesíti a kiskereskedelmi ügyfelek az egész Egyesült Államok beleértve a speciális üzletek, szupermarketek, számítástechnikai üzletek, turisztikai attrakciós üzletek, és néhány személy. A WWI más nagykereskedőknek is értékesít ügynökök hálózatán keresztül, akik a WWI nevében reklámozzák a termékeket. A vállalati profiljukról és működésükről további információt a Microsoft SQL-hez készült Wide World Importers mintaadatbázisokban talál.

Az adatok általában tranzakciós rendszerekből vagy üzletági alkalmazásokból kerülnek egy lakehouse-ba. Ebben az oktatóanyagban azonban az egyszerűség kedvéért a WWI által biztosított dimenziómodellt használjuk kezdeti adatforrásként. Forrásként használjuk az adatok tóházba való betöltéséhez és átalakításához egy medál architektúra különböző szakaszaiban (Bronz, Ezüst és Arany).

Adatmodell

Bár a WWI dimenziómodell számos ténytáblát tartalmaz, ehhez az oktatóanyaghoz az Sale ténytáblát és annak korrelált dimenzióit használjuk. Az alábbi példa a WWI adatmodellt szemlélteti:

Az oktatóanyag adatmodelljének Értékesítési tény táblájának és kapcsolódó dimenzióinak diagramja.

Adat- és átalakítási folyamat

A korábban ismertetett módon a Wide World Importers (WWI) mintaadatait használjuk a végpontok közötti tóház létrehozásához. Ebben a megvalósításban a mintaadatok egy Azure Data Storage-fiókban lesznek tárolva Parquet-fájlformátumban az összes tábla esetében. A valós helyzetekben azonban az adatok általában különböző forrásokból és különböző formátumokból származnak.

Az alábbi képen a forrás, a cél és az adatátalakítás látható:

Diagram a Microsoft Fabricben az adatfolyamok és az átalakítások módjáról.

  • Adatforrás: A forrásadatok Parquet-fájlformátumban és nem particionált struktúrában jelennek meg. Minden tábla mappájában van tárolva. Ebben az oktatóanyagban beállítunk egy folyamatot, amely betölti a teljes előzmény- vagy egyszeri adatokat a lakehouse-ba.

    Ebben az oktatóanyagban a Sale ténytáblát használjuk, amely egy szülőmappával rendelkezik, amely 11 hónap előzményadatait tartalmazza (minden hónaphoz egy almappával), egy másik pedig három hónap növekményes adatokat tartalmazó mappájával (minden hónap egy almappájával). A kezdeti adatbetöltés során 11 hónapnyi adat kerül be a lakehouse-táblába. Amikor azonban a növekményes adatok megérkeznek, az okt és a nov frissített adatokat tartalmaz, és a dec. okt. és a nov adatok új adatai egyesülnek a meglévő adatokkal, és az új Dec-adatok a lakehouse-táblába lesznek írva az alábbi képen látható módon:

    Diagram, amely bemutatja, hogy a módosított adatok hogyan egyesíthetők növekményesen az eredetileg betöltött adatokkal egy tóházban.

  • Lakehouse: Ebben az oktatóanyagban létrehoz egy tóházat, betölti az adatokat a tóház fájlszakaszába, majd delta lake-táblákat hoz létre a tóház Táblák szakaszában.

  • Átalakítás: Az adatok előkészítéséhez és átalakításához két különböző megközelítés jelenik meg. Bemutatjuk a Jegyzetfüzetek/Spark használatát azoknak a felhasználóknak, akik a kód első felhasználói élményét részesítik előnyben, és folyamatokat/adatfolyamokat használnak az alacsony kódhasználatot vagy a kód nélküli felhasználói élményt előnyben részesítő felhasználók számára.

  • Felhasználás: Az adatfelhasználás bemutatásához láthatja, hogyan használhatja a Power BI DirectLake funkcióját jelentések, irányítópultok és adatok közvetlen lekérdezésére a lakehouse-ból. Emellett azt is bemutatjuk, hogyan teheti elérhetővé adatait külső jelentéskészítő eszközök számára a TDS/SQL Analytics-végpont használatával. Ezzel a végponttal csatlakozhat a raktárhoz, és SQL-lekérdezéseket futtathat elemzés céljából.

Következő lépés