A Lakehouse végpontok közötti forgatókönyve: áttekintés és architektúra
A Microsoft Fabric egy teljes körű elemzési megoldás a nagyvállalatok számára, amely az adatáthelyezéstől az adatelemzésen át a valós idejű elemzésig és az üzleti intelligenciaig mindent lefed. Átfogó szolgáltatáscsomagot kínál, beleértve a data lake-t, az adatelemzést és az adatintegrációt, mindezt egy helyen. További információ: Mi a Microsoft Fabric?
Ez az oktatóanyag végigvezeti egy végpontok közötti forgatókönyvön az adatgyűjtéstől az adatfelhasználásig. Segít felépíteni a Fabric alapszintű ismeretét, beleértve a különböző élményeket és azok integrálását, valamint az ezen a platformon végzett munkával kapcsolatos szakmai és állampolgári fejlesztői tapasztalatokat. Ez az oktatóanyag nem referenciaarchitektúra, a funkciók és funkciók teljes listája, vagy konkrét ajánlott eljárásokra vonatkozó javaslat.
A Lakehouse végpontok közötti forgatókönyve
A szervezetek hagyományosan modern adattárházakat építenek a tranzakciós és strukturált adatelemzési igényeiknek megfelelően. A big data (félig/strukturálatlan) adatelemzéshez szükséges data lakehouse-ok. Ez a két rendszer párhuzamosan futott, silókat, adatkettőződést és nagyobb teljes bekerülési költséget eredményezett.
A Fabric az adattár egyesítésével és a Delta Lake-formátum szabványosításával lehetővé teszi a silók eltávolítását, az adatreplikációk eltávolítását és a tulajdonjog teljes költségének drasztikus csökkentését.
A Fabric által kínált rugalmassággal implementálhatja a lakehouse- vagy adattárház-architektúrákat, vagy kombinálhatja őket, hogy a lehető legjobbat hozza ki mindkettőből az egyszerű implementációval. Ebben az oktatóanyagban egy kiskereskedelmi szervezet példáját fogjuk felhozni, és az elejétől a végéig felépítjük a lakehouse-t. A medál architektúrát használja, ahol a bronz réteg nyers adatokat, az ezüst réteg az érvényesített és deduplikált adatokat, az aranyréteg pedig rendkívül finomított adatokat. Ugyanezzel a megközelítéssel implementálhat egy lakehouse-t bármely iparágból származó szervezet számára.
Ez az oktatóanyag bemutatja, hogyan hajtja végre a következő lépéseket a kiskereskedelmi tartomány fiktív Wide World Importers vállalatának fejlesztője:
Jelentkezzen be Power BI-fiókjába, és regisztráljon az ingyenes Microsoft Fabric-próbaverzióra. Ha nem rendelkezik Power BI-licenccel, regisztráljon ingyenes Power BI-licencre, és indítsa el a Fabric próbaverzióját.
Hozzon létre és implementáljon egy végpontok közötti lakehouse-t a szervezet számára:
- Hozzon létre egy Háló-munkaterületet.
- Hozzon létre egy tóházat.
- Adatok betöltése, adatok átalakítása és betöltése a tóházba. Emellett megismerheti a OneLake-t, az adatok egy példányát a Lakehouse-módban és az SQL Analytics végpontmódban.
- Csatlakozzon a lakehouse-hoz az SQL Analytics-végponttal, és hozzon létre egy Power BI-jelentést a DirectLake használatával az értékesítési adatok különböző dimenziók közötti elemzéséhez.
- Igény szerint vezényelheti és ütemezheti az adatbetöltési és átalakítási folyamatot egy folyamattal.
Törölje az erőforrásokat a munkaterület és más elemek törlésével.
Architektúra
Az alábbi képen a lakehouse végpontok közötti architektúra látható. Az érintett összetevőket az alábbi listában ismertetjük.
Adatforrások: A Fabric segítségével gyorsan és egyszerűen csatlakozhat az Azure Data Serviceshez, valamint más felhőalapú platformokhoz és helyszíni adatforrásokhoz az egyszerűbb adatbetöltés érdekében.
Betöltés: Több mint 200 natív összekötő használatával gyorsan létrehozhat elemzéseket a szervezet számára. Ezek az összekötők integrálva vannak a Háló folyamatba, és a felhasználóbarát húzással történő adatátalakítást használják adatfolyamokkal. Emellett a Háló billentyűparancs funkciójával anélkül csatlakozhat a meglévő adatokhoz, hogy át kellene másolnia vagy áthelyeznie.
Átalakítás és tárolás: A Fabric delta Lake formátumban szabványosít. Ez azt jelenti, hogy a Fabric-motorok az adatok duplikálása nélkül is elérhetik és kezelhetik a OneLake-ben tárolt adatkészleteket. Ez a tárolórendszer rugalmasságot biztosít a tóházak medál architektúra vagy adatháló használatával történő összeállításához a szervezeti követelményektől függően. Az adatátalakításhoz alacsony kódszámú vagy kód nélküli felhasználói felület közül választhat, amely folyamatokat/adatfolyamokat vagy jegyzetfüzeteket/Sparkot használ a kód első verziójához.
Felhasználás: A Power BI a Lakehouse-ból származó adatokat használhatja fel jelentéskészítéshez és vizualizációhoz. Minden Lakehouse rendelkezik egy beépített TDS-végponttal, az SQL Analytics-végponttal , a más jelentéskészítési eszközökből származó Lakehouse-táblák adatainak egyszerű összekapcsolása és lekérdezése érdekében. Az SQL Analytics-végpont biztosítja a felhasználók számára az SQL-kapcsolat funkcióit.
Mintaadatkészlet
Ez az oktatóanyag a Wide World Importers (WWI) mintaadatbázist használja, amelyet a következő oktatóanyagban importál a lakehouse-ba. A Lakehouse végpontok közötti forgatókönyvéhez elegendő adatot hoztunk létre a Fabric platform méretezési és teljesítménybeli képességeinek megismeréséhez.
A Wide World Importers (WWI) egy nagykereskedelmes termékimportátor és forgalmazó, amely a San Francisco-öböl térségéből működik. Nagykereskedőként a WWI ügyfelei többnyire magánszemélyeknek értékesítő vállalatok. WWI értékesíti a kiskereskedelmi ügyfelek az egész Egyesült Államok beleértve a speciális üzletek, szupermarketek, számítástechnikai üzletek, turisztikai attrakciós üzletek, és néhány személy. A WWI más nagykereskedőknek is értékesít ügynökök hálózatán keresztül, akik a WWI nevében reklámozzák a termékeket. A vállalati profiljukról és működésükről további információt a Microsoft SQL-hez készült Wide World Importers mintaadatbázisokban talál.
Az adatok általában tranzakciós rendszerekből vagy üzletági alkalmazásokból kerülnek egy lakehouse-ba. Ebben az oktatóanyagban azonban az egyszerűség kedvéért a WWI által biztosított dimenziómodellt használjuk kezdeti adatforrásként. Forrásként használjuk az adatok tóházba való betöltéséhez és átalakításához egy medál architektúra különböző szakaszaiban (Bronz, Ezüst és Arany).
Adatmodell
Bár a WWI dimenziómodell számos ténytáblát tartalmaz, ehhez az oktatóanyaghoz az Sale ténytáblát és annak korrelált dimenzióit használjuk. Az alábbi példa a WWI adatmodellt szemlélteti:
Adat- és átalakítási folyamat
A korábban ismertetett módon a Wide World Importers (WWI) mintaadatait használjuk a végpontok közötti tóház létrehozásához. Ebben a megvalósításban a mintaadatok egy Azure Data Storage-fiókban lesznek tárolva Parquet-fájlformátumban az összes tábla esetében. A valós helyzetekben azonban az adatok általában különböző forrásokból és különböző formátumokból származnak.
Az alábbi képen a forrás, a cél és az adatátalakítás látható:
Adatforrás: A forrásadatok Parquet-fájlformátumban és nem particionált struktúrában jelennek meg. Minden tábla mappájában van tárolva. Ebben az oktatóanyagban beállítunk egy folyamatot, amely betölti a teljes előzmény- vagy egyszeri adatokat a lakehouse-ba.
Ebben az oktatóanyagban a Sale ténytáblát használjuk, amely egy szülőmappával rendelkezik, amely 11 hónap előzményadatait tartalmazza (minden hónaphoz egy almappával), egy másik pedig három hónap növekményes adatokat tartalmazó mappájával (minden hónap egy almappájával). A kezdeti adatbetöltés során 11 hónapnyi adat kerül be a lakehouse-táblába. Amikor azonban a növekményes adatok megérkeznek, az okt és a nov frissített adatokat tartalmaz, és a dec. okt. és a nov adatok új adatai egyesülnek a meglévő adatokkal, és az új Dec-adatok a lakehouse-táblába lesznek írva az alábbi képen látható módon:
Lakehouse: Ebben az oktatóanyagban létrehoz egy tóházat, betölti az adatokat a tóház fájlszakaszába, majd delta lake-táblákat hoz létre a tóház Táblák szakaszában.
Átalakítás: Az adatok előkészítéséhez és átalakításához két különböző megközelítés jelenik meg. Bemutatjuk a Jegyzetfüzetek/Spark használatát azoknak a felhasználóknak, akik a kód első felhasználói élményét részesítik előnyben, és folyamatokat/adatfolyamokat használnak az alacsony kódhasználatot vagy a kód nélküli felhasználói élményt előnyben részesítő felhasználók számára.
Felhasználás: Az adatfelhasználás bemutatásához láthatja, hogyan használhatja a Power BI DirectLake funkcióját jelentések, irányítópultok és adatok közvetlen lekérdezésére a lakehouse-ból. Emellett azt is bemutatjuk, hogyan teheti elérhetővé adatait külső jelentéskészítő eszközök számára a TDS/SQL Analytics-végpont használatával. Ezzel a végponttal csatlakozhat a raktárhoz, és SQL-lekérdezéseket futtathat elemzés céljából.