A Lakehouse végpontok közötti forgatókönyve: áttekintés és architektúra
A Microsoft Fabric egy teljes körű elemzési megoldás vállalatok számára, amely az adatáthelyezési folyamattól az adatelemzésen át a valós idejű elemzésekig és az üzleti intelligenciaig mindent lefed. Átfogó szolgáltatáscsomagot kínál, beleértve a data lake-et, az adatfeldolgozást és az adatintegrációt, mindezt egy helyen. További információ: Mi a Microsoft Fabric?
Ez az oktatóanyag végigvezeti egy végpontok közötti forgatókönyvön az adatbeszerzéstől az adatfelhasználásig. Segít felépíteni a Fabric alapszintű ismeretét, beleértve a különböző élményeket és azok integrálásának módját, valamint az ezen a platformon végzett munkával kapcsolatos professzionális és civil fejlesztői tapasztalatokat. Ez az oktatóanyag nem referenciaarchitektúra, a funkciók és funkciók teljes listája, vagy konkrét ajánlott eljárásokra vonatkozó javaslat.
Fontos
A Microsoft Fabric előzetes verzióban érhető el.
A Lakehouse végpontok közötti forgatókönyve
A szervezetek hagyományosan modern adattárházakat építettek tranzakciós és strukturált adatelemzési igényeiknek megfelelően. A data lakehouse-ok pedig a big data (félig/strukturálatlan) adatelemzési igényekhez szükségesek. Ez a két rendszer párhuzamosan futott, silókat, adatkettőzetességet és megnövekedett teljes bekerülési költséget eredményezett.
A Fabric az adattár egységesítésével és a Delta Lake formátum szabványosításával lehetővé teszi a silók eltávolítását, az adatkettőzhetőség eltávolítását és a teljes bekerülési költség drasztikus csökkentését.
A Fabric által kínált rugalmassággal implementálhatja a lakehouse- vagy adattárház-architektúrákat, vagy kombinálhatja ezeket a kettőt, hogy a legjobbat hozza ki mindkettőből az egyszerű implementációval. Ebben az oktatóanyagban egy kiskereskedelmi szervezet példáját fogja használni, és az elejétől a végéig felépíti a tótárházát. A medallion architektúrát használja, ahol a bronz réteg nyers adatokat, az ezüst réteg érvényesített és deduplikált adatokat, az aranyréteg pedig nagymértékben finomított adatokat. Ugyanezt a megközelítést alkalmazhatja egy tótárház bármely iparágból származó szervezet számára történő implementálásához.
Ez az oktatóanyag bemutatja, hogyan hajtja végre a kiskereskedelmi tartományból a kitalált Wide World Importers vállalat fejlesztője a következő lépéseket:
Jelentkezzen be a Power BI-fiókjába, vagy ha még nem rendelkezik ilyen fiókkal, regisztráljon egy ingyenes próbaverzióra.
Egy végpontok közötti tótárház létrehozása és implementálása a szervezet számára:
- Háló munkaterület létrehozása
- Hozzon létre egy tótárházat. Tartalmaz egy opcionális szakaszt a bronz, ezüst és arany réteget tartalmazó medallion architektúra implementálásához.
- Adatok betöltése, adatok átalakítása és betöltése a tótárházba. Adatok betöltése a bronz, ezüst és arany zónákból Delta Lake-táblázatként. Emellett megismerheti az adatok OneLake- és OneCopy-objektumait a tó módban és a raktári módban is.
- Csatlakozzon a tótárházhoz TDS-/SQL-végponttal, és hozzon létre egy Power BI-jelentést a DirectLake használatával az értékesítési adatok különböző dimenziókban történő elemzéséhez.
- Igény szerint egy folyamattal is vezényelheti és ütemezheti az adatbetöltési és átalakítási folyamatot.
Törölje az erőforrásokat a munkaterület és más elemek törlésével.
Architektúra
Az alábbi képen a lakehouse végpontok közötti architektúra látható. Az érintett összetevőket az alábbiakban ismertetjük részletesen:
Adatforrások: A Fabric segítségével gyorsan és egyszerűen csatlakozhat az Azure Data Serviceshez, valamint más felhőalapú platformokhoz és helyszíni adatforrásokhoz az adatbetöltés leegyszerűsítése érdekében.
Betöltés: Több mint 200 natív összekötő használatával gyorsan létrehozhat elemzéseket a szervezet számára. Ezek az összekötők integrálva vannak a Háló folyamatba, és a felhasználóbarát húzási adatátalakítást használják adatfolyamokkal. Emellett a Háló Parancsikon funkciójával anélkül csatlakozhat meglévő adatokhoz, hogy át kellene másolnia vagy áthelyeznie azokat.
Átalakítás és tárolás: A háló a Delta Lake formátumot szabványosítja. Ez azt jelenti, hogy az összes Hálómotor hozzáférhet és kezelheti a OneLake-ben tárolt adathalmazt az adatok duplikálása nélkül. Ez a tárolórendszer rugalmasan építhet tóházakat medálarchitektúrával vagy adathálóval, a szervezeti követelményektől függően. Választhat az adatátalakítás alacsony kódú vagy kód nélküli élménye közül, ha folyamatokat/adatfolyamokat vagy notebookot/Sparkot használ egy kódelső felülethez.
Felhasználás: A Power BI felhasználhatja a Lakehouse-ból származó adatokat jelentéskészítéshez és vizualizációhoz. Mindegyik Lakehouse beépített TDS-/SQL-végponttal rendelkezik, így könnyen csatlakoztathatók és lekérdezhetők a Lakehouse-táblákban lévő adatok más jelentéskészítési eszközökről. Emellett egy Lakehouse létrehozásakor automatikusan létrejön egy Warehouse nevű másodlagos elem, amelynek neve megegyezik a Lakehouse nevével. A TDS/SQL-végpont funkcióit biztosítja a felhasználóknak.
Mintaadatkészlet
Ez az oktatóanyag a Wide World Importers (WWI) mintaadatbázist használja. A lakehouse végpontok közötti forgatókönyvéhez elegendő adatot hoztunk létre a Fabric platform méretezési és teljesítménybeli képességeinek megismeréséhez.
A Wide World Importers (WWI) egy nagykereskedelmi újdonságokat importáló és forgalmazó, amely a San Francisco-öböl térségéből működik. Nagykereskedőként a WWI ügyfelei többnyire magánszemélyeknek értékesítő vállalatokat tartalmaznak. WWI értékesít a kiskereskedelmi ügyfelek az egész Egyesült Államok beleértve a speciális üzletek, szupermarketek, számítástechnikai üzletek, turisztikai látványosság üzletek, és néhány személy. A WWI más nagykereskedőknek is értékesít ügynökök hálózatán keresztül, akik a WWI nevében reklámozják a termékeket. A vállalati profillal és működéssel kapcsolatos további információkért lásd: Wide World Importers mintaadatbázisok a Microsoft SQL-hez.
Az adatok általában tranzakciós rendszerekből vagy üzletági alkalmazásokból egy tótárházba kerülnek. Az oktatóanyag egyszerűsége érdekében azonban a WWI által biztosított dimenziós modellt fogjuk használni kezdeti adatforrásként. Forrásként használjuk az adatok tótárházba való betöltéséhez és átalakításához egy medallion architektúra különböző szakaszaiban (Bronz, Ezüst és Arany).
Adatmodell
Bár a WWI dimenziós modell számos ténytáblát tartalmaz, ebben az oktatóanyagban a Sale ténytáblát és annak korrelált dimenzióit fogjuk használni. Az alábbi példa a WWI-adatmodellt szemlélteti:
Adat- és átalakítási folyamat
Ahogy korábban említettük, a Wide World Importers (WWI) mintaadatait fogjuk használni ennek a végpontok közötti tótárháznak a létrehozásához. Ebben az implementációban a mintaadatok egy Azure Data Storage-fiókban lesznek tárolva Parquet-fájlformátumban az összes tábla esetében. A valós forgatókönyvekben azonban az adatok általában különböző forrásokból és különböző formátumokból származnak.
Az alábbi képen a forrás, a cél és az adatok átalakítása látható:
Adatforrás: A forrásadatok Parquet-fájlformátumban és nem particionált struktúrában találhatók. A rendszer minden tábla mappájában tárolja. Ebben az oktatóanyagban beállítunk egy folyamatot, amely betölti a teljes előzmény- vagy egyszeri adatokat a tótárházba.
A növekményes adatbetöltés képességeinek bemutatásához az oktatóanyag végén van egy opcionális oktatóanyagunk. Ebben az oktatóanyagban a Sale ténytáblát használjuk, amely egy szülőmappával rendelkezik 11 hónap előzményadataival (minden hónaphoz egy almappával), egy másik pedig három hónap növekményes adatait tartalmazó mappával (minden hónaphoz egy almappával). A kezdeti adatbetöltés során 11 hónapnyi adat kerül be a lakehouse táblába. Amikor azonban megérkezik a növekményes adat, az okt és a nov frissített adatokat tartalmaz, a dec. és a nov adatok pedig egyesítve lesznek a meglévő adatokkal, és az új Dec-adatok a lakehouse táblába lesznek írva az alábbi ábrán látható módon:
Tótárház: Ebben az oktatóanyagban létrehoz egy tótárházat, betölti az adatokat a tóház fájlok szakaszába, majd delta lake-táblákat hoz létre a tóház Táblák szakaszában. Talál egy opcionális oktatóanyagot, amely a tóház medálarchitektúrával való létrehozását ismerteti néhány javaslattal.
Átalakítás: Az adatok előkészítéséhez és átalakításához két különböző megközelítést fog látni. Bemutatjuk a Notebooks/Spark használatát azoknak a felhasználóknak, akik a kódelső felhasználói élményt részesítik előnyben, és folyamatokat/adatfolyamokat használnak az alacsony kódhasználatot vagy a kód nélküli használatot előnyben részesítő felhasználók számára.
Felhasználás: Az adatfelhasználás bemutatásához látni fogja, hogyan használhatja a Power BI DirectLake funkcióját jelentések, irányítópultok és adatok közvetlen lekérdezésére a tótárházból. Emellett bemutatjuk, hogyan teheti elérhetővé adatait a külső jelentéskészítő eszközök számára a TDS/SQL-végpont használatával. Ezzel a végponttal csatlakozhat a raktárhoz, és SQL-lekérdezéseket futtathat elemzés céljából.
Következő lépések
Folytassa a következő cikkel, amelyből megtudhatja, hogyan