Jaa


Lakehousen päästä päähän -skenaario: yleiskatsaus ja arkkitehtuuri

Microsoft Fabric on yrityksille tarkoitettu all-in-one-analytiikkaratkaisu, joka kattaa kaiken tietojen siirtämisen datatieteeseen, reaaliaikaiseen analytiikkaan ja liiketoimintatietoihin. Se tarjoaa kattavan palvelupaketin, kuten Data Lake -tallennustilan, tietotekniikan ja tietojen integroinnin, ja kaikki tämä on mahdollista. Lisätietoja on ohjeartikkelissa Mikä On Microsoft Fabric?

Tässä opetusohjelmassa käydään läpi alusta loppuun -skenaario tietojen hankinnasta tietojen kulutukseen. Sen avulla voit kehittää Fabricista perusymmärrystä, kuten sen eri käyttökokemuksista ja integrointikokemuksista sekä tähän alustaan perustuvia ammattilais- ja kansalaiskehittäjäkokemuksia. Tätä opetusohjelmaa ei ole tarkoitettu viitearkkitehtuuriksi, tyhjentäväksi ominaisuuksien ja toimintojen luetteloksi tai suositteltavaksi parhaista käytännöistä.

Lakehousen päästä päähän -skenaario

Organisaatiot ovat perinteisesti luoneet nykyaikaisia tietovarastoja tapahtumakohtaisia ja jäsenneltyjä tietoanalytiikkatarpeitaan varten. Tietovarastot massadatan (osittain/rakenteettomien) data-analytiikkatarpeiden täyttämiselle. Nämä kaksi järjestelmää toimi rinnakkain, ja ne loivat siiloja, tietojen päällekkäisyyttä ja kasvattivat omistajuuden kokonaiskustannuksia.

Kangas ja sen tietojen tallennus ja standardointi Delta Lake -muodossa mahdollistavat siilojen poistamisen, tietojen päällekkäisyyden poistamisen ja omistuskustannusten rajun pienentämisen.

Fabricin tarjoaman joustavuuden ansiosta voit toteuttaa joko Lakehouse- tai tietovarastoarkkitehtuureja tai yhdistää ne yhteen, jotta kummatkin niistä voidaan hyötyä yksinkertaisella toteutuksella. Tässä opetusohjelmassa tutustut esimerkkinä jälleenmyyntiorganisaatioon ja rakennat sen Lakehousen alusta loppuun. Se käyttää mitaliarkkitehtuuria , jossa pronssikerroksessa on raakadataa, hopeakerroksessa on vahvistetut ja deduplicoidut tiedot ja kultakerroksessa on erittäin tarkennettuja tietoja. Voit käyttää samaa lähestymistapaa ottaaksesi käyttöön lakehousen mille tahansa organisaatiolle mistä tahansa toimialasta.

Tässä opetusohjelmassa kerrotaan, miten kuvitteellisen Wide World Importers -yrityksen jälleenmyyntitoimialueen kehittäjä suorittaa seuraavat vaiheet:

  1. Kirjaudu sisään Power BI -tilillesi ja rekisteröi ilmainen Microsoft Fabric -kokeiluversio. Jos sinulla ei ole Power BI -käyttöoikeutta, rekisteröidy maksuttomaan Power BI -käyttöoikeuteen ja voit aloittaa Fabric-kokeilun.

  2. Luo ja toteuta päästä päähän -lakehouse organisaatiollesi:

    • Luo Fabric-työtila.
    • Luo lakehouse.
    • Tietojen käyttö, tietojen muuntaminen ja lataaminen Lakehouse-järjestelmään. Voit myös tutustua OneLakeen, joka on yksi kopio tiedoistasi Lakehouse-tilassa ja SQL-analytiikan päätepistetilassa.
    • Yhdistä Lakehouseen SQL-analytiikan päätepisteen avulla ja Luo Power BI -raportti DirectLaken avulla analysoidaksesi myyntitietoja eri ulottuvuuksissa.
    • Vaihtoehtoisesti voit järjestää ja ajoittaa tietojen käsittely- ja muunnostyönkulun putkella.
  3. Tyhjennä resurssit poistamalla työtila ja muut kohteet.

Arkkitehtuuri

Seuraavassa kuvassa näkyy Lakehousen päästä päähän -arkkitehtuuri. Osatekijät on kuvattu seuraavassa luettelossa.

Kaavio Microsoft Fabric -lakehousen päästä päähän -arkkitehtuurista.

  • Tietolähteet: Fabric tekee yhteyden muodostamisesta Azure Data Servicesiin sekä muihin pilvipohjaisiin alustoihin ja paikallisiin tietolähteisiin nopeaa tietojen käsittelylle.

  • Tietojen käsittely: Voit luoda nopeasti merkityksellisiä tietoja organisaatiollesi käyttämällä yli 200 alkuperäistä liitintä. Nämä liittimet on integroitu Fabric-putkeen, ja ne hyödyntävät käyttäjäystävällistä tietojen vetämiseen ja pudottamiseen liittyvää muunnosta tietovuon kanssa. Lisäksi Fabric-pikakuvake-ominaisuuden avulla voit muodostaa yhteyden olemassa oleviin tietoihin ilman, että niitä tarvitsee kopioida tai siirtää.

  • Muunna ja varastoi: Kangas standardoi Delta Lake -muodossa. Tämä tarkoittaa sitä, että kaikki Fabric-moottorit voivat käyttää ja käsitellä samaa OneLakeen tallennettua tietojoukkoa kopioimatta tietoja. Tämä tallennusjärjestelmä tarjoaa mahdollisuuden rakentaa lakehouse-taloja käyttämällä mitaliarkkitehtuuria tai tietoverkkoa organisaation tarpeiden mukaan. Voit valita tietojen muuntamiseen vähäisen koodin tai kooditon käyttökokemuksen hyödyntämällä joko putkia/tietovoita tai muistikirjaa/Sparkia, niin että saat koodin ensin.

  • Kuluta: Power BI voi käyttää Lakehousesta peräisin olevia tietoja raportointia ja visualisointia varten. Each Lakehousessa on sisäinen TDS-päätepiste, jota kutsutaan SQL-analytiikan päätepisteeksi helpon yhdistettävyyden ja Lakehouse-taulukoiden tietojen kyselyn helpottamiseksi muilla raportointityökaluilla. SQL-analytiikan päätepiste tarjoaa käyttäjille SQL-yhteystoiminnot.

Mallitietojoukko

Tässä opetusohjelmassa käytetään Wide World Importers (WWI) -mallitietokantaa. Lakehousen päästä päähän -skenaariota varten olemme luoneet riittävästi tietoja Fabric-ympäristön skaalautuvuus- ja suorituskykyominaisuuksien tutkimiseen.

Wide World Importers (WWI) on san franciscolaisen lahden alueelta toimiva uutuustuotteiden tukkutuoja ja jakelija. Tukkumyyjänä WWI:n asiakkaisiin kuuluu enimmäkseen yrityksille, jotka myyvät yksityishenkilöille. WWI myy vähittäisasiakkaille ympäri Yhdysvaltoja, mukaan lukien erikoiskaupat, supermarketit, tietojenkäsittelykaupat, turistikohdekaupat ja jotkut yksilöt. WWI myy myös muille tukkukauppiaille WWI:n puolesta tuotteita mainostavien agenttiverkoston kautta. Lisätietoja yrityksen profiilista ja toiminnasta on artikkelissa Wide World Importers -mallitietokannat Microsoft SQL:lle.

Yleisesti ottaen tiedot tuodaan tapahtumajärjestelmistä tai toimialakohtaisista sovelluksista Lakehouse-järjestelmään. Tässä opetusohjelmassa yksinkertaisuuden vuoksi käytämme kuitenkin WWI:n tarjoamaa dimensiomallia ensimmäisenä tietolähteenä. Käytämme sitä lähteenä tietojen käytölle lakehouse-järjestelmään ja sen muuntamiseen mitalistiarkkitehtuurin eri vaiheiden (pronssi, hopea ja kulta) kautta.

Tietomalli

Vaikka WWI-dimensiomalli sisältää useita faktataulukoita, tässä opetusohjelmassa käytämme Myynti-faktataulukkoa ja sen korreloituja dimensioita. Seuraavassa esimerkissä havainnollistetaan WWI-tietomalli:

Myyntitietotaulukon kaavio ja siihen liittyvät dimensiot tämän opetusohjelman tietomallille.

Tietojen ja muunnoksen työnkulku

Kuten aiemmin kuvattiin, käytämme otostietoja, jotka ovat peräisin Wide World Importers (WWI) -mallitiedoista tämän päästä päähän -lakehouse-mallin rakentamiseen. Tässä toteutuksessa mallitiedot tallennetaan Azure-tietojen tallennustilille Parquet-tiedostomuotoon kaikille taulukoille. Reaalimaailman skenaarioissa tiedot ovat kuitenkin yleensä peräisin eri lähteistä ja monipuolisista muodoista.

Seuraavassa kuvassa näytetään lähde, kohde ja tietojen muunnos:

Kaavio tietojen työnkulusta ja muuntamisesta Microsoft Fabricissa.

  • Tietolähde: Lähdetiedot ovat Parquet-tiedostomuodossa ja rakenteeton. Ne tallennetaan kansioon kullekin taulukolle. Tässä opetusohjelmassa loimme putken, jonka avulla lakehousen täydelliset historialliset tai yhden kerran tiedot käsitellään.

    Tässä opetusohjelmassa käytämme Myynti-faktataulukkoa , jossa on yksi pääkansio, jossa on historialliset tiedot 11 kuukaudelta (yksi alikansio kullekin kuukaudelle) ja toista kansiota, joka sisältää lisääviä tietoja kolmelta kuukaudelta (yksi alikansio kullekin kuukaudelle). Ensimmäisen tietojen käsittelyssä Lakehouse-taulukkoon lisätään 11 kuukauden tiedot. Kuitenkin kun lisäävät tiedot saapuvat, se sisältää päivitetyt tiedot loka- ja marraskuulle, ja uudet tiedot joulu-lokakuuta ja marraskuun tietoja yhdistetään olemassa oleviin tietoihin ja uudet joulukuun tiedot kirjoitetaan Lakehouse-taulukkoon seuraavassa kuvassa esitetyllä tavalla:

    Kaavio, joka näyttää, miten muuttuneet tiedot voidaan yhdistää asteittain alun perin sisäänotettuihin tietoihin lakehousessa.

  • Lakehouse: Tässä opetusohjelmassa luot lakehousen, käytät tietoja Lakehousen tiedostot-osioon ja luot sitten Delta Lake -taulukot Lakehousen Taulukot-osassa.

  • Muunna: Kun kyseessä on tietojen valmistelu ja muuntaminen, näet kaksi eri lähestymistapaa. Esittelemme Muistikirjojen/Sparkin käyttöä käyttäjille, jotka haluavat käyttää koodia ensin -kokemusta ja putkia/tietovuota käyttäjille, jotka haluavat käyttää vain vähän koodia tai ei koodia.

  • Kulutus: Tietojen kulutuksen havainnollistamiseksi näet, miten voit käyttää Power BI:n DirectLake-ominaisuutta raporttien, koontinäyttöjen ja tietojen suoran kyselyn luomiseen Lakehousesta. Lisäksi näytämme, miten voit tuoda tietosi kolmansien osapuolten raportointityökalujen saataville TDS/SQL-analytiikan päätepisteen avulla. Tämän päätepisteen avulla voit muodostaa yhteyden varastoon ja suorittaa SQL-kyselyjä analysointia varten.

Seuraava vaihe