Jaa


Ota käyttöön medallion Lakehouse -arkkitehtuuri Microsoft Fabricissa

Tässä artikkelissa esitellään medallion Lake -arkkitehtuuri ja kuvataan, miten voit ottaa käyttöön Lakehouse-palvelun Microsoft Fabricissa. Se on kohdistettu useille käyttäjäryhmille:

  • Tietoteknikot: Tekninen henkilöstö, joka suunnittelee, luo ja ylläpitää infrastruktuureja ja järjestelmiä, joiden avulla organisaatio voi kerätä, tallentaa, käsitellä ja analysoida suuria tietomääriä.
  • Center of Excellence, IT ja BI-tiimi: Tiimit, jotka vastaavat analytiikan valvonnasta koko organisaatiossa.
  • Fabric-järjestelmänvalvojat: Järjestelmänvalvojat, jotka vastaavat Fabricin valvonnasta organisaatiossa.

Medallion Lakehouse -arkkitehtuuri, jota kutsutaan yleisesti mitaliarkkitehtuuriksi, on suunnittelumalli, jota organisaatiot käyttävät tietojen loogiseen järjestämiseen lakehouse-järjestelmään. Se on Fabricille suositeltu suunnittelutapa.

Medallion-arkkitehtuuri koostuu kolmesta erillisestä kerroksesta eli vyöhykkeestä. Kukin kerros ilmaisee lakehouse-järjestelmään tallennettujen tietojen laatua, ja korkeammat tasot edustavat korkeampaa laatua. Tämä monikerroksinen lähestymistapa auttaa sinua luomaan yhden ainoan totuuden lähteen yrityksen tietotuotteille.

Tärkeää on, että mitaliarkkitehtuuri takaa ACID-ominaisuudet (atomisuus, johdonmukaisuus, eristys ja kestävyys), kun tiedot etenevät tasojen läpi. Raakadatasta aloittaen joukko vahvistuksia ja muunnoksia valmistelee tiedot, jotka on optimoitu tehokasta analysointia varten. Vaiheita on kolme: pronssi (raaka), hopea (validoitu) ja kulta (täydennetty).

Lisätietoja on artikkelissa Mikä on medallion Lakehouse -arkkitehtuuri?.

OneLake ja Lakehouse in Fabric

Modernin tietovaraston perusta on Data Lake -tallennustila. Microsoft OneLake, joka on yksi, yhdistetty looginen Data Lake -tallennustila koko organisaatiolle. Se valmistellaan automaattisesti jokaisen Fabric-vuokraajan yhteydessä, ja se on suunniteltu vastaamaan kaikkia analyysitietojasi yhdessä paikassa.

OneLaken avulla voit tehdä seuraavaa:

  • Poista siilot ja vähennä hallintatyötä. Kaikki organisaation tiedot tallennetaan, niitä hallitaan ja suojataan yhdessä Data Lake -resurssissa. Koska OneLake on valmistelty Fabric-vuokraajassasi, resursseja ei ole enää valmistettavaksi tai hallittavaksi.
  • Vähentää tietojen siirtämistä ja päällekkäisyyttä. OneLaken tavoitteena on tallentaa vain yksi tietojen kopio. Tietojen pienempi kopioiden määrä johtaa pienempiin tietojen siirtoprosesseihin, mikä johtaa tehokkuuden kasvuun ja monimutkaisuuden vähenemiseen. Voit tarvittaessa luoda pikakuvakkeen, joka viittaa muihin sijainteihin tallennettuihin tietoihin sen sijaan, että kopioisit ne OneLakeen.
  • Käytetään useiden analyysimoottorien kanssa. OneLaken tiedot tallennetaan avoimeen muotoon. Näin eri analyyttiset moottorit, kuten Analysis Services (Power BI:n käyttämä), T-SQL ja Apache Spark, voivat tehdä kyselyjä tiedoille. Myös muut ei-Fabric-sovellukset voivat käyttää OneLakea ohjelmointirajapintojen ja SDK:iden avulla.

Lisätietoja on kohdassa OneLake ja OneDrive for Data.

Jos haluat tallentaa tietoja OneLakeen , luo lakehouse Fabricissa. Lakehouse on tietojen arkkitehtuuriympäristö, jolla voidaan tallentaa, hallita ja analysoida jäsennettyjä ja jäsentämättömiä tietoja yhdessä sijainnissa. Se voidaan helposti skaalata suuriin tietomääriin, jotka sisältävät kaikki tiedostotyypit ja koot. Koska se on tallennettu yhteen sijaintiin, se jaetaan ja käytetään helposti uudelleen koko organisaatiossa.

Jokaisella Lakehousella on sisäinen SQL-analytiikan päätepiste, joka avaa tietovaraston ominaisuudet ilman, että tietoja tarvitsee siirtää. Tämä tarkoittaa sitä, että voit tehdä kyselyjä lakehouse-järjestelmässä käyttämällä SQL-kyselyjä ja ilman erityisiä määrityksiä.

Lisätietoja on ohjeartikkelissa Mikä on Lakehouse Microsoft Fabricissa?.

Taulukot ja tiedostot

Kun luot Lakehousen Fabricissa, kaksi fyysistä tallennuspaikkaa valmistellaan automaattisesti taulukoille ja tiedostoille.

  • Taulukot on hallittu alue kaikkien muotojen taulukoiden isännöintiin Apache Sparkissä (CSV, Parquet tai Delta). Kaikki taulukot, riippumatta siitä, onko ne luotu automaattisesti tai eksplisiittisesti, tunnistetaan Lakehouse-järjestelmän taulukoiksi. Lisäksi kaikki Delta-taulukot, jotka ovat Parquet-datatiedostoja, joissa on tiedostopohjainen tapahtumaloki, tunnistetaan myös taulukoiksi.
  • Tiedostot ovat hallitsematon alue missä tahansa tiedostomuodossa olevien tietojen tallentamiseen. Tälle alueelle tallennettuja Delta-tiedostoja ei tunnisteta automaattisesti taulukoiksi. Jos haluat luoda taulukon Delta Lake -kansion ylle hallitsemattomalla alueella, sinun on eksplisiittisesti luotava pikakuvake tai ulkoinen taulukko, jonka sijainti osoittaa hallitsemattomaan kansioon, joka sisältää Apache Sparkin Delta Lake -tiedostot.

Tärkein ero hallittujen alueiden (taulukoiden) ja hallitsemattoman alueen (tiedostojen) välillä on automaattinen taulukon etsiminen ja rekisteröintiprosessi. Tämä prosessi suoritetaan kaikille kansioille, jotka on luotu vain hallitulla alueella, mutta ei hallitsemattomalla alueella.

Microsoft Fabricissa Lakehouse Explorer tarjoaa yhtenäisen graafisen esityksen koko Lakehousesta, jotta käyttäjät voivat selata, käyttää ja päivittää tietojaan.

Jos haluat lisätietoja automaattisesta taulukon etsimisestä, katso Automaattinen taulukon etsiminen ja rekisteröinti.

Delta Lake Storage

Delta Lake on optimoitu tallennuskerros, joka luo perustan tietojen ja taulukoiden tallennukseen. Se tukee ACID-tapahtumia massadatakuormituksille, ja tästä syystä se on Fabric Lakehousen oletustallennusmuoto.

Tärkeää on se, että Delta Lake tarjoaa luotettavuutta, suojausta ja suorituskykyä Lakehousessa sekä suoratoisto- että erätoiminnoissa. Sisäisesti se tallentaa tiedot Parquet-tiedostomuotoon, mutta se ylläpitää myös tapahtumalokeja ja tilastotietoja, jotka tarjoavat ominaisuuksia ja suorituskyvyn parannuksia parquet-vakiomuotoon verrattuna.

Delta Lake -muoto yleisiin tiedostomuotoihin tuottaa seuraavat tärkeimmät edut.

  • Tuki ACID-ominaisuuksille ja erityisesti kestävyydelle tietojen vioittumisen estämiseksi.
  • Nopeammat lukukyselyt.
  • Lisääntynyt tietojen tuoreus.
  • Tuki sekä erä- että virtautuskuormituksille.
  • Tietojen palauttamisen tuki käyttämällä Delta Lake -aikamatkustusta.
  • Parannettu säädösten noudattaminen ja valvonta Delta Lake -taulukkohistorian avulla.

Fabric standardoi tallennustiedostomuodon Delta Lake -järvellä, ja oletuksena jokainen Fabric-kuormitusmoduuli luo Delta-taulukoita, kun kirjoitat tietoja uuteen taulukkoon. Lisätietoja on kohdassa Lakehouse- ja Delta Lake -taulukot.

Medallion-arkkitehtuuri Fabricissa

Medalliarkkitehtuurin tavoitteena on parantaa asteittain ja asteittain tietojen rakennetta ja laatua sen edetessä jokaisessa vaiheessa.

Medallion-arkkitehtuuri koostuu kolmesta erillisestä kerroksesta (tai vyöhykkeestä).

  • Pronssi: Tämä ensimmäinen kerros tallentaa lähdetiedot alkuperäisessä muodossaan. Sitä kutsutaan myös raakavyöhykkeeksi. Tämän tason tiedot ovat yleensä vain lisättäviä ja muuttumattomia.
  • Hopea: Tämä kerros tallentaa pronssikerroksesta peräisin olevat tiedot, jotka tunnetaan myös täydennettynä vyöhykkeenä. Raakatiedot on puhdistettu ja standardoitu, ja ne on nyt jäsennetty taulukoiksi (riveiksi ja sarakkeiksi). Se voidaan integroida myös muihin tietoihin, jotta voidaan tarjota yritysnäkymä kaikista liiketoimintaentiteeteistä, kuten asiakas, tuote ja muut.
  • Kulta: Tämä viimeinen kerros tallentaa hopeakerroksesta peräisin olevat tiedot, jotka tunnetaan myös kuratoituna vyöhykkeenä. Tietoja tarkennetaan, jotta ne täyttävät tietyt liiketoiminnan loppupään ja analytiikan vaatimukset. Taulukot noudattavat yleensä tähtirakennetta, joka tukee suorituskykyyn ja käytettävyyteen optimoitujen tietomallien kehittämistä.

Tärkeä

Koska Fabric lakehouse edustaa yhtä vyöhykettä, luot yhden lakehousen jokaiselle kolmesta vyöhykkeestä.

Kaavio esimerkki onelake-mitaliarkkitehtuurista, joka näyttää tietolähteet, valmistelee ja muuntaa pronssi-, hopea- ja kultakerroksilla sekä analysoi SQL-analytiikan päätepistettä ja Power BI:tä.

Tyypillisessä medallion-arkkitehtuurin toteutuksessa Fabricissa tiedot tallennetaan pronssivyöhykkeellä samaan muotoon kuin tietolähde. Kun tietolähde on relaatiotietokanta, Delta-taulukot ovat hyvä valinta. Hopea- ja kultavyöhykkeet sisältävät Delta-taulukoita.

Vihje

Jos haluat oppia luomaan Lakehousen, käy Läpi Lakehousen päästä päähän -skenaarion opetusohjelma.

Fabric Lakehouse -ohjeet

Tässä osiossa on ohjeita Fabric Lakehouse -järjestelmän toteuttamiseen medallion-arkkitehtuurin avulla.

Käyttöönottomalli

Jos haluat ottaa käyttöön mitalilioarkkitehtuurin Fabricissa, voit käyttää joko Lakehouse-taloja (yksi kutakin vyöhykettä kohden), tietovarastoa tai molempien yhdistelmää. Päätöksesi tulee perustua haluusi ja tiimisi asiantuntemukseen. Pidä mielessä, että Fabric tarjoaa joustavuutta: Voit käyttää eri analyysimodernisia modernia modernia toimintoa, joka toimii tietojen yhden kopion kanssa OneLakessa.

Kannattaa harkita kahta mallia.

  • Malli 1: Luo kukin vyöhyke lakehouse-vyöhykkeeksi. Tässä tapauksessa yrityskäyttäjät käyttävät tietoja SQL-analytiikan päätepisteen avulla.
  • Malli 2: Luo pronssi- ja hopeavyöhykkeet lakehouse-vyöhykkeiksi ja kultavyöhyke tietovarastoksi. Tässä tapauksessa yrityskäyttäjät käyttävät tietoja tietovaraston päätepisteen avulla.

Vaikka voit luoda kaikki Lakehouset yhdessä Fabric-työtilassa, suosittelemme, että luot jokaisen Lakehousen omassa, erillisessä Fabric-työtilassaan. Tämän lähestymistavan avulla voit valvoa ja parantaa hallintoa vyöhyketasolla.

Suosittelemme, että tallennat pronssivyöhykkeen tiedot alkuperäisessä muodossa tai käytät Parquet-järveä tai Delta Lake -järveä. Säilytä tiedot alkuperäisessä muodossaan aina, kun se on mahdollista. Jos lähdetiedot ovat peräisin OneLakesta, Azure Data Lake Store Gen2:sta (ADLS Gen2), Amazon S3:sta tai Googlesta, luo pronssivyöhykkeelle pikakuvake tietojen kopioimisen sijaan.

Hopea- ja kultavyöhykkeiden kohdalla suosittelemme, että käytät Delta-taulukoita niiden tarjoamien lisäominaisuuksien ja suorituskyvyn parannusten vuoksi. Fabric standardoi Delta Lake -muodossa, ja oletuksena jokainen Fabric-moduuli kirjoittaa tietoja tässä muodossa. Lisäksi nämä moottorit käyttävät V-Order-kirjoitusajan optimointia Parquet-tiedostomuotoon. Tämä optimointi mahdollistaa fabric-käsittelymoduulien, kuten Power BI:n, SQL:n, Apache Sparkin ja muiden, erittäin nopean lukemisen. Lisätietoja on kohdassa Delta Lake -taulukon optimointi ja V-järjestys.

Lopuksi vielä, monet organisaatiot kohtaavat valtavaa tietomäärien kasvua ja tarvetta järjestää ja hallita näitä tietoja loogisesti samalla kun helpotetaan kohdistettavampaa ja tehokkaampaa käyttöä ja hallintoa. Näin voit perustaa ja hallita hajautettua tai yhdistettyä tietoorganisaatiota hallinnon avulla.

Jos haluat saavuttaa tämän tavoitteen, harkitse tietoverkkoarkkitehtuurin toteutusta. Tietoverkko on arkkitehtoninen malli, jolla keskitytään luomaan tietotoimialueita, jotka tarjoavat tietoja tuotteena.

Voit luoda tietoverkkoarkkitehtuurin tietotilallesi Fabricissa luomalla tietotoimialueita. Voit luoda toimialueita, jotka yhdistetään yrityksesi toimialueisiin, kuten markkinointi, myynti, varasto, henkilöstöhallinto ja muut. Sen jälkeen voit ottaa käyttöön mitalilioarkkitehtuurin määrittämällä tietovyöhykkeet kuhunkin toimialueeseen.

Lisätietoja toimialueista on kohdassa Toimialueet.

Tutustu Delta-taulukon tietojen tallennustilaan

Tässä osiossa kuvataan muita ohjeaiheita, jotka liittyvät medallion Lakehouse -arkkitehtuurin toteuttamiseen Fabricissa.

Tiedoston koko

Yleensä massadataympäristö toimii paremmin, kun sillä on vain pieni määrä suuria tiedostoja suurten tiedostojen sijaan. Tämä johtuu siitä, että suorituskyky heikkenee, kun laskentamoduulin on hallittava useita metatietoja ja tiedostotoimintoja. Kyselyjen suorituskyvyn parantamiseksi suosittelemme, että tähtäät datatiedostoihin, joiden koko on noin 1 Gt.

Delta Lake -järvellä on ominaisuus nimeltä ennakoiva optimointi. Ennakoiva optimointi poistaa tarpeen hallita manuaalisesti Delta-taulukoiden ylläpitotoimia. Kun tämä ominaisuus on käytössä, Delta Lake tunnistaa automaattisesti taulukot, jotka hyötyvät ylläpitotoiminnoista, ja optimoi niiden tallennustilan. Se voi avoimesti yhdistää monia pienempiä tiedostoja suuriksi tiedostoiksi ilman vaikutusta muihin tietojen lukijoihin ja kirjoittajiin. Vaikka tämän ominaisuuden tulisi olla osa operatiivista huippuosaamistasi ja tietojen valmistelutyötäsi, Fabricilla on mahdollisuus optimoida nämä datatiedostot myös tietojen kirjoittamisen aikana. Lisätietoja on kohdassa Delta Lake -ympäristön ennakoiva optimointi.

Historiallinen säilytys

Oletusarvoisesti Delta Lake ylläpitää kaikkien tehtyjen muutosten historiaa, mikä tarkoittaa, että historiallisten metatietojen koko kasvaa ajan myötä. Sinun kannattaa pyrkiä pitämään historiatiedot vain tietyn ajan, jotta voit pienentää tallennuskustannuksia liiketoiminnan tarpeidesi mukaan. Harkitse historiallisten tietojen säilyttämistä vain viimeiselle kuukaudelle tai muulle sopivalle ajanjaksolle.

Voit poistaa vanhemmat historialliset tiedot Delta-taulukosta KÄYTTÄMÄLLÄ VACUUM-komentoa. Huomaa kuitenkin, että oletusarvoisesti et voi poistaa historiallisia tietoja viimeisten seitsemän päivän aikana, mikä säilyttää tietojen yhtenäisyyden. Päivien oletusmäärää hallitaan taulukko-ominaisuudella delta.deletedFileRetentionDuration = "interval <interval>". Siinä määritetään aika, jonka kuluttua tiedosto on poistettava, ennen kuin sitä voidaan pitää tyhjiötoiminnon hakijana.

Taulukon osiot

Suosittelemme, että käytät ositetun kansiorakenteen tietoja kullekin vyöhykkeelle aina, kun se on mahdollista. Tämä tekniikka auttaa parantamaan tietojen hallittavuutta ja kyselyn suorituskykyä. Yleensä ositetut tiedot kansiorakenteessa nopeuttavat tiettyjen tietomerkintöjen hakua osion poistamisen ja poistamisen ansiosta.

Yleensä tiedot liitetään kohdetaulukkoon uusien tietojen saapuessa. Joissakin tapauksissa saatat kuitenkin yhdistää tietoja, koska sinun on päivitettävä olemassa olevia tietoja samaan aikaan. Tässä tapauksessa voit suorittaa päivityslisäystoiminnon käyttämällä MERGE-komentoa. Kun kohdetaulukkosi on osioitu, muista käyttää osiosuodatinta toiminnon nopeuttamiseksi. Näin moduuli voi poistaa osiot, jotka eivät edellytä päivittämistä.

Tietojen käyttö

Lopuksi sinun on suunniteltava ja valvottava sitä, kuka tarvitsee pääsyn tiettyihin lakehouse-tietoihin. Sinun on myös ymmärrettävä eri tapahtumamallit, joita ne käyttävät käyttäessään näitä tietoja. Voit sitten määrittää oikean taulukon osiointimallin ja tietojen yhdistämisen Delta Lake Z-order -indekseillä.

Lisätietoja Fabric Lakehouse -järjestelmän toteuttamisesta on seuraavissa resursseissa.