Huomautus
Tämän sivun käyttö edellyttää valtuutusta. Voit yrittää kirjautua sisään tai vaihtaa hakemistoa.
Tämän sivun käyttö edellyttää valtuutusta. Voit yrittää vaihtaa hakemistoa.
Tässä artikkelissa esitellään medallion Lake -arkkitehtuuri ja kuvataan, miten voit toteuttaa suunnittelumallin Microsoft Fabricissa. Se on kohdistettu useille käyttäjäryhmille:
- Tietoteknikot: Tekninen henkilöstö, joka suunnittelee, luo ja ylläpitää infrastruktuureja ja järjestelmiä, joiden avulla organisaatio voi kerätä, tallentaa, käsitellä ja analysoida suuria tietomääriä.
- Center of Excellence, IT- ja BI-tiimit: Tiimit, jotka vastaavat analytiikan valvonnasta koko organisaatiossa.
- Fabric-järjestelmänvalvojat: Järjestelmänvalvojat, jotka vastaavat Fabricin valvonnasta organisaatiossa.
Medallion Lakehouse -arkkitehtuuri, jota kutsutaan yleisesti mitaliarkkitehtuuriksi, on suunnittelumalli, jota organisaatiot käyttävät tietojen loogiseen järjestämiseen lakehouse-järjestelmään. Se on Fabricille suositeltu suunnittelutapa. Koska OneLake on Fabric-data lake -tallennustila, mitaliarkkitehtuuria toteutetaan luomalla Lakehouse-taloja OneLakessa.
Medallion-arkkitehtuuri koostuu kolmesta erillisestä kerroksesta, joita kutsutaan myös vyöhykkeiksi. Kolme mitalikerrosta ovat: pronssi (raakadata), hopea (validoidut tiedot) ja kulta (täydennetty tieto). Kukin kerros ilmaisee lakehouse-järjestelmään tallennettujen tietojen laatua, ja korkeammat tasot edustavat korkeampaa laatua. Tämä monikerroksinen lähestymistapa auttaa sinua luomaan yhden ainoan totuuden lähteen yrityksen tietotuotteille.
Tärkeää on, että mitaliarkkitehtuuri takaa atomiarvon, yhdenmukaisuuden, eristyksen ja kestävyyden (ACID) tietojen edetessä tasojen läpi. Tietosi alkavat raakamuodossaan, ja sitten joukko vahvistuksia ja muunnoksia valmistelee tiedot optimoidakseen ne tehokasta analysointia varten säilyttäen samalla alkuperäiset kopiot totuuden lähteenä.
Lisätietoja on artikkelissa Mikä on medallion Lakehouse -arkkitehtuuri?.
Medallion-arkkitehtuuri Fabricissa
Medalliarkkitehtuurin tavoitteena on parantaa asteittain ja asteittain tietojen rakennetta ja laatua sen edetessä jokaisessa vaiheessa.
Medallion-arkkitehtuuri koostuu kolmesta erillisestä kerroksesta (tai vyöhykkeestä).
- Pronssi: Tätä kutsutaan myös raakavyöhykkeeksi. Ensimmäinen kerros tallentaa lähdetiedot alkuperäisessä muodossaan, mukaan lukien jäsentämättömät, puolirakenteiset tai jäsennettyt tietotyypit. Tämän tason tiedot ovat yleensä vain lisättäviä ja muuttumattomia. Säilyttämällä raakadatan pronssikerroksessa säilytät totuuden lähteen ja mahdollistat uudelleenkäsittelyn ja valvonnan tulevaisuudessa.
- Hopea: Tätä kerrosta kutsutaan myös täydennettyksi vyöhykkeeksi. Siihen tallennetaan pronssikerroksesta peräisin olevat tiedot. Tiedot on puhdistettu ja standardoitu, ja nyt ne on jäsennetty taulukoiksi (riveiksi ja sarakkeiksi). Se voidaan myös integroida muihin tietoihin, jotta voidaan tarjota yritysnäkymä kaikista liiketoimintaentiteeteistä, kuten asiakkaista, tuotteista ja niin edelleen.
- Kulta: Tätä lopullista kerrosta kutsutaan myös kuratoiduksi vyöhykkeeksi. Se tallentaa tiedot, jotka ovat peräisin hopeakerroksesta. Tietoja tarkennetaan, jotta ne täyttävät tietyt liiketoiminnan loppupään ja analytiikan vaatimukset. Taulukot noudattavat yleensä tähtirakennetta, joka tukee suorituskykyyn ja käytettävyyteen optimoitujen tietomallien kehittämistä.
Jokainen vyöhyke tulee erottaa omaan lakehouse- tai tietovarastoonsa OneLakessa, ja tiedot siirtyvät vyöhykkeiden välillä niiden muuntuessa ja tarkentuessa.
Tyypillisessä medallion-arkkitehtuurin toteutuksessa Fabricissa tiedot tallennetaan pronssivyöhykkeellä samaan muotoon kuin tietolähde. Kun tietolähde on relaatiotietokanta, Delta-taulukot ovat hyvä valinta. Hopea- ja kultavyöhykkeiden tulee sisältää Delta-taulukot.
Vihje
Jos haluat oppia luomaan Lakehousen, käy Läpi Lakehousen päästä päähän -skenaarion opetusohjelma.
OneLake ja Lakehouse in Fabric
Modernin tietovaraston perusta on Data Lake -tallennustila. Microsoft OneLake on yksi, yhdistetty ja looginen Data Lake -tallennustila koko organisaatiolle. Se valmistellaan automaattisesti jokaisen Fabric-vuokraajan yhteydessä, ja se on ainoa sijainti kaikille analytiikkatieduksillesi.
OneLaken avulla voit tehdä seuraavaa:
- Poista siilot ja vähennä hallintatyötä. Kaikki organisaation tiedot tallennetaan, niitä hallitaan ja suojataan yhdessä Data Lake -resurssissa.
- Vähentää tietojen siirtämistä ja päällekkäisyyttä. OneLaken tavoitteena on tallentaa vain yksi tietojen kopio. Tietojen pienempi kopioiden määrä johtaa pienempiin tietojen siirtoprosesseihin, mikä johtaa tehokkuuden kasvuun ja monimutkaisuuden vähenemiseen. Pikakuvakkeiden avulla voit viitata muihin sijainteihin tallennettuihin tietoihin sen sijaan, että kopioisit ne OneLakeen.
- Käytetään useiden analyysimoottorien kanssa. OneLaken tiedot tallennetaan avoimeen muotoon. Näin eri analyyttiset moottorit, kuten Analysis Services (Power BI:n käyttämä), T-SQL ja Apache Spark, voivat tehdä kyselyjä tiedoille. Myös muut ei-Fabric-sovellukset voivat käyttää OneLakea ohjelmointirajapintojen ja SDK:iden avulla.
Jos haluat tallentaa tietoja OneLakeen , luo lakehouse Fabricissa. Lakehouse on tietojen arkkitehtuuriympäristö, jolla voidaan tallentaa, hallita ja analysoida jäsennettyjä ja jäsentämättömiä tietoja yhdessä sijainnissa. Se voidaan skaalata suuriin tietomääriin kaikista tiedostotyypeistä ja koista. Koska tiedot on tallennettu yhteen sijaintiin, ne voidaan jakaa ja käyttää uudelleen koko organisaatiossa.
Jokaisella Lakehousella on sisäinen SQL-analytiikan päätepiste, joka avaa tietovaraston ominaisuudet ilman, että tietoja tarvitsee siirtää. Tämä tarkoittaa sitä, että voit tehdä kyselyjä lakehouse-järjestelmässä käyttämällä SQL-kyselyjä ja ilman erityisiä määrityksiä.
Lisätietoja on ohjeartikkelissa Mikä on Lakehouse Microsoft Fabricissa?.
Taulukot ja tiedostot
Kun luot Lakehousen OneLakessa, kaksi fyysistä tallennuspaikkaa valmistellaan automaattisesti:
- Taulukot on hallittu alue kaikkien muotojen taulukoiden tallentamiseen Apache Sparkiin (CSV, Parquet tai Delta). Kaikki taulukot, riippumatta siitä, onko ne luotu automaattisesti tai eksplisiittisesti, tunnistetaan Lakehouse-järjestelmän taulukoiksi. Kaikki Delta-taulukot, jotka ovat parquet-datatiedostoja, joissa on tiedostopohjainen tapahtumaloki, tunnistetaan myös taulukoiksi.
- Tiedostot ovat hallitsematon alue missä tahansa tiedostomuodossa olevien tietojen tallentamiseen. Tälle alueelle tallennettuja Delta-tiedostoja ei tunnisteta automaattisesti taulukoiksi. Jos haluat luoda taulukon Delta Lake -kansion ylle hallitsemattomalle alueelle, luo pikakuvake tai ulkoinen taulukko, jossa on sijainti, joka osoittaa hallitsemattomaan kansioon, joka sisältää Apache Sparkin Delta Lake -tiedostot.
Tärkein ero hallittujen alueiden (taulukoiden) ja hallitsemattoman alueen (tiedostojen) välillä on automaattinen taulukon etsiminen ja rekisteröintiprosessi. Tämä prosessi suoritetaan kaikille kansioille, jotka on luotu vain hallitulla alueella, mutta ei hallitsemattomalla alueella.
Pronssivyöhykkeellä tiedot tallennetaan niiden alkuperäisessä muodossa, joka voi olla joko taulukko tai tiedosto. Jos lähdetiedot ovat peräisin OneLakesta, Azure Data Lake Store Gen2:sta (ADLS Gen2), Amazon S3:sta tai Googlesta, luo pronssivyöhykkeelle pikakuvake tietojen kopioimisen sijaan.
Hopea- ja kultavyöhykkeillä tiedot tallennetaan yleensä Delta-taulukoihin. Voit kuitenkin tallentaa tietoja myös Parquet- tai CSV-tiedostoihin. Jos teet niin, sinun on eksplisiittisesti luotava pikakuvake tai ulkoinen taulukko, jonka sijainti osoittaa hallitsemattomaan kansioon, joka sisältää Apache Sparkin Delta Lake -tiedostot.
Microsoft Fabricissa Lakehouse Explorer tarjoaa yhtenäisen graafisen esityksen koko Lakehousesta, jotta käyttäjät voivat selata, käyttää ja päivittää tietojaan.
Jos haluat lisätietoja automaattisesta taulukon etsimisestä, katso Automaattinen taulukon etsiminen ja rekisteröinti.
Delta Lake Storage
Delta Lake on optimoitu tallennuskerros, joka luo perustan tietojen ja taulukoiden tallennukseen. Se tukee ACID-tapahtumia massadatakuormituksille, ja tästä syystä se on Fabric Lakehousen oletustallennusmuoto.
Delta Lake tarjoaa luotettavuutta, suojausta ja suorituskykyä Lakehousessa sekä suoratoisto- että erätoiminnoille. Sisäisesti se tallentaa tiedot Parquet-tiedostomuotoon, mutta se ylläpitää myös tapahtumalokeja ja tilastotietoja, jotka tarjoavat ominaisuuksia ja suorituskyvyn parannuksia parquet-vakiomuotoon verrattuna.
Delta Lake -muoto tarjoaa seuraavat edut verrattuna yleisiin tiedostomuotoihin:
- Tuki ACID-ominaisuuksille, erityisesti kestävyydelle tietojen vioittumisen estämiseksi.
- Nopeammat lukukyselyt.
- Lisääntynyt tietojen tuoreus.
- Tuki sekä erä- että virtautuskuormituksille.
- Tietojen palauttamisen tuki käyttämällä Delta Lake -aikamatkustusta.
- Parannettu säädösten noudattaminen ja valvonta Delta Lake -taulukkohistorian avulla.
Fabric standardoi tallennustiedostomuotoa Delta Lake -järven avulla. Oletusarvoisesti jokainen Fabric-kuormitusmoduuli luo Delta-taulukoita, kun kirjoitat tietoja uuteen taulukkoon. Lisätietoja on kohdassa Lakehouse- ja Delta Lake -taulukot.
Käyttöönottomalli
Jos haluat ottaa käyttöön mitalilioarkkitehtuurin Fabricissa, voit käyttää joko Lakehouse-taloja (yksi kutakin vyöhykettä kohden), tietovarastoa tai molempien yhdistelmää. Päätöksesi tulee perustua haluusi ja tiimisi asiantuntemukseen. Fabric-toiminnolla voit käyttää erilaisia analyysimodernisia modernia toimintoa, joka toimii tietojen yhden kopion kanssa OneLakessa.
Kannattaa harkita kahta mallia:
- Malli 1: Luo kukin vyöhyke lakehouse-vyöhykkeeksi. Tässä tapauksessa yrityskäyttäjät käyttävät tietoja SQL-analytiikan päätepisteen avulla.
- Malli 2: Luo pronssi- ja hopeavyöhykkeet lakehouse-vyöhykkeiksi ja kultavyöhyke tietovarastoksi. Tässä tapauksessa yrityskäyttäjät käyttävät tietoja tietovaraston päätepisteen avulla.
Vaikka voit luoda kaikki lakehouset yhdessä Fabric-työtilassa, suosittelemme, että luot jokaisen lakehousen omassa, erillisessä työtilassaan. Tämän lähestymistavan avulla voit valvoa ja parantaa hallintoa vyöhyketasolla.
Suosittelemme, että tallennat pronssivyöhykkeen tiedot alkuperäisessä muodossa tai käytät Parquet-järveä tai Delta Lake -järveä. Säilytä tiedot alkuperäisessä muodossaan aina, kun se on mahdollista. Jos lähdetiedot ovat peräisin OneLakesta, Azure Data Lake Store Gen2:sta (ADLS Gen2), Amazon S3:sta tai Googlesta, luo pronssivyöhykkeelle pikakuvake tietojen kopioimisen sijaan.
Hopea- ja kultavyöhykkeiden kohdalla suosittelemme, että käytät Delta-taulukoita niiden tarjoamien lisäominaisuuksien ja suorituskyvyn parannusten vuoksi. Fabric standardoi Delta Lake -muodossa, ja oletuksena jokainen Fabric-moduuli kirjoittaa tietoja tässä muodossa. Lisäksi nämä moottorit käyttävät V-Order-kirjoitusajan optimointia Parquet-tiedostomuotoon. Tämä optimointi mahdollistaa Fabric-käsittelymoduulien, kuten Power BI:n, SQL:n, Apache Sparkin ja muiden, nopean lukemisen. Lisätietoja on kohdassa Delta Lake -taulukon optimointi ja V-järjestys.
Lopuksi vielä, monet organisaatiot kohtaavat valtavaa tietomäärien kasvua ja tarvetta järjestää ja hallita näitä tietoja loogisesti samalla kun helpotetaan kohdistettavampaa ja tehokkaampaa käyttöä ja hallintoa. Näin voit perustaa ja hallita hajautettua tai yhdistettyä tietoorganisaatiota hallinnon avulla. Jos haluat saavuttaa tämän tavoitteen, harkitse tietoverkkoarkkitehtuurin toteutusta. Tietoverkko on arkkitehtoninen malli, jolla keskitytään luomaan tietotoimialueita, jotka tarjoavat tietoja tuotteena.
Voit luoda tietoverkkoarkkitehtuurin tietotilallesi Fabricissa luomalla tietotoimialueita. Voit luoda toimialueita, jotka yhdistetään yrityksesi toimialueisiin, kuten markkinointi, myynti, varasto, henkilöstöhallinto ja muut. Sen jälkeen voit ottaa käyttöön mitalilioarkkitehtuurin määrittämällä tietovyöhykkeet kuhunkin toimialueeseen. Lisätietoja toimialueista on kohdassa Toimialueet.
Tutustu Delta-taulukon tietojen tallennustilaan
Tässä osiossa kuvataan muita ohjeita Medallion Lakehouse -arkkitehtuurin toteuttamiseen Fabricissa.
Tiedoston koko
Yleensä massadataympäristö toimii paremmin, kun siinä on muutamia suuria tiedostoja pienten tiedostojen sijaan. Suorituskyvyn heikkenemistä esiintyy, kun laskentamoduulissa on useita metatieto- ja tiedostotoimintoja hallittavana. Kyselyjen suorituskyvyn parantamiseksi suosittelemme, että tähtäät datatiedostoihin, joiden koko on noin 1 Gt.
Delta Lake -järvellä on ominaisuus nimeltä ennakoiva optimointi. Ennakoiva optimointi automatisoi Delta-taulukoiden ylläpitotoimet. Kun tämä ominaisuus on käytössä, Delta Lake tunnistaa taulukot, jotka hyötyvät ylläpitotoimista, ja optimoi niiden tallennuksen. Vaikka tämän ominaisuuden tulisi olla osa operatiivista huippuosaamistasi ja tietojen valmistelutyötäsi, Fabric voi myös optimoida datatiedostoja tietojen kirjoittamisen aikana. Lisätietoja on kohdassa Delta Lake -ympäristön ennakoiva optimointi.
Historiallinen säilytys
Oletusarvoisesti Delta Lake ylläpitää kaikkien tehtyjen muutosten historiaa, joten historiallisten metatietojen koko kasvaa ajan myötä. Säilytä historiatiedot vain tietyn ajan yrityksen tarpeiden mukaan tallennuskustannusten pienentämiseksi. Harkitse historiallisten tietojen säilyttämistä vain viimeiselle kuukaudelle tai muulle sopivalle ajanjaksolle.
Voit poistaa vanhemmat historialliset tiedot Delta-taulukosta KÄYTTÄMÄLLÄ VACUUM-komentoa. Oletusarvoisesti et kuitenkaan voi poistaa historiallisia tietoja viimeisten seitsemän päivän aikana. Tämä rajoitus säilyttää tietojen yhdenmukaisuuden. Määritä päivien oletusmäärä taulukko-ominaisuudella delta.deletedFileRetentionDuration = "interval <interval>"
. Kyseinen ominaisuus määrittää ajan, jonka kuluttua tiedosto on poistettava, ennen kuin sitä voidaan pitää tyhjiötoiminnon hakijana.
Taulukon osiot
Suosittelemme, että käytät ositetun kansiorakenteen tietoja kullekin vyöhykkeelle aina, kun se on mahdollista. Tämä tekniikka parantaa tietojen hallittavuutta ja kyselyn suorituskykyä. Yleensä ositetut tiedot kansiorakenteessa johtavat tiettyjen tietomerkintöjen nopeampaan hakuun osion karsinnan/poistamisen vuoksi.
Yleensä tiedot liitetään kohdetaulukkoon uusien tietojen saapuessa. Joissakin tapauksissa saatat kuitenkin yhdistää tietoja, koska sinun on päivitettävä olemassa olevia tietoja samaan aikaan. Tässä tapauksessa voit suorittaa päivityslisäystoiminnon käyttämällä MERGE-komentoa. Kun kohdetaulukkosi on osioitu, muista käyttää osiosuodatinta toiminnon nopeuttamiseksi. Näin moduuli voi poistaa osiot, jotka eivät edellytä päivittämistä.
Tietojen käyttö
Sinun tulee suunnitella ja hallita sitä, kuka tarvitsee pääsyn tiettyihin tietoihin Lakehousessa. Sinun on myös ymmärrettävä eri tapahtumamallit, joita ne käyttävät käyttäessään näitä tietoja. Voit sitten määrittää oikean taulukon osiointimallin ja tietojen yhdistämisen Delta Lake Z-order -indekseillä.
Liittyvä sisältö
Lisätietoja Fabric Lakehouse -järjestelmän toteuttamisesta on seuraavissa resursseissa.
- Opetusohjelma: Lakehousen päästä päähän -skenaario
- Lakehouse- ja Delta Lake -taulukot
- Microsoft Fabric -päätöksenteko-opas: valitse tietosäilö
- Kirjoitusoptimointitarve Apache Sparkissä
- Kysyttävää? Kysy Fabric-yhteisöltä.
- Ehdotuksia? Edistä ideoita Fabricin parantamiseksi.