Jaa


Paremmat yhdessä: Lakehouse ja varasto

Koskee: SQL-analytiikan päätepiste ja Microsoft Fabric -varasto

Tässä artikkelissa kerrotaan tietovarastoinnin kuormituksesta Lakehousen SQL-analytiikan päätepisteen kanssa sekä skenaarioista, joissa Lakehousea käytetään tietovarastoinnissa.

Mikä lakehouse SQL -analytiikan päätepiste on?

Kun luot Fabricissa Lakehousen, järjestelmä luo automaattisesti varaston.

SQL-analytiikan päätepisteen avulla voit tehdä kyselyjä Lakehousessa käyttämällä T-SQL-kieltä ja TDS-protokollaa. Jokaisella Lakehousella on yksi SQL-analytiikan päätepiste, ja jokaisessa työtilassa voi olla useampi kuin yksi Lakehouse. Työtilan SQL-analytiikan päätepisteiden määrä vastaa Lakehouse-kohteiden määrää.

  • SQL-analytiikan päätepiste luodaan automaattisesti jokaiselle Lakehouselle, ja se paljastaa Lakehousen Delta-taulukot SQL-taulukoina, joista voidaan tehdä kyselyitä T-SQL-kieltä käyttämällä.
  • Jokainen Lakehousen delta-taulukko esitetään yhtenä taulukkona. Tietojen tulee olla delta-muodossa.
  • Semanttinen Power BI -oletusmalli luodaan jokaiselle SQL-analytiikan päätepisteelle, ja se noudattaa Lakehouse-objektien nimeämiskäytäntöä.

Sql-analytiikan päätepistettä ei tarvitse luoda Microsoft Fabricissa. Microsoft Fabric -käyttäjät eivät voi luoda SQL-analytiikan päätepistettä työtilassa. Jokaiselle Lakehouselle luodaan automaattisesti SQL-analytiikan päätepiste. Jotta voit hankkia SQL-analytiikan päätepisteen, luo Lakehouse , ja SQL-analytiikan päätepiste luodaan automaattisesti Lakehouselle.

Muistiinpano

Taustalla SQL-analytiikan päätepiste käyttää samaa moduulia kuin Warehouse suuren suorituskyvyn ja pienen viiveen SQL-kyselyiden palvelemiseksi.

Automaattinen metatietojen etsintä

Saumaton prosessi lukee delta-lokit ja tiedostot-kansiosta ja varmistaa, että taulukoiden SQL-metatiedot, kuten tilastotiedot, ovat aina ajan tasalla. Käyttäjän ei tarvitse tehdä mitään toimia, eikä sinun tarvitse tuoda, kopioida tietoja tai määrittää infrastruktuuria. Lisätietoja on artikkelissa Automaattisesti muodostettu rakenne SQL-analytiikan päätepisteessä.

Lakehousen tietovarastoinnin skenaariot

Fabricissa tarjoamme yhden varaston.

Lakehouse ja sen SQL-analytiikan päätepiste, jonka voimanlähteenä on Warehouse, voivat yksinkertaistaa perinteistä erä-, suoratoisto- tai lambda-arkkitehtuurimallien päätöspuuta. Yhdessä varaston kanssa Lakehouse mahdollistaa monia lisääviä analyysitilanteita. Tässä osiossa tutustumme siihen, miten voit käyttää Lakehousea yhdessä Varaston kanssa parhaan rotuanalyysistrategian hyväksi.

Analytiikka Fabric Lakehousen kultakerroksella

Yksi Lake Data Organizationin tunnetuista strategioista on mitaliarkkitehtuuri , jossa tiedostot järjestetään raakana (pronssina), yhdistetynä (hopeana) ja jalostettuina (kultakerroksina). SQL-analytiikan päätepisteen avulla voidaan analysoida mitaliarkkitehtuurin kultakerroksen tietoja, jos tiedostot on tallennettu Delta Lake muotoon, vaikka ne olisi tallennettu Microsoft Fabric OneLaken ulkopuolelle.

OneLake-pikakuvakkeiden avulla voit viitata ulkoisten Azure Data Lake -tallennustilien kultakansioihin, joita Synapse Spark- tai Azure Databricks -moottorit hallitsevat.

Varastoja voidaan lisätä myös tietyn aiheen aihealue- tai toimialuesuuntautuneina ratkaisuina, joihin voidaan soveltaa räätälöityjä analytiikkavaatimuksia.

Jos päätät säilyttää tietosi Fabricissa, ne ovat aina avoinna ja käytettävissä ohjelmointirajapintojen, Delta-muodon ja tietysti T-SQL:n kautta.

Kysely palveluna delta-taulukoille Lakehousesta ja muista OneLake-tietokeskuksen kohteista

Joissakin käyttötapauksissa analyytikon, datatieteilijän tai tietoteknikon on ehkä tehtävä tietokyselyjä Data Lake -järjestelmässä. Fabricissa tämä päästä päähän -kokemus on täysin SaaSified.

OneLake on yksittäinen, yhdistetty looginen Data Lake -tallennustila koko organisaatiolle. OneLake on OneDrive for data. OneLake voi sisältää useita työtiloja, esimerkiksi organisaation osastojen ohella. Jokaisen Fabric-kohteen avulla se on käytettävissä OneLaken kautta.

Microsoft Fabric Lakehousessa olevat tiedot tallennetaan fyysisesti OneLakeen, jossa on seuraava kansiorakenne:

  • Kansio /Files sisältää raakatiedostoja ja yhdistämättömiä (pronssisia) tiedostoja, jotka tietoinsinöörien tulee käsitellä ennen analysointia. Tiedostot voivat olla eri muodoissa, kuten CSV- ja Parquet-tiedostoissa, erityyppisissä kuvissa jne.
  • Kansio /Tables sisältää tarkennettuja ja yhdistettyjä (kultaisia) tietoja, jotka ovat valmiita liiketoiminta-analyysia varten. Kootut tiedot ovat Delta Lake -muodossa.

SQL-analytiikan päätepiste voi lukea tietoja OneLaken -kansiossa /tables . Analyysi on yhtä yksinkertainen kuin Lakehousen SQL-analytiikan päätepisteen kysely. Yhdessä Warehousen kanssa saat myös tietokantakyselyitä ja mahdollisuuden vaihtaa saumattomasti vain luku -kyselyistä uuden liiketoimintalogiikan luomiseen OneLake-tietojen päälle Synapse Data Warehousen avulla.

Tietotekniikka Sparkin avulla ja palveleminen SQL:n kanssa

Aineistoperäisten yritysten on pidettävä tausta- ja analytiikkajärjestelmänsä lähes reaaliaikaisesti synkronoituina asiakassovellusten kanssa. Tapahtumien vaikutuksen on heijastettava tarkasti päästä päähän -prosessien, liittyvien sovellusten ja verkkotapahtumien käsittelyjärjestelmien (OLTP) kautta.

Fabricissa voit käyttää Tietojen spark-suoratoistoa tai tietotekniikkaa. Voit käyttää Lakehouse SQL -analytiikan päätepistettä tietojen laadun vahvistamiseen ja olemassa oleville T-SQL-prosesseille. Tämä voidaan tehdä medallioarkkitehtuurissa tai useiden Lakehouse-tasojen sisällä, palvellen pronssia, hopeaa, kultaa tai valmistelua, kuratoitua ja tarkennettua tietoa. Voit mukauttaa Sparkin avulla luotuja kansioita ja taulukoita niin, että ne vastaavat tietotekniikka- ja liiketoimintavaatimuksia. Kun olet valmis, varasto voi palvella kaikkia liiketoimintatiedon hallintasovelluksia ja muita analytiikan käyttötapauksia kopioimatta tietoja, käyttämällä näkymiä tai tarkentamalla tietoja ( CREATE TABLE AS SELECT CTAS), tallennettuja toimintosarjoja ja muita DML/ DDL-komentoja.

Integrointi Open Lakehousen kultakerrokseen

SQL-analytiikan päätepistettä ei ole rajoitettu data-analytiikkaan vain Fabric Lakehousessa. SQL-analytiikan päätepisteen avulla voit analysoida lake-tietoja missä tahansa Lakehousessa Synapse Sparkin, Azure Databricksin tai minkä tahansa muun järvikeskeisen tietotekniikkamoduulin avulla. Tiedot voidaan tallentaa Azure Data Lake Storageen tai Amazon S3:een.

Fabric Lakehousen tiukka, kaksisuuntainen integrointi on aina käytettävissä minkä tahansa moduulin kautta, jossa on avoimet ohjelmointirajapinnat, Delta-muoto ja tietysti T-SQL.

Ulkoisten Data Lake -tallennustilojen tietojen virtualisointi pikanäppäimillä

OneLake-pikakuvakkeiden avulla voit viitata ulkoisten Azure Data Lake -tallennustilien kultakansioihin, joita synapse Spark- tai Azure Databricks -moottorit hallitsevat, sekä mihin tahansa Amazon S3:een tallennettuun deltataulukkoon.

Pikakuvakkeella viitatut kansiot voidaan analysoida SQL-analytiikan päätepisteestä, ja viitatuille tiedoille luodaan SQL-taulukko. SQL-taulukkoa voidaan käyttää tietojen paljastamiseen ulkoisesti hallituissa Data Lake -tallennustiloissa ja niiden analysoinnin mahdollistamiseen.

Tämä pikakuvake toimii virtuaalivarastona, jonka avulla voidaan hyödyntää varastosta lisäanalytiikkavaatimuksia tai tehdä suoraan kyselyitä.

Seuraavien vaiheiden avulla voit analysoida tietoja ulkoisista Data Lake -tallennustilatileistä:

  1. Luo pikakuvake, joka viittaa Azure Data Lake -tallennustilan tai Amazon S3 -tilin kansioon. Kun annat yhteyden tiedot ja tunnistetiedot, Lakehouse-ikkunassa näkyy pikakuvake.
  2. Vaihda Lakehousen SQL-analytiikan päätepisteeseen ja etsi SQL-taulukko, jonka nimi vastaa pikakuvakkeen nimeä. Tämä SQL-taulukko viittaa ADLS/S3-kansion kansioon.
  3. Tee kysely SQL-taulukosta, joka viittaa tietoihin ADLS/S3:ssa. Taulukkoa voi käyttää muuna taulukkona SQL-analytiikan päätepisteessä. Voit liittää taulukoita, jotka viittaavat eri tallennustilien tietoihin.

Muistiinpano

Jos SQL-taulukko ei näy heti SQL-analytiikan päätepisteessä, sinun on ehkä odotettava muutama minuutti. Ulkoisen tallennustilin tietoihin viittaava SQL-taulukko luodaan viiveellä.

Analysoi arkistoituja tai historiatietoja Data Lake -tallennustilassa

Tietojen osiointi on tunnettu tietojen käytön optimointitekniikka Data Lake -tallennustiloissa. Osioidut tietojoukot tallennetaan hierarkkisiin kansiorakenteisiin muodossa /year=<year>/month=<month>/day=<day>, jossa year, monthja day ovat osiointisarakkeita. Näin voit tallentaa historialliset tiedot loogisesti erillään muodossa, jossa laskentamoduulit voivat lukea tiedot tarpeen mukaan käyttämällä suorituskykyistä suodatusta sen sijaan, että lukisit koko hakemiston ja kaikki sen sisältämät kansiot ja tiedostot.

Osioidut tiedot mahdollistavat nopeamman käytön, jos kyselyt suodattavat predikaatteja, jotka vertaavat predikaattisarakkeita arvoon.

SQL-analytiikan päätepiste voi helposti lukea tämän tyyppisiä tietoja ilman määritystä. Voit esimerkiksi käyttää mitä tahansa sovellusta tietojen arkistoimiseen Data Lakeen, mukaan lukien SQL Server 2022 tai Azure SQL:n hallittu esiintymä. Kun olet osioinut tiedot ja laskeutunut lake-järjestelmään arkistointia varten ulkoisia taulukoita varten, SQL-analytiikan päätepiste voi lukea osioidut Delta Lake -taulukot SQL-taulukoiksi ja antaa organisaatiosi analysoida niitä. Tämä pienentää omistajuuden kokonaiskustannuksia, vähentää tietojen päällekkäisyyttä ja sytyttää massadatan, tekoälyn ja muut analytiikkaskenaariot.

Fabric-tietojen tietojen virtualisointi pikanäppäimillä

Fabric-työtilojen avulla voit eristää tietoja monitasoisten liiketoiminnan, maantieteellisten tai säädösten vaatimusten perusteella.

SQL-analytiikan päätepisteen avulla voit jättää tiedot paikalleen ja analysoida tietoja Warehousessa tai Lakehousessa, jopa muissa Microsoft Fabric -työtiloissa, saumattoman virtualisoinnin kautta. Jokainen Microsoft Fabric Lakehouse -myymälä tallentaa tietoja OneLakeen.

Pikakuvakkeiden avulla voit viitata kansioihin missä tahansa OneLake-sijainnissa.

Jokainen Microsoft Fabric Warehouse tallentaa taulukkotiedot OneLakeen. Jos taulukko on vain lisäosa, taulukon tiedot näkyvät Delta Lake -tietoina OneLakessa. Pikakuvakkeiden avulla voit viitata minkä tahansa OneLake-kentän kansioihin, joissa Warehouse-taulukot ovat näkyvissä.

Työtilojen välinen jakaminen ja kyselyt

Vaikka työtilojen avulla voitkin erottaa tietoja monitasoisten liiketoiminta-, maantieteellisten tai lakisääteisten vaatimusten perusteella, joskus sinun on helpotettava tietojen jakamista näiden rivien välillä analytiikkatarpeiden vuoksi.

Lakehouse SQL -analytiikan päätepisteen avulla tietojen jakaminen osastojen ja käyttäjien välillä on helppoa, jolloin käyttäjä voi tuoda oman kapasiteettinsa ja varastonsa. Työtilat järjestävät osastoja, liiketoimintayksiköitä tai analyysitoimialueita. Pikakuvakkeiden avulla käyttäjät voivat löytää minkä tahansa Warehousen tai Lakehousen tiedot. Käyttäjät voivat suorittaa välittömästi omia mukautettuja analyysejään samoista jaetuista tiedoista. Sen lisäksi, että autetaan osastojen takaisinveloituksissa ja käytön varaamisessa, se on myös tietojen nollaan kopioitava versio.

SQL-analytiikan päätepisteen avulla voit tehdä kyselyjä mistä tahansa taulukosta ja jakaa sen helposti. Lisättyjä työtilaroolien ja käyttöoikeusroolien ohjausobjekteja, joita voidaan kerrostaa edelleen liiketoiminnan lisävaatimusten täyttämiseksi.

Seuraavien vaiheiden avulla voit ottaa käyttöön työtilojen välisen tietojen analysoinnin:

  1. Luo OneLake-pikakuvake, joka viittaa työtilan taulukkoon tai kansioon, jota voit käyttää.
  2. Valitse Lakehouse- tai Warehouse-varasto, joka sisältää analysoitavan taulukon tai Delta Lake -kansion. Kun valitset taulukon tai kansion, Lakehouse-ikkunassa näkyy pikakuvake.
  3. Vaihda Lakehousen SQL-analytiikan päätepisteeseen ja etsi SQL-taulukko, jonka nimi vastaa pikakuvakkeen nimeä. Tämä SQL-taulukko viittaa toisen työtilan kansioon.
  4. Tee kysely SQL-taulukosta, joka viittaa toisen työtilan tietoihin. Taulukkoa voi käyttää muuna taulukkona SQL-analytiikan päätepisteessä. Voit liittää taulukoita, jotka viittaavat eri työtilojen tietoihin.

Muistiinpano

Jos SQL-taulukko ei näy heti SQL-analytiikan päätepisteessä, sinun on ehkä odotettava muutama minuutti. Toisessa työtilassa tietoihin viittaava SQL-taulukko luodaan viiveellä.

Osioitujen tietojen analysointi

Tietojen osiointi on tunnettu tietojen käytön optimointitekniikka Data Lake -tallennustiloissa. Osioidut tietojoukot tallennetaan hierarkkisiin kansiorakenteisiin muodossa /year=<year>/month=<month>/day=<day>, jossa year, monthja day ovat osiointisarakkeita. Osioidut tietojoukot mahdollistavat nopeamman tietojen käytön, jos kyselyt suodattavat tietoja käyttämällä tietoja suodattavaa predikaattia vertaamalla predikaattisarakkeita arvoon.

SQL-analytiikan päätepiste voi edustaa osioituja Delta Lake -tietojoukkoja SQL-taulukoina ja mahdollistaa niiden analysoinnin.