Lakehouse SQL -analytiikan päätepisteiden käyttötapaukset

SQL-analytiikan päätepiste on lukuun optimoitu, T-SQL-pinta Delta-datan päällä Microsoft Fabric -laitteella. Tässä artikkelissa selitetään, kuinka Fabric datavarastointityökuorma Lakehousen SQL-analytiikkapäätepisteessä sekä skenaariot Lakehousen käytöstä datavarastoinnissa.

Mikä lakehouse SQL -analytiikan päätepiste on?

SQL-analytiikan päätepiste mahdollistaa datakyselyn Lakehousessa käyttämällä T-SQL-kieltä ja TDS-protokollaa.

  • SQL-analytiikan päätepiste paljastaa Lakehousen Delta-taulut SQL-tauluina, joita voi hakea T-SQL:llä.
  • Jokainen Lakehousen delta-taulukko esitetään yhtenä taulukkona. Tietojen tulee olla delta-muodossa.
  • Jokaisella Lakehousella on yksi SQL-analytiikan päätepiste, ja jokaisessa työtilassa voi olla useampi kuin yksi Lakehouse. Työtilan SQL-analytiikan päätepisteiden määrä vastaa Lakehouse-kohteiden määrää.

Sinun ei tarvitse luoda SQL-analytiikkapäätepistettä Microsoft Fabric:ssa. SQL-analytiikan päätepiste luodaan automaattisesti jokaiselle Lakehouselle, tietokannalle tai peilatulle tietokannalle. SQL-analytiikkapäätepiste toimii kevyenä tietovarastotoimintona emotuotteilleen, täydentäen varaston lakehouse-arkkitehtuuria. Tämä arkkitehtuuri mahdollistaa Spark- tai Fabric-peilauksen hallita dataa kansiorakenteessa järvenrakennuksessa, jota SQL-analytiikkapäätepiste voi tarkastella.

Muistio

Kulissien takana SQL-analytiikkapäätepiste käyttää samaa moottoria kuin Warehouse palvellakseen korkean suorituskyvyn ja matalan latenssin SQL-kyselyitä.

Automaattinen metatietojen löytäminen

Saumaton prosessi lukee Delta-lokit kansiosta /Tables ja varmistaa, että taulukoiden, kuten tilastojen, SQL-metatiedot ovat aina ajan tasalla. Käyttäjän ei tarvitse tehdä mitään toimia, eikä sinun tarvitse tuoda, kopioida tietoja tai määrittää infrastruktuuria. Lisätietoja on artikkelissa Automaattisesti muodostettu rakenne SQL-analytiikan päätepisteessä.

Lakehousen tietovarastoinnin skenaariot

Fabricissa tarjoamme yhden varaston.

Lakehouse ja sen SQL-analytiikan päätepiste, jonka voimanlähteenä on Warehouse, voivat yksinkertaistaa perinteistä erä-, suoratoisto- tai lambda-arkkitehtuurimallien päätöspuuta. Yhdessä varaston kanssa Lakehouse mahdollistaa monia lisääviä analyysitilanteita. Tässä osiossa tutustumme siihen, miten voit käyttää Lakehousea yhdessä Varaston kanssa parhaan rotuanalyysistrategian hyväksi.

Analytiikka Fabric Lakehousen kultakerroksella

Tunnettu strategia järvien datan organisoinnissa on medallion-arkkitehtuuri. Tämä strategia järjestää tiedostot raakakerroksiin (pronssi), konsolidoituihin (hopea) ja jalostettuihin (kulta) kerroksiin. Voit käyttää SQL-analytiikkapäätelaitetta analysoidaksesi dataa medallion-arkkitehtuurin kultakerroksessa, jos tiedostot ovat tallennettu Delta Lake -muodossa, vaikka ne olisivat Microsoft Fabric OneLaken ulkopuolella.

Käytä OneLake-pikanäppäimiä viitataksesi kultakansioihin ulkoisissa Azure Data Lake tallennustileissä, joita Synapse Spark tai Azure Databricks-moottorit hallinnoivat.

Voit myös lisätä varastoja aihealue- tai toimialakohtaisiksi ratkaisuiksi tiettyyn aiheeseen, joilla voi olla räätälöityjä analytiikkavaatimuksia.

Jos päätät pitää tietosi Fabric, se on aina avoinna ja saavutettavissa API:n, Delta-muodon ja tietysti T-SQL:n kautta.

Kysely palveluna delta-taulukoillesi Lakehousesta ja muista OneLaken kohteista

Analyytikot, datatieteilijät ja data-insinöörit saattavat tarvita kyselyjä datajärven sisällä. Fabric-versiossa tämä kokonaisvaltainen kokemus on täysin SaaSified.

OneLake on yksittäinen, yhdistetty looginen Data Lake -tallennustila koko organisaatiolle. OneLake on OneDrive for data. OneLake voi sisältää useita työtiloja, esimerkiksi organisaation osastojen ohella. Jokainen Fabric-tuote tekee datan saataville OneLaken kautta.

Microsoft Fabric Lakehousessa olevat tiedot tallennetaan fyysisesti OneLakeen, jossa on seuraava kansiorakenne:

  • Kansio /Files sisältää raaka- ja konsolidoimattomia (pronssisia) tiedostoja, jotka data-insinöörien tulisi käsitellä ennen analyysiä. Tiedostot voivat olla eri formaateissa, kuten CSV, Parquet, erilaiset kuvatyypit ja muita.
  • Kansio /Tables sisältää tarkennettua ja yhdistettyä (kultaista) dataa, joka on valmis liiketoiminta-analyysiin. Kootut tiedot ovat Delta Lake -muodossa.

SQL-analytiikan päätepiste voi lukea tietoja OneLaken -kansiossa /tables . Analyysi on yhtä yksinkertainen kuin Lakehousen SQL-analytiikan päätepisteen kysely. Yhdessä Warehousen kanssa saat myös tietokantojen väliset kyselyt ja mahdollisuuden vaihtaa saumattomasti vain luku -kyselyistä rakentamaan lisäliiketoimintalogiikkaa OneLake-datan päälle Fabric tietovarasto:n avulla.

Tietotekniikka Sparkin avulla ja palveleminen SQL:n kanssa

Aineistoperäisten yritysten on pidettävä tausta- ja analytiikkajärjestelmänsä lähes reaaliaikaisesti synkronoituina asiakassovellusten kanssa. Tapahtumien vaikutuksen on heijastettava tarkasti päästä päähän -prosessien, liittyvien sovellusten ja verkkotapahtumien käsittelyjärjestelmien (OLTP) kautta.

Fabricissa voit käyttää Tietojen spark-suoratoistoa tai tietotekniikkaa. Voit käyttää Lakehouse SQL -analytiikan päätepistettä tietojen laadun vahvistamiseen ja olemassa oleville T-SQL-prosesseille. Tämä voidaan tehdä medallioarkkitehtuurissa tai useiden Lakehouse-tasojen sisällä, palvellen pronssia, hopeaa, kultaa tai valmistelua, kuratoitua ja tarkennettua tietoa. Voit mukauttaa Sparkin avulla luotuja kansioita ja taulukoita niin, että ne vastaavat tietotekniikka- ja liiketoimintavaatimuksia. Kun olet valmis, varasto voi palvella kaikkia liiketoimintatiedon hallintasovelluksia ja muita analytiikan käyttötapauksia kopioimatta tietoja, käyttämällä näkymiä tai tarkentamalla tietoja ( CREATE TABLE AS SELECT CTAS), tallennettuja toimintosarjoja ja muita DML/ DDL-komentoja.

Integrointi Open Lakehousen kultakerrokseen

SQL-analytiikan päätepiste ei rajoitu pelkästään Fabric Lakehousen data-analytiikkaan. SQL-analytiikkapäätepisteen avulla voit analysoida järvidataa missä tahansa järvenrakennuksessa käyttämällä Synapse Sparkia, Azure Databricks tai mitä tahansa muuta järveen keskittyvää data-insinöörimoottoria. Voit tallentaa tiedot Azure Data Lake Storage -palveluun tai Amazon S3:een.

Voit aina käyttää tätä tiukkaa, kaksisuuntaista integraatiota Fabric Lakehouseen millä tahansa, millä tahansa moottorilla käyttämällä avoimia rajapintoja, Delta-muotoa ja tietenkin T-SQL:ää.

Ulkoisten datajärvien datavirtualisointi pikanäppäimillä

Käytä OneLakea shortcuts viitataksesi kultakansioihin ulkoisilla Azure Data Lake tallennustileillä, joita Synapse Spark tai Azure Databricks-moottorit hallinnoivat, sekä Amazon S3:ssa tallennettuihin delta-taulukoihin.

Voit analysoida minkä tahansa kansion, johon viitataan pikanäppäimellä SQL-analytiikan päätepisteestä, ja luoda SQL-taulukon viitatulle datalle. Käytä SQL-taulukkoa paljastaaksesi dataa ulkoisesti hallinnoituissa datajärvissä ja mahdollistaaksesi niiden analytiikkaa.

Tämä pikanäppäin toimii virtuaalisena varastona, jota voit hyödyntää varastosta lisäanalytiikkavaatimuksiin tai suoraan kyselyihin.

Ulkoisten datajärven tallennustilien datan analysointiin käytä seuraavia vaiheita:

  1. Luo pikakuvake, joka viittaa Azure Data Lake -tallennustilan tai Amazon S3 -tilin kansioon. Kun syötät yhteystiedot ja tunnistetiedot, Lakehousessa näytetään pikakuvake.
  2. Vaihda Lakehousen SQL-analytiikan päätepisteeseen ja etsi SQL-taulukko, jonka nimi vastaa pikakuvakkeen nimeä. Tämä SQL-taulukko viittaa kansioon ADLS:ssä tai S3:ssa.
  3. Kysy SQL-taulukko, joka viittaa dataan ADLS:ssä tai S3:ssa. Käytä taulukkoa kuten mitä tahansa muuta taulukkoa SQL-analytiikan päätepisteessä. Voit liittää taulukoita, jotka viittaavat eri tallennustilien tietoihin.

Muistio

Jos SQL-taulukko ei näy heti SQL-analytiikan päätepisteessä, odota muutama minuutti. Ulkoisen tallennustilin tietoihin viittaava SQL-taulukko luodaan viiveellä.

Analysoi arkistoitua tai historiallista dataa datajärvessä

Tietojen osiointi on tunnettu tietojen käytön optimointitekniikka Data Lake -tallennustiloissa. Tallenna osioidut tietojoukot hierarkkisiin kansiorakenteisiin muodossa /year=<year>/month=<month>/day=<day>, missä year, month, ja day ovat osiointisarakkeet. Tämä rakenne pitää historialliset tiedot loogisesti erillään ja mahdollistaa laskentamoottoreiden lukea dataa tarpeen mukaan suorituskykysuodatuksen avulla, sen sijaan että koko hakemisto sekä kaikki kansiot ja tiedostot lukisivat sen sisällä.

Ositettu data mahdollistaa nopeamman pääsyn, jos kyselyt suodattavat predikaattien vertaamista arvon perusteella.

SQL-analytiikan päätepiste voi helposti lukea tämän tyyppisiä tietoja ilman määritystä. Voit esimerkiksi käyttää mitä tahansa sovellusta tietojen arkistoimiseen Data Lakeen, mukaan lukien SQL Server 2022 tai Azure SQL:n hallittu esiintymä. Kun olet jakanut tiedot ja laskenut sen järveen arkistointitarkoituksiin ulkoisten taulujen avulla, SQL-analytiikkapäätepiste voi lukea osioidut Delta Lake -taulut SQL-tauluiksi ja antaa organisaatiollesi mahdollisuuden analysoida niitä. Tämä lähestymistapa vähentää omistamisen kokonaiskustannuksia, vähentää datan päällekkäisyyttä ja tuo esiin big datan, tekoälyn ja muiden analytiikan skenaariot.

Voit myös käyttää aikamatkustuskyselyitä nopeaan kyselyyn aiemmista dataversioista. Aikamatkustus on edullinen ja tehokas keino kysyä menneitä datatiloja T-SQL-kyselyillä. Lakehousen SQL-analytiikan päätepisteessä aikamatkustus on rajoitettu tyhjiön säilytysasetuksilla. Aloittaaksesi katso Näin: Kysely aikamatkailun avulla lauseen tasolla.

Fabric-tietojen tietojen virtualisointi pikanäppäimillä

Fabric-työtilojen avulla voit eristää tietoja monitasoisten liiketoiminnan, maantieteellisten tai säädösten vaatimusten perusteella.

SQL-analytiikan päätepisteen avulla voit jättää tiedot paikalleen ja analysoida tietoja Warehousessa tai Lakehousessa, jopa muissa Microsoft Fabric -työtiloissa, saumattoman virtualisoinnin kautta. Jokainen Microsoft Fabric Lakehouse -myymälä tallentaa tietoja OneLakeen.

Pikakuvakkeiden avulla voit viitata kansioihin missä tahansa OneLake-sijainnissa.

Jokainen Microsoft Fabric Warehouse tallentaa taulukkotiedot OneLakeen. Jos taulukko on vain lisäosa, taulukon tiedot näkyvät Delta Lake -tietoina OneLakessa. Pikakuvakkeiden avulla voit viitata minkä tahansa OneLake-kentän kansioihin, joissa Warehouse-taulukot ovat näkyvissä.

Työtilojen välinen jakaminen ja kyselyt

Vaikka työtilojen avulla voitkin erottaa tietoja monitasoisten liiketoiminta-, maantieteellisten tai lakisääteisten vaatimusten perusteella, joskus sinun on helpotettava tietojen jakamista näiden rivien välillä analytiikkatarpeiden vuoksi.

Lakehouse SQL -analytiikan päätepisteen avulla tietojen jakaminen osastojen ja käyttäjien välillä on helppoa, jolloin käyttäjä voi tuoda oman kapasiteettinsa ja varastonsa. Työtilat järjestävät osastoja, liiketoimintayksiköitä tai analyysitoimialueita. Pikakuvakkeiden avulla käyttäjät voivat löytää minkä tahansa Warehousen tai Lakehousen tiedot. Käyttäjät voivat suorittaa välittömästi omia mukautettuja analyysejään samoista jaetuista tiedoista. Tämä lähestymistapa auttaa osastojen palautuksissa ja käyttötarkoituksen jakamisessa, ja se on nollakopioversio datasta.

SQL-analytiikan päätepisteen avulla voit tehdä kyselyjä mistä tahansa taulukosta ja jakaa sen helposti. Voit lisätä ohjaimia käyttämällä työtilan rooleja ja turvallisuusrooleja täyttääksesi lisäliiketoimintavaatimuksia.

Hyödyntääksesi monikäyttöistä data-analytiikkaa, käytä seuraavia vaiheita:

  1. Luo OneLake-pikakuvake, joka viittaa työtilan taulukkoon tai kansioon, jota voit käyttää.
  2. Valitse Lakehouse- tai Warehouse-varasto, joka sisältää analysoitavan taulukon tai Delta Lake -kansion. Kun valitset taulukon tai kansion, Lakehouseen ilmestyy pikakuvake.
  3. Vaihda Lakehousen SQL-analytiikan päätepisteeseen ja etsi SQL-taulukko, jonka nimi vastaa pikakuvakkeen nimeä. Tämä SQL-taulukko viittaa toisen työtilan kansioon.
  4. Tee kysely SQL-taulukosta, joka viittaa toisen työtilan tietoihin. Voit käyttää taulukkoa kuten mitä tahansa muuta taulukkoa SQL-analytiikan päätepisteessä. Voit liittää taulukoita, jotka viittaavat eri työtilojen tietoihin.

Lisätietoja SQL-analytiikan päätepisteen turvallisuudesta löytyy kohdasta OneLake Security for SQL analytics endpoints.

Muistio

Jos SQL-taulukko ei heti näy SQL-analytiikan päätepisteessä, odota muutama minuutti. Toisessa työtilassa tietoihin viittaava SQL-taulukko luodaan viiveellä.

Osioitujen tietojen analysointi

Tietojen osiointi on tunnettu tietojen käytön optimointitekniikka Data Lake -tallennustiloissa. Tallennat osioidut tietojoukot hierarkkisiin kansiorakenteisiin muodossa /year=<year>/month=<month>/day=<day>, missä year, month, ja day ovat osiointisarakkeet. Osioidut tietojoukot mahdollistavat nopeamman tiedonhallinnan, jos kyselyt käyttävät predikaatteja, jotka suodattavat dataa vertaamalla predikaattisarakkeita arvoon.

SQL-analytiikan päätepiste voi edustaa osioituja Delta Lake -tietojoukkoja SQL-taulukoina ja mahdollistaa niiden analysoinnin.

Lisätietoja ja esimerkkejä ulkoisen datan kyselyistä löytyy kohdasta Query external data lake files using Fabric tietovarasto tai SQL Analytics Endpoint. Esimerkki ja käyttötapaus osioitujen parquet-tiedostojen kyselyyn löytyy kohdasta Kysely osioiduista datasta.

Analysoi dataa Lakehousessa, Warehousessa tai Eventhousessa

Lakehouse- ja Warehouse-pääsivuilla on Eventhouse-päätepiste osana Analysoi dataa valikon kanssa. Eventhouse-päätepiste tarjoaa Eventhouse-toimisen kyselykokemuksen suoraan Lakehouse- ja Warehouse-datan päälle ilman datan kopiointia tai manuaalista synkronointia.

Kuvakaappaus Analysoi datasta painikkeella laajennettuna, jotta näkee SQL-analytiikan päätepisteen ja Eventhousen päätepistevaihtoehdot.

Kun otat Eventhouse-päätepisteen käyttöön, Eventhouse ja KQL-tietokanta luodaan automaattisesti lähde-Lakehousen tai Warehousen lapsikohteiksi, ja skeeman synkronointi hoidetaan taustalla. Päätepiste heijastaa aina lähdedatan nykyistä skeemaa, mahdollistaen lähes reaaliaikaisen analyyttisen pääsyn.

Tämä integraatio tekee Eventhousesta luonnollisen jatkeen tietolähteelle, eikä erillisenä järjestelmänä, joka täytyy perustaa ja hallita. Lisätietoja Eventhouse-päätepisteestä löytyy kohdasta Enable Eventhouse endpoint for lakehouse and warehouse.