Jaa


Siirto: Azure Synapse Analyticsille erilliset SQL-varannot Fabricille

Koskee: Microsoft Fabric -varasto

Tässä artikkelissa kuvataan tietovarastoinnin strategia, huomioitavat asiat ja menetelmät siirtämiseksi Azure Synapse Analyticsissa erillisissä SQL-varannoissa Microsoft Fabric Warehouseen.

Siirron johdanto

Kun Microsoft esitteli Microsoft Fabricin, joka on kattava SaaS-analytiikkaratkaisu yrityksille, joka tarjoaa kattavan palvelupaketin, kuten Data Factory, Data Engineering, Data Warehousing, Data Science, Real-Time Intelligence ja Power BI.

Tässä artikkelissa keskitytään rakenteen (DDL) siirtämiseen, tietokantakoodin (DML) siirtoon ja tietojen siirtoon. Microsoft tarjoaa useita vaihtoehtoja. Tässä yhteydessä keskustellaan jokaisesta vaihtoehdosta yksityiskohtaisesti ja annetaan ohjeita siihen, mitä näistä vaihtoehdoista sinun tulee pohtia skenaariossasi. Tässä artikkelissa käytetään TPC-DS-alan vertailuarvoa havainnollistamiseen ja suorituskykytestaukseen. Todellinen tulos voi vaihdella useiden tekijöiden mukaan, kuten tietotyypin, tietotyyppien, taulukoiden leveyden, tietolähteen viiveen jne.

Siirron valmisteleminen

Suunnittele siirtoprojektisi huolellisesti ennen aloittamista ja varmista, että rakenne, koodi ja tiedot ovat yhteensopivia Fabric Warehousen kanssa. Sinun on otettava huomioon joitakin rajoituksia . Kvantifioi yhteensopimattomien kohteiden uudelleenmuodostamistyö sekä muut resurssit, joita tarvitaan ennen siirtoa.

Toinen suunnittelun tärkeä tavoite on suunnittelun säätäminen, jotta voit varmistaa, että ratkaisusi hyödyntää täysimääräisesti Fabric Warehousen tarjoamaa suurta kyselysuoritustehoa. Tietovarastojen suunnitteleminen skaalausta varten tuo käyttöön ainutlaatuisia suunnittelumalleja, joten perinteiset lähestymistavat eivät aina ole parhaita. Tarkista Fabric Warehousen suorituskykyohjeet, koska vaikka voitkin tehdä joitakin rakenteen muutoksia siirtämisen jälkeen, muutosten tekeminen prosessin aiemmaksi säästää aikaa ja vaivaa. Siirtyminen teknologiasta tai ympäristöstä toiseen on aina merkittävä ponnistus.

Seuraavassa kaaviossa esitetään siirron elinkaari, jossa luetellaan tärkeimmät pilarit, jotka koostuvat Arvioi ja arvioi, Suunnittele ja Suunnittele, Siirrä, Valvo ja Hallinnoi, Optimoi ja nykyaikaista pilarit, joihin liittyvät tehtävät kussakin pilarissa suunnitellaan ja valmistaudutaan sujuvaan siirtoon.

Siirron elinkaaren kaavio.

Runbook siirtoa varten

Harkitse seuraavia toimia suunnitteluoppaana siirtymiselle Synapse-erillisistä SQL-varannoista Fabric Warehouseen.

  1. Arvioi ja arvioi
    1. Tunnista tavoitteet ja motivaatiot. Luo selkeät halutut tulokset.
    2. Olemassa olevan arkkitehtuurin etsiminen, arvioiminen ja perustasoon määrittäminen.
    3. Tunnista tärkeimmät sidosryhmät ja sponsorit.
    4. Määritä siirrettävän kohteen laajuus.
      1. Aloita pienillä ja yksinkertaisilla laitteilla, valmistaudu useisiin pieniin siirtoihin.
      2. Aloita prosessin kaikkien vaiheiden seuraaminen ja dokumentointi.
      3. Luo tietojen ja prosessien luettelo siirtoa varten.
      4. Määritä tietomallin muutokset (jos sellaisia on).
      5. Määritä Fabric-työtila.
    5. Mikä on taitosi/mieltymyksesi?
      1. Automatisoi aina, kun se on mahdollista.
      2. Azuren sisäänrakennettujen työkalujen ja ominaisuuksien avulla voit vähentää siirtotoimia.
    6. Kouluta henkilökuntaa varhain uudella alustalla.
      1. Tunnistat tarpeiden ja koulutusresurssien osaamisen, kuten Microsoft Learnin.
  2. Suunnittele ja suunnittele
    1. Määritä haluttu arkkitehtuuri.
    2. Valitse siirtomenetelmä tai työkalut seuraavien tehtävien suorittamiseksi:
      1. Tietojen poiminta lähteestä.
      2. Schema (DDL) -muunto, mukaan lukien taulukoiden ja näkymien metatiedot
      3. Tietojen käsittely, mukaan lukien historialliset tiedot.
        1. Uudista tarvittaessa tietomalli uuden käyttöympäristön suorituskyvyn ja skaalattavuuden avulla.
      4. Tietokantakoodin (DML) siirto.
        1. Siirrä tai muodosta uudelleen tallennetut toimintosarjat ja liiketoimintaprosessit.
    3. Luetteloi ja poimi suojausominaisuudet ja objektien käyttöoikeudet lähteestä.
    4. Suunnittele ja suunnittele, miten voit korvata tai muokata olemassa olevia ETL/ELT-prosesseja lisäävän kuormituksen osalta.
      1. Luo rinnakkaisia ETL/ELT-prosesseja uuteen ympäristöön.
    5. Valmistele yksityiskohtainen siirtosuunnitelma.
      1. Yhdistä nykyinen tila uuteen haluttuun tilaan.
  3. Muuttaa
    1. Suorita rakenne, tiedot ja koodin siirto.
      1. Tietojen poiminta lähteestä.
      2. Schema (DDL) -muunto
      3. Tietojen käsittely
      4. Tietokantakoodin (DML) siirto.
    2. Skaalaa tarvittaessa varatut SQL-varannon resurssit tilapäisesti ylöspäin siirtämisen nopeuttamiseksi.
    3. Käytä suojausta ja käyttöoikeuksia.
    4. Siirrä olemassa olevat ETL/ELT-prosessit lisäävää kuormitusta varten.
      1. Siirrä tai muodosta uudelleen ETL/ELT lisäävä kuormitusprosessit.
      2. Kokeile ja vertaa rinnakkaisia lisäävän kuormituksen prosesseja.
    5. Mukauta yksityiskohtaista siirtosuunnitelmaa tarpeen mukaan.
  4. Valvonta ja hallinnoiminen
    1. Suorita rinnakkain ja vertaa lähdeympäristöäsi.
      1. Testaa sovelluksia, liiketoimintatietoympäristöjä ja kyselytyökaluja.
      2. Benchmark ja optimoi kyselyn suorituskyky.
      3. Valvo ja hallitse kustannuksia, suojausta ja suorituskykyä.
    2. Hallinnon vertailukohta ja arviointi.
  5. Optimoi ja modernisoi
    1. Kun liiketoiminta on mukavaa, siirtymäsovellukset ja ensisijaiset raportointiympäristöt on tarkoitus siirtää Fabriciin.
      1. Skaalaa resursseja ylös tai alas, kun kuormitus siirtyy Azure Synapse Analyticsista Microsoft Fabriciin.
      2. Luo toistettavissa oleva malli tuleville siirtymisille saatujen kokemusten pohjalta. Toistaa.
      3. Tunnista kustannusten optimoinnin, suojauksen, skaalattavuuden ja toiminnallisen huippuosaamisen mahdollisuudet
      4. Tunnista mahdollisuudet nykyaikaistaa tietotilaasi uusimmilla Fabric-ominaisuuksilla.

"Hissi ja vaihto" vai nykyaikaistaminen?

Yleisesti ottaen on olemassa kahdenlaisia siirtymisskenaarioita riippumatta suunnitellun siirron tarkoituksesta ja laajuudesta: lift and shift sellaisenaan tai vaiheittainen lähestymistapa, joka sisältää arkkitehtuuri- ja koodimuutokset.

Lift and shift

Hississä ja siirtymässä olemassa oleva tietomalli siirretään pienellä muutoksella uuteen Fabric Warehouseen. Tämä lähestymistapa minimoi riski- ja siirtoajan vähentämällä uutta työtä, jota tarvitaan siirron etujen toteuttamiseksi.

Hissien ja vaihdon siirtyminen sopii hyvin näihin tilanteisiin:

  • Käytössäsi on aiemmin luotu ympäristö, jossa on vain pieni määrä tietovaraston osavaraston osamalleja siirrettäväksi.
  • Sinulla on aiemmin luotu ympäristö, jossa tiedot ovat jo hyvin suunnitellussa tähti- tai Snowflake-rakenteessa.
  • Fabric Warehouseen siirtyminen aiheuttaa sinulle aikaa ja kustannuspaineita.

Yhteenvetona tämä lähestymistapa toimii hyvin niissä kuormituksissa, jotka on optimoitu nykyisessä Synapse-erillisessä SQL-varannot-ympäristössäsi, joten se ei vaadi suuria muutoksia Fabricissa.

Modernisoi vaiheittain arkkitehtonisilla muutoksilla

Jos vanha tietovarasto on kehittynyt pitkän ajan kuluessa, sinun on ehkä suunniteltava se uudelleen, jotta se säilyttää vaaditut suorituskykytasot.

Haluat ehkä myös suunnitella arkkitehtuurin uudelleen hyödyntääksesi Fabric-työtilassa saatavilla olevia uusia moduulia ja ominaisuuksia.

Suunnitteluerot: Synapse erilliset SQL-varannot ja Fabric Warehouse

Ota huomioon seuraavat Azure Synapsen ja Microsoft Fabricin tietovarastointierot ja vertaa erillisiä SQL-varantoja Fabric Warehouseen.

Huomioitavaa taulukoissa

Kun siirrät taulukoita eri ympäristöjen välillä, yleensä vain raakatiedot ja metatiedot siirtyvät fyysisesti. Muita lähdejärjestelmän tietokantaelementtejä, kuten indeksejä, ei yleensä siirretä, koska ne saattavat olla tarpeettomia tai toteutettu eri tavalla uudessa ympäristössä.

Lähdeympäristön suorituskyvyn optimoinnit, kuten indeksit, osoittavat, mihin voit lisätä suorituskyvyn optimoinnin uudessa ympäristössä, mutta nyt Fabric huolehtii siitä automaattisesti puolestasi.

Huomioitavaa T-SQL:ssä

On useita tietojenkäsittelykielen (DML) syntaksieroja, jotka on syytä tiedostaa. Katso T-SQL Surface -alue Microsoft Fabricissa. Ota huomioon myös koodin arviointi, kun valitset tietokantakoodille (DML) siirtotapoja.

Siirron aikana vallinneiden pariteetin erojen mukaan sinun on ehkä kirjoitettava T-SQL DML -koodin osat uudelleen.

Tietotyyppien yhdistämismääritysten erot

Fabric Warehousessa on useita tietotyyppieroja. Lisätietoja on artikkelissa Microsoft Fabric -tietotyypit.

Seuraavassa taulukossa on tuettujen tietotyyppien yhdistäminen Synapse-erillisistä SQL-varannoista Fabric Warehouseen.

Synapse erilliset SQL-varannot Fabric Warehouse
raha decimal(19,4)
pienet rahat decimal(10,4)
pieni päivämäärä ja aika datetime2
datetime datetime2
nchar nieriä
nvarchar varchar
pieni pieni tuppu smallint
binääri varbinary
datetimeoffset* datetime2

* Datetime2 ei tallenna lisäaikavyöhykkeen siirtymätietoja, jotka on tallennettu kohteeseen. Koska Datetimeoffset-tietotyyppiä ei tällä hetkellä tueta Fabric Warehousessa, aikavyöhykkeen siirtymätiedot pitää poimia erilliseen sarakkeeseen.

Rakenteen, koodin ja tietojen siirron menetelmät

Tarkista ja selvitä, mitkä näistä vaihtoehdoista sopivat skenaarioosi, henkilöstön taitojoukkoihin ja tietoihisi. Valitsemasi vaihtoehdot riippuvat kokemuksestasi, suosituksestasi ja kunkin työkalun eduista. Tavoitteenamme on kehittää edelleen siirtotyökaluja, jotka lieventävät kitkaa ja manuaalisia toimia, jotta siirtokokemus on saumaton.

Tässä taulukossa on yhteenveto tietojen rakenteen (DDL), tietokantakoodin (DML) ja tietojen siirtomenetelmien tiedoista. Laajennamme jokaista skenaariota tarkemmin myöhemmin tässä artikkelissa, joka on linkitetty Vaihtoehto-sarakkeeseen.

Vaihtoehdon numero Asetus Kuvaus Taito/mieltymys Skenaario
1 Data Factory Schema (DDL) -muunto
Tieto poiminta
Tietojen käsittely
ADF/Pipeline Yksinkertaistettu kaikki yhdessä rakenteessa (DDL) ja tietojen siirtämisessä. Suositellaan dimensiotaulukoille.
2 Data Factory, jossa on osio Schema (DDL) -muunto
Tieto poiminta
Tietojen käsittely
ADF/Pipeline Osiointivaihtoehtojen käyttö luku- ja kirjoitusiden rinnakkaisuuden lisäämiseksi ja siten 10x:n siirtomäärän ja vaihtoehdon 1 käyttö on suositeltavaa faktataulukoille.
3 Data Factory ja nopeutettu koodi Schema (DDL) -muunto ADF/Pipeline Muunna ja siirrä rakenne (DDL) ensin, pura ja poimi ja COPY/Data Factory-funktiota käyttämällä sitä tietojen käyttämiseen optimaalisen yleisen käsittelytehon takaamiseksi.
4 Tallennetut toimintosarjat nopeutettu koodi Schema (DDL) -muunto
Tieto poiminta
Koodin arviointi
T-SQL Integroitua kehitysympäristöä käyttävä SQL-käyttäjä määrittää tarkemmin, mitä tehtäviä hän haluaa käsitellä. Käytä COPY/Data Factory -komentoa tietojen käyttämiseen.
5 SQL-tietokantaprojektin laajennus Azure Data Studiolle Schema (DDL) -muunto
Tieto poiminta
Koodin arviointi
SQL Project SQL-tietokantaprojekti käyttöönottoa varten ja vaihtoehdon 4 integrointi. Käytä COPY- tai Data Factory -kohdetta tietojen käyttämiseen.
6 LUO ULKOINEN TAULUKKO VALITTUNA (CETAS) Tieto poiminta T-SQL Kustannustehokas ja suorituskykyinen tieto poimitaan Azure Data Lake Storage (ADLS) Gen2:een. Käytä COPY/Data Factory -komentoa tietojen käyttämiseen.
7 Siirtyminen dbt:n avulla Schema (DDL) -muunto
tietokantakoodin (DML) muuntaminen
dbt Nykyiset dbt-käyttäjät voivat muuntaa DDL- ja DML-muuntonsa dbt Fabric -sovittimen avulla. Tämän jälkeen sinun on siirrettävä tiedot muiden tässä taulukossa olevien asetusten avulla.

Valitse kuormitus alkuperäiselle siirrolle

Kun päätät, mistä aloittaa Synapse-varatun SQL-varannon Fabric Warehouse -siirtoprojektiin, valitse kuormitusalue, jossa voit:

  • Todista Fabric Warehouseen siirtymisen elinkelpoisuus tarjoamalla nopeasti uuden ympäristön hyödyt. Aloita pienillä ja yksinkertaisilla laitteilla, valmistaudu useisiin pieniin siirtoihin.
  • Anna talon tekniselle henkilöstölle aikaa saada asiaankuuluvaa kokemusta prosesseista ja työkaluista, joita he käyttävät siirtyessään muille alueille.
  • Luo malli lisäsietosijainteja varten, jotka liittyvät lähteen Synapse-ympäristöön sekä käytössä olevat työkalut ja prosessit.

Vihje

Luo objektiluettelo, joka on siirrettävä, ja dokumentoi siirtoprosessi alusta loppuun, jotta se voidaan toistaa muille varatuille SQL-varannoille tai kuormituksille.

Ensimmäisen siirron aikana siirrettyjen tietojen määrän pitäisi olla niin suuri, että se osoittaa Fabric Warehouse -ympäristön ominaisuudet ja edut, mutta ei liian suuri näyttämään arvoa nopeasti. Koko 1-10 teratavun alueella on tyypillinen.

Siirtäminen Fabric Data Factoryn avulla

Tässä osiossa keskustellaan Data Factoryn vaihtoehdoista vähän koodia tai koodia käyttämättä olevalle persoonalle, jolle Azure Data Factory ja Synapse Pipeline ovat tuttuja. Tämä vetämisen ja poistamisen käyttöliittymäasetus tarjoaa yksinkertaisen vaiheen DDL:n muuntamiseen ja tietojen siirtämiseen.

Fabric Data Factory voi suorittaa seuraavat tehtävät:

  • Muunna rakenne (DDL) Fabric Warehouse -syntaksiksi.
  • Luo rakenne (DDL) Fabric Warehousessa.
  • Siirrä tiedot Fabric Warehouseen.

Vaihtoehto 1. Rakenteen/tietojen siirto – ohjattu kopiointitoiminto ja foreach-kopiointitoiminto

Tämä menetelmä käyttää Data Factory Copy -avustajaa yhteyden muodostamiseen lähteeseen erilliseen SQL-varannoseen, muuntamaan varatun SQL-varannon DDL-syntaksin Fabric-muotoon ja kopioimaan tiedot Fabric Warehouseen. Voit valita vähintään 1 kohdetaulukkoa (TPC-DS-tietojoukossa on 22 taulukkoa). Se luo ForEach-kohteen, joka käy läpi käyttöliittymässä valittujen taulukoiden luettelon ja kutkuttaa 22 rinnakkaista Kopioi toiminta -säikettä.

  • 22 SELECT-kyselyä (yksi kutakin valittua taulukkoa kohden) luotiin ja suoritettiin erillisessä SQL-varannossa.
  • Varmista, että sinulla on asianmukainen DWU ja resurssiluokka, jotta luodut kyselyt voidaan suorittaa. Tässä tapauksessa tarvitset vähintään DWU1000 staticrc10 , jotta enintään 32 kyselyä voidaan suorittaa 22 lähetetyn kyselyn käsittelemiseksi.
  • Data Factoryn tietojen suora kopiointi erillisestä SQL-varannosta Fabric Warehouseen edellyttää valmistelua. Käsittelyprosessi muodostui kahdesta vaiheesta.
    • Ensimmäinen vaihe koostuu tietojen poimimisesta erillisestä SQL-varannosta ADLS:ään, ja sitä kutsutaan valmisteluksi.
    • Toinen vaihe koostuu tietojen käsittelystä valmistelusta Fabric Warehouseen. Suurin osa tietojen käsittelyajankohtasta on valmisteluvaiheessa. Valmistelulla on siis valtava vaikutus tietojen käsittelykykyyn.

ForEachin luominen ohjatun kopiointitoiminnon avulla tarjoaa yksinkertaisen käyttöliittymän, jonka avulla voit muuntaa DDL:n ja käsitellä valittuja taulukoita erillisestä SQL-varannosta Fabric Warehouseen yhdessä vaiheessa.

Se ei kuitenkaan ole optimaalinen kokonaissiirtomäärän kanssa. Valmistelun käyttövaatimus, tarve rinnakkaiseen lukemiseen ja kirjoittamiseen "Lähde vaiheeseen" -osavaihetta varten ovat suorituskykyviiveen päätekijä. Tätä asetusta kannattaa käyttää vain dimensiotaulukoissa.

Vaihtoehto 2. DDL/Tietojen siirto – Tietoputki käyttämällä osioasetusta

Jos haluat korjata siirtomäärän parantamisen suurempien faktataulukoiden lataamiseksi Fabric-tietoputken avulla, on suositeltavaa käyttää Kopioi toiminta -vaihtoehtoa jokaiselle faktataulukolle, jossa on osioasetus. Tämä tarjoaa parhaan suorituskyvyn Kopioi toiminto -toiminnossa.

Voit halutessasi käyttää lähdetaulukon fyysistä osiointia, jos se on käytettävissä. Jos taulukossa ei ole fyysistä osiointia, sinun on määritettävä osion sarake ja annettava minimi- ja enimmäisarvot dynaamisen osioinnin käyttämiseksi. Seuraavassa näyttökuvassa tietoputken lähdeasetukset määrittävät dynaamisen osioalueen sarakkeen ws_sold_date_sk perusteella.

Tietoputken näyttökuva, joka kuvaa vaihtoehtoa määrittää perusavain tai dynaamisen osion sarakkeen päivämäärä.

Vaikka osion käyttö voi kasvattaa siirtomäärää valmisteluvaiheessa, on huomioitavaa tehdä asianmukaiset muutokset:

  • Osioalueesi mukaan se saattaa mahdollisesti käyttää kaikkia samanaikaisuuden ajanjaksoja, koska se saattaa luoda yli 128 kyselyä erilliseen SQL-varantoon.
  • Sinun täytyy skaalata minimiin DWU6000, jotta kaikki kyselyt voidaan suorittaa.
  • Esimerkiksi TPC-DS-taulukolle web_sales lähetettiin 163 kyselyä varattuun SQL-varantoon. DWU6000 suoritettiin 128 kyselyä, kun taas 35 kyselyä asetettiin jonoon.
  • Dynaaminen osio valitsee automaattisesti alueen osion. Tässä tapauksessa 11 päivän alue kullekin SELECT-kyselylle, joka on lähetetty varattuun SQL-varantoon. Esimerkki:
    WHERE [ws_sold_date_sk] > '2451069' AND [ws_sold_date_sk] <= '2451080')
    ...
    WHERE [ws_sold_date_sk] > '2451333' AND [ws_sold_date_sk] <= '2451344')
    

Faktataulukoiden tapauksessa suosittelemme, että käytät Data Factorya ja osiointitoimintoa siirtomäärän lisäämiseksi.

Lisääntyneet rinnakkaiset lukemiset edellyttävät kuitenkin erillistä SQL-varantoa skaalaamaan suuremman tietojoukon DWU:hen, jotta poimintakyselyt voidaan suorittaa. Osiointia hyödyntämällä suhde parantuu 10 kertaa ilman osion asetusta. Voit suurentaa DWU:ta saadaksesi lisää siirtomäärää käsittelyresurssien kautta, mutta varatussa SQL-varannossa on enintään 128 aktiivista kyselyä.

Muistiinpano

Lisätietoja Synapse DWU:n yhdistämisestä Fabriciin on blogitekstissä: Azure Synapse -erillisiä SQL-varantoja voidaan yhdistää Fabric-tietovaraston käsittelyyn.

Vaihtoehto 3. DDL-siirto – ohjattu kopiointitoiminto toimintojen kopiointia varten

Kaksi edellistä vaihtoehtoa ovat erinomaiset tietojen siirtovaihtoehdot pienemmille tietokannoilla. Jos kuitenkin tarvitset suurempaa siirtomäärää, suosittelemme vaihtoehtoista vaihtoehtoa:

  1. Poimi tiedot erillisestä SQL-varannosta ADLS:ään, mikä vähentää vaiheen suorituskykyyn liittyviä kuormituskustannuksia.
  2. Käytä joko Data Factory- tai COPY-komentoa tietojen sisään ottaminen Fabric Warehouseen.

Voit jatkaa Data Factoryn käyttöä rakenteen (DDL) muuntamiseen. Ohjatun kopiointitoiminnon avulla voit valita tietyn taulukon tai Kaikki taulukot. Tämä siirtää rakenteen ja tiedot suunnittelussa yhdessä vaiheessa poimien rakenteen ilman rivejä käyttäen epätosi-ehtoa TOP 0 kyselylausekkeessa.

Seuraava koodiesimerkki kattaa rakenteen (DDL) siirtämisen Data Factoryen.

Koodiesimerkki: Schema (DDL) -siirto Data Factoryen

Fabric-tietoputkien avulla voit helposti siirtää DDL:n (skeemat) minkä tahansa lähteen Azure SQL -tietokannan tai erillisen SQL-varannon taulukko-objekteille. Tämä tietoputki siirtää lähteelle varattujen SQL-varantotaulukoiden rakenteen (DDL) Fabric Warehouseen.

Fabric Data Factoryn näyttökuva, joka näyttää kullekin objektille johtavan hakuobjektin. Kunkin objektin sisällä on toimintoja, jotka siirretään DDL:lle.

Putken rakenne: parametrit

Tämä tietoputki hyväksyy parametrin SchemaName, jonka avulla voit määrittää siirrettävät rakenteet. Rakenne dbo on oletusarvo.

Kirjoita Oletusarvo-kenttään pilkuin eroteltu taulukkorakenteen luettelo, joka ilmaisee, mitkä rakenteet siirretään: 'dbo','tpch' anna kaksi dbo rakennetta ja .tpch

Näyttökuva Data Factorysta, joka näyttää tietoputken Parametrit-välilehden. Nimi-kentässä rakennenimi. Oletusarvo-kentässä , 'dbo','tpch', joka ilmaisee, että nämä kaksi rakennetta on siirrettävä.

Putken rakenne: hakutoiminto

Luo hakutoiminto ja määritä yhteys osoittamaan lähdetietokantaasi.

Asetukset-välilehdessä:

  • Määritä Tietosäilön tyypiksi Ulkoinen.

  • Yhteys on Oma Azure Synapse -erillinen SQL-varanto. Yhteystyyppi on Azure Synapse Analytics.

  • Käytä kyselyä on määritetty kyselyyn.

  • Kyselykenttä on luotava käyttäen dynaamista lauseketta, jonka avulla parametria SchemaName voidaan käyttää kyselyssä, joka palauttaa kohdelähdetaulukoiden luettelon. Valitse Kysely ja valitse sitten Lisää dynaaminen sisältö.

    Tämä lauseke LookUp-aktiviteetissa luo SQL-lausekkeen, joka lähettää kyselyjä järjestelmänäkymiin rakenne- ja taulukkoluettelon noutamiseksi. Viittaa SchemaName-parametriin SQL-rakenteen suodattamisen sallimiseksi. Tämän tuloste on SQL-rakenteen ja taulukoiden matriisi, joita käytetään syötteenä ForEach-aktiviteetissa.

    Seuraavan koodin avulla voit palauttaa luettelon kaikista käyttäjätaulukoista rakenteen nimineen.

    @concat('
    SELECT s.name AS SchemaName,
    t.name  AS TableName
    FROM sys.tables AS t
    INNER JOIN sys.schemas AS s
    ON t.type = ''U''
    AND s.schema_id = t.schema_id
    AND s.name in (',coalesce(pipeline().parameters.SchemaName, 'dbo'),')
    ')
    

Näyttökuva Data Factorysta, jossa näkyy tietoputken Asetukset-välilehti. Kysely-painike on valittuna ja koodi on liitetty Kysely-kenttään.

Putken rakenne: ForEach Loop

Määritä ForEach-silmukka-välilehdessä seuraavat asetukset:

  • Poista peräkkäinen käytöstä, jotta useita iteraatioita voidaan suorittaa samanaikaisesti.
  • Määritä Erän määrä -arvoksi 50, mikä rajoittaa samanaikaisten iteraatioiden enimmäismäärää.
  • Kohteet-kentän on käytettävä dynaamista sisältöä lookup-toiminnan tulosteen viittaamiseen. Käytä seuraavaa koodikatkelmaan: @activity('Get List of Source Objects').output.value

Näyttökuva, jossa näkyy ForEach Loop Activityn asetusvälilehti.

Putken rakenne: Kopioi aktiviteetti ForEach-silmukan sisällä

Lisää ForEach-aktiviteettiin Kopioi aktiviteetti. Tämä menetelmä käyttää tietoputkien dynaamista lausekekieltä ja luo SELECT TOP 0 * FROM <TABLE> vain rakenteen, jossa ei ole tietoja, Fabric Warehouseen.

Lähde-välilehdessä:

  • Määritä Tietosäilön tyypiksi Ulkoinen.
  • Yhteys on Oma Azure Synapse -erillinen SQL-varanto. Yhteystyyppi on Azure Synapse Analytics.
  • Määritä Käytä kyselyä -arvoksi Kysely.
  • Liitä Kysely-kenttään dynaamisen sisällön kysely ja käytä tätä lauseketta, joka palauttaa nolla riviä eli vain taulukon rakenteen:@concat('SELECT TOP 0 * FROM ',item().SchemaName,'.',item().TableName)

Näyttökuva Data Factorysta, joka näyttää Kopioi aktiviteetti -toiminnon Lähde-välilehden ForEach-silmukan sisällä.

Kohde-välilehdessä:

  • Määritä Tietosäilön tyypiksi Työtila.
  • Työtilan tietosäilötyyppi on Tietovarasto, ja tietovarastoksi on määritetty Fabric Warehouse.
  • Kohdetaulukon rakenne ja taulukon nimi määritetään dynaamisen sisällön avulla.
    • Rakenne viittaa nykyisen iteraation kenttään SchemaName ja katkelmaan: @item().SchemaName
    • Taulukko viittaa TableName-nimeen ja katkelmaan: @item().TableName

Näyttökuva Data Factorysta, joka näyttää Kopioi aktiviteetti -välilehden Kohde-välilehden kunkin ForEach-silmukan sisällä.

Putken rakenne: Nielu

Osoita Sink-kohdan kohdalla Warehouseen ja viittaa Lähderakenteeseen ja Taulukon nimeen.

Kun olet suorittanut tämän putken, näet tietovaraston, joka on täytetty lähteesi kullekin taulukolle käyttäen asianmukaista rakennetta.

Siirtäminen käyttämällä tallennettuja toimintosarjoja Synapse-erillisessä SQL-varannossa

Tämä vaihtoehto käyttää tallennettuja toimintosarjoja Fabric-siirron suorittamiseen.

Koodinäytteet saat microsoft/fabric-migration-sivustolta GitHub.com. Tämä koodi jaetaan avatud lähtekood, joten voit osallistua yhteistyöhön ja auttaa yhteisöä.

Mitä siirron tallennetut toimintosarjat voivat tehdä:

  1. Muunna rakenne (DDL) Fabric Warehouse -syntaksiksi.
  2. Luo rakenne (DDL) Fabric Warehousessa.
  3. Poimi tiedot erillisestä Synapse-varannosta ADLS:ään.
  4. Merkintä, jota ei tueta Fabric-syntaksi T-SQL-koodeille (tallennetut toimintosarjat, funktiot, näkymät).

Tämä on hyvä vaihtoehto niille, jotka:

  • T-SQL on tuttu.
  • Haluat käyttää integroitua kehitysympäristöä, kuten SQL Server Management Studiota (SSMS).
  • Haluat tarkempia hallintatoimintoja siihen, mitä tehtäviä he haluavat käsitellä.

Voit suorittaa tietyn tallennetun toimintosarjan rakenteen (DDL) muunnosta, tietokatkelmaa tai T-SQL-koodiarviointia varten.

Tietojen siirtämistä varten sinun on käytettävä joko COPY INTO- tai Data Factory -kohdetta tietojen käyttämiseksi Fabric Warehouseen.

Siirtäminen SQL-tietokantaprojektin avulla

Microsoft Fabric -tietovarastoa tuetaan SQL-tietokantaprojektien laajennuksessa, joka on saatavilla Azure Data Studiossa ja Visual Studio Codessa.

Tämä laajennus on saatavilla Azure Data Studiossa ja Visual Studio Codessa. Tämä ominaisuus mahdollistaa lähteen hallinnan, tietokantatestauksen ja rakenteen vahvistamisen ominaisuudet.

Tämä on hyvä vaihtoehto niille, jotka haluavat käyttää SQL-tietokantaprojektia käyttöönotossaan. Tämä asetus integroi fabric-siirron tallennetut toimintosarjat SQL-tietokantaprojektiin saumattoman siirtokokemuksen tarjoamiseksi.

SQL-tietokantaprojekti voi:

  1. Muunna rakenne (DDL) Fabric Warehouse -syntaksiksi.
  2. Luo rakenne (DDL) Fabric Warehousessa.
  3. Poimi tiedot erillisestä Synapse-varannosta ADLS:ään.
  4. T-SQL-koodien (tallennetut toimintosarjat, funktiot, näkymät) syntaksi, jota ei tueta.

Tietojen siirtämisessä käytät joko COPY INTO- tai Data Factory -kohdetta tietojen käytölle Fabric Warehouseen.

Microsoft Fabric CAT -tiimi on lisännyt Azure Data Studion tuettavuuteen joukon PowerShell-komentosarjoja, joiden avulla voidaan käsitellä rakenteen (DDL) ja tietokantakoodin (DML) purkamista, luomista ja käyttöönottoa SQL-tietokantaprojektin kautta. Jos haluat ohjeet SQL-tietokantaprojektin käyttöön hyödyllisten PowerShell-komentosarjojen kanssa, lue artikkeli Microsoft/Fabric-migration GitHub.com.

Lisätietoja SQL-tietokantaprojekteista on kohteissa SQL-tietokantaprojektien laajennuksen ja Projektin luominen ja julkaiseminen aloittaminen.

Tietojen siirtäminen CETAS-yhteyden avulla

T-SQL CREATE EXTERNAL TABLE AS SELECT (CETAS) -komento tarjoaa kustannustehokkaimman ja optimaalisen menetelmän tietojen poimimiseen Synapse-erillisistä SQL-varannoista Azure Data Lake Storage (ADLS) Gen2:een.

Mitä CETAS voi tehdä:

  • Poimi tiedot ADLS:iin.
    • Tämä asetus edellyttää, että käyttäjät luovat rakenteen (DDL) Fabric Warehousessa ennen tietojen käyttöä. Harkitse tämän artikkelin vaihtoehtoja rakenteen (DDL) siirtämiseksi.

Tämän vaihtoehdon etuja ovat seuraavat:

  • Vain yksi kysely taulukkoa kohden lähetetään lähteen Synapse-erillistä SQL-varantoa vastaan. Tämä ei käytä kaikkia samanaikaisuuden ajanjaksoja, joten se ei estä samanaikaista asiakastuotannon ETL/kyselyä.
  • Skaalausta DWU6000 ei tarvita, koska kuhunkin taulukkoon käytetään vain yhtä samanaikaisuuspaikkaa, jotta asiakkaat voivat käyttää pienempiä DWUs-yksiköitä.
  • Purku suoritetaan rinnakkain kaikissa laskentasolmuissa, ja tämä on avain suorituskyvyn parantamiseen.

Käytä CETAS-koodausta tietojen purkamiseen ADLS:lle Parquet-tiedostoina. Parquet-tiedostot tarjoavat tehokkaan tietojen tallennuksen edun sarakejoukon pakkauksella, joka vaatii vähemmän kaistanleveyttä verkon läpi siirtymiseen. Lisäksi koska Fabric tallensi tiedot Delta-parquet-muodossa, tietojen käsittely on 2,5 kertaa nopeampi tekstitiedostomuotoon verrattuna, koska tietojen käsittelyn aikana ei ole muuntoa Delta-muodon kuormitukseksi.

CETAS-siirtomäärän suurentaminen:

  • Lisää rinnakkaisia CETAS-toimintoja, jolloin samanaikaisuuspaikkojen käyttö kasvaa mutta siirtomäärä kasvaa.
  • Skaalaa DWU Synapseille varatun SQL-varannon päälle.

Siirtäminen tietokannasta

Tässä osiossa keskustellaan dbt-vaihtoehdosta niille asiakkaille, jotka käyttävät dbt:tä nykyisessä Synapse-erillisessä SQL-varannon ympäristössään.

Mitä dbt voi tehdä:

  1. Muunna rakenne (DDL) Fabric Warehouse -syntaksiksi.
  2. Luo rakenne (DDL) Fabric Warehousessa.
  3. Muunna tietokantakoodi (DML) Fabric-syntaksiksi.

Dbt-kehys luo DDL:n ja DML:n (SQL-komentosarjat) lennossa kunkin suorituksen yhteydessä. SELECT-lausekkeissa ilmaistujen mallitiedostojen myötä DDL/DML voidaan kääntää välittömästi mihin tahansa kohdeympäristöön muuttamalla profiilia (ühendusstring) ja sovitintyyppiä.

Dbt-sovelluskehys on koodi-ensimmäinen menetelmä. Tiedot on siirrettävä käyttämällä tässä asiakirjassa lueteltuja vaihtoehtoja, kuten CETAS tai COPY/Data Factory.

Microsoft Fabric Synapse Data Warehousen dbt-sovitin mahdollistaa olemassa olevien dbt-projektien siirtämisen Fabric Warehouseen yksinkertaisella kokoonpanomuutoksesta eri käyttöympäristöihin, kuten Synapse dedicated SQL -altaisiin, Snowflakeen, Databricksiin, Google Big Queryyn tai Amazon Redshiftiin.

Fabric Warehouseen kohdistetun dbt-projektin aloittaminen on ohjeaiheessa Opetusohjelma: Dbt:n määrittäminen Fabric Data Warehouselle. Tässä asiakirjassa luetellaan myös mahdollisuus siirtyä eri varastoista/ympäristöistä toiseen.

Tietojen käsittely Fabric Warehouseen

Voit käsitellä tietoja Fabric Warehouseen kopioimalla tietoja COPY INTO- tai Fabric Data Factory -sovellukseen haluamasi mukaan. Molemmat menetelmät ovat suositeltuja ja parhaiten toimivia vaihtoehtoja, sillä niiden suorituskyky on siirtomäärältään vastaava, koska tiedostot on jo poimittu Azure Data Lake Storage (ADLS) Gen2:een.

Sinun on otettava huomioon useita seikkoja, jotka varmistavat, että voit suunnitella prosessisi mahdollisimman hyväksi:

  • Kun lataat useita taulukoita ADLS:stä Fabric Warehouseen, tämä ei edellytä resurssikiistaa. Tämän seurauksena suorituskyvyn heikkenemistä ei ole, kun ladataan rinnakkaisia säikeitä. Suurin käsittelynopeus rajoittuu vain Fabric-kapasiteettisi käsittelytehoon.
  • Fabric-kuormituksen hallinta mahdollistaa kuormitukselle ja kyselyille varattujen resurssien erottamisen. Resurssikiistaa ei ole, kun kyselyt ja tietojen lataaminen suoritetaan samanaikaisesti.