Microsoft Fabric -päätöksenteko-opas: toimintojen, tietovuon tai Sparkin kopiointi
Tämän viiteoppaan ja esimerkkiskenaarioiden avulla voit päättää, tarvitsetko Microsoft Fabric -kuormituksille kopiotoiminnon, tietovuon vai Sparkin.
Aktiviteetin, tietovuon ja Spark-ominaisuuksien kopioiminen
Putken kopiointitoiminto | Tietovuo Gen 2 | Kipinä | |
---|---|---|---|
Käyttötapaus | Data Lake -tallennustilan ja tietovaraston siirto, tietojen käsittely, kevyt muunnos |
tietojen käsittely, tietojen muunnos, tietojen järjesteleminen, tietojen profilointi |
tietojen käsittely, tietojen muunnos, tietojenkäsittely, tietojen profilointi |
Ensisijainen kehittäjäpersona | tietoteknikko, tietojen integrointi |
tietoteknikko, tietojen integrointi, yritysanalyytikko |
tietoteknikko, datatieteilijälle, data developer |
Ensisijainen kehittäjän taitojoukko | ETL SQL JSON |
ETL M SQL |
Spark (Scala, Python, Spark SQL, R) |
Koodi kirjoitettu | Ei koodia, low code |
Ei koodia, low code |
Koodi |
Tietojen määrä | Matalasta korkeaan | Matalasta korkeaan | Matalasta korkeaan |
Kehitysliittymä | Ohjattu Kangas |
Power Query | Notebook Spark-työn määritys |
Lähteistä | Yli 30 liitintä | Yli 150 liitintä | Satoja Spark-kirjastoja |
Kohteet | Yli 18 liitintä | Lakehouse, Azure SQL -tietokanta, Azure Data Explorer, Azure Synapse Analytics |
Satoja Spark-kirjastoja |
Muunnoksen monimutkaisuus | Matala: kevyt – tyypin muuntaminen, sarakkeiden yhdistäminen, tiedostojen yhdistäminen/jakaminen, hierarkian tasoittaminen |
Matalasta korkeaan: Yli 300 muunnosfunktiota |
Matalasta korkeaan: alkuperäisten Spark- ja avoimen lähdekoodin kirjastojen tuki |
Seuraavista kolmesta skenaariosta saat ohjeita tietojen käsittelytavan valitsemiseen Fabricissa.
Skenaario 1
Tietoteknikko Leo tarvitsee suuren määrän tietoja ulkoisista järjestelmistä sekä paikallisista että pilvipalveluista. Näitä ulkoisia järjestelmiä ovat tietokannat, tiedostojärjestelmät ja ohjelmointirajapinnat. Leo ei halua kirjoittaa ja ylläpitää koodia jokaiselle liittimelle tai tietojen siirtotoiminnolle. Hän haluaa seurata mitalilion tasojen parhaita käytäntöjä pronssilla, hopealla ja kullalla. Leolla ei ole kokemusta Sparkistä, joten hän suosii mahdollisimman paljon vetämisen ja pudottamisen käyttöliittymää mahdollisimman pienellä koodaamisella. Lisäksi hän haluaa käsitellä tiedot aikataulun mukaisesti.
Ensimmäinen vaihe on raakadatan vieminen pronssikerroksen lakehouseen Azuren tietoresursseista ja useista kolmannen osapuolen lähteistä (kuten Snowflake Web, REST, AWS S3, GCS jne.). Hän haluaa yhdistetyn lakehousen, jotta kaikki tiedot eri LOB: stä, paikallisista ja pilvilähteistä sijaitsevat yhdessä paikassa. Leo arvioi vaihtoehdot ja valitsee putken kopiointitoiminnon sopivaksi vaihtoehdoksi hänen raaka binaarikopiolleen. Tämä malli koskee sekä historiallista että lisäävää tietojen päivitystä. Kopiointitoiminnon avulla Leo voi ladata Kulta-tiedot tietovarastoon ilman koodia, jos tarve tulee esiin, ja jaksot tarjoavat suuren mittakaavan tietojen käsittelytoimintoja, jotka voivat siirtää petatavuskaavan mittakaavan tietoja. Kopiointitoiminto on paras vähäkoodinen ja koodittomuusvalinta, kun haluat siirtää petatavuja tietoa lakehouseihin ja varastoihin lähdelajikkeista joko ad hoc- tai aikataulun mukaan.
Skenaario2
Mary on tietoteknikko, jolla on syvällinen tietämys lob-analytiikkavaatimuksista. Yläpuolinen ryhmä on onnistuneesti ottanut käyttöön ratkaisun useiden LOB:n historiallisten ja lisäävien tietojen siirtämiseksi yhteiseen Lakehouseen. Maryn tehtävänä on siistiä tietoja, soveltaa liiketoimintalogiikkaa ja ladata ne useisiin kohteisiin (kuten Azure SQL -tietokantaan, ADX:ään ja Lakehouseen) valmistautuessaan vastaaviin raportointitiimeihin.
Mary on kokenut Power Query -käyttäjä, ja tietojen määrä on matalalla tai keskitasoisella alueella halutun suorituskyvyn saavuttamiseksi. Tietovuot tarjoavat koodittomuus rajapintoja tai vähäisen koodin rajapintoja, joiden avulla voit käsitellä tietoja sadoista tietolähteistä. Tietovoiden avulla voit muuntaa tietoja käyttämällä yli 300 tietojen muunnosvaihtoehtoa ja kirjoittaa tulokset useisiin kohteisiin helppokäyttöisen ja erittäin visuaalisen käyttöliittymän avulla. Marja arvioi vaihtoehdot ja päättää, että Tietovuo Gen 2:n käyttäminen on järkevää hänen suosimakseen muunnosvaihtoehdoksi.
Skenaario 3
Adam on tietoteknikko, joka työskentelee suuressa jälleenmyyntiyrityksessä, joka käyttää Lakehousea asiakastietojensa tallentamiseen ja analysointiin. Adam on osana työtään vastuussa dataputkien rakentamisesta ja ylläpidosta, jotka poimivat, muuntavat ja lataavat tietoja Lakehouseen. Yksi yrityksen liiketoimintavaatimuksista on asiakkaan arviointianalytiikan suorittaminen, jotta saadaan merkityksellisiä tietoja asiakkaiden kokemuksista ja heidän palvelujensa parantamisesta.
Adam päättää, että paras vaihtoehto on käyttää Sparkiä poiminta- ja muunnoslogiikan luomiseen. Spark tarjoaa hajautetun tietojenkäsittelyympäristön, joka voi käsitellä suuria tietomääriä rinnakkain. Hän kirjoittaa Spark-sovelluksen käyttämällä Pythonia tai Scalaa. Siinä lukee OneLakesta jäsennettyjä, puolirakenteisia ja jäsentämättömiä tietoja asiakastarkastuksia ja palautetta varten. Sovellus puhdistaa, muuntaa ja kirjoittaa tietoa Lakehousen Delta-taulukoihin. Tiedot ovat sitten valmiita käytettäviksi jatkoanalytiikkaan.