Microsoft Fabric -päätöksenteko-opas: toimintojen, tietovuon tai Sparkin kopiointi

Artikkeli
11/15/2023

Tämän viiteoppaan ja esimerkkiskenaarioiden avulla voit päättää, tarvitsetko Microsoft Fabric -kuormituksille kopiotoiminnon, tietovuon vai Sparkin.

Aktiviteetin, tietovuon ja Spark-ominaisuuksien kopioiminen

	Putken kopiointitoiminto	Tietovuo Gen 2	Kipinä
Käyttötapaus	Data Lake -tallennustilan ja tietovaraston siirto, tietojen käsittely, kevyt muunnos	tietojen käsittely, tietojen muunnos, tietojen järjesteleminen, tietojen profilointi	tietojen käsittely, tietojen muunnos, tietojenkäsittely, tietojen profilointi
Ensisijainen kehittäjäpersona	tietoteknikko, tietojen integrointi	tietoteknikko, tietojen integrointi, yritysanalyytikko	tietoteknikko, datatieteilijälle, data developer
Ensisijainen kehittäjän taitojoukko	ETL SQL JSON	ETL M SQL	Spark (Scala, Python, Spark SQL, R)
Koodi kirjoitettu	Ei koodia, low code	Ei koodia, low code	Koodi
Tietojen määrä	Matalasta korkeaan	Matalasta korkeaan	Matalasta korkeaan
Kehitysliittymä	Ohjattu Kangas	Power Query	Notebook Spark-työn määritys
Lähteistä	Yli 30 liitintä	Yli 150 liitintä	Satoja Spark-kirjastoja
Kohteet	Yli 18 liitintä	Lakehouse, Azure SQL -tietokanta, Azure Data Explorer, Azure Synapse Analytics	Satoja Spark-kirjastoja
Muunnoksen monimutkaisuus	Matala: kevyt – tyypin muuntaminen, sarakkeiden yhdistäminen, tiedostojen yhdistäminen/jakaminen, hierarkian tasoittaminen	Matalasta korkeaan: Yli 300 muunnosfunktiota	Matalasta korkeaan: alkuperäisten Spark- ja avoimen lähdekoodin kirjastojen tuki

Seuraavista kolmesta skenaariosta saat ohjeita tietojen käsittelytavan valitsemiseen Fabricissa.

Skenaario 1

Tietoteknikko Leo tarvitsee suuren määrän tietoja ulkoisista järjestelmistä sekä paikallisista että pilvipalveluista. Näitä ulkoisia järjestelmiä ovat tietokannat, tiedostojärjestelmät ja ohjelmointirajapinnat. Leo ei halua kirjoittaa ja ylläpitää koodia jokaiselle liittimelle tai tietojen siirtotoiminnolle. Hän haluaa seurata mitalilion tasojen parhaita käytäntöjä pronssilla, hopealla ja kullalla. Leolla ei ole kokemusta Sparkistä, joten hän suosii mahdollisimman paljon vetämisen ja pudottamisen käyttöliittymää mahdollisimman pienellä koodaamisella. Lisäksi hän haluaa käsitellä tiedot aikataulun mukaisesti.

Ensimmäinen vaihe on raakadatan vieminen pronssikerroksen lakehouseen Azuren tietoresursseista ja useista kolmannen osapuolen lähteistä (kuten Snowflake Web, REST, AWS S3, GCS jne.). Hän haluaa yhdistetyn lakehousen, jotta kaikki tiedot eri LOB: stä, paikallisista ja pilvilähteistä sijaitsevat yhdessä paikassa. Leo arvioi vaihtoehdot ja valitsee putken kopiointitoiminnon sopivaksi vaihtoehdoksi hänen raaka binaarikopiolleen. Tämä malli koskee sekä historiallista että lisäävää tietojen päivitystä. Kopiointitoiminnon avulla Leo voi ladata Kulta-tiedot tietovarastoon ilman koodia, jos tarve tulee esiin, ja jaksot tarjoavat suuren mittakaavan tietojen käsittelytoimintoja, jotka voivat siirtää petatavuskaavan mittakaavan tietoja. Kopiointitoiminto on paras vähäkoodinen ja koodittomuusvalinta, kun haluat siirtää petatavuja tietoa lakehouseihin ja varastoihin lähdelajikkeista joko ad hoc- tai aikataulun mukaan.

Skenaario2

Mary on tietoteknikko, jolla on syvällinen tietämys lob-analytiikkavaatimuksista. Yläpuolinen ryhmä on onnistuneesti ottanut käyttöön ratkaisun useiden LOB:n historiallisten ja lisäävien tietojen siirtämiseksi yhteiseen Lakehouseen. Maryn tehtävänä on siistiä tietoja, soveltaa liiketoimintalogiikkaa ja ladata ne useisiin kohteisiin (kuten Azure SQL -tietokantaan, ADX:ään ja Lakehouseen) valmistautuessaan vastaaviin raportointitiimeihin.

Mary on kokenut Power Query -käyttäjä, ja tietojen määrä on matalalla tai keskitasoisella alueella halutun suorituskyvyn saavuttamiseksi. Tietovuot tarjoavat koodittomuus rajapintoja tai vähäisen koodin rajapintoja, joiden avulla voit käsitellä tietoja sadoista tietolähteistä. Tietovoiden avulla voit muuntaa tietoja käyttämällä yli 300 tietojen muunnosvaihtoehtoa ja kirjoittaa tulokset useisiin kohteisiin helppokäyttöisen ja erittäin visuaalisen käyttöliittymän avulla. Marja arvioi vaihtoehdot ja päättää, että Tietovuo Gen 2:n käyttäminen on järkevää hänen suosimakseen muunnosvaihtoehdoksi.

Skenaario 3

Adam on tietoteknikko, joka työskentelee suuressa jälleenmyyntiyrityksessä, joka käyttää Lakehousea asiakastietojensa tallentamiseen ja analysointiin. Adam on osana työtään vastuussa dataputkien rakentamisesta ja ylläpidosta, jotka poimivat, muuntavat ja lataavat tietoja Lakehouseen. Yksi yrityksen liiketoimintavaatimuksista on asiakkaan arviointianalytiikan suorittaminen, jotta saadaan merkityksellisiä tietoja asiakkaiden kokemuksista ja heidän palvelujensa parantamisesta.

Adam päättää, että paras vaihtoehto on käyttää Sparkiä poiminta- ja muunnoslogiikan luomiseen. Spark tarjoaa hajautetun tietojenkäsittelyympäristön, joka voi käsitellä suuria tietomääriä rinnakkain. Hän kirjoittaa Spark-sovelluksen käyttämällä Pythonia tai Scalaa. Siinä lukee OneLakesta jäsennettyjä, puolirakenteisia ja jäsentämättömiä tietoja asiakastarkastuksia ja palautetta varten. Sovellus puhdistaa, muuntaa ja kirjoittaa tietoa Lakehousen Delta-taulukoihin. Tiedot ovat sitten valmiita käytettäviksi jatkoanalytiikkaan.

Jaa

Microsoft Fabric -päätöksenteko-opas: toimintojen, tietovuon tai Sparkin kopiointi

Aktiviteetin, tietovuon ja Spark-ominaisuuksien kopioiminen

Skenaario 1

Skenaario2

Skenaario 3

Palaute

Lisäresursseja

Jaa

Microsoft Fabric -päätöksenteko-opas: toimintojen, tietovuon tai Sparkin kopiointi

Aktiviteetin, tietovuon ja Spark-ominaisuuksien kopioiminen

Skenaario 1

Skenaario2

Skenaario 3

Liittyvä sisältö

Palaute

Lisäresursseja