Jaa


Microsoft Fabric -päätöksenteko-opas: toimintojen, tietovuon tai Sparkin kopiointi

Tämän viiteoppaan ja esimerkkiskenaarioiden avulla voit päättää, tarvitsetko Microsoft Fabric -kuormituksille kopiotoiminnon, tietovuon vai Sparkin.

Aktiviteetin, tietovuon ja Spark-ominaisuuksien kopioiminen

Putken kopiointitoiminto Tietovuo Gen 2 Kipinä
Käyttötapaus Data Lake -tallennustilan ja tietovaraston siirto,
tietojen käsittely,
kevyt muunnos
tietojen käsittely,
tietojen muunnos,
tietojen järjesteleminen,
tietojen profilointi
tietojen käsittely,
tietojen muunnos,
tietojenkäsittely,
tietojen profilointi
Ensisijainen kehittäjäpersona tietoteknikko,
tietojen integrointi
tietoteknikko,
tietojen integrointi,
yritysanalyytikko
tietoteknikko,
datatieteilijälle,
data developer
Ensisijainen kehittäjän taitojoukko ETL
SQL
JSON
ETL
M
SQL
Spark (Scala, Python, Spark SQL, R)
Koodi kirjoitettu Ei koodia,
low code
Ei koodia,
low code
Koodi
Tietojen määrä Matalasta korkeaan Matalasta korkeaan Matalasta korkeaan
Kehitysliittymä Ohjattu
Kangas
Power Query Notebook
Spark-työn määritys
Lähteistä Yli 30 liitintä Yli 150 liitintä Satoja Spark-kirjastoja
Kohteet Yli 18 liitintä Lakehouse,
Azure SQL -tietokanta,
Azure Data Explorer,
Azure Synapse Analytics
Satoja Spark-kirjastoja
Muunnoksen monimutkaisuus Matala:
kevyt – tyypin muuntaminen, sarakkeiden yhdistäminen, tiedostojen yhdistäminen/jakaminen, hierarkian tasoittaminen
Matalasta korkeaan:
Yli 300 muunnosfunktiota
Matalasta korkeaan:
alkuperäisten Spark- ja avoimen lähdekoodin kirjastojen tuki

Seuraavista kolmesta skenaariosta saat ohjeita tietojen käsittelytavan valitsemiseen Fabricissa.

Skenaario 1

Tietoteknikko Leo tarvitsee suuren määrän tietoja ulkoisista järjestelmistä sekä paikallisista että pilvipalveluista. Näitä ulkoisia järjestelmiä ovat tietokannat, tiedostojärjestelmät ja ohjelmointirajapinnat. Leo ei halua kirjoittaa ja ylläpitää koodia jokaiselle liittimelle tai tietojen siirtotoiminnolle. Hän haluaa seurata mitalilion tasojen parhaita käytäntöjä pronssilla, hopealla ja kullalla. Leolla ei ole kokemusta Sparkistä, joten hän suosii mahdollisimman paljon vetämisen ja pudottamisen käyttöliittymää mahdollisimman pienellä koodaamisella. Lisäksi hän haluaa käsitellä tiedot aikataulun mukaisesti.

Ensimmäinen vaihe on raakadatan vieminen pronssikerroksen lakehouseen Azuren tietoresursseista ja useista kolmannen osapuolen lähteistä (kuten Snowflake Web, REST, AWS S3, GCS jne.). Hän haluaa yhdistetyn lakehousen, jotta kaikki tiedot eri LOB: stä, paikallisista ja pilvilähteistä sijaitsevat yhdessä paikassa. Leo arvioi vaihtoehdot ja valitsee putken kopiointitoiminnon sopivaksi vaihtoehdoksi hänen raaka binaarikopiolleen. Tämä malli koskee sekä historiallista että lisäävää tietojen päivitystä. Kopiointitoiminnon avulla Leo voi ladata Kulta-tiedot tietovarastoon ilman koodia, jos tarve tulee esiin, ja jaksot tarjoavat suuren mittakaavan tietojen käsittelytoimintoja, jotka voivat siirtää petatavuskaavan mittakaavan tietoja. Kopiointitoiminto on paras vähäkoodinen ja koodittomuusvalinta, kun haluat siirtää petatavuja tietoa lakehouseihin ja varastoihin lähdelajikkeista joko ad hoc- tai aikataulun mukaan.

Skenaario2

Mary on tietoteknikko, jolla on syvällinen tietämys lob-analytiikkavaatimuksista. Yläpuolinen ryhmä on onnistuneesti ottanut käyttöön ratkaisun useiden LOB:n historiallisten ja lisäävien tietojen siirtämiseksi yhteiseen Lakehouseen. Maryn tehtävänä on siistiä tietoja, soveltaa liiketoimintalogiikkaa ja ladata ne useisiin kohteisiin (kuten Azure SQL -tietokantaan, ADX:ään ja Lakehouseen) valmistautuessaan vastaaviin raportointitiimeihin.

Mary on kokenut Power Query -käyttäjä, ja tietojen määrä on matalalla tai keskitasoisella alueella halutun suorituskyvyn saavuttamiseksi. Tietovuot tarjoavat koodittomuus rajapintoja tai vähäisen koodin rajapintoja, joiden avulla voit käsitellä tietoja sadoista tietolähteistä. Tietovoiden avulla voit muuntaa tietoja käyttämällä yli 300 tietojen muunnosvaihtoehtoa ja kirjoittaa tulokset useisiin kohteisiin helppokäyttöisen ja erittäin visuaalisen käyttöliittymän avulla. Marja arvioi vaihtoehdot ja päättää, että Tietovuo Gen 2:n käyttäminen on järkevää hänen suosimakseen muunnosvaihtoehdoksi.

Skenaario 3

Adam on tietoteknikko, joka työskentelee suuressa jälleenmyyntiyrityksessä, joka käyttää Lakehousea asiakastietojensa tallentamiseen ja analysointiin. Adam on osana työtään vastuussa dataputkien rakentamisesta ja ylläpidosta, jotka poimivat, muuntavat ja lataavat tietoja Lakehouseen. Yksi yrityksen liiketoimintavaatimuksista on asiakkaan arviointianalytiikan suorittaminen, jotta saadaan merkityksellisiä tietoja asiakkaiden kokemuksista ja heidän palvelujensa parantamisesta.

Adam päättää, että paras vaihtoehto on käyttää Sparkiä poiminta- ja muunnoslogiikan luomiseen. Spark tarjoaa hajautetun tietojenkäsittelyympäristön, joka voi käsitellä suuria tietomääriä rinnakkain. Hän kirjoittaa Spark-sovelluksen käyttämällä Pythonia tai Scalaa. Siinä lukee OneLakesta jäsennettyjä, puolirakenteisia ja jäsentämättömiä tietoja asiakastarkastuksia ja palautetta varten. Sovellus puhdistaa, muuntaa ja kirjoittaa tietoa Lakehousen Delta-taulukoihin. Tiedot ovat sitten valmiita käytettäviksi jatkoanalytiikkaan.