Muistiinpano
Tälle sivulle pääsy edellyttää valtuutusta. Voit yrittää kirjautua sisään tai vaihtaa hakemistoja.
Tälle sivulle pääsy edellyttää valtuutusta. Voit yrittää vaihtaa hakemistoja.
Tässä opetusohjelmassa tietoja käsitellään Fabric Lakehouse -järvimuodossa. Määritämme tässä muutamia tärkeitä termejä:
Lakehouse – Lakehouse on kokoelma tiedostoja, kansioita ja /tai taulukoita, jotka edustavat Data Lake -tallennustilan tietokantaa. Spark-moduuli ja SQL-moduuli käyttävät Lakehouse-resursseja massadatan käsittelyyn. Kun käytät avoimen lähdekoodin Delta-muotoiltuja taulukoita, prosessointi sisältää parannetut ACID-tapahtumaominaisuudet.
Delta Lake - Delta Lake on avoimen lähdekoodin tallennuskerros, joka tuo ACID-tapahtumat, skaalattavan metatietojen hallinnan sekä erä- ja suoratoistotietojen käsittelyn Apache Sparkiin. Tietotaulukkomuotona Delta Lake laajentaa Parquet-datatiedostoja tiedostopohjaisella tapahtumalokilla ACID-tapahtumia varten ja skaalattaville metatietojen hallinnalle.
Azure Open Datasets ovat julkisten tietojoukkojen koosteita, jotka lisäävät skenaariokohtaisia ominaisuuksia koneoppimisratkaisuihin. Tämä johtaa tarkempiin malleihin. Avoimet tietojoukot ovat Microsoft Azure -tallennustilassa sijaitsevia pilviresursseja. Apache Spark, REST API, Data Factory ja muut työkalut voivat käyttää avoimia tietojoukkoja.
Tässä opetusohjelmassa käytetään Apache Sparkiä
- Lue tietoja Azure Open Datasets -säilöistä.
- Kirjoita tietoja Fabric Lakehouse delta -taulukkoon.
Edellytykset
Hanki Microsoft Fabric -tilaus. Voit myös rekisteröityä microsoft fabric -kokeiluversion maksuttomaan .
Vaihda Fabriciin aloitussivun vasemmassa alakulmassa olevan käyttökokemuksen vaihtajan avulla.
- Lisää tähän muistikirjaan lakehouse. Tässä opetusohjelmassa lataat ensin tiedot julkisesta blob-objektista. Sitten tiedot tallennetaan kyseiseen Lakehouse-resurssiin.
Seuraa mukana muistikirjassa
1-ingest-data.ipynb-muistikirja on tämän opetusohjelman mukana.
Jos haluat avata tämän opetusohjelman liitteenä olevan muistikirjan, noudata ohjeita kohdassa Järjestelmän valmisteleminen datatiedeopetusohjelmia varten muistikirjan tuomiseksi työtilaasi.
Jos haluat kopioida ja liittää koodin tältä sivulta, voit luoda uuden muistikirjan.
Muista liittää lakehouse muistikirjaan ennen kuin aloitat koodin suorittamisen.
Pankin vaihtuvuustiedot
Tietojoukko sisältää vaihtuvuustilan tiedot 10 000 asiakkaalle. Se sisältää myös määritteitä, jotka voivat vaikuttaa vaihtumiseen – esimerkiksi:
- Luottopisteet
- Maantieteellinen sijainti (Saksa, Ranska, Espanja)
- Sukupuoli (mies, nainen)
- Ikä
- Asiakkuuden pituus (vuosien määrä, jolloin asiakas oli asiakkaana kyseisessä pankissa)
- Tilin saldo
- Arvioitu palkka
- Asiakkaan pankin kautta ostamien tuotteiden määrä
- Luottokortin tila (riippumatta siitä, onko asiakkaalla luottokortti)
- Aktiivisen jäsenen tila (riippumatta siitä, onko asiakkaalla aktiivinen pankin asiakastila)
Tietojoukko sisältää myös seuraavat sarakkeet:
- rivin numero
- asiakastunnus
- asiakkaan sukunimi
Näillä sarakkeilla ei pitäisi olla vaikutusta asiakkaan päätökseen poistua pankista.
Asiakkaan pankkitilin sulkeminen määrittää kyseisen asiakkaan vaihtuvuuden. Tietojoukkosarake exited viittaa asiakkaan hylkäämiseen. Näiden määritteiden kontekstia on vähän, joten sinun on edettävä ilman tietojoukkoa koskevia taustatietoja. Tavoitteenamme on ymmärtää, miten nämä määritteet vaikuttavat exited tilaan.
Esimerkkitietojoukon riveistä:
| "Asiakastunnus" | "Sukunimi" | "CreditScore" | "Maantiede" | "Sukupuoli" | "Ikä" | "Hallinnan kesto" | "Saldo" | "NumOfProducts" | "HasCrCard" | "IsActiveMember" | "Arvioitu vaihtoehto" | "Exited" |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 15634602 | Hargrave | 619 | Ranska | Naispuolinen | 42 | 2 | 0.00 | 1 | 1 | 1 | 101348.88 | 1 |
| 15647311 | Kukkula | 608 | Espanja | Naispuolinen | 41 | 1 | 83807.86 | 1 | 0 | 1 | 112542.58 | 0 |
Lataa tietojoukko ja lataa se Lakehouseen
Juomaraha
Kun määrität seuraavat parametrit, voit helposti käyttää tätä muistikirjaa, jossa on eri tietojoukkoja:
IS_CUSTOM_DATA = False # if TRUE, dataset has to be uploaded manually
DATA_ROOT = "/lakehouse/default"
DATA_FOLDER = "Files/churn" # folder with data files
DATA_FILE = "churn.csv" # data file name
Seuraava koodikatkelma lataa tietojoukosta julkisesti saatavilla olevan version ja tallentaa sitten kyseisen resurssin Fabric lakehouse -järjestelmään:
Tärkeä
Varmista, että lisäät muistikirjaan lakehousen , ennen kuin suoritat sen. Jos näin ei tehdä, tuloksena on virhe.
import os, requests
if not IS_CUSTOM_DATA:
# Download demo data files into lakehouse if not exist
remote_url = "https://synapseaisolutionsa.z13.web.core.windows.net/data/bankcustomerchurn"
file_list = [DATA_FILE]
download_path = f"{DATA_ROOT}/{DATA_FOLDER}/raw"
if not os.path.exists("/lakehouse/default"):
raise FileNotFoundError(
"Default lakehouse not found, please add a lakehouse and restart the session."
)
os.makedirs(download_path, exist_ok=True)
for fname in file_list:
if not os.path.exists(f"{download_path}/{fname}"):
r = requests.get(f"{remote_url}/{fname}", timeout=30)
with open(f"{download_path}/{fname}", "wb") as f:
f.write(r.content)
print("Downloaded demo data files into lakehouse.")
Aiheeseen liittyvä sisältö
Käytät juuri käyttämiäsi tietoja: