Jaa kautta


Opetusohjelma, osa 1: Tietojen käyttö Microsoft Fabric Lakehousessa Apache Sparkin avulla

Tässä opetusohjelmassa tietoja käsitellään Fabric Lakehouse -järvimuodossa. Määritämme tässä muutamia tärkeitä termejä:

  • Lakehouse – Lakehouse on kokoelma tiedostoja, kansioita ja /tai taulukoita, jotka edustavat Data Lake -tallennustilan tietokantaa. Spark-moduuli ja SQL-moduuli käyttävät Lakehouse-resursseja massadatan käsittelyyn. Kun käytät avoimen lähdekoodin Delta-muotoiltuja taulukoita, prosessointi sisältää parannetut ACID-tapahtumaominaisuudet.

  • Delta Lake - Delta Lake on avoimen lähdekoodin tallennuskerros, joka tuo ACID-tapahtumat, skaalattavan metatietojen hallinnan sekä erä- ja suoratoistotietojen käsittelyn Apache Sparkiin. Tietotaulukkomuotona Delta Lake laajentaa Parquet-datatiedostoja tiedostopohjaisella tapahtumalokilla ACID-tapahtumia varten ja skaalattaville metatietojen hallinnalle.

  • Azure Open Datasets ovat julkisten tietojoukkojen koosteita, jotka lisäävät skenaariokohtaisia ominaisuuksia koneoppimisratkaisuihin. Tämä johtaa tarkempiin malleihin. Avoimet tietojoukot ovat Microsoft Azure -tallennustilassa sijaitsevia pilviresursseja. Apache Spark, REST API, Data Factory ja muut työkalut voivat käyttää avoimia tietojoukkoja.

Tässä opetusohjelmassa käytetään Apache Sparkiä

  • Lue tietoja Azure Open Datasets -säilöistä.
  • Kirjoita tietoja Fabric Lakehouse delta -taulukkoon.

Edellytykset

  • Hanki Microsoft Fabric -tilaus. Voit myös rekisteröityä microsoft fabric -kokeiluversion maksuttomaan .

  • Kirjaudu sisään Microsoft Fabric .

  • Vaihda Fabriciin aloitussivun vasemmassa alakulmassa olevan käyttökokemuksen vaihtajan avulla.

    Näyttökuva käyttökokemuksen vaihtajavalikosta, jossa näkyy, mistä datatiede valitaan.

  • Lisää tähän muistikirjaan lakehouse. Tässä opetusohjelmassa lataat ensin tiedot julkisesta blob-objektista. Sitten tiedot tallennetaan kyseiseen Lakehouse-resurssiin.

Seuraa mukana muistikirjassa

1-ingest-data.ipynb-muistikirja on tämän opetusohjelman mukana.

Pankin vaihtuvuustiedot

Tietojoukko sisältää vaihtuvuustilan tiedot 10 000 asiakkaalle. Se sisältää myös määritteitä, jotka voivat vaikuttaa vaihtumiseen – esimerkiksi:

  • Luottopisteet
  • Maantieteellinen sijainti (Saksa, Ranska, Espanja)
  • Sukupuoli (mies, nainen)
  • Ikä
  • Asiakkuuden pituus (vuosien määrä, jolloin asiakas oli asiakkaana kyseisessä pankissa)
  • Tilin saldo
  • Arvioitu palkka
  • Asiakkaan pankin kautta ostamien tuotteiden määrä
  • Luottokortin tila (riippumatta siitä, onko asiakkaalla luottokortti)
  • Aktiivisen jäsenen tila (riippumatta siitä, onko asiakkaalla aktiivinen pankin asiakastila)

Tietojoukko sisältää myös seuraavat sarakkeet:

  • rivin numero
  • asiakastunnus
  • asiakkaan sukunimi

Näillä sarakkeilla ei pitäisi olla vaikutusta asiakkaan päätökseen poistua pankista.

Asiakkaan pankkitilin sulkeminen määrittää kyseisen asiakkaan vaihtuvuuden. Tietojoukkosarake exited viittaa asiakkaan hylkäämiseen. Näiden määritteiden kontekstia on vähän, joten sinun on edettävä ilman tietojoukkoa koskevia taustatietoja. Tavoitteenamme on ymmärtää, miten nämä määritteet vaikuttavat exited tilaan.

Esimerkkitietojoukon riveistä:

"Asiakastunnus" "Sukunimi" "CreditScore" "Maantiede" "Sukupuoli" "Ikä" "Hallinnan kesto" "Saldo" "NumOfProducts" "HasCrCard" "IsActiveMember" "Arvioitu vaihtoehto" "Exited"
15634602 Hargrave 619 Ranska Naispuolinen 42 2 0.00 1 1 1 101348.88 1
15647311 Kukkula 608 Espanja Naispuolinen 41 1 83807.86 1 0 1 112542.58 0

Lataa tietojoukko ja lataa se Lakehouseen

Juomaraha

Kun määrität seuraavat parametrit, voit helposti käyttää tätä muistikirjaa, jossa on eri tietojoukkoja:

IS_CUSTOM_DATA = False  # if TRUE, dataset has to be uploaded manually

DATA_ROOT = "/lakehouse/default"
DATA_FOLDER = "Files/churn"  # folder with data files
DATA_FILE = "churn.csv"  # data file name

Seuraava koodikatkelma lataa tietojoukosta julkisesti saatavilla olevan version ja tallentaa sitten kyseisen resurssin Fabric lakehouse -järjestelmään:

Tärkeä

Varmista, että lisäät muistikirjaan lakehousen , ennen kuin suoritat sen. Jos näin ei tehdä, tuloksena on virhe.

import os, requests
if not IS_CUSTOM_DATA:
# Download demo data files into lakehouse if not exist
    remote_url = "https://synapseaisolutionsa.z13.web.core.windows.net/data/bankcustomerchurn"
    file_list = [DATA_FILE]
    download_path = f"{DATA_ROOT}/{DATA_FOLDER}/raw"

    if not os.path.exists("/lakehouse/default"):
        raise FileNotFoundError(
            "Default lakehouse not found, please add a lakehouse and restart the session."
        )
    os.makedirs(download_path, exist_ok=True)
    for fname in file_list:
        if not os.path.exists(f"{download_path}/{fname}"):
            r = requests.get(f"{remote_url}/{fname}", timeout=30)
            with open(f"{download_path}/{fname}", "wb") as f:
                f.write(r.content)
    print("Downloaded demo data files into lakehouse.")

Käytät juuri käyttämiäsi tietoja: