Tietojen suoratoisto Lakehouseen ja käyttö SQL-analytiikan päätepisteen avulla

Tässä pikaoppaassa kerrotaan, miten voit luoda Spark-työmääritelmän, joka sisältää Python-koodin Spark-rakenteisen suoratoiston avulla tietojen tuomiseksi Lakehouseen, ja tarjota sitten sen SQL-analytiikan päätepisteen kautta. Kun olet suorittanut tämän pikaoppaan, sinulla on Spark Job -määritys, jota suoritetaan jatkuvasti ja SQL-analytiikan päätepiste voi tarkastella saapuvia tietoja.

Python-komentosarjan luominen

Seuraavan Python-komentosarjan avulla voit luoda suoratoisto-Delta-taulukon Lakehousessa Apache Sparkin avulla. Komentosarja lukee luotujen tietojen virran (yksi rivi sekunnissa) ja kirjoittaa sen liittämistilassa Delta-taulukkoon nimeltä streamingtable. Se tallentaa tiedot ja tarkistuspisteen tiedot määritettyyn lakehouse-järjestelmään.

Käytä seuraavaa Python-koodia, joka käyttää Spark-jäsennettyä suoratoistoa tietojen noutamiseen Lakehouse-taulukosta.

from pyspark.sql import SparkSession

if __name__ == "__main__":
 # Start Spark session
 spark = SparkSession.builder \
     .appName("RateStreamToDelta") \
     .getOrCreate()

 # Table name used for logging
 tableName = "streamingtable"

 # Define Delta Lake storage path
 deltaTablePath = f"Tables/{tableName}"

 # Create a streaming DataFrame using the rate source
 df = spark.readStream \
     .format("rate") \
     .option("rowsPerSecond", 1) \
     .load()

 # Write the streaming data to Delta
 query = df.writeStream \
     .format("delta") \
     .outputMode("append") \
     .option("path", deltaTablePath) \
     .option("checkpointLocation", f"{deltaTablePath}/_checkpoint") \
     .start()

 # Keep the stream running
 query.awaitTermination()

Tallenna komentosarja Python-tiedostona (.py) paikallisessa tietokoneessa.

Luo lakehouse

Voit luoda Lakehousen seuraavien vaiheiden avulla:

Kirjaudu sisään Microsoft Fabric -portaalin.
Siirry haluamaasi työtilaan tai luo uusi tarvittaessa.
Jos haluat luoda lakehousen, valitse työtilasta Uusi kohde ja valitse sitten avautuvasta paneelista Lakehouse .
Kirjoita lakehousen nimi ja valitse Luo.

Spark-työn määrityksen luominen

Seuraavien vaiheiden avulla voit luoda Spark-työn määrityksen:

Valitse samasta työtilasta, jossa loit lakehousen, Uusi kohde.
Valitse avautuvan paneelin Nouda tiedot -kohdassa Spark-työn määritys.
Kirjoita Spark-työmäärityksen nimi ja valitse Luo.
Valitse Lataa ja valitse edellisessä vaiheessa luomasi Python-tiedosto.
Valitse Lakehouse-viite-kohdasta luomasi lakehouse.

Määritä Spark-työn määrityksen uudelleenyritysten käytäntö

Määritä Uudelleenyritysten käytäntö Spark-työmääritykselle seuraavien vaiheiden avulla:

Valitse ylävalikosta Asetus-kuvake .
Avaa Optimointi-välilehti ja aseta Yritä uudelleen -käytäntökäynnistimentilalle Käytössä.
Määritä uudelleenyritysten enimmäismäärä tai valitse Salli rajoittamattomat yritykset.
Määritä kunkin uudelleenyrityksen välinen aika ja valitse Käytä.

Note

Uudelleenyritysten käytännön määrityksen elinkaarirajoitus on 90 päivää. Kun uudelleenyritysten käytäntö on käytössä, työ käynnistetään uudelleen käytännön mukaisesti 90 päivän kuluessa. Tämän jakson jälkeen uudelleenyritysten käytäntö lakkaa automaattisesti toimimasta, ja työ lopetetaan. Käyttäjien on sen jälkeen käynnistettävä työ manuaalisesti uudelleen, jolloin uudelleenyritysten käytäntö otetaan uudelleen käyttöön.

Spark Job -määritelmän suorittaminen ja valvonta

Valitse ylävalikosta Suorita-kuvake .
Varmista, että Spark Job - määritys on lähetetty onnistuneesti ja että sen suorittaminen onnistui.

Tietojen tarkasteleminen SQL-analytiikan päätepisteen avulla

Kun komentosarja on suoritettu, lakehouseen luodaan taulukko nimeltä streamingtable, jossa on aikaleima- ja arvosarakkeet . Voit tarkastella tietoja SQL-analytiikan päätepisteen avulla:

Avaa Lakehouse työtilasta.
Vaihda SQL Analytics -päätepisteeseen oikeasta yläkulmasta.
Laajenna vasemmassa siirtymisruudussa Rakenteet-dbo-taulukot >>, valitse streamingtable tietojen esikatselua varten.

Palaute

Onko tästä sivusta apua?

Last updated on 2025-09-19