Tutustu Apache Sparkin jäsenneltyä suoratoistoon

3 minuuttia

Apache Spark on hajautetun käsittelyn kehys suuren mittakaavan tietoanalytiikalle. Voit käyttää Sparkiä Microsoft Azuressa seuraavissa palveluissa:

Microsoft Fabric
Azure Databricks

Sparkiä voidaan käyttää koodin suorittamiseen (yleensä Pythonilla, Scalalla tai Javalla) rinnakkain useiden klusterisolmujen kanssa, jolloin se voi käsitellä erittäin suuria tietomääriä tehokkaasti. Sparkiä voidaan käyttää sekä erän käsittelyyn että suoratoiston käsittelyyn.

Spark-jäsennetty virtauttaminen

Voit käsitellä suoratoistettavia tietoja Spark-ohjelmassa käyttämällä Spark Structured Streaming -kirjastoa, joka tarjoaa ohjelmointirajapinnan (API), jolla voit käyttää, käsitellä ja tuottaa tuloksia pysyvistä tietovirroista.

Spark Structured Streaming perustuu Sparkin kaikkialla läsnävaan rakenteeseen, jota kutsutaan tietokehykseksi, joka kiteyttää tietotaulukon. Spark Structured Streaming -ohjelmointirajapinnan avulla voit lukea tietoja reaaliaikasesta tietolähteestä, kuten Kafka-keskuksesta, tiedostosäilöstä tai verkkoportista, "rajattomaan" tietokehykseen, joka täyttyy jatkuvasti tietovirran uusilla tiedoilla. Sitten määrität tietokehyksessä kyselyn, joka valitsee, projekteja tai koostaa tiedot – usein ajallisissa ikkunoissa. Kyselyn tulokset luovat toisen tietokehyksen, joka voidaan jatkaa analysointia tai jatkokäsittelyä varten.

Virtautettavien tietojen kaavio kirjoitetaan tietokehyksiin, jolle tehdään kyselyjä toisen tietokehyksen luomiseksi analyysia varten.

Spark Structured Streaming on hyvä vaihtoehto reaaliaikaiselle analytiikalle, kun haluat sisällyttää virtautettavia tietoja Spark-pohjaiseen tietojärveen tai analyysitietosäilöön.

Huomautus

Lisätietoja spark-rakenteisen suoratoiston aiheesta on Spark Structured Streaming -ohjelmointioppaassa.

Delta-järvi

Delta Lake on avoimen lähdekoodin tallennuskerros, joka lisää tuen tapahtumien johdonmukaisuudelle, rakenteen valvonnalle ja muille yleisille tietojen varastointiominaisuuksille Data Lake -tallennustilassa. Se myös ilmoittaa tallennusvälineen virtautettaville tiedoille ja erätieduksille, ja sitä voidaan käyttää Sparkissä määrittämään relaatiotaulukoita sekä erän että suoratoiston käsittelyä varten. Kun delta lake -taulukkoa käytetään suoratoiston käsittelyssä, sitä voidaan käyttää reaaliaikaisiin tietoihin kohdistuvien kyselyjen suoratoistolähteenä tai nieluna, johon kirjoitetaan tietovirta.

Microsoft Fabricin ja Azure Databricksin Spark-suorituspalvelut sisältävät tuen Delta Lakelle.

Delta Lake ja Spark Structured Streaming ovat hyvä ratkaisu, kun haluat abstraktin erän ja suoratoiston käsittelemiä tietoja Data Lake -järjestelmässä SQL-pohjaisen kyselyn ja analyysin relaatiorakenteen takana.

Huomautus

Lisätietoja Delta Lakesta on lakehouse- ja Delta Lake -taulukoissa.

Palaute

Onko tästä sivusta apua?