Få strømming av data til lakehouse og tilgang med SQL-endepunkt

Denne hurtigstarten forklarer hvordan du oppretter en Spark Job Definition som inneholder Python-kode med Spark Structured Streaming for å lande data i et lakehouse, og deretter betjener det gjennom et SQL-endepunkt. Når du har fullført hurtigstarten, har du en Spark-jobbdefinisjon som kjører kontinuerlig, og SQL-endepunktet kan vise innkommende data.

Viktig

Microsoft Fabric er i forhåndsversjon.

Opprette et Python-skript

  1. Bruk følgende Python-kode som bruker Spark-strukturert strømming til å hente data i en lakehouse-tabell.

    Skjermbilde som viser Python-skript

  2. Lagre skriptet som Python-fil (PY) på den lokale datamaskinen.

Opprett et innsjøhus

Bruk følgende fremgangsmåte for å opprette et lakehouse:

  1. Velg Synapse Data Engineering-opplevelsen i Microsoft Fabric.

  2. Naviger til ønsket arbeidsområde, eller opprett et nytt om nødvendig.

  3. Hvis du vil opprette et lakehouse, velger du Lakehouse-ikonet under Ny-delen i hovedruten.

    Skjermbilde som viser ny dialogboks for lakehouse

  4. Skriv inn navnet på lakehouse, og velg Opprett.

Opprett en spark-jobbdefinisjon

Bruk følgende fremgangsmåte for å opprette en Spark-jobbdefinisjon:

  1. Velg Opprett-ikonet fra menyen til venstre fra det samme arbeidsområdet der du opprettet et innsjøhus.

  2. Velg Spark-jobbdefinisjon under Datateknikk.

    Skjermbilde som viser ny dialogboks for sparkjobbdefinisjon

  3. Skriv inn navnet på Spark-jobbdefinisjonen, og velg Opprett.

  4. Velg Last opp , og velg Python-filen du opprettet i forrige trinn.

  5. Velg lakehouse du opprettet under Lakehouse Reference .

Angi policy for nytt forsøk for Spark-jobbdefinisjon

Bruk følgende fremgangsmåte for å angi policyen for nye forsøk for Spark-jobbdefinisjonen:

  1. Velg Innstilling-ikonet fra den øverste menyen.

    Skjermbilde som viser ikonet for innstillinger for Spark-jobbdefinisjon

  2. Åpne fanen Optimalisering , og angi utløseren Prøv policy på nytt.

    Skjermbilde som viser fanen For optimalisering av Spark-jobbdefinisjon

  3. Definer maksimalt antall forsøk på nytt, eller merk av for Tillat ubegrensede forsøk.

  4. Angi tid mellom hvert forsøk på nytt, og velg Bruk.

Utfør og overvåk spark-jobbdefinisjonen

  1. Velg Kjør-ikonet fra den øverste menyen.

    Skjermbilde som viser kjøreikonet spark jobbdefinisjon

  2. Kontroller om Spark Job-definisjonen ble sendt inn og kjører.

Vise data ved hjelp av et SQL-endepunkt

  1. Velg Lakehouse i arbeidsområdevisning.

  2. Velg Lakehouse fra høyre hjørne, og velg SQL-endepunkt.

  3. Velg tabellen som skriptet bruker til å lande data, i SQL-endepunktvisningen under Tabeller. Deretter kan du forhåndsvise dataene fra SQL-endepunktet.

Neste trinn