Alternativer for avansert konfigurasjon i Azure Synapse Link

Azure Synapse Link har flere måter for å skrive og lese dataene slik at de passer til ulike analytiske scenarioer.

Obs!

Azure Synapse Link for Dataverse var tidligere kjent som Eksporter til datasjø. Tjenesten har fått nytt navn med virkning fra mai 2021 og vil fortsette å eksportere data til Azure Data Lake samt Azure Synapse Analytics.

Denne artikkelen dekker:

  1. Oppdateringer på stedet kontra bare tilføy-skrivinger.
  2. Brukerangitt datapartisjonering.

Oppdateringer på stedet kontra Bare tilføy-skrivinger

Når du skriver Dataverse-tabelldata til Azure Data Lake basert på createdOn verdien, som er datoen og klokkeslettet oppføringen ble opprettet, er det to ulike innstillinger å velge mellom. De er Oppdatering på stedet og Bare tilføy.

Standardinnstillingen (for tabeller der createdOn er tilgjengelig) er å gjøre en oppdatering eller upsert (oppdatering eller innsetting) av de trinnvise dataene i målet. Hvis endringen er ny og en korresponderende rad ikke finnes i sjøen, skannes målfilene i tilfelle oppretting, og endringene settes inn i den tilsvarende filpartisjonen i sjøen. Hvis endringen er en oppdatering og det finnes en rad i sjøen, oppdateres den tilsvarende filen i sjøen i stedet for å settes inn, med de trinnvise dataene. Med andre ord er standardinnstillingen for alle CUD-endringer (opprett, oppdater, slett) i Dataverse-tabeller, der createdOn er tilgjengelig, å gjøre en oppdatering på stedet i målet i Azure Data Lake.

Du kan endre standardfunksjonaliteten for en oppdatering på stedet ved å bruke en valgfri innstilling som kalles Bare tilføy. I stedet for en Oppdatering på stedet, tilføyes trinnvise data i modusen Bare tilføy fra Dataverse tabeller i den tilsvarende filpartisjonen i sjøen. Dette er en innstilling per tabell og er tilgjengelig som en avmerkingsboks under Avansert > Vis avanserte konfigurasjonstillinger. For Dataverse tabeller der Bare tilføy er aktivert, legges alle CUD-endringene trinnvis til i de tilsvarende målfilene i sjøen. Når du velger dette alternativet, brukes År som standard partisjonsstrategi, og når data skrives til datasjøen, partisjoneres den årlig. Bare tilføying er også standardinnstillingen for Dataverse-tabeller som ikke har createdOn-verdi.

Tabellen nedenfor beskriver hvordan rader håndteres i sjøen mot CUD-hendelser for hver av skrivealternativene for data.

Seminar/konferanse Oppdatering på stedet Bare tilføy
Opprette Raden settes inn i partisjonsfilen og er basert på createdOn verdien på raden. Raden legges til på slutten av partisjonsfilen og er basert på createdOn oppføringens verdi.
Oppdater Hvis raden finnes i partisjonsfilen, erstattes eller oppdateres den med oppdaterte data. Hvis den ikke finnes, blir den satt inn i filen. Raden, sammen med den oppdaterte versjonen, legges til på slutten av partisjonsfilen.
Delete Hvis raden finnes i partisjonsfilen, fjernes den fra filen. Raden legges til på slutten av partisjonsfilen med IsDelete column = True.

Obs!

For Dataverse tabeller der Bare tilføy er aktivert, vil sletting av en rad i kilden ikke slette eller fjerne raden i sjøen. I stedet føyes den slettede raden til som en ny rad i sjøen, og kolonnen isDeleted settes til Sann.

Uren lesing (ALLOW_INCONSISTENT_READS) for serverløs er aktivert for modus for bare tilføying. ALLOW_INCONSISTENT_READS betyr at brukeren kan lese filene som kan endres kontinuerlig mens SELECT-spørringen kjører. Resultatene blir konsekvent og tilsvarer lesing av et øyeblikksbilde av filen. (Det tilsvarer ikke isolering av øyeblikksbilder av databaser på grunn av den forskjellige tiden for generering av øyeblikksbilder.)

Ikke alle CUD-endringer fanges opp i bare tilføy: Synapse Link behandler endringer i data i grupper eller "batcher" før de publiseres til data lake. Hvis brukeren gjør endringer i løpet av et kort tidsintervall, fanges derfor ikke alle CUD-endringene opp i data lake.

Her er noen flere detaljer om når du kan bruke et av alternativene.

  • Lokal oppdatering: Dette alternativet er standardinnstillingen og anbefales bare hvis du vil koble direkte til dataene i sjøen og trenger nåværende tilstand (ikke logg eller trinnvise endringer). Filen inneholder det fullstendige datasettet og kan brukes via Power BI eller ved å kopiere hele datasett for ETL-pipeliner (Extract, Transfer, Load).
  • Bare tilføy: Velg dette alternativet hvis du ikke kobler deg direkte til data i sjøen og vil trinnvis kopiere data til et annet mål ved hjelp av ETL-pipeliner. Med dette alternativet finner du en logg over endringer for å aktivere scenarier for AI og ML.

Du kan veksle mellom Vis avanserte konfigurasjonsinnstillinger under Avansert i Azure Synapse Link for Dataverse for å tilpasse datapartisjonsstrategien og velge alternativer for å skrive til datasjøen i Azure.

Vis avansert konfigurasjon.

Datapartisjonering

Når du skriver Dataverse-tabelldata til Azure Data Lake Storage ved å bruke Azure Synapse Link, partisjoneres tabellene (i stedet for én enkelt fil) i sjøen basert på verdien createdOn i hver rad i kilden. Standard partisjonsstrategi er etter måned, og data er partisjonert i Azure data lake på månedlig basis.

Basert på Dataverse-tabellvolumet og datadistribusjonen kan du velge å partisjonere dataene dine etter år. Med dette alternativet, når Dataverse-tabelldata skrives til Azure data lake, vil de bli partisjonert årlig basert på createdOn-verdien på hver rad i kilden. For tabeller uten createdOn-kolonnen blir dataradene partisjonert i en ny fil hver 5000000 poster. Dette er en innstilling per tabell og er tilgjengelig som en avmerkingsboks under Avansert > Vis avanserte konfigurasjonstillinger.

Flere detaljer med eksempler på hvordan data håndteres i sjøen med årlig eller månedlig partisjonsstrategi:

Partisjonsstrategi.

Se også

Azure Synapse Link for Dataverse

Obs!

Kan du fortelle oss om språkinnstillingene for dokumentasjonen? Ta en kort undersøkelse. (vær oppmerksom på at denne undersøkelsen er på engelsk)

Undersøkelsen tar rundt sju minutter. Det blir ikke samlet inn noen personopplysninger (personvernerklæring).