Dela via


Avancerade konfigurationsalternativ i Azure Synapse Link

Azure Synapse Link erbjuder flera sätt att skriva och läsa data så att de passar olika analysscenarier.

Anteckning

Azure Synapse Link for Dataverse hette tidigare Exportera till datasjö. Tjänsten ändrades till i maj 2021 och kommer även i fortsättningen att exportera data till Azure Data Lake och Azure Synapse Analytics.

Denna artikel omfattar:

  1. Uppdateringar på plats kontra endast tillägg.
  2. Datapartitionering som anges av användaren.

Uppdateringar på plats kontra endast tillägg

När du skriver Dataverse tabelldata till Azure-datakällan, baserat på värdet createdOn vilket är datumet och tiden då posten skapades, finns det två olika inställningar att välja mellan. De är, På plats uppdatering och Endast tillägg.

Standardinställningen (för tabeller där createdOn finns tillgängligt) är att göra en uppdatering eller "upsert" (uppdatera eller infoga) för den vitala data som finns i målet. Om ändringen är ny och en motsvarande rad inte finns i mappen skapas målfilerna och ändringarna infogas i motsvarande filpartition i målfilen. Om ändringen är en uppdatering och en rad finns i artikeln uppdateras motsvarande fil i sjön, i stället för att infogas, med infogade data. Med andra ord är standardinställningen för alla CUD-ändringar ("create, update, delete" - skapa, uppdatera, ta bort) i Dataverse-tabeller, där createdOn är tillgänglig, att utföra en uppdatering på plats i destinationen, i Azure Data Lake.

Du kan växla standardbeteendet för en uppdatering på plats om du använder en valfri inställning som kallas endast tillägg. I stället för en Uppdatering på plats i läget Endast tillägg läggs inkrementella data från Dataverse till motsvarande filpartition i sjön. Detta är en inställning per tabell och finns tillgänglig som en kryssruta under Avancerat > Visa avancerade konfigurationsinställningar. För Dataverse tabeller med Endast tillägg aktiverad kommer alla CUD-ändringar läggas till inkrementellt i motsvarande destinationsfiler i sjön. Om du väljer det här alternativet används År som standard för partitionsstrategin och när data skrivs till data partitioneras den årligen. Endast tillägg är också standardinställningen för Dataverse tabeller som inte har något createdOn värde.

I tabellen nedan beskrivs hur rader hanteras i tabellen mot CUD-händelser för varje dataskrivningsalternativ.

Händelse Uppdatering på plats Endast tillägg
Skapa Raden infogas i partitionsfilen och baseras på createdOn värdet på raden. Raden läggs till i slutet av partitionsfilen och baseras på createdOn värdet för posten.
Uppdatera Om raden finns i partitionsfilen ersätts eller uppdateras den med uppdaterade data. Om den inte finns infogas den i filen. Raden, tillsammans med den uppdaterade versionen, läggs till i slutet av partitionsfilen.
Delete Om raden finns i partitionsfilen tas den bort från filen. Raden läggs till i slutet av partitionsfilen med IsDelete column = True.

Anteckning

För Dataverse tabeller där Endast tillägg är aktiverat, kommer radering av en rad i källan kommer inte att radera eller ta bort raden i sjön. Den borttagna raden läggs i stället till som en ny rad i kolumnen och isDeleted kolumnen anges som Sant.

Läs (ALLOW_INCONSISTENT_READS) för serverlös aktiveras läget endast Tillägg. ALLOW_INCONSISTENT_READS innebär att användaren kan läsa filerna som kan ändras kontinuerligt medan SELECT-frågan körs. Resultaten blir enhetliga och motsvarar en ögonblicksbild av filen. (Det motsvarar inte isoleringen av databasbild på grund av den olika tiden när ögonblicksbilden skapas.)

Alla CUD-ändringar registreras i lägg endast till: Synapse Link bearbetar ändringar i data i grupper eller "batcher" innan de publiceras i datasjön. Om användaren gör ändringar inom en kort tidsperiod kommer därför inte alla CUD-ändringar att tas med i datasjön.

Här är mer information om när du bör använda något av alternativen.

  • Uppdatering på plats: Det här alternativet är standardinställningen och rekommenderas endast om du vill ansluta direkt till data i miljön och behöver aktuell status (ej tidigare ändringar). Filen innehåller hela datauppsättningen och kan användas via Power BI eller genom att kopiera hela datauppsättningen för ETL (Extract, Transfer, Load) pipelines.
  • Endast tillägg: Välj det här alternativet om du inte är direkt ansluten till data i programmet och vill kopiera data inkrementellt till ett annat mål med hjälp av ETL-pipelines. Det här alternativet innehåller en historik över ändringar som gör det möjligt att aktivera AI- och ML-scenarier.

Du kan växla Visa avancerade konfigurationsinställningar under Avancerat i Azure Synapse Link for Dataverse om du vill anpassa din datapartitionsstrategi och välja alternativ för att skriva till Azure Data Lake.

Visa avancerad konfiguration.

Datapartitionering

När du skriver Dataverse tabelldata till Azure Data Lake Storage med Azure Synapse Link partitioneras tabellerna (i stället för en enda fil) i systemet baserat på createdOn värdet på varje rad i källan. Standardpartitioneringsstrategin är per månad och data partitioneras i Azure Data Lake månadsvis.

Utifrån tabellen Dataverse volym och datadistribution kan du välja att partitionera data år för år. Med det här alternativet, när Dataverse-tabelldata skrivs till Azure Data Lake, partitioneras de årligen baserat på värdet på createdOn i varje rad i källan. För tabeller utan kolumnen createdOn partitioneras dataraderna i en ny fil för varje fem miljoner poster. Detta är en inställning per tabell och finns tillgänglig som en kryssruta under Avancerat > Visa avancerade konfigurationsinställningar.

Mer information med exempel på hur data hanteras i den årliga eller månatliga partitionsstrategin:

Delningsstrategi.

Se även

Azure Synapse Link for Dataverse

Anteckning

Kan du berätta om dina inställningar för dokumentationsspråk? Svara i en kort undersökning. (observera att undersökningen är på engelska)

Undersökningen tar ungefär sju minuter. Inga personuppgifter samlas in (sekretesspolicy).