Konfigurer Data Warehouse i en kopiaktivitet

I denne artikel beskrives det, hvordan du bruger kopiaktiviteten i datapipeline til at kopiere data fra og til et data warehouse.

Understøttet konfiguration

Hvis du vil konfigurere hver fane under kopiaktivitet, skal du gå til henholdsvis følgende afsnit.

Generelt

Gå til Generelt for at se konfigurationen af fanen Generelt.

Kilde

Følgende egenskaber understøttes for Data Warehouse som kilde i en kopiaktivitet.

Screenshot showing source tab and the list of properties.

Følgende egenskaber er påkrævet:

  • Datalagertype: Vælg arbejdsområde.

  • Datalagertype for arbejdsområde: Vælg Data Warehouse på listen over datalagertyper.

  • Data Warehouse: Vælg et eksisterende data warehouse fra arbejdsområdet.

  • Brug forespørgsel: Vælg tabel, forespørgsel eller lagret procedure.

    • Hvis du vælger Tabel, skal du vælge en eksisterende tabel på tabellisten eller angive et tabelnavn manuelt ved at vælge feltet Rediger .

      Screenshot showing use query of table.

    • Hvis du vælger Forespørgsel, skal du bruge den brugerdefinerede SQL-forespørgselseditor til at skrive en SQL-forespørgsel, der henter kildedataene.

      Screenshot showing use query of query.

    • Hvis du vælger Lagret procedure, skal du vælge en eksisterende lagret procedure på rullelisten eller angive et gemt procedurenavn som kilde ved at vælge feltet Rediger .

      Screenshot showing use query of stored procedure.

Under Avanceret kan du angive følgende felter:

  • Timeout for forespørgsel (minutter): Timeout for udførelse af forespørgselskommando med standard 120 minutter. Hvis denne egenskab er angivet, er de tilladte værdier i formatet for et tidsrum, f.eks. "02:00:00" (120 minutter).

  • Isolationsniveau: Angiv funktionsmåden for transaktionslåsning for SQL-kilden.

  • Partitionsindstilling: Angiv de indstillinger for datapartitionering, der bruges til at indlæse data fra Data Warehouse. Du kan vælge Ingen eller Dynamisk område.

    Hvis du vælger Dynamisk område, er områdepartitionsparameteren(?AdfDynamicRangePartitionCondition) nødvendig, når du bruger forespørgslen med parallel aktiveret. Eksempelforespørgsel: SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.

    Screenshot showing dynamic range.

    • Navn på partitionskolonne: Angiv navnet på kildekolonnen i typen heltal eller dato/dato/klokkeslæt (int, smallint, bigint, datesmalldatetime, datetime, , datetime2eller datetimeoffset), der bruges til områdepartitionering til parallel kopiering. Hvis den ikke er angivet, registreres indekset eller tabellens primære nøgle automatisk og bruges som partitionskolonnen.
    • Øvre partitionsgrænse: Den maksimale værdi for partitionskolonnen for opdeling af partitionsområdet. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres.
    • Nedre grænse for partition: Minimumværdien af partitionskolonnen for opdeling af partitionsområdet. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres.
  • Flere kolonner: Tilføj flere datakolonner for at gemme kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte.

    Screenshot showing additional columns.

Destination

Følgende egenskaber understøttes for Data Warehouse som Destination i en kopiaktivitet.

Screenshot showing destination tab and the list of properties.

Følgende egenskaber er påkrævet:

  • Datalagertype: Vælg arbejdsområde.
  • Datalagertype for arbejdsområde: Vælg Data Warehouse på listen over datalagertyper.
  • Data Warehouse: Vælg et eksisterende data warehouse fra arbejdsområdet.
  • Tabel: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som destination.

Under Avanceret kan du angive følgende felter:

  • Kopiér kommandoindstillinger: Angiv egenskaber for kopieringskommandoer.

    Screenshot showing default values of copy command settings.

  • Tabelindstillinger: Angiv, om destinationstabellen automatisk skal oprettes, hvis der ikke findes nogen baseret på kildeskemaet. Du kan vælge Ingen eller Opret tabel automatisk.

  • Forudkopieringsscript: Angiv en SQL-forespørgsel, der skal køres, før du skriver data til Data Warehouse i hver kørsel. Brug denne egenskab til at rydde op i forudindlæste data.

  • Timeout for skrivning af batch: Ventetiden, før batchindsætningshandlingen afsluttes, før der opstår timeout. De tilladte værdier er i formatet af et tidsrum. Standardværdien er "00:30:00" (30 minutter).

  • Deaktiver analyse af målepunkter for ydeevne: Tjenesten indsamler målepunkter til optimering af kopiydeevnen og anbefalinger. Hvis du er bekymret for denne funktionsmåde, skal du deaktivere denne funktion.

Direkte kopiering ved hjælp af kommandoen COPY

Kommandoen DATA Warehouse COPY understøtter direkte Azure Blob Storage og Azure Data Lake Storage Gen2 som kildedatalagre. Hvis dine kildedata opfylder de kriterier, der er beskrevet i dette afsnit, skal du bruge kommandoen COPY til at kopiere direkte fra kildedatalageret til Data Warehouse.

  1. Kildedataene og -formatet indeholder følgende typer og godkendelsesmetoder:

    Type af understøttet kildedatalager Understøttet format Understøttet kildegodkendelsestype
    Azure Blob Storage Afgrænset tekst
    Parquet
    Anonym godkendelse
    Godkendelse af kontonøgle
    Godkendelse af signatur for delt adgang
    Azure Data Lake Storage Gen2 Afgrænset tekst
    Parquet
    Godkendelse af kontonøgle
    Godkendelse af signatur for delt adgang
  2. Følgende formatindstillinger kan angives:

    1. For Parquet: Komprimeringstypen kan være None, snappy eller gzip.
    2. For afgrænset tekst:
      1. Rækkeafgrænser: Når du kopierer afgrænset tekst til Data Warehouse via kommandoen direct COPY, skal du angive rækkeafgrænseren eksplicit (\r; \n; eller \r\n). Kun når rækkeafgrænseren i kildefilen er \r\n, fungerer standardværdien (\r, \n eller \r\n). Ellers skal du aktivere midlertidig lagring for dit scenarie.
      2. Null-værdien er tilbage som standard eller indstillet til en tom streng ("").
      3. Kodning er tilbage som standard eller indstillet til UTF-8 eller UTF-16.
      4. Spring linjeantal tilbage som standard eller indstillet til 0.
      5. Komprimeringstypen kan være None eller gzip.
  3. Hvis din kilde er en mappe, skal du markere afkrydsningsfeltet Rekursivt .

  4. Starttidspunkt (UTC) og Sluttidspunkt (UTC) i Filtrer efter senest ændret, Præfiks, Aktivér partitionsregistrering og Yderligere kolonner er ikke angivet.

Du kan få mere at vide om, hvordan du henter data til dit Data Warehouse ved hjælp af kommandoen COPY, i denne artikel.

Hvis dit kildedatalager og -format ikke oprindeligt understøttes af en COPY-kommando, skal du i stedet bruge funktionen Fased kopi ved hjælp af kommandoen COPY. Dataene konverteres automatisk til et kopiér kommandokompatibelt format og kalder derefter en COPY-kommando for at indlæse data i Data Warehouse.

Tilknytning

For konfigurationen af fanen Tilknytning skal du gå til Tilknytning.

Indstillinger

Gå til Indstillinger for at få Indstillinger fanekonfiguration.

Tabeloversigt

Følgende tabeller indeholder flere oplysninger om en kopiaktivitet i Data Warehouse.

Kildeoplysninger

Navn Beskrivelse Værdi Obligatorisk JSON-scriptegenskab
Datalagertype Datalagertypen. Arbejdsområde Ja /
Datalagertype for arbejdsområde Sektionen til valg af datalagertype for arbejdsområdet. Data Warehouse Ja type
Data Warehouse Det data warehouse, du vil bruge. <dit data warehouse> Ja Slutpunkt
artifactId
Brug forespørgsel Måden at læse data fra Data Warehouse på. •Tabeller
•Forespørgsel
• Lagret procedure
Nr. (under typeProperties ->source)
• typeEgenskaber:
 skema
 table
• sqlReaderQuery
• sqlReaderStoredProcedureName
Timeout for forespørgsel (minutter) Timeout for udførelse af forespørgselskommando med en standard på 120 minutter. Hvis denne egenskab er angivet, er de tilladte værdier i formatet for et tidsrum, f.eks. "02:00:00" (120 minutter). Timespan Nr. queryTimeout
Isolationsniveau Funktionsmåden for transaktionslåsning for kilden. •Ingen
•Snapshot
Nr. isolationLevel
Partitionsindstilling De indstillinger for datapartitionering, der bruges til at indlæse data fra Data Warehouse. •Ingen
•Dynamikområde
Nr. partitionOption
Navn på partitionskolonne Navnet på kildekolonnen i typen heltal eller dato/dato/klokkeslæt (int, smallint, bigint, smalldatetimedate, , datetime, datetime2eller datetimeoffset), der bruges af områdepartitionering til parallel kopiering. Hvis den ikke er angivet, registreres indekset eller tabellens primære nøgle automatisk og bruges som partitionskolonnen. <navn på partitionskolonne> Nr. partitionColumnName
Partition, øvre grænse Den maksimale værdi for partitionskolonnen for opdeling af partitionsområde. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres. <partition, øvre grænse> Nr. partitionUpperBound
Partition med nedre grænse Den mindste værdi for partitionskolonnen for opdeling af partitionsområdet. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres. <nederste grænse for partition> Nr. partitionLowerBound
Flere kolonner Tilføj yderligere datakolonner for at gemme kildefilernes relative sti eller statiske værdi. • Navn
•Værdi
Nr. additionalColumns:
•Navn
•Værdi

Destinationsoplysninger

Navn Beskrivelse Værdi Obligatorisk JSON-scriptegenskab
Datalagertype Datalagertypen. Arbejdsområde Ja /
Datalagertype for arbejdsområde Sektionen til valg af datalagertype for arbejdsområdet. Data Warehouse Ja type
Data Warehouse Det data warehouse, du vil bruge. <dit data warehouse> Ja Slutpunkt
artifactId
Tabel Destinationstabellen til at skrive data. <navnet på destinationstabellen> Ja Skema
table
Kopiér kommandoindstillinger Indstillingerne for kopiér kommandoegenskab. Indeholder indstillingerne for standardværdien. Standardværdi:
•Kolonne
•Værdi
Nr. copyCommand Indstillinger:
defaultValues:
• columnName
•Standardværdi
Tabelindstilling Angiver, om destinationstabellen skal oprettes automatisk, hvis der ikke findes nogen baseret på kildeskemaet. •Ingen
• Opret tabel automatisk
Nr. tableOption:

• Opret automatisk
Forudkopieringsscript En SQL-forespørgsel, der skal køres, før du skriver data til Data Warehouse i hver kørsel. Brug denne egenskab til at rydde op i forudindlæste data. <pre-copy script> Nr. preCopyScript
Timeout for skrivning af batch Ventetiden for, at batchindsætningshandlingen afsluttes, før der udløber timeout. De tilladte værdier er i formatet af et tidsrum. Standardværdien er "00:30:00" (30 minutter). Timespan Nr. writeBatchTimeout
Deaktiver analyse af målepunkter for ydeevne Tjenesten indsamler målepunkter til optimering af kopiydeevnen og anbefalinger, som introducerer yderligere adgang til masterdatabasen. markér eller fjern markeringen Nr. disableMetricsCollection:
true eller false