Konfigurer Data Warehouse i en kopiaktivitet
I denne artikel beskrives det, hvordan du bruger kopiaktiviteten i datapipeline til at kopiere data fra og til et data warehouse.
Understøttet konfiguration
Hvis du vil konfigurere hver fane under kopiaktivitet, skal du gå til henholdsvis følgende afsnit.
Generelt
Gå til Generelt for at se konfigurationen af fanen Generelt.
Kilde
Følgende egenskaber understøttes for Data Warehouse som kilde i en kopiaktivitet.
Følgende egenskaber er påkrævet:
Datalagertype: Vælg arbejdsområde.
Datalagertype for arbejdsområde: Vælg Data Warehouse på listen over datalagertyper.
Data Warehouse: Vælg et eksisterende data warehouse fra arbejdsområdet.
Brug forespørgsel: Vælg tabel, forespørgsel eller lagret procedure.
Hvis du vælger Tabel, skal du vælge en eksisterende tabel på tabellisten eller angive et tabelnavn manuelt ved at vælge feltet Rediger .
Hvis du vælger Forespørgsel, skal du bruge den brugerdefinerede SQL-forespørgselseditor til at skrive en SQL-forespørgsel, der henter kildedataene.
Hvis du vælger Lagret procedure, skal du vælge en eksisterende lagret procedure på rullelisten eller angive et gemt procedurenavn som kilde ved at vælge feltet Rediger .
Under Avanceret kan du angive følgende felter:
Timeout for forespørgsel (minutter): Timeout for udførelse af forespørgselskommando med standard 120 minutter. Hvis denne egenskab er angivet, er de tilladte værdier i formatet for et tidsrum, f.eks. "02:00:00" (120 minutter).
Isolationsniveau: Angiv funktionsmåden for transaktionslåsning for SQL-kilden.
Partitionsindstilling: Angiv de indstillinger for datapartitionering, der bruges til at indlæse data fra Data Warehouse. Du kan vælge Ingen eller Dynamisk område.
Hvis du vælger Dynamisk område, er områdepartitionsparameteren(
?AdfDynamicRangePartitionCondition
) nødvendig, når du bruger forespørgslen med parallel aktiveret. Eksempelforespørgsel:SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition
.- Navn på partitionskolonne: Angiv navnet på kildekolonnen i typen heltal eller dato/dato/klokkeslæt (
int
,smallint
,bigint
,date
smalldatetime
,datetime
, ,datetime2
ellerdatetimeoffset
), der bruges til områdepartitionering til parallel kopiering. Hvis den ikke er angivet, registreres indekset eller tabellens primære nøgle automatisk og bruges som partitionskolonnen. - Øvre partitionsgrænse: Den maksimale værdi for partitionskolonnen for opdeling af partitionsområdet. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres.
- Nedre grænse for partition: Minimumværdien af partitionskolonnen for opdeling af partitionsområdet. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres.
- Navn på partitionskolonne: Angiv navnet på kildekolonnen i typen heltal eller dato/dato/klokkeslæt (
Flere kolonner: Tilføj flere datakolonner for at gemme kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte.
Destination
Følgende egenskaber understøttes for Data Warehouse som Destination i en kopiaktivitet.
Følgende egenskaber er påkrævet:
- Datalagertype: Vælg arbejdsområde.
- Datalagertype for arbejdsområde: Vælg Data Warehouse på listen over datalagertyper.
- Data Warehouse: Vælg et eksisterende data warehouse fra arbejdsområdet.
- Tabel: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som destination.
Under Avanceret kan du angive følgende felter:
Kopiér kommandoindstillinger: Angiv egenskaber for kopieringskommandoer.
Tabelindstillinger: Angiv, om destinationstabellen automatisk skal oprettes, hvis der ikke findes nogen baseret på kildeskemaet. Du kan vælge Ingen eller Opret tabel automatisk.
Forudkopieringsscript: Angiv en SQL-forespørgsel, der skal køres, før du skriver data til Data Warehouse i hver kørsel. Brug denne egenskab til at rydde op i forudindlæste data.
Timeout for skrivning af batch: Ventetiden, før batchindsætningshandlingen afsluttes, før der opstår timeout. De tilladte værdier er i formatet af et tidsrum. Standardværdien er "00:30:00" (30 minutter).
Deaktiver analyse af målepunkter for ydeevne: Tjenesten indsamler målepunkter til optimering af kopiydeevnen og anbefalinger. Hvis du er bekymret for denne funktionsmåde, skal du deaktivere denne funktion.
Direkte kopiering ved hjælp af kommandoen COPY
Kommandoen DATA Warehouse COPY understøtter direkte Azure Blob Storage og Azure Data Lake Storage Gen2 som kildedatalagre. Hvis dine kildedata opfylder de kriterier, der er beskrevet i dette afsnit, skal du bruge kommandoen COPY til at kopiere direkte fra kildedatalageret til Data Warehouse.
Kildedataene og -formatet indeholder følgende typer og godkendelsesmetoder:
Type af understøttet kildedatalager Understøttet format Understøttet kildegodkendelsestype Azure Blob Storage Afgrænset tekst
ParquetAnonym godkendelse
Godkendelse af kontonøgle
Godkendelse af signatur for delt adgangAzure Data Lake Storage Gen2 Afgrænset tekst
ParquetGodkendelse af kontonøgle
Godkendelse af signatur for delt adgangFølgende formatindstillinger kan angives:
- For Parquet: Komprimeringstypen kan være None, snappy eller gzip.
- For afgrænset tekst:
- Rækkeafgrænser: Når du kopierer afgrænset tekst til Data Warehouse via kommandoen direct COPY, skal du angive rækkeafgrænseren eksplicit (\r; \n; eller \r\n). Kun når rækkeafgrænseren i kildefilen er \r\n, fungerer standardværdien (\r, \n eller \r\n). Ellers skal du aktivere midlertidig lagring for dit scenarie.
- Null-værdien er tilbage som standard eller indstillet til en tom streng ("").
- Kodning er tilbage som standard eller indstillet til UTF-8 eller UTF-16.
- Spring linjeantal tilbage som standard eller indstillet til 0.
- Komprimeringstypen kan være None eller gzip.
Hvis din kilde er en mappe, skal du markere afkrydsningsfeltet Rekursivt .
Starttidspunkt (UTC) og Sluttidspunkt (UTC) i Filtrer efter senest ændret, Præfiks, Aktivér partitionsregistrering og Yderligere kolonner er ikke angivet.
Du kan få mere at vide om, hvordan du henter data til dit Data Warehouse ved hjælp af kommandoen COPY, i denne artikel.
Hvis dit kildedatalager og -format ikke oprindeligt understøttes af en COPY-kommando, skal du i stedet bruge funktionen Fased kopi ved hjælp af kommandoen COPY. Dataene konverteres automatisk til et kopiér kommandokompatibelt format og kalder derefter en COPY-kommando for at indlæse data i Data Warehouse.
Tilknytning
For konfigurationen af fanen Tilknytning skal du gå til Tilknytning.
Indstillinger
Gå til Indstillinger for at få Indstillinger fanekonfiguration.
Tabeloversigt
Følgende tabeller indeholder flere oplysninger om en kopiaktivitet i Data Warehouse.
Kildeoplysninger
Navn | Beskrivelse | Værdi | Obligatorisk | JSON-scriptegenskab |
---|---|---|---|---|
Datalagertype | Datalagertypen. | Arbejdsområde | Ja | / |
Datalagertype for arbejdsområde | Sektionen til valg af datalagertype for arbejdsområdet. | Data Warehouse | Ja | type |
Data Warehouse | Det data warehouse, du vil bruge. | <dit data warehouse> | Ja | Slutpunkt artifactId |
Brug forespørgsel | Måden at læse data fra Data Warehouse på. | •Tabeller •Forespørgsel • Lagret procedure |
Nr. | (under typeProperties ->source )• typeEgenskaber: skema table • sqlReaderQuery • sqlReaderStoredProcedureName |
Timeout for forespørgsel (minutter) | Timeout for udførelse af forespørgselskommando med en standard på 120 minutter. Hvis denne egenskab er angivet, er de tilladte værdier i formatet for et tidsrum, f.eks. "02:00:00" (120 minutter). | Timespan | Nr. | queryTimeout |
Isolationsniveau | Funktionsmåden for transaktionslåsning for kilden. | •Ingen •Snapshot |
Nr. | isolationLevel |
Partitionsindstilling | De indstillinger for datapartitionering, der bruges til at indlæse data fra Data Warehouse. | •Ingen •Dynamikområde |
Nr. | partitionOption |
Navn på partitionskolonne | Navnet på kildekolonnen i typen heltal eller dato/dato/klokkeslæt (int , smallint , bigint , smalldatetime date , , datetime , datetime2 eller datetimeoffset ), der bruges af områdepartitionering til parallel kopiering. Hvis den ikke er angivet, registreres indekset eller tabellens primære nøgle automatisk og bruges som partitionskolonnen. |
<navn på partitionskolonne> | Nr. | partitionColumnName |
Partition, øvre grænse | Den maksimale værdi for partitionskolonnen for opdeling af partitionsområde. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres. | <partition, øvre grænse> | Nr. | partitionUpperBound |
Partition med nedre grænse | Den mindste værdi for partitionskolonnen for opdeling af partitionsområdet. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres. | <nederste grænse for partition> | Nr. | partitionLowerBound |
Flere kolonner | Tilføj yderligere datakolonner for at gemme kildefilernes relative sti eller statiske værdi. | • Navn •Værdi |
Nr. | additionalColumns: •Navn •Værdi |
Destinationsoplysninger
Navn | Beskrivelse | Værdi | Obligatorisk | JSON-scriptegenskab |
---|---|---|---|---|
Datalagertype | Datalagertypen. | Arbejdsområde | Ja | / |
Datalagertype for arbejdsområde | Sektionen til valg af datalagertype for arbejdsområdet. | Data Warehouse | Ja | type |
Data Warehouse | Det data warehouse, du vil bruge. | <dit data warehouse> | Ja | Slutpunkt artifactId |
Tabel | Destinationstabellen til at skrive data. | <navnet på destinationstabellen> | Ja | Skema table |
Kopiér kommandoindstillinger | Indstillingerne for kopiér kommandoegenskab. Indeholder indstillingerne for standardværdien. | Standardværdi: •Kolonne •Værdi |
Nr. | copyCommand Indstillinger: defaultValues: • columnName •Standardværdi |
Tabelindstilling | Angiver, om destinationstabellen skal oprettes automatisk, hvis der ikke findes nogen baseret på kildeskemaet. | •Ingen • Opret tabel automatisk |
Nr. | tableOption: • Opret automatisk |
Forudkopieringsscript | En SQL-forespørgsel, der skal køres, før du skriver data til Data Warehouse i hver kørsel. Brug denne egenskab til at rydde op i forudindlæste data. | <pre-copy script> | Nr. | preCopyScript |
Timeout for skrivning af batch | Ventetiden for, at batchindsætningshandlingen afsluttes, før der udløber timeout. De tilladte værdier er i formatet af et tidsrum. Standardværdien er "00:30:00" (30 minutter). | Timespan | Nr. | writeBatchTimeout |
Deaktiver analyse af målepunkter for ydeevne | Tjenesten indsamler målepunkter til optimering af kopiydeevnen og anbefalinger, som introducerer yderligere adgang til masterdatabasen. | markér eller fjern markeringen | Nr. | disableMetricsCollection: true eller false |
Relateret indhold
Feedback
https://aka.ms/ContentUserFeedback for at få flere oplysninger.
Kommer snart: I hele 2024 udfaser vi GitHub-problemer som feedbackmekanisme for indhold og erstatter det med et nyt feedbacksystem. SeIndsend og få vist feedback om