Share via


Datawarehouse configureren in een kopieeractiviteit

In dit artikel wordt beschreven hoe u de kopieeractiviteit in de gegevenspijplijn gebruikt om gegevens van en naar een datawarehouse te kopiëren.

Ondersteunde configuratie

Voor de configuratie van elk tabblad onder kopieeractiviteit gaat u respectievelijk naar de volgende secties.

Algemeen

Ga naar Algemeen voor de configuratie van het tabblad Algemeen.

Bron

De volgende eigenschappen worden ondersteund voor Data Warehouse als bron in een kopieeractiviteit.

Schermopname van het brontabblad en de lijst met eigenschappen.

De volgende eigenschappen zijn vereist:

  • Gegevensarchieftype: Werkruimte selecteren.

  • Type werkruimtegegevensarchief: Selecteer DataWarehouse in de lijst met gegevensopslagtypen.

  • Datawarehouse: Selecteer een bestaand datawarehouse in de werkruimte.

  • Query gebruiken: Selecteer de procedure Tabel, Query of Opgeslagen.

    • Als u Tabel selecteert, kiest u een bestaande tabel in de tabellijst of geeft u handmatig een tabelnaam op door het vak Bewerken te selecteren.

      Schermopname van het gebruik van een tabelquery.

    • Als u Query selecteert, gebruikt u de aangepaste SQL-queryeditor om een SQL-query te schrijven waarmee de brongegevens worden opgehaald.

      Schermopname van het gebruik van de queryquery.

    • Als u Opgeslagen procedure selecteert , kiest u een bestaande opgeslagen procedure in de vervolgkeuzelijst of geeft u een opgeslagen procedurenaam op als bron door het vak Bewerken te selecteren.

      Schermopname van het gebruik van de query van de opgeslagen procedure.

Onder Geavanceerd kunt u de volgende velden opgeven:

  • Time-out van query (minuten): time-out voor uitvoering van queryopdrachten, met een standaardwaarde van 120 minuten. Als deze eigenschap is ingesteld, hebben de toegestane waarden de notatie van een periode, zoals '02:00:00' (120 minuten).

  • Isolatieniveau: Geef het gedrag voor transactievergrendeling op voor de SQL-bron.

  • Partitieoptie: Geef de opties voor gegevenspartitionering op die worden gebruikt voor het laden van gegevens uit datawarehouse. U kunt Geen of Dynamisch bereik selecteren.

    Als u dynamisch bereik selecteert, is de bereikpartitieparameter(?AdfDynamicRangePartitionCondition) nodig bij het gebruik van query's waarvoor parallel is ingeschakeld. Voorbeeldquery: SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.

    Schermopname van dynamisch bereik.

    • Naam van partitiekolom: geef de naam op van de bronkolom in geheel getal of datum/datum/tijd-type (int, smallintbigint, date, smalldatetime, datetime, of datetime2datetimeoffset) dat wordt gebruikt door bereikpartitionering voor parallelle kopie. Als deze niet is opgegeven, wordt de index of de primaire sleutel van de tabel automatisch gedetecteerd en gebruikt als de partitiekolom.
    • Bovengrens partitioneren: de maximumwaarde van de partitiekolom voor het splitsen van partitiebereiken. Deze waarde wordt gebruikt om de partitie-onderdrukking te bepalen, niet voor het filteren van de rijen in de tabel. Alle rijen in de tabel of het queryresultaat worden gepartitioneerd en gekopieerd.
    • Partitie ondergrens: de minimumwaarde van de partitiekolom voor het splitsen van partitiebereiken. Deze waarde wordt gebruikt om de partitie-onderdrukking te bepalen, niet voor het filteren van de rijen in de tabel. Alle rijen in de tabel of het queryresultaat worden gepartitioneerd en gekopieerd.
  • Aanvullende kolommen: voeg extra gegevenskolommen toe om het relatieve pad of de statische waarde van bronbestanden op te slaan. Expressie wordt ondersteund voor de laatste.

    Schermopname met extra kolommen.

Bestemming

De volgende eigenschappen worden ondersteund voor Data Warehouse als bestemming in een kopieeractiviteit.

Schermopname van het doeltabblad en de lijst met eigenschappen.

De volgende eigenschappen zijn vereist:

  • Gegevensarchieftype: Werkruimte selecteren.
  • Type werkruimtegegevensarchief: Selecteer DataWarehouse in de lijst met gegevensopslagtypen.
  • Datawarehouse: Selecteer een bestaand datawarehouse in de werkruimte.
  • Tabel: Kies een bestaande tabel in de tabellijst of geef een tabelnaam op als doel.

Onder Geavanceerd kunt u de volgende velden opgeven:

  • Instellingen voor de kopieeropdracht: geef eigenschappen van de kopieeropdracht op.

    Schermopname van de standaardwaarden van de instellingen voor de kopieeropdracht.

  • Tabelopties: Geef op of de doeltabel automatisch moet worden gemaakt als er geen bestaat op basis van het bronschema. U kunt Geen of Automatisch tabel maken selecteren.

  • Script vooraf kopiëren: Geef in elke uitvoering een SQL-query op die moet worden uitgevoerd voordat u gegevens in Data Warehouse schrijft. Gebruik deze eigenschap om de vooraf geladen gegevens op te schonen.

  • Time-out van batch schrijven: de wachttijd voor de batchinvoegbewerking die moet worden voltooid voordat er een time-out optreedt. De toegestane waarden hebben de notatie van een tijdspanne. De standaardwaarde is '00:30:00' (30 minuten).

  • Analyse van metrische prestatiegegevens uitschakelen: de service verzamelt metrische gegevens voor optimalisatie en aanbevelingen voor kopieerprestaties. Als u zich zorgen maakt over dit gedrag, schakelt u deze functie uit.

Directe kopie

De COPY-instructie is de primaire manier om gegevens op te nemen in magazijntabellen. De opdracht Data Warehouse COPY biedt rechtstreeks ondersteuning voor Azure Blob Storage en Azure Data Lake Storage Gen2 als brongegevensarchieven. Als uw brongegevens voldoen aan de criteria die in deze sectie worden beschreven, gebruikt u de opdracht COPY om rechtstreeks vanuit het brongegevensarchief naar datawarehouse te kopiëren.

  1. De brongegevens en -indeling bevatten de volgende typen en verificatiemethoden:

    Ondersteund type brongegevensarchief Ondersteunde indeling Ondersteund type bronverificatie
    Azure Blob-opslag Tekst met scheidingstekens
    Parquet
    Anonieme verificatie
    Verificatie van accountsleutels
    Shared Access Signature Authentication
    Azure Data Lake Storage Gen2 Tekst met scheidingstekens
    Parquet
    Verificatie van accountsleutels
    Shared Access Signature Authentication
  2. De volgende indelingsinstellingen kunnen worden ingesteld:

    1. Voor Parquet: Het compressietype kan geen, snappy of gzip zijn.
    2. Voor DelimitedText:
      1. Rijscheidingsteken: Bij het kopiëren van tekst met scheidingstekens naar Data Warehouse via de directe COPY-opdracht geeft u expliciet het rijscheidingsteken op (\r; \n; of \r\n). Alleen wanneer het rijscheidingsteken van het bronbestand \r\n is, werkt de standaardwaarde (\r, \n of \r\n) . Schakel anders fasering in voor uw scenario.
      2. Null-waarde blijft standaard staan of is ingesteld op een lege tekenreeks (').</a0>
      3. Codering blijft standaard staan of ingesteld op UTF-8 of UTF-16.
      4. Het aantal regels overslaan blijft standaard staan of is ingesteld op 0.
      5. Het type compressie kan Geen of gzip zijn.
  3. Als uw bron een map is, moet u het selectievakje Recursief inschakelen.

  4. Begintijd (UTC) en eindtijd (UTC) in Filter op laatst gewijzigd, Voorvoegsel, Partitiedetectie inschakelen en Aanvullende kolommen worden niet opgegeven.

Zie dit artikel voor meer informatie over het opnemen van gegevens in uw datawarehouse met behulp van de opdracht COPY.

Als uw brongegevensarchief en -indeling niet oorspronkelijk wordt ondersteund door een COPY-opdracht, gebruikt u in plaats daarvan de gefaseerde kopie met behulp van de functie COPY-opdracht. De gegevens worden automatisch geconverteerd naar een indeling die compatibel is met copy-opdrachten en roept vervolgens een COPY-opdracht aan om gegevens te laden in datawarehouse.

Gefaseerde kopie

Wanneer uw brongegevens niet systeemeigen compatibel zijn met de opdracht COPY, schakelt u het kopiëren van gegevens in via een tijdelijke faseringsopslag. In dit geval converteert de service de gegevens automatisch om te voldoen aan de vereisten voor de gegevensindeling van de opdracht COPY. Vervolgens wordt de opdracht COPY aangeroepen om gegevens in datawarehouse te laden. Ten slotte worden uw tijdelijke gegevens uit de opslag opgeschoond.

Als u gefaseerde kopie wilt gebruiken, gaat u naar het tabblad Instellingen en selecteert u Fasering inschakelen. U kunt Werkruimte kiezen voor het gebruik van automatisch gemaakte faseringsopslag in Fabric. Voor Extern worden Azure Blob Storage en Azure Data Lake Storage Gen2 ondersteund als de externe faseringsopslag. U moet eerst een Azure Blob Storage- of Azure Data Lake Storage Gen2-verbinding maken en vervolgens de verbinding selecteren in de vervolgkeuzelijst om de faseringsopslag te gebruiken.

Houd er rekening mee dat u ervoor moet zorgen dat het IP-bereik van het datawarehouse correct is toegestaan vanuit de faseringsopslag.

Toewijzing

Als u voor de configuratie van het tabblad Toewijzing geen datawarehouse met automatisch maken als bestemming toepast, gaat u naar Toewijzing.

Als u Data Warehouse met automatisch maken als bestemming toepast, met uitzondering van de configuratie in Toewijzing, kunt u het type voor de doelkolommen bewerken. Nadat u Importschema's hebt geselecteerd, kunt u het kolomtype opgeven in uw bestemming.

Het type voor de id-kolom in de bron is bijvoorbeeld int en u kunt dit wijzigen in floattype bij het toewijzen aan de doelkolom.

Schermopname van het type doelkolom toewijzen.

Instellingen

Ga naar Instellingen voor de configuratie van het tabblad Instellingen.

Tabelsamenvatting

De volgende tabellen bevatten meer informatie over een kopieeractiviteit in Data Warehouse.

Brongegevens

Name Beschrijving Waarde Vereist JSON-scripteigenschap
Gegevensarchieftype Het gegevensarchieftype. Werkruimte Ja /
Gegevensarchieftype werkruimte De sectie voor het selecteren van het gegevensarchieftype van uw werkruimte. Datawarehouse Ja type
Datawarehouse Het datawarehouse dat u wilt gebruiken. <uw datawarehouse> Ja endpoint
artifactId
Query gebruiken De manier om gegevens uit datawarehouse te lezen. •Tabellen
•Vraag
• Opgeslagen procedure
Nee (onder typeProperties ->source)
• typeProperties:
 schema
 table
• sqlReaderQuery
• sqlReaderStoredProcedureName
Time-out van query (minuten) Time-out voor het uitvoeren van queryopdrachten, met een standaardwaarde van 120 minuten. Als deze eigenschap is ingesteld, hebben de toegestane waarden de notatie van een periode, zoals '02:00:00' (120 minuten). tijdsbestek Nee queryTimeout
Isolatieniveau Het gedrag voor transactievergrendeling voor de bron. •Geen
•Momentopname
Nee isolationLevel
Partitieoptie De opties voor gegevenspartitionering die worden gebruikt voor het laden van gegevens uit datawarehouse. •Geen
• Dynamisch bereik
Nee partitionOption
Naam van partitiekolom De naam van de bronkolom in geheel getal of datum/datum/tijd(int, smallint, datebigint, smalldatetime, datetime, of datetime2datetimeoffset) die wordt gebruikt door bereikpartitionering voor parallelle kopie. Als deze niet is opgegeven, wordt de index of de primaire sleutel van de tabel automatisch gedetecteerd en gebruikt als de partitiekolom. <naam van partitiekolom> Nee partitionColumnName
Bovengrens partitioneren De maximumwaarde van de partitiekolom voor het splitsen van partitiebereiken. Deze waarde wordt gebruikt om de partitie-onderdrukking te bepalen, niet voor het filteren van de rijen in de tabel. Alle rijen in de tabel of het queryresultaat worden gepartitioneerd en gekopieerd. <bovengrens partitie> Nee partitionUpperBound
Ondergrens van partitie De minimale waarde van de partitiekolom voor het splitsen van partitiebereiken. Deze waarde wordt gebruikt om de partitie-onderdrukking te bepalen, niet voor het filteren van de rijen in de tabel. Alle rijen in de tabel of het queryresultaat worden gepartitioneerd en gekopieerd. <partitie ondergrens> Nee partitionLowerBound
Aanvullende kolommen Voeg extra gegevenskolommen toe om het relatieve pad of de statische waarde van bronbestanden op te slaan. • Naam
•Waarde
Nee additionalColumns:
•naam
•waarde

Doelgegevens

Name Beschrijving Waarde Vereist JSON-scripteigenschap
Gegevensarchieftype Het gegevensarchieftype. Werkruimte Ja /
Gegevensarchieftype werkruimte De sectie voor het selecteren van het gegevensarchieftype van uw werkruimte. Datawarehouse Ja type
Datawarehouse Het datawarehouse dat u wilt gebruiken. <uw datawarehouse> Ja endpoint
artifactId
Tabel De doeltabel voor het schrijven van gegevens. <naam van de doeltabel> Ja schema
table
Opdrachtinstellingen kopiëren De instellingen voor de eigenschap van de kopieeropdracht. Bevat de standaardwaarde-instellingen. Standaardwaarde:
•Kolom
•Waarde
Nee copyCommandSettings:
defaultValues:
• columnName
• defaultValue
Tabeloptie Of de doeltabel automatisch moet worden gemaakt als er geen bestaat op basis van het bronschema. •Geen
• Tabel automatisch maken
Nee tableOption:

• autoCreate
Script vooraf kopiëren Een SQL-query die moet worden uitgevoerd voordat u in elke uitvoering gegevens naar Data Warehouse schrijft. Gebruik deze eigenschap om de vooraf geladen gegevens op te schonen. <script vooraf kopiëren> Nee preCopyScript
Time-out voor batchbewerkingen schrijven De wachttijd voordat de batchinvoegbewerking is voltooid voordat er een time-out optreedt. De toegestane waarden hebben de notatie van een tijdspanne. De standaardwaarde is '00:30:00' (30 minuten). tijdsbestek Nee writeBatchTimeout
Analyse van metrische prestatiegegevens uitschakelen De service verzamelt metrische gegevens voor optimalisatie van kopieerprestaties en aanbevelingen, waardoor extra toegang tot hoofddatabases wordt geïntroduceerd. selecteren of de selectie opheffen Nee disableMetricsCollection:
waar of onwaar