Så här konfigurerar du Data Warehouse-anslutningsappen för kopieringsaktiviteten i Data Factory i Microsoft Fabric
Den här artikeln beskriver hur du använder kopieringsaktiviteten i datapipelinen för att kopiera data från och till en Data Warehouse.
Viktigt
Microsoft Fabric är för närvarande i förhandsversion. Den här informationen gäller en förhandsversionsprodukt som kan ändras avsevärt innan den släpps. Microsoft lämnar inga garantier, uttryckta eller underförstådda, med avseende på den information som tillhandahålls här. Se Azure Data Factory dokumentation för tjänsten i Azure.
Konfiguration som stöds
För konfigurationen av varje flik under kopieringsaktivitet går du till följande avsnitt.
Allmänt
För flikkonfigurationen Allmänt går du till Allmänt.
Källa
Följande egenskaper stöds för Data Warehouse som källa i en kopieringsaktivitet.
Följande egenskaper krävs:
Datalagertyp: Välj Arbetsyta.
Datalagertyp för arbetsyta: Välj Data Warehouse från listan med datalagertyper.
Data Warehouse: Välj en befintlig Data Warehouse från arbetsytan.
Använd fråga: Välj tabell, fråga eller lagrad procedur.
Om du väljer Tabell väljer du en befintlig tabell i tabelllistan eller anger ett tabellnamn manuellt genom att välja rutan Redigera .
Om du väljer Fråga använder du den anpassade SQL-frågeredigeraren för att skriva en SQL-fråga som hämtar källdata.
Om du väljer Lagrad procedur väljer du en befintlig lagrad procedur i listrutan eller anger ett lagrat procedurnamn som källa genom att välja rutan Redigera .
Under Avancerat kan du ange följande fält:
Tidsgräns för frågor (minuter): Tidsgräns för körning av frågekommandon med standardvärdet 120 minuter. Om den här egenskapen anges är de tillåtna värdena i formatet för ett tidsintervall, till exempel "02:00:00" (120 minuter).
Isoleringsnivå: Ange transaktionslåsningsbeteendet för SQL-källan.
Partitionsalternativ: Ange de alternativ för datapartitionering som används för att läsa in data från Data Warehouse. Du kan välja Inget eller Dynamiskt intervall.
Om du väljer Dynamiskt intervall behövs intervallpartitionsparametern(
?AdfDynamicRangePartitionCondition
) när du använder frågan med parallellaktiverad. Exempelfråga:SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition
.- Partitionskolumnnamn: Ange namnet på källkolumnen i heltal eller datum/datetime-typ (
int
, ,bigint
smallint
,smalldatetime
date
,datetime
,datetime2
ellerdatetimeoffset
) som används av intervallpartitionering för parallell kopiering. Om det inte anges identifieras indexet eller den primära nyckeln i tabellen automatiskt och används som partitionskolumn. - Partitionens övre gräns: Det maximala värdet för partitionskolumnen för partitionsintervalldelning. Det här värdet används för att bestämma partitionssteget, inte för att filtrera raderna i tabellen. Alla rader i tabellen eller frågeresultatet partitioneras och kopieras.
- Partitionens nedre gräns: Minimivärdet för partitionskolumnen för partitionsintervalldelning. Det här värdet används för att bestämma partitionssteget, inte för att filtrera raderna i tabellen. Alla rader i tabellen eller frågeresultatet partitioneras och kopieras.
- Partitionskolumnnamn: Ange namnet på källkolumnen i heltal eller datum/datetime-typ (
Ytterligare kolumner: Lägg till ytterligare datakolumner för att lagra källfilernas relativa sökväg eller statiska värde. Uttrycket stöds för det senare.
Mål
Följande egenskaper stöds för Data Warehouse som mål i en kopieringsaktivitet.
Följande egenskaper krävs:
- Datalagertyp: Välj Arbetsyta.
- Datalagertyp för arbetsyta: Välj Data Warehouse från listan med datalagertyper.
- Data Warehouse: Välj en befintlig Data Warehouse från arbetsytan.
- Tabell: Välj en befintlig tabell i tabelllistan eller ange ett tabellnamn som mål.
Under Avancerat kan du ange följande fält:
Kopiera kommandoinställningar: Ange egenskaper för kopieringskommando.
Tabellalternativ: Ange om måltabellen ska skapas automatiskt om ingen finns baserat på källschemat. Du kan välja Ingen eller Skapa tabell automatiskt.
Förkopieringsskript: Ange en SQL-fråga som ska köras innan du skriver data till Data Warehouse i varje körning. Använd den här egenskapen för att rensa förinlästa data.
Skriv batch-timeout: Väntetiden för att batchinfogningsåtgärden ska slutföras innan tidsgränsen uppnås. De tillåtna värdena är i formatet för ett tidsintervall. Standardvärdet är "00:30:00" (30 minuter).
Inaktivera prestandamåttanalys: Tjänsten samlar in mått för kopieringsprestandaoptimering och rekommendationer. Om du är intresserad av det här beteendet inaktiverar du den här funktionen.
Om dina källdata är i Azure Blob Storage eller Azure Data Lake Storage Gen2 och formatet är COPY-instruktionskompatibelt anropar kopieringsaktiviteten direkt kommandot COPY för att låta Data Warehouse hämta data från källan.
Källdata och -format innehåller följande typer och autentiseringsmetoder:
Typ av källdatalager som stöds Format som stöds Typ av källautentisering som stöds Azure Blob Storage Avgränsad text
ParquetAnonym autentisering
Signaturautentisering för delad åtkomstAzure Data Lake Storage Gen2 Avgränsad text
ParquetSignaturautentisering för delad åtkomst Följande formatinställningar kan anges:
- För Parquet: komprimering kan inte vara någon komprimering, Snappy eller GZip.
- För avgränsad text:
rowDelimiter
anges uttryckligen som ett enskilt tecken eller "\r\n", standardvärdet stöds inte.nullValue
lämnas som standard eller anges till tom sträng ("").encodingName
lämnas som standard eller anges till utf-8 eller utf-16.skipLineCount
lämnas som standard eller anges till 0.- komprimering kan inte vara någon komprimering eller GZip.
- För Parquet: komprimering kan inte vara någon komprimering, Snappy eller GZip.
Om källan är en mapp
recursive
måste en kopieringsaktivitet anges till true i en kopieringsaktivitet.modifiedDateTimeStart
,modifiedDateTimeEnd
,prefix
,enablePartitionDiscovery
ochadditionalColumns
anges inte.
Om källdatalagret och formatet inte ursprungligen stöds av en COPY-instruktion använder du den mellanlagrade kopian med hjälp av copy-instruktionsfunktionen i stället. Den mellanlagrade kopieringsfunktionen ger dig också bättre dataflöde. Den konverterar automatiskt data till ett COPY-instruktionskompatibelt format och anropar sedan en COPY-instruktion för att läsa in data i Data Warehouse.
Mappning
För flikkonfigurationen Mappning går du till Mappning.
Inställningar
På fliken Inställningar går du till Inställningar.
Tabellsammanfattning
Följande tabeller innehåller mer information om en kopieringsaktivitet i Data Warehouse.
Källinformation
Name | Beskrivning | Värde | Obligatorisk | JSON-skriptegenskap |
---|---|---|---|---|
Typ av datalager | Din datalagertyp. | Arbetsyta | Ja | / |
Datalagertyp för arbetsyta | Avsnittet för att välja datalagertyp för arbetsytan. | Data Warehouse | Ja | typ |
Data Warehouse | Den Data Warehouse som du vill använda. | <ditt informationslager> | Ja | slutpunkt artifactId |
Använda fråga | Sättet att läsa data från Data Warehouse. | •Tabeller •Fråga • Lagrad procedur |
Nej | (under typeProperties ->source )• typEgenskaper: schema bord • sqlReaderQuery • sqlReaderStoredProcedureName |
Tidsgräns för frågor (minuter) | Tidsgräns för körning av frågekommandon med standardvärdet 120 minuter. Om den här egenskapen anges har de tillåtna värdena formatet för ett tidsintervall, till exempel "02:00:00" (120 minuter). | tidsintervall | Nej | queryTimeout |
Isoleringsnivå | Transaktionslåsningsbeteendet för källan. | •Ingen •Ögonblicksbild |
Nej | isolationLevel |
Partitionsalternativ | De alternativ för datapartitionering som används för att läsa in data från Data Warehouse. | •Ingen • Dynamiskt omfång |
Nej | partitionOption |
Partitionskolumnnamn | Namnet på källkolumnen i heltal eller datum/datetime-typ (int , smallint , bigint , date , smalldatetime datetime , , datetime2 eller datetimeoffset ) som används av intervallpartitionering för parallellkopiering. Om inget anges identifieras indexet eller primärnyckeln för tabellen automatiskt och används som partitionskolumn. |
<partitionskolumnnamn> | Nej | partitionColumnName |
Partition, övre gräns | Det maximala värdet för partitionskolumnen för partitionsintervalldelning. Det här värdet används för att bestämma partitionssteget, inte för att filtrera raderna i tabellen. Alla rader i tabellen eller frågeresultatet partitioneras och kopieras. | <partition övre gräns> | Nej | partitionUpperBound |
Partition, nedre gräns | Minimivärdet för partitionskolumnen för partitionsintervalldelning. Det här värdet används för att bestämma partitionssteget, inte för att filtrera raderna i tabellen. Alla rader i tabellen eller frågeresultatet partitioneras och kopieras. | <partition, nedre gräns> | Nej | partitionLowerBound |
Ytterligare kolumner | Lägg till ytterligare datakolumner för att lagra källfilernas relativa sökväg eller statiska värde. | •Namn •Värde |
Nej | additionalColumns: •Namn •Värde |
Målinformation
Name | Beskrivning | Värde | Obligatorisk | JSON-skriptegenskap |
---|---|---|---|---|
Typ av datalager | Din datalagertyp. | Arbetsyta | Ja | / |
Datalagertyp för arbetsyta | Avsnittet för att välja datalagertyp för arbetsytan. | Data Warehouse | Ja | typ |
Data Warehouse | Den Data Warehouse som du vill använda. | <ditt informationslager> | Ja | slutpunkt artifactId |
Tabell | Måltabellen för att skriva data. | <namn på måltabellen> | Ja | schema bord |
Kopiera kommandoinställningar | Egenskapsinställningarna för kopieringskommandot. Innehåller standardvärdeinställningarna. | Standardvärde: •Kolumn •Värde |
Nej | copyCommandSettings: defaultValues: •Columnname •Standardvärde |
Tabellalternativ | Om måltabellen ska skapas automatiskt om ingen finns baserat på källschemat. | •Ingen • Skapa tabell automatiskt |
Nej | tableOption: • Skapa automatiskt |
Förkopieringsskript | En SQL-fråga som ska köras innan data skrivs till Data Warehouse i varje körning. Använd den här egenskapen för att rensa förinlästa data. | <förkopieringsskript> | Nej | preCopyScript |
Tidsgräns för att skriva batch | Väntetiden för att batchinfogningsåtgärden ska slutföras innan tidsgränsen uppnås. De tillåtna värdena är i formatet för ett tidsintervall. Standardvärdet är "00:30:00" (30 minuter). | tidsintervall | Nej | writeBatchTimeout |
Inaktivera prestandamåttanalys | Tjänsten samlar in mått för optimering av kopieringsprestanda och rekommendationer, vilket ger ytterligare åtkomst till huvuddatabasen. | markera eller avmarkera | Nej | disableMetricsCollection: sant eller falskt |