Avgränsat textformat i Data Factory i Microsoft Fabric

Den här artikeln beskriver hur du konfigurerar avgränsat textformat i datapipelinen för Data Factory i Microsoft Fabric.

Funktioner som stöds

Avgränsat textformat stöds för följande aktiviteter och anslutningsappar som källa och mål.

Kategori Anslut eller/aktivitet
Anslutningsprogram som stöds Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Aktivitet som stöds aktiviteten Kopiera
Sökningsaktivitet
GetMetadata-aktivitet
Ta bort aktivitet

Avgränsat textformat i kopieringsaktivitet

Om du vill konfigurera avgränsat textformat väljer du din anslutning i källan eller målet för kopieringsaktiviteten för datapipelinen och väljer sedan Avgränsadtext i listrutan Filformat. Välj Inställningar för ytterligare konfiguration av det här formatet.

Screenshot showing file format settings.

Avgränsat textformat som källa

När du har valt Inställningar i avsnittet Filformat visas följande egenskaper i dialogrutan Inställningar för filformat i popup-fönstret.

Screenshot showing source file format settings.

  • Komprimeringstyp: Den komprimeringskodc som används för att läsa avgränsade textfiler. Du kan välja mellan None, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tar type i listrutan.

    Om du väljer ZipDeflate som komprimeringstyp visas Spara zip-filnamn som mapp under Avancerade inställningar på fliken Källa .

    • Bevara zip-filnamnet som mapp: Anger om du vill behålla zip-källfilens namn som mappstruktur under kopiering.
      • Om den här rutan är markerad (standard) skriver tjänsten uppackade filer till <specified file path>/<folder named as source zip file>/.
      • Om den här rutan är avmarkerad skriver tjänsten uppackade filer direkt till <specified file path>. Kontrollera att du inte har duplicerade filnamn i olika zip-källfiler för att undvika racing eller oväntat beteende.

    Om du väljer TarGzip/tjära som komprimeringstyp visas Bevara komprimeringsfilens namn som mapp under Avancerade inställningar på fliken Källa .

    • Behåll komprimeringsfilens namn som mapp: Anger om det komprimerade källfilnamnet ska behållas som mappstruktur under kopieringen.
      • Om den här rutan är markerad (standard) skriver tjänsten dekomprimerade filer till <specified file path>/<folder named as source compressed file>/.
      • Om den här rutan är avmarkerad skriver tjänsten dekomprimerade filer direkt till <specified file path>. Kontrollera att du inte har duplicerade filnamn i olika zip-källfiler för att undvika racing eller oväntat beteende.
  • Komprimeringsnivå: Ange komprimeringsförhållandet när du väljer en komprimeringstyp. Du kan välja mellan Optimal eller Snabbaste.

    • Snabbast: Komprimeringsåtgärden bör slutföras så snabbt som möjligt, även om den resulterande filen inte komprimeras optimalt.
    • Optimal: Komprimeringsåtgärden bör komprimeras optimalt, även om åtgärden tar längre tid att slutföra. Mer information finns i avsnittet Komprimeringsnivå.
  • Kolumnavgränsare: De tecken som används för att separera kolumner i en fil. Standardvärdet är kommatecken (,).

  • Radavgränsare: Ange det tecken som används för att avgränsa rader i en fil. Endast ett tecken är tillåtet. Standardvärdet är radmatning \n.

  • Kodning: Kodningstypen som används för att läsa/skriva testfiler. Standardvärdet är UTF-8.

  • Escape-tecken: Det enkla tecknet för att undkomma citattecken i ett citerat värde. Standardvärdet är omvänt snedstreck\. När escape-tecknet definieras som en tom sträng måste även citattecken anges som en tom sträng. Kontrollera i så fall att alla kolumnvärden inte innehåller avgränsare.

  • Citattecken: Det enstaka tecknet för att citera kolumnvärden om det innehåller kolumn avgränsare. Standardvärdet är dubbla citattecken". När citattecken definieras som tom sträng innebär det att det inte finns något citattecken och att kolumnvärdet inte citeras, och escape-tecknet används för att undkomma kolumn avgränsaren och sig själv.

  • Första raden som rubrik: Anger om den första raden ska behandlas/ändras som en rubrikrad med namn på kolumner. Tillåtna värden är markerade och avmarkerade (standard). När den första raden som rubrik är omarkerad, observera att användargränssnittsdataförhandsgranskning och uppslagsaktivitet genererar kolumnnamn automatiskt som Prop_{n} (från och med 0), kräver kopieringsaktivitet explicit mappning från källa till mål och letar upp kolumner efter ordning (från 1).

  • Null-värde: Anger strängrepresentationen av null-värdet. Standardvärdet är tom sträng.

Under Avancerade inställningar på fliken Källa visas ytterligare avgränsade textformatrelaterade egenskaper.

  • Hoppa över radantal: Anger antalet icke-snåla rader att hoppa över när du läser data från indatafiler. Om både Hoppa över radantal och Första raden som rubrik anges hoppas raderna först över och sedan läss rubrikinformationen från indatafilen.

Avgränsat textformat som mål

När du har valt Inställningar i avsnittet Filformat visas följande egenskaper i dialogrutan Inställningar för filformat i popup-fönstret.

Screenshot showing destination file format settings.

  • Komprimeringstyp: Den komprimeringskodc som används för att skriva avgränsade textfiler. Du kan välja mellan None, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tar type i listrutan.

  • Komprimeringsnivå: Ange komprimeringsförhållandet när du väljer en komprimeringstyp. Du kan välja mellan Optimal eller Snabbaste.

    • Snabbast: Komprimeringsåtgärden bör slutföras så snabbt som möjligt, även om den resulterande filen inte komprimeras optimalt.
    • Optimal: Komprimeringsåtgärden bör komprimeras optimalt, även om åtgärden tar längre tid att slutföra. Mer information finns i avsnittet Komprimeringsnivå.
  • Kolumnavgränsare: De tecken som används för att separera kolumner i en fil. Standardvärdet är kommatecken (,).

  • Radavgränsare: Tecknet som används för att separera rader i en fil. Endast ett tecken är tillåtet. Standardvärdet är radmatning \n.

  • Kodning: Kodningstypen som används för att skriva testfiler. Standardvärdet är UTF-8.

  • Escape-tecken: Det enkla tecknet för att undkomma citattecken i ett citerat värde. Standardvärdet är omvänt snedstreck\. När escape-tecknet definieras som en tom sträng måste även citattecken anges som en tom sträng. Kontrollera i så fall att alla kolumnvärden inte innehåller avgränsare.

  • Citattecken: Det enstaka tecknet för att citera kolumnvärden om det innehåller kolumn avgränsare. Standardvärdet är dubbla citattecken". När citattecken definieras som tom sträng innebär det att det inte finns något citattecken och att kolumnvärdet inte citeras, och escape-tecknet används för att undkomma kolumn avgränsaren och sig själv.

  • Första raden som rubrik: Anger om den första raden ska behandlas/ändras som en rubrikrad med namn på kolumner. Tillåtna värden är markerade och avmarkerade (standard). När den första raden som rubrik är omarkerad, observera att användargränssnittsdataförhandsgranskning och uppslagsaktivitet genererar kolumnnamn automatiskt som Prop_{n} (från och med 0), kräver kopieringsaktivitet explicit mappning från källa till mål och letar upp kolumner efter ordning (från 1).

  • Null-värde: Anger strängrepresentationen av null-värdet. Standardvärdet är tom sträng.

Under Avancerade inställningar på fliken Mål visas ytterligare avgränsade textformatrelaterade egenskaper.

  • Citera all text: Omslut alla värden med citattecken.

  • Filnamnstillägg: Filnamnstillägget som används för att namnge utdatafilerna, .csvtill exempel , .txt.

  • Maximalt antal rader per fil: När du skriver data till en mapp kan du välja att skriva till flera filer och ange maximalt antal rader per fil.

  • Filnamnsprefix: Gäller när Maximalt antal rader per fil har konfigurerats. Ange filnamnsprefixet när du skriver data till flera filer, vilket resulterade i det här mönstret: <fileNamePrefix>_00000.<fileExtension>. Om det inte anges genereras filnamnsprefixet automatiskt. Den här egenskapen gäller inte när källan är filbaserat lagrings- eller partitionsalternativ aktiverat datalager.

Tabellsammanfattning

Avgränsad text som källa

Följande egenskaper stöds i avsnittet Käll för kopieringsaktivitet när du använder avgränsat textformat.

Namn Beskrivning Värde Krävs JSON-skriptegenskap
 Filformat Det filformat som du vill använda. Avgränsadtext Ja typ (under datasetSettings):
Avgränsadtext
Komprimeringstyp Komprimeringskodcen som används för att läsa avgränsade textfiler. Välj mellan:
None
bzip2
Gzip
Tömma
ZipDeflate
TarGzip
tjära
Nej typ (under compression):

bzip2
gzip
Tömma
ZipDeflate
TarGzip
tjära
Bevara zip-filnamnet som mapp Anger om käll-zip-filnamnet ska behållas som mappstruktur under kopiering. Gäller när du väljer ZipDeflate-komprimering . Markera eller avmarkera Nej preserveZipFileNameAsFolder
(under compressionProperties->type som ZipDeflateReadSettings)
Bevara komprimeringsfilens namn som mapp Anger om källans komprimerade filnamn ska bevaras som mappstruktur under kopieringen. Gäller när du väljer TarGzip/tar-komprimering . Markera eller avmarkera Nej preserveCompressionFileNameAsFolder
(under compressionProperties->type som TarGZipReadSettings eller TarReadSettings)
Komprimeringsnivå  Komprimeringsförhållandet. Tillåtna värden är optimala eller snabbaste. Optimal eller snabbast Nej nivå (under compression):
Snabbaste
Optimal
Kolumn avgränsare  De tecken som används för att separera kolumner i en fil.  < den markerade kolumngränsaren >
kommatecken, (som standard)
Nej columnDelimiter
Radgränsare Det tecken som används för att avgränsa rader i en fil. < den markerade radgränsaren >
\r,\n (som standard) eller r\n
Nej rowDelimiter
Kodning Kodningstypen som används för att läsa/skriva testfiler. "UTF-8" (som standard),"UTF-8 utan BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-2", "ISO-8859-2", "ISO-8859-3", "ISO-2"8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS--874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS--1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nej encodingName
Escape-tecken Det enkla tecknet för att undkomma citattecken i ett citerat värde. När escape-tecknet definieras som en tom sträng måste även citattecken anges som en tom sträng. Kontrollera i så fall att alla kolumnvärden inte innehåller avgränsare. < det markerade escape-tecknet >
omvänt snedstreck\ (som standard)
Nej escapeChar
Citattecken Det enkla tecknet för att citera kolumnvärden om det innehåller kolumn avgränsare. När citattecken definieras som tom sträng innebär det att det inte finns något citattecken och att kolumnvärdet inte citeras, och escape-tecknet används för att undkomma kolumn avgränsaren och sig själv. < ditt valda citattecken >
dubbla citattecken" (som standard)
Nej quoteChar
Första raden som rubrik Anger om den första raden i det angivna kalkylbladet/intervallet ska behandlas som en rubrikrad med namn på kolumner. Markerad eller omarkerad Nej firstRowAsHeader:
sant eller falskt (standard)
Null-värde Anger strängrepresentationen av null-värdet. Standardvärdet är tom sträng. < strängrepresentationen av null-värdet >
tom sträng (som standard)
Nej nullValue

Avgränsad text som mål

Följande egenskaper stöds i avsnittet Mål för kopieringsaktivitet när du använder avgränsat textformat.

Namn Beskrivning Värde Krävs JSON-skriptegenskap
 Filformat Det filformat som du vill använda. Avgränsadtext Ja typ (under datasetSettings):
Avgränsadtext
Komprimeringstyp Komprimeringskodcen som används för att skriva avgränsade textfiler. Välj mellan:
None
bzip2
Gzip
Tömma
ZipDeflate
TarGzip
tjära
Nej typ (under compression):

bzip2
gzip
Tömma
ZipDeflate
TarGzip
tjära
Bevara zip-filnamnet som mapp Anger om käll-zip-filnamnet ska behållas som mappstruktur under kopiering. Markera eller avmarkera Nej preserveZipFileNameAsFolder
(under compressionProperties->type som ZipDeflateReadSettings)
Bevara komprimeringsfilens namn som mapp Anger om källans komprimerade filnamn ska bevaras som mappstruktur under kopieringen. Markera eller avmarkera Nej preserveCompressionFileNameAsFolder
(under compressionProperties->type som TarGZipReadSettings eller TarReadSettings)
Komprimeringsnivå  Komprimeringsförhållandet. Tillåtna värden är optimala eller snabbaste. Optimal eller snabbast Nej nivå (under compression):
Snabbaste
Optimal
Kolumn avgränsare  De tecken som används för att separera kolumner i en fil.  < den markerade kolumngränsaren >
kommatecken , (som standard)
Nej columnDelimiter
Radgränsare Det tecken som används för att avgränsa rader i en fil. < den markerade radgränsaren >
\r,\n (som standard) eller r\n
Nej rowDelimiter
Kodning Kodningstypen som används för att läsa/skriva testfiler. "UTF-8" (som standard),"UTF-8 utan BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-2", "ISO-8859-2", "ISO-8859-3", "ISO-2"8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS--874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS--1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nej encodingName
Escape-tecken Det enkla tecknet för att undkomma citattecken i ett citerat värde. När escape-tecknet definieras som en tom sträng måste även citattecken anges som en tom sträng. Kontrollera i så fall att alla kolumnvärden inte innehåller avgränsare. < det markerade escape-tecknet >
omvänt snedstreck\ (som standard)
Nej escapeChar
Citattecken Det enkla tecknet för att citera kolumnvärden om det innehåller kolumn avgränsare. När citattecken definieras som tom sträng innebär det att det inte finns något citattecken och att kolumnvärdet inte citeras, och escape-tecknet används för att undkomma kolumn avgränsaren och sig själv. < ditt valda citattecken >
dubbla citattecken" (som standard)
Nej quoteChar
Första raden som rubrik Anger om den första raden i det angivna kalkylbladet/intervallet ska behandlas som en rubrikrad med namn på kolumner. Markerad eller omarkerad Nej firstRowAsHeader:
sant eller falskt (standard)
Citera all text Omslut alla värden inom citattecken. Markerad (standard) eller omarkerad Nej quoteAllText:
sant (standard) eller falskt
Filnamnstillägg Filnamnstillägget som används för att namnge utdatafilerna. < filnamnstillägget >
.txt (som standard)
Nej fileExtension
Maximalt antal rader per fil När du skriver data till en mapp kan du välja att skriva till flera filer och ange maximalt antal rader per fil. < maximalt antal rader per fil > Nej maxRowsPerFile
Filnamnsprefix Gäller när Maximalt antal rader per fil har konfigurerats. Ange filnamnsprefixet när du skriver data till flera filer, vilket resulterade i det här mönstret: <fileNamePrefix>_00000.<fileExtension>. Om det inte anges genereras filnamnsprefixet automatiskt. Den här egenskapen gäller inte när källan är filbaserat lagrings- eller partitionsalternativ aktiverat datalager. < ditt filnamnsprefix > Nej fileNamePrefix