Tekstformat med skilletegn i Data Factory i Microsoft Fabric

Denne artikkelen beskriver hvordan du konfigurerer tekstformat med skilletegn i datasamlebåndet til Data Factory i Microsoft Fabric.

Støttede funksjoner

Tekstformat med skilletegn støttes for følgende aktiviteter og koblinger som kilde og mål.

Kategori Koble til eller/aktivitet
Støttet kobling Amazon S3
Azure Blob-lagring
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Støttet aktivitet Kopier aktivitet
Oppslagsaktivitet
GetMetadata-aktivitet
Slett aktivitet

Tekstformat med skilletegn i kopieringsaktivitet

Hvis du vil konfigurere tekstformat med skilletegn, velger du tilkoblingen i kilden eller målet for kopiering av datasamlebånd, og deretter velger du DelimitedText i rullegardinlisten i Filformat. Velg Innstillinger for videre konfigurasjon av dette formatet.

Screenshot showing file format settings.

Tekstformat med skilletegn som kilde

Når du har valgt Innstillinger i filformatinndelingen, vises følgende egenskaper i dialogboksen innstillinger for popup-filformat.

Screenshot showing source file format settings.

  • Komprimeringstype: Komprimeringskodecen som brukes til å lese tekstfiler med skilletegn. Du kan velge mellom Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype i rullegardinlisten.

    Hvis du velger ZipDeflate som komprimeringstype, vises Navnet på zip-filen som mappe under Avanserte innstillinger i kildefanen .

    • Behold zip-filnavn som mappe: Angir om navnet på kildefilen skal beholdes som mappestruktur under kopieringen.
      • Hvis denne boksen er avmerket (standard), skriver tjenesten filer som ikke er pakket ut, til <specified file path>/<folder named as source zip file>/.
      • Hvis det ikke er merket av for denne boksen, skriver tjenesten filer som ikke er pakket ut direkte til <specified file path>. Kontroller at du ikke har dupliserte filnavn i ulike zip-filer for kilde for å unngå racing eller uventet oppførsel.

    Hvis du velger TarGzip/tjære som komprimeringstype , vil Behold komprimeringsfilnavnet som mappe vises under Avanserte innstillinger i kildefanen .

    • Behold navnet på komprimeringsfilen som mappe: Angir om det komprimerte filnavnet for kilden skal bevares som mappestruktur under kopieringen.
      • Hvis denne boksen er avmerket (standard), skriver tjenesten dekomprimerte filer til <specified file path>/<folder named as source compressed file>/.
      • Hvis denne boksen ikke er avmerket, skriver tjenesten dekomprimerte filer direkte til <specified file path>. Kontroller at du ikke har dupliserte filnavn i ulike zip-filer for kilde for å unngå racing eller uventet oppførsel.
  • Komprimeringsnivå: Angi komprimeringsforholdet når du velger en komprimeringstype. Du kan velge mellom Optimal eller Raskest.

    • Raskest: Komprimeringsoperasjonen bør fullføres så raskt som mulig, selv om den resulterende filen ikke er optimalt komprimert.
    • Optimal: Komprimeringsoperasjonen bør komprimeres optimalt, selv om operasjonen tar lengre tid å fullføre. Hvis du vil ha mer informasjon, kan du se emnet Komprimeringsnivå.
  • Kolonneskilletegn: Tegnene som brukes til å skille kolonner i en fil. Standardverdien er komma (,).

  • Radskilletegn: Angi tegnet som brukes til å skille rader i en fil. Bare ett tegn er tillatt. Standardverdien er linjefeed \n.

  • Koding: Kodingstypen som brukes til å lese/skrive testfiler. Standardverdien er UTF-8.

  • Escape-tegn: Det enkle tegnet for å unnslippe anførselstegn i en sitert verdi. Standardverdien er omvendt skråstrek\. Når escape-tegn er definert som tom streng, må anførselstegnet også angis som tom streng, i så fall må du kontrollere at alle kolonneverdier ikke inneholder skilletegn.

  • Anførselstegn: Enkelttegnet som skal sitere kolonneverdier hvis det inneholder kolonneskilletegn. Standardverdien er doble anførselstegn". Når anførselstegn er definert som tom streng, betyr det at det ikke finnes et anførselstegn og kolonneverdi ikke er sitert, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv.

  • Første rad som overskrift: Angir om den første raden skal behandles som en overskriftslinje med navn på kolonner. Tillatte verdier er valgt og ikke valgt (standard). Når første rad som topptekst ikke er valgt, må forhåndsvisning av grensesnittdata og oppslagsaktivitet automatisk generere kolonnenavn som Prop_{n} (fra og med 0), kopieringsaktivitet krever eksplisitt tilordning fra kilde til mål og finner kolonner etter ordenstall (fra og med 1).

  • Nullverdi: Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng.

Under Avanserte innstillinger i kategorien Kilde vises ytterligere tekstformatrelatert egenskap.

  • Hopp over linjeantall: Angir antall ikke-tomme rader som skal hoppes over når du leser data fra inndatafiler. Hvis både Hopp over linjeantall og Første rad som topptekst er angitt, hoppes linjene først over, og deretter leses overskriftsinformasjonen fra inndatafilen.

Tekstformat med skilletegn som mål

Når du har valgt Innstillinger i filformatinndelingen, vises følgende egenskaper i dialogboksen innstillinger for popup-filformat.

Screenshot showing destination file format settings.

  • Komprimeringstype: Komprimeringskodecen som brukes til å skrive tekstfiler med skilletegn. Du kan velge mellom Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype i rullegardinlisten.

  • Komprimeringsnivå: Angi komprimeringsforholdet når du velger en komprimeringstype. Du kan velge mellom Optimal eller Raskest.

    • Raskest: Komprimeringsoperasjonen bør fullføres så raskt som mulig, selv om den resulterende filen ikke er optimalt komprimert.
    • Optimal: Komprimeringsoperasjonen bør komprimeres optimalt, selv om operasjonen tar lengre tid å fullføre. Hvis du vil ha mer informasjon, kan du se emnet Komprimeringsnivå.
  • Kolonneskilletegn: Tegnene som brukes til å skille kolonner i en fil. Standardverdien er komma (,).

  • Radskilletegn: Tegnet som brukes til å skille rader i en fil. Bare ett tegn er tillatt. Standardverdien er linjefeed \n.

  • Koding: Kodingstypen som brukes til å skrive testfiler. Standardverdien er UTF-8.

  • Escape-tegn: Det enkle tegnet for å unnslippe anførselstegn i en sitert verdi. Standardverdien er omvendt skråstrek\. Når escape-tegn er definert som tom streng, må anførselstegnet også angis som tom streng, i så fall må du kontrollere at alle kolonneverdier ikke inneholder skilletegn.

  • Anførselstegn: Enkelttegnet som skal sitere kolonneverdier hvis det inneholder kolonneskilletegn. Standardverdien er doble anførselstegn". Når anførselstegn er definert som tom streng, betyr det at det ikke finnes et anførselstegn og kolonneverdi ikke er sitert, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv.

  • Første rad som overskrift: Angir om den første raden skal behandles som en overskriftslinje med navn på kolonner. Tillatte verdier er valgt og ikke valgt (standard). Når første rad som topptekst ikke er valgt, må forhåndsvisning av grensesnittdata og oppslagsaktivitet automatisk generere kolonnenavn som Prop_{n} (fra og med 0), kopieringsaktivitet krever eksplisitt tilordning fra kilde til mål og finner kolonner etter ordenstall (fra og med 1).

  • Nullverdi: Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng.

Under Avanserte innstillinger i Mål-fanen vises ytterligere tekstformatrelatert egenskap.

  • Sitat all tekst: Omslutte alle verdier i anførselstegn.

  • Filtype: Filtypen som brukes til å gi navn til utdatafilene, for eksempel .csv, .txt.

  • Maksimalt antall rader per fil: Når du skriver data til en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil.

  • Filnavnprefiks: Gjelder når maksimalt antall rader per fil er konfigurert. Angi filnavnprefikset når du skriver data til flere filer, resulterte i dette mønsteret: <fileNamePrefix>_00000.<fileExtension>. Hvis ikke angitt, genereres filnavnprefikset automatisk. Denne egenskapen gjelder ikke når kilde er filbasert lager eller partisjonsalternativaktivert datalager.

Tabellsammendrag

Tekst med skilletegn som kilde

Følgende egenskaper støttes i delen kilde for kopieringsaktivitet når du bruker tekstformat med skilletegn.

Navn Beskrivelse Verdi Nødvendig JSON-skriptegenskap
 Filformat Filformatet du vil bruke. Skilletegntekst Ja type (under datasetSettings):
Skilletegntekst
Komprimeringstype Komprimeringskodecen som brukes til å lese tekstfiler med skilletegn. Velg blant:
None
bzip2
Gzip
Deflate
ZipDeflate
TarGzip
tjære
No type (under compression):

bzip2
Gzip
Deflate
ZipDeflate
TarGzip
tjære
Behold zip-filnavn som mappe Angir om kildefilnavnet skal beholdes som mappestruktur under kopieringen. Gjelder når du velger ZipDeflate-komprimering . Merket eller fjern merking Nei preserveZipFileNameAsFolder
(under compressionProperties->type som ZipDeflateReadSettings)
Behold navnet på komprimeringsfilen som mappe Angir om det komprimerte filnavnet for kilden skal beholdes som mappestruktur under kopieringen. Gjelder når du velger TarGzip/tjærekomprimering . Merket eller fjern merking No preserveCompressionFileNameAsFolder
(under compressionProperties->type som TarGZipReadSettings eller TarReadSettings)
Komprimeringsnivå  Komprimeringsforholdet. Tillatte verdier er optimale eller raskeste. Optimal eller raskest Nei nivå (under compression):
Raskeste
Optimal
Kolonneskilletegn  Tegnene som brukes til å skille kolonner i en fil.  < merket kolonneskilletegn >
komma, (som standard)
No columnDelimiter
Radskilletegn Tegnet som brukes til å skille rader i en fil. < merket radskilletegn >
\r,\n (som standard) eller r\n
Nei rowDelimiter
Koding Kodingstypen som brukes til å lese/skrive testfiler. "UTF-8" (som standard),"UTF-8 uten stykkliste", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8870" IBM01140, "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253, "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nei kodingsnavn
Escape-tegn Enkelttegnet for å unnslippe anførselstegn i en sitert verdi. Når escape-tegn er definert som tom streng, må anførselstegnet også angis som tom streng, i så fall må du kontrollere at alle kolonneverdier ikke inneholder skilletegn. < det valgte escape-tegnet >
omvendt skråstrek\ (som standard)
No escapeChar
Anførselstegn Enkelttegnet som skal sitere kolonneverdier hvis det inneholder kolonneskilletegn. Når anførselstegn er definert som tom streng, betyr det at det ikke finnes et anførselstegn og kolonneverdi ikke er sitert, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv. < det valgte anførselstegnet >
doble anførselstegn" (som standard)
No quoteChar
Første rad som topptekst Angir om den første raden i det angitte regnearket/området skal behandles som en overskriftslinje med navn på kolonner. Merket eller umerket No firstRowAsHeader:
sann eller usann (standard)
Nullverdi Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng. < strengpresentasjonen av nullverdi >
tom streng (som standard)
No nullValue

Tekst med skilletegn som mål

Følgende egenskaper støttes i måldelen for kopieringsaktivitet når du bruker tekstformat med skilletegn.

Navn Beskrivelse Verdi Nødvendig JSON-skriptegenskap
 Filformat Filformatet du vil bruke. Skilletegntekst Ja type (under datasetSettings):
Skilletegntekst
Komprimeringstype Komprimeringskodecen som brukes til å skrive tekstfiler med skilletegn. Velg blant:
None
bzip2
Gzip
Deflate
ZipDeflate
TarGzip
tjære
No type (under compression):

bzip2
Gzip
Deflate
ZipDeflate
TarGzip
tjære
Behold zip-filnavn som mappe Angir om kildefilnavnet skal beholdes som mappestruktur under kopieringen. Merket eller fjern merking Nei preserveZipFileNameAsFolder
(under compressionProperties->type som ZipDeflateReadSettings)
Behold navnet på komprimeringsfilen som mappe Angir om det komprimerte filnavnet for kilden skal beholdes som mappestruktur under kopieringen. Merket eller fjern merking No preserveCompressionFileNameAsFolder
(under compressionProperties->type som TarGZipReadSettings eller TarReadSettings)
Komprimeringsnivå  Komprimeringsforholdet. Tillatte verdier er optimale eller raskeste. Optimal eller raskest Nei nivå (under compression):
Raskeste
Optimal
Kolonneskilletegn  Tegnene som brukes til å skille kolonner i en fil.  < merket kolonneskilletegn >
komma , (som standard)
No columnDelimiter
Radskilletegn Tegnet som brukes til å skille rader i en fil. < merket radskilletegn >
\r,\n (som standard) eller r\n
Nei rowDelimiter
Koding Kodingstypen som brukes til å lese/skrive testfiler. "UTF-8" (som standard),"UTF-8 uten stykkliste", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8870" IBM01140, "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253, "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nei kodingsnavn
Escape-tegn Enkelttegnet for å unnslippe anførselstegn i en sitert verdi. Når escape-tegn er definert som tom streng, må anførselstegnet også angis som tom streng, i så fall må du kontrollere at alle kolonneverdier ikke inneholder skilletegn. < det valgte escape-tegnet >
omvendt skråstrek\ (som standard)
No escapeChar
Anførselstegn Enkelttegnet som skal sitere kolonneverdier hvis det inneholder kolonneskilletegn. Når anførselstegn er definert som tom streng, betyr det at det ikke finnes et anførselstegn og kolonneverdi ikke er sitert, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv. < det valgte anførselstegnet >
doble anførselstegn" (som standard)
No quoteChar
Første rad som topptekst Angir om den første raden i det angitte regnearket/området skal behandles som en overskriftslinje med navn på kolonner. Merket eller umerket No firstRowAsHeader:
sann eller usann (standard)
Sitat all tekst Omslutte alle verdier i anførselstegn. Valgt (standard) eller umerket No quoteAllText:
sann (standard) eller usann
Filtype Filtypen som brukes til å navngi utdatafilene. < filtypen >
.txt (som standard)
No fileExtension
Maksimalt antall rader per fil Når du skriver data inn i en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil. < maksimalt antall rader per fil > No maxRowsPerFile
Filnavnprefiks Gjelder når maksimalt antall rader per fil er konfigurert. Angi filnavnprefikset når du skriver data til flere filer, resulterte i dette mønsteret: <fileNamePrefix>_00000.<fileExtension>. Hvis ikke angitt, genereres filnavnprefikset automatisk. Denne egenskapen gjelder ikke når kilde er filbasert lager eller partisjonsalternativaktivert datalager. < filnavnprefikset > No fileNamePrefix