Tekstformat med skilletegn i Data Factory i Microsoft Fabric
Denne artikkelen beskriver hvordan du konfigurerer tekstformat med skilletegn i datasamlebåndet til Data Factory i Microsoft Fabric.
Støttede funksjoner
Tekstformat med skilletegn støttes for følgende aktiviteter og koblinger som kilde og mål.
Kategori | Kobling/aktivitet |
---|---|
Støttet kobling | Amazon S3 |
Amazon S3-kompatibel | |
Azure Blob-lagring | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Filsystem | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse Files | |
Oracle Cloud Storage | |
SFTP | |
Støttet aktivitet | Kopier aktivitet (kilde/mål) |
Oppslagsaktivitet | |
GetMetadata-aktivitet | |
Slett aktivitet |
Tekstformat med skilletegn i kopieringsaktivitet
Hvis du vil konfigurere tekstformat med skilletegn, velger du tilkoblingen i kilden eller målet for kopiering av datasamlebånd, og deretter velger du DelimitedText i rullegardinlisten i Filformat. Velg Innstillinger for videre konfigurasjon av dette formatet.
Tekstformat med skilletegn som kilde
Når du har valgt Innstillinger i Filformat-inndelingen, vises følgende egenskaper i dialogboksen innstillinger for popup-filformat.
Komprimeringstype: Komprimeringskodecen som brukes til å lese tekstfiler med skilletegn. Du kan velge mellom Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype i rullegardinlisten.
Hvis du velger ZipDeflate som komprimeringstype, vises Navnet på zip-filen som mappe under Avanserte innstillinger i kildefanen .
- Behold zip-filnavn som mappe: Angir om navnet på kildefilen skal beholdes som mappestruktur under kopieringen.
- Hvis denne boksen er avmerket (standard), skriver tjenesten filer som ikke er pakket ut, til
<specified file path>/<folder named as source zip file>/
. - Hvis det ikke er merket av for denne boksen, skriver tjenesten filer som ikke er pakket ut direkte til
<specified file path>
. Kontroller at du ikke har dupliserte filnavn i ulike zip-filer for kilde for å unngå racing eller uventet oppførsel.
- Hvis denne boksen er avmerket (standard), skriver tjenesten filer som ikke er pakket ut, til
Hvis du velger TarGzip/tjære som komprimeringstype , vil Behold komprimeringsfilnavnet som mappe vises under Avanserte innstillinger i kildefanen .
- Behold navnet på komprimeringsfilen som mappe: Angir om det komprimerte filnavnet for kilden skal bevares som mappestruktur under kopieringen.
- Hvis denne boksen er avmerket (standard), skriver tjenesten dekomprimerte filer til
<specified file path>/<folder named as source compressed file>/
. - Hvis denne boksen ikke er avmerket, skriver tjenesten dekomprimerte filer direkte til
<specified file path>
. Kontroller at du ikke har dupliserte filnavn i ulike zip-filer for kilde for å unngå racing eller uventet oppførsel.
- Hvis denne boksen er avmerket (standard), skriver tjenesten dekomprimerte filer til
- Behold zip-filnavn som mappe: Angir om navnet på kildefilen skal beholdes som mappestruktur under kopieringen.
Komprimeringsnivå: Angi komprimeringsforholdet når du velger en komprimeringstype. Du kan velge mellom Optimal eller Raskest.
- Raskest: Komprimeringsoperasjonen bør fullføres så raskt som mulig, selv om den resulterende filen ikke er optimalt komprimert.
- Optimal: Komprimeringsoperasjonen bør komprimeres optimalt, selv om operasjonen tar lengre tid å fullføre. Hvis du vil ha mer informasjon, kan du se emnet Komprimeringsnivå.
Kolonneskilletegn: Tegnene som brukes til å skille kolonner i en fil. Standardverdien er komma (
,
).Radskilletegn: Angi tegnet som brukes til å skille rader i en fil. Bare ett tegn er tillatt. Standardverdien er linjefeed
\n
.Koding: Kodingstypen som brukes til å lese/skrive testfiler. Standardverdien er UTF-8.
Escape-tegn: Det enkle tegnet for å unnslippe anførselstegn i en sitert verdi. Standardverdien er omvendt skråstrek
\
. Når escape-tegn er definert som tom streng, må anførselstegnet også angis som tom streng, i så fall må du kontrollere at alle kolonneverdier ikke inneholder skilletegn.Anførselstegn: Enkelttegnet som skal sitere kolonneverdier hvis det inneholder kolonneskilletegn. Standardverdien er doble anførselstegn
"
. Når anførselstegn er definert som tom streng, betyr det at det ikke finnes et anførselstegn og kolonneverdi ikke er sitert, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv.Første rad som overskrift: Angir om den første raden skal behandles som en overskriftslinje med navn på kolonner. Tillatte verdier er valgt og ikke valgt (standard). Når første rad som topptekst ikke er valgt, må forhåndsvisning av grensesnittdata og oppslagsaktivitet automatisk generere kolonnenavn som Prop_{n} (fra og med 0), kopieringsaktivitet krever eksplisitt tilordning fra kilde til mål og finner kolonner etter ordenstall (fra og med 1).
Nullverdi: Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng.
Under Avanserte innstillinger i kategorien Kilde vises andre relaterte egenskaper for tekstformat med skilletegn.
Tekstformat med skilletegn som mål
Når du har valgt Innstillinger i Filformat-inndelingen, vises følgende egenskaper i dialogboksen innstillinger for popup-filformat.
Komprimeringstype: Komprimeringskodecen som brukes til å skrive tekstfiler med skilletegn. Du kan velge mellom Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype i rullegardinlisten.
Komprimeringsnivå: Angi komprimeringsforholdet når du velger en komprimeringstype. Du kan velge mellom Optimal eller Raskest.
- Raskest: Komprimeringsoperasjonen bør fullføres så raskt som mulig, selv om den resulterende filen ikke er optimalt komprimert.
- Optimal: Komprimeringsoperasjonen bør komprimeres optimalt, selv om operasjonen tar lengre tid å fullføre. Hvis du vil ha mer informasjon, kan du se emnet Komprimeringsnivå.
Kolonneskilletegn: Tegnene som brukes til å skille kolonner i en fil. Standardverdien er komma (
,
).Radskilletegn: Tegnet som brukes til å skille rader i en fil. Bare ett tegn er tillatt. Standardverdien er linjefeed
\n
.Koding: Kodingstypen som brukes til å skrive testfiler. Standardverdien er UTF-8.
Escape-tegn: Det enkle tegnet for å unnslippe anførselstegn i en sitert verdi. Standardverdien er omvendt skråstrek
\
. Når escape-tegn er definert som tom streng, må anførselstegnet også angis som tom streng, i så fall må du kontrollere at alle kolonneverdier ikke inneholder skilletegn.Anførselstegn: Enkelttegnet som skal sitere kolonneverdier hvis det inneholder kolonneskilletegn. Standardverdien er doble anførselstegn
"
. Når anførselstegn er definert som tom streng, betyr det at det ikke finnes et anførselstegn og kolonneverdi ikke er sitert, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv.Første rad som overskrift: Angir om den første raden skal behandles som en overskriftslinje med navn på kolonner. Tillatte verdier er valgt og ikke valgt (standard). Når første rad som topptekst ikke er valgt, må forhåndsvisning av grensesnittdata og oppslagsaktivitet automatisk generere kolonnenavn som Prop_{n} (fra og med 0), kopieringsaktivitet krever eksplisitt tilordning fra kilde til mål og finner kolonner etter ordenstall (fra og med 1).
Nullverdi: Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng.
Under Avanserte innstillinger i Mål-fanen vises ytterligere tekstformatrelatert egenskap.
Sitat all tekst: Omslutte alle verdier i anførselstegn.
Filtype: Filtypen som brukes til å gi navn til utdatafilene, for eksempel
.csv
,.txt
.Maksimalt antall rader per fil: Når du skriver data til en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil.
Filnavnprefiks: Gjelder når maksimalt antall rader per fil er konfigurert. Angi filnavnprefikset når du skriver data til flere filer, resulterte i dette mønsteret:
<fileNamePrefix>_00000.<fileExtension>
. Hvis ikke angitt, genereres filnavnprefikset automatisk. Denne egenskapen gjelder ikke når kilde er filbasert lager eller partisjonsalternativaktivert datalager.
Tabellsammendrag
Tekst med skilletegn som kilde
Følgende egenskaper støttes i delen kilde for kopieringsaktivitet når du bruker tekstformat med skilletegn.
Navn | Beskrivelse | Verdi | Påkrevd | JSON-skriptegenskap |
---|---|---|---|---|
Filformat | Filformatet du vil bruke. | Skilletegntekst | Ja | type (under datasetSettings ):Skilletegntekst |
Komprimeringstype | Komprimeringskodecen som brukes til å lese tekstfiler med skilletegn. | Velg blant: None bzip2 gzip Deflate ZipDeflate TarGzip tjære |
No | type (under compression ): bzip2 gzip Deflate ZipDeflate TarGzip tjære |
Behold zip-filnavn som mappe | Angir om kildefilnavnet skal beholdes som mappestruktur under kopieringen. Gjelder når du velger ZipDeflate-komprimering . | Merket eller fjern merking | Nei | preserveZipFileNameAsFolder (under compressionProperties ->type som ZipDeflateReadSettings ) |
Behold navnet på komprimeringsfilen som mappe | Angir om det komprimerte filnavnet for kilden skal beholdes som mappestruktur under kopieringen. Gjelder når du velger TarGzip/tjærekomprimering . | Merket eller fjern merking | No | preserveCompressionFileNameAsFolder (under compressionProperties ->type som TarGZipReadSettings eller TarReadSettings ) |
Komprimeringsnivå | Komprimeringsforholdet. Tillatte verdier er optimale eller raskeste. | Optimal eller raskest | Nei | nivå (under compression ): Raskeste Optimal |
Kolonneskilletegn | Tegnene som brukes til å skille kolonner i en fil. | < merket kolonneskilletegn > komma , (som standard) |
No | columnDelimiter |
Radskilletegn | Tegnet som brukes til å skille rader i en fil. | < merket radskilletegn > \r ,\n (som standard) eller r\n |
Nei | rowDelimiter |
Koding | Kodingstypen som brukes til å lese/skrive testfiler. | "UTF-8" (som standard),"UTF-8 uten stykkliste", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8870" IBM01140, "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253, "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nei | kodingsnavn |
Escape-tegn | Enkelttegnet for å unnslippe anførselstegn i en sitert verdi. Når escape-tegn er definert som tom streng, må anførselstegnet også angis som tom streng, i så fall må du kontrollere at alle kolonneverdier ikke inneholder skilletegn. | < det valgte escape-tegnet > omvendt skråstrek \ (som standard) |
No | escapeChar |
Anførselstegn | Enkelttegnet som skal sitere kolonneverdier hvis det inneholder kolonneskilletegn. Når anførselstegn er definert som tom streng, betyr det at det ikke finnes et anførselstegn og kolonneverdi ikke er sitert, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv. | < det valgte anførselstegnet > doble anførselstegn " (som standard) |
No | quoteChar |
Første rad som topptekst | Angir om den første raden i det angitte regnearket/området skal behandles som en overskriftslinje med navn på kolonner. | Merket eller umerket | No | firstRowAsHeader: sann eller usann (standard) |
Nullverdi | Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng. | < strengpresentasjonen av nullverdi > tom streng (som standard) |
No | nullValue |
Tekst med skilletegn som mål
Følgende egenskaper støttes i måldelen for kopieringsaktivitet når du bruker tekstformat med skilletegn.
Navn | Beskrivelse | Verdi | Påkrevd | JSON-skriptegenskap |
---|---|---|---|---|
Filformat | Filformatet du vil bruke. | Skilletegntekst | Ja | type (under datasetSettings ):Skilletegntekst |
Komprimeringstype | Komprimeringskodecen som brukes til å skrive tekstfiler med skilletegn. | Velg blant: None bzip2 gzip Deflate ZipDeflate TarGzip tjære |
No | type (under compression ): bzip2 gzip Deflate ZipDeflate TarGzip tjære |
Behold zip-filnavn som mappe | Angir om kildefilnavnet skal beholdes som mappestruktur under kopieringen. | Merket eller fjern merking | Nei | preserveZipFileNameAsFolder (under compressionProperties ->type som ZipDeflateReadSettings ) |
Behold navnet på komprimeringsfilen som mappe | Angir om det komprimerte filnavnet for kilden skal beholdes som mappestruktur under kopieringen. | Merket eller fjern merking | No | preserveCompressionFileNameAsFolder (under compressionProperties ->type som TarGZipReadSettings eller TarReadSettings ) |
Komprimeringsnivå | Komprimeringsforholdet. Tillatte verdier er optimale eller raskeste. | Optimal eller raskest | Nei | nivå (under compression ): Raskeste Optimal |
Kolonneskilletegn | Tegnene som brukes til å skille kolonner i en fil. | < merket kolonneskilletegn > komma , (som standard) |
No | columnDelimiter |
Radskilletegn | Tegnet som brukes til å skille rader i en fil. | < merket radskilletegn > \r ,\n (som standard) eller r\n |
Nei | rowDelimiter |
Koding | Kodingstypen som brukes til å lese/skrive testfiler. | "UTF-8" (som standard),"UTF-8 uten stykkliste", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM8870" IBM01140, "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253, "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nei | kodingsnavn |
Escape-tegn | Enkelttegnet for å unnslippe anførselstegn i en sitert verdi. Når escape-tegn er definert som tom streng, må anførselstegnet også angis som tom streng, i så fall må du kontrollere at alle kolonneverdier ikke inneholder skilletegn. | < det valgte escape-tegnet > omvendt skråstrek \ (som standard) |
No | escapeChar |
Anførselstegn | Enkelttegnet som skal sitere kolonneverdier hvis det inneholder kolonneskilletegn. Når anførselstegn er definert som tom streng, betyr det at det ikke finnes et anførselstegn og kolonneverdi ikke er sitert, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv. | < det valgte anførselstegnet > doble anførselstegn " (som standard) |
No | quoteChar |
Første rad som topptekst | Angir om den første raden i det angitte regnearket/området skal behandles som en overskriftslinje med navn på kolonner. | Merket eller umerket | No | firstRowAsHeader: sann eller usann (standard) |
Sitat all tekst | Omslutte alle verdier i anførselstegn. | Valgt (standard) eller umerket | No | quoteAllText: sann (standard) eller usann |
Filtype | Filtypen som brukes til å navngi utdatafilene. | < filtypen > .txt (som standard) |
No | fileExtension |
Maksimalt antall rader per fil | Når du skriver data inn i en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil. | < maksimalt antall rader per fil > | No | maxRowsPerFile |
Filnavnprefiks | Gjelder når maksimalt antall rader per fil er konfigurert. Angi filnavnprefikset når du skriver data til flere filer, resulterte i dette mønsteret: <fileNamePrefix>_00000.<fileExtension> . Hvis ikke angitt, genereres filnavnprefikset automatisk. Denne egenskapen gjelder ikke når kilde er filbasert lager eller partisjonsalternativaktivert datalager. |
< filnavnprefikset > | No | fileNamePrefix |