Tekstformat med skilletegn i Data Factory i Microsoft Fabric
Denne artikkelen beskriver hvordan du konfigurerer tekstformat med skilletegn i datasamlebåndet til Data Factory i Microsoft Fabric.
Viktig
Microsoft Fabric er for øyeblikket i FORHÅNDSVERSJON. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her. Se Azure Data Factory dokumentasjon for tjenesten i Azure.
Støttede funksjoner
Tekstformat med skilletegn støttes for følgende aktiviteter og koblinger som kilde og mål.
Kategori | Kobling/aktivitet |
---|---|
Støttet kobling | Amazon S3 |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Google Cloud Storage | |
HTTP | |
Aktivitet som støttes | Kopier aktivitet |
Oppslagsaktivitet | |
GetMetadata-aktivitet | |
Slett aktivitet |
Tekstformat med skilletegn i kopieringsaktivitet
Hvis du vil konfigurere tekstformat med skilletegn, velger du tilkoblingen i kilden eller målet for kopiering av datasamlebånd, og deretter velger du Tekst med skilletegn i rullegardinlisten i Filformat. Velg Innstillinger for videre konfigurasjon av dette formatet.
Tekstformat med skilletegn som kilde
Når du har valgt Innstillinger i filformat-delen , vises følgende egenskaper i dialogboksen innstillinger for popup-filformat.
Komprimeringstype: Komprimeringskodek som brukes til å lese tekstfiler med skilletegn. Du kan velge mellom Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype i rullegardinlisten.
Hvis du velger ZipDeflate som komprimeringstype, vil Behold zip-filnavnet som mappe vises under Avanserte innstillinger i kildefanen .
- Behold zip-filnavnet som mappe: Angir om navnet på kilde-ZIP-filen skal beholdes som mappestruktur under kopieringen.
- Hvis det er merket av for (standard), skriver tjenesten filer som ikke er pakket ut, til
<specified file path>/<folder named as source zip file>/
. - Hvis det ikke er merket av for dette alternativet, skriver tjenesten filer som ikke er pakket ut, direkte til
<specified file path>
. Kontroller at du ikke har dupliserte filnavn i ulike zip-filer for kilden for å unngå racing eller uventet virkemåte.
- Hvis det er merket av for (standard), skriver tjenesten filer som ikke er pakket ut, til
Hvis du velger TarGzip/tjære som komprimeringstype, vil Behold komprimeringsfilnavnet som mappe vises under Avanserte innstillinger i kildefanen .
- Behold navnet på komprimeringsfilen som mappe: Angir om det komprimerte filnavnet for kilden skal beholdes som mappestruktur under kopieringen.
- Hvis det er merket av for (standard), skriver tjenesten dekomprimerte filer til
<specified file path>/<folder named as source compressed file>/
. - Hvis det ikke er merket av for denne boksen, skriver tjenesten dekomprimerte filer direkte til
<specified file path>
. Kontroller at du ikke har dupliserte filnavn i ulike zip-filer for kilden for å unngå racing eller uventet virkemåte.
- Hvis det er merket av for (standard), skriver tjenesten dekomprimerte filer til
- Behold zip-filnavnet som mappe: Angir om navnet på kilde-ZIP-filen skal beholdes som mappestruktur under kopieringen.
Komprimeringsnivå: Angi komprimeringsforholdet når du velger en komprimeringstype. Du kan velge blant optimale eller raskeste.
- Raskest: Komprimeringsoperasjonen skal fullføres så raskt som mulig, selv om den resulterende filen ikke er optimalt komprimert.
- Optimalt: Komprimeringsoperasjonen bør komprimeres optimalt, selv om operasjonen tar lengre tid å fullføre. Hvis du vil ha mer informasjon, kan du se emnet Komprimeringsnivå.
Kolonneskilletegn: Tegnene som brukes til å skille kolonner i en fil. Standardverdien er komma (
,
).Radskilletegn: Angi tegnet som brukes til å skille rader i en fil. Bare ett tegn er tillatt. Standardverdien er linjemating
\n
.Koding: Kodingstypen som brukes til å lese/skrive testfiler. Standardverdien er UTF-8.
Escape-tegn: Enkelttegnet for å unnslippe anførselstegn i en anførselstegn. Standardverdien er omvendt skråstrek
\
. Når escape-tegn er definert som en tom streng, må anførselstegnet også angis som en tom streng. I så fall må du sørge for at alle kolonneverdier ikke inneholder skilletegn.Anførselstegn: Enkelttegnet til anførselstegnkolonneverdier hvis det inneholder kolonneskilletegn. Standardverdien er doble anførselstegn
"
. Når anførselstegn er definert som en tom streng, betyr det at det ikke er noe anførselstegn og kolonneverdi ikke er angitt, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv.Første rad som overskrift: Angir om den første raden skal behandles som en overskriftslinje med navn på kolonner. Tillatte verdier er valgt og umerket (standard). Når første rad som topptekst ikke er merket, genererer forhåndsvisning av grensesnittdata og utdata for oppslagsaktivitet automatisk kolonnenavn som Prop_{n} (fra og med 0), kopieringsaktivitet krever eksplisitt tilordning fra kilde til mål og finner kolonner etter ordenstall (fra og med 1).
Nullverdi: Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng.
Under Avanserte innstillinger i kildefanen vises ytterligere relatert egenskap for tekstformat med skilletegn.
- Hopp over linjeantall: Angir antall rader som ikke er tomme når du leser data fra inndatafiler. Hvis både Hopp over linjeantall og Første rad som topptekst er angitt, hoppes linjene først over, og deretter leses topptekstinformasjonen fra inndatafilen.
Tekstformat med skilletegn som mål
Når du har valgt Innstillinger i filformat-delen , vises følgende egenskaper i dialogboksen innstillinger for popup-filformat.
Komprimeringstype: Komprimeringskodek som brukes til å skrive tekstfiler med skilletegn. Du kan velge mellom Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype i rullegardinlisten.
Komprimeringsnivå: Angi komprimeringsforholdet når du velger en komprimeringstype. Du kan velge blant optimale eller raskeste.
- Raskest: Komprimeringsoperasjonen skal fullføres så raskt som mulig, selv om den resulterende filen ikke er optimalt komprimert.
- Optimalt: Komprimeringsoperasjonen bør komprimeres optimalt, selv om operasjonen tar lengre tid å fullføre. Hvis du vil ha mer informasjon, kan du se emnet Komprimeringsnivå.
Kolonneskilletegn: Tegnene som brukes til å skille kolonner i en fil. Standardverdien er komma (
,
).Radskilletegn: Tegnet som brukes til å skille rader i en fil. Bare ett tegn er tillatt. Standardverdien er linjemating
\n
.Koding: Kodingstypen som brukes til å skrive testfiler. Standardverdien er UTF-8.
Escape-tegn: Enkelttegnet for å unnslippe anførselstegn i en anførselstegn. Standardverdien er omvendt skråstrek
\
. Når escape-tegn er definert som en tom streng, må anførselstegnet også angis som en tom streng. I så fall må du sørge for at alle kolonneverdier ikke inneholder skilletegn.Anførselstegn: Enkelttegnet til anførselstegnkolonneverdier hvis det inneholder kolonneskilletegn. Standardverdien er doble anførselstegn
"
. Når anførselstegn er definert som en tom streng, betyr det at det ikke er noe anførselstegn og kolonneverdi ikke er angitt, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv.Første rad som overskrift: Angir om den første raden skal behandles som en overskriftslinje med navn på kolonner. Tillatte verdier er valgt og umerket (standard). Når første rad som topptekst ikke er merket, genererer forhåndsvisning av grensesnittdata og utdata for oppslagsaktivitet automatisk kolonnenavn som Prop_{n} (fra og med 0), kopieringsaktivitet krever eksplisitt tilordning fra kilde til mål og finner kolonner etter ordenstall (fra og med 1).
Nullverdi: Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng.
Under Avanserte innstillinger i Mål-fanen vises ytterligere relatert egenskap for tekstformat med skilletegn.
Sitat all tekst: Omslutte alle verdier i anførselstegn.
Filtype: Filtypen som brukes til å gi navn til utdatafilene, for eksempel ,
.csv
.txt
.Maksimalt antall rader per fil: Når du skriver data til en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil.
Filnavnprefiks: Gjelder når maksimalt antall rader per fil er konfigurert. Angi filnavnprefikset når du skriver data til flere filer, noe som resulterte i dette mønsteret:
<fileNamePrefix>_00000.<fileExtension>
. Hvis det ikke er angitt, genereres filnavnprefikset automatisk. Denne egenskapen gjelder ikke når kilde er filbasert lager eller partisjonsalternativaktivert datalager.
Tabellsammendrag
Tekst med skilletegn som kilde
Følgende egenskaper støttes i delen kopier aktivitetskilde når du bruker tekstformat med skilletegn.
Navn | Beskrivelse | Verdi | Obligatorisk | JSON-skriptegenskap |
---|---|---|---|---|
Filformat | Filformatet du vil bruke. | Tekst med skilletegn | Ja | type (under datasetSettings ):Tekst med skilletegn |
Komprimeringstype | Komprimeringskodek som brukes til å lese tekstfiler med skilletegn. | Velg mellom: Ingen bzip2 Gzip Deflate ZipDeflate TarGzip tjære |
Nei | type (under compression ):bzip2 Gzip Deflate ZipDeflate TarGzip tjære |
Behold zip-filnavn som mappe | Angir om navnet på kilde-ZIP-filen skal beholdes som mappestruktur under kopieringen. Gjelder når du velger ZipDeflate-komprimering . | Merket eller fjern merking | Nei | preserveZipFileNameAsFolder (under compressionProperties ->type som ZipDeflateReadSettings ) |
Behold navnet på komprimeringsfilen som mappe | Angir om du vil beholde det komprimerte kildefilnavnet som mappestruktur under kopieringen. Gjelder når du velger TarGzip/tjærekomprimering . | Merket eller fjern merking | Nei | preserveCompressionFileNameAsFolder (under compressionProperties ->type som TarGZipReadSettings eller TarReadSettings ) |
Komprimeringsnivå | Komprimeringsforholdet. Tillatte verdier er optimale eller raskeste. | Optimal eller raskest | Nei | nivå (under compression ):Raskeste Optimal |
Kolonneskilletegn | Tegnene som brukes til å skille kolonner i en fil. | < det merkede kolonneskilletegnet > Komma , (som standard) |
Nei | columnDelimiter |
Radskilletegn | Tegnet som brukes til å skille rader i en fil. | < det merkede radskilletegnet > \r ,\n (som standard) eller r\n |
Nei | rowDelimiter |
Encoding | Kodingstypen som brukes til å lese/skrive testfiler. | "UTF-8" (som standard),"UTF-8 uten stykkliste", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140 "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253, WINDOWS-1254, WINDOWS-1255, WINDOWS-1256, WINDOWS-1256, WINDOWS-1257, WINDOWS-1258 | Nei | kodingsnavn |
Escape-tegn | Enkelttegnet for å unngå anførselstegn i en angitt verdi. Når escape-tegn er definert som en tom streng, må anførselstegnet også angis som en tom streng. I så fall må du sørge for at alle kolonneverdier ikke inneholder skilletegn. | < det valgte escape-tegnet > Omvendt skråstrek \ (som standard) |
Nei | escapeChar |
Anførselstegn | Enkelttegnet som skal angi kolonneverdier hvis det inneholder kolonneskilletegn. Når anførselstegn er definert som en tom streng, betyr det at det ikke er noe anførselstegn og kolonneverdi ikke er angitt, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv. | < det valgte anførselstegnet > doble anførselstegn " (som standard) |
Nei | quoteChar |
Første rad som topptekst | Angir om den første raden i det angitte regnearket/området skal behandles som en overskriftslinje med navn på kolonner. | Merket eller umerket | Nei | firstRowAsHeader: sann eller usann (standard) |
Nullverdi | Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng. | < strengen som representerer nullverdi > tom streng (som standard) |
Nei | nullValue |
Hopp over linjeantall | Angir antall rader som ikke er tomme, som skal hoppes over når du leser data fra inndatafiler. Hvis både Hopp over linjeantall og Første rad som overskrift er angitt, hoppes linjene først over, og deretter leses topptekstinformasjonen fra inndatafilen. | < antall hopp over linjer > | Nei | skipLineCount |
Tekst med skilletegn som mål
Følgende egenskaper støttes i måldelen for kopieringsaktivitet når du bruker tekstformat med skilletegn.
Navn | Beskrivelse | Verdi | Obligatorisk | JSON-skriptegenskap |
---|---|---|---|---|
Filformat | Filformatet du vil bruke. | Tekst med skilletegn | Ja | type (under datasetSettings ):Tekst med skilletegn |
Komprimeringstype | Komprimeringskodek som brukes til å skrive tekstfiler med skilletegn. | Velg mellom: Ingen bzip2 Gzip Deflate ZipDeflate TarGzip tjære |
Nei | type (under compression ):bzip2 Gzip Deflate ZipDeflate TarGzip tjære |
Behold ZIP-filnavn som mappe | Angir om kilde-ZIP-filnavnet skal beholdes som mappestruktur under kopiering. | Merket eller fjern merking | Nei | preserveZipFileNameAsFolder (under compressionProperties ->type som ZipDeflateReadSettings ) |
Behold komprimeringsfilnavn som mappe | Angir om du vil beholde det komprimerte kildefilnavnet som mappestruktur under kopiering. | Merket eller fjern merking | Nei | preserveCompressionFileNameAsFolder (under compressionProperties ->type som TarGZipReadSettings eller TarReadSettings ) |
Komprimeringsnivå | Komprimeringsforholdet. Tillatte verdier er optimale eller raskeste. | Optimal eller raskest | Nei | nivå (under compression ):Raskeste Optimal |
Skilletegn for kolonne | Tegnene som brukes til å skille kolonner i en fil. | < det merkede kolonneskilletegnet > komma , (som standard) |
Nei | columnDelimiter |
Radskilletegn | Tegnet som brukes til å skille rader i en fil. | < det merkede radskilletegnet > \r ,\n (som standard) eller r\n |
Nei | rowDelimiter |
Encoding | Kodingstypen som brukes til å lese/skrive testfiler. | "UTF-8" (som standard),"UTF-8 uten STYKK", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253, WINDOWS-1254, WINDOWS-1255, WINDOWS-1256, WINDOWS-1257, WINDOWS-1258 | Nei | kodingsnavn |
Escape-tegn | Enkelttegnet for å unngå anførselstegn i en anførselstegnverdi. Når escape-tegn er definert som en tom streng, må anførselstegnet også angis som en tom streng. I så fall må du kontrollere at alle kolonneverdier ikke inneholder skilletegn. | < det valgte escape-tegnet > Omvendt skråstrek \ (som standard) |
Nei | escapeChar |
Anførselstegn | Enkelttegnet til anførselstegnkolonneverdier hvis det inneholder kolonneskilletegn. Når anførselstegn er definert som en tom streng, betyr det at det ikke finnes et anførselstegn og kolonneverdi ikke er sitert, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv. | < det valgte anførselstegnet > doble anførselstegn " (som standard) |
Nei | quoteChar |
Første rad som topptekst | Angir om den første raden i det angitte regnearket/området skal behandles som en overskriftslinje med kolonnenavn. | Merket eller umerket | Nei | firstRowAsHeader: sann eller usann (standard) |
Anførselstegn all tekst | Omslutte alle verdier i anførselstegn. | Merket (standard) eller umerket | Nei | quoteAllText: sann (standard) eller usann |
Filtype | Filtypen som brukes til å gi navn til utdatafilene. | < filtypen > .txt (som standard) |
Nei | fileExtension |
Maksimalt antall rader per fil | Når du skriver data til en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil. | < maksimalt antall rader per fil > | Nei | maxRowsPerFile |
Prefiks for filnavn | Gjelder når maksimalt antall rader per fil er konfigurert. Angi filnavnprefikset når du skriver data til flere filer, noe som resulterte i dette mønsteret: <fileNamePrefix>_00000.<fileExtension> . Hvis det ikke er angitt, genereres filnavnprefikset automatisk. Denne egenskapen gjelder ikke når kilde er filbasert lager eller partisjonsalternativaktivert datalager. |
< filnavnprefikset > | Nei | fileNamePrefix |