Tekstformat med skilletegn i Data Factory i Microsoft Fabric

Denne artikkelen beskriver hvordan du konfigurerer tekstformat med skilletegn i datasamlebåndet til Data Factory i Microsoft Fabric.

Viktig

Microsoft Fabric er for øyeblikket i FORHÅNDSVERSJON. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her. Se Azure Data Factory dokumentasjon for tjenesten i Azure.

Støttede funksjoner

Tekstformat med skilletegn støttes for følgende aktiviteter og koblinger som kilde og mål.

Kategori Kobling/aktivitet
Støttet kobling Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Aktivitet som støttes Kopier aktivitet
Oppslagsaktivitet
GetMetadata-aktivitet
Slett aktivitet

Tekstformat med skilletegn i kopieringsaktivitet

Hvis du vil konfigurere tekstformat med skilletegn, velger du tilkoblingen i kilden eller målet for kopiering av datasamlebånd, og deretter velger du Tekst med skilletegn i rullegardinlisten i Filformat. Velg Innstillinger for videre konfigurasjon av dette formatet.

Skjermbilde som viser filformatinnstillinger.

Tekstformat med skilletegn som kilde

Når du har valgt Innstillinger i filformat-delen , vises følgende egenskaper i dialogboksen innstillinger for popup-filformat.

Skjermbilde som viser innstillinger for kildefilformat.

  • Komprimeringstype: Komprimeringskodek som brukes til å lese tekstfiler med skilletegn. Du kan velge mellom Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype i rullegardinlisten.

    Hvis du velger ZipDeflate som komprimeringstype, vil Behold zip-filnavnet som mappe vises under Avanserte innstillinger i kildefanen .

    • Behold zip-filnavnet som mappe: Angir om navnet på kilde-ZIP-filen skal beholdes som mappestruktur under kopieringen.
      • Hvis det er merket av for (standard), skriver tjenesten filer som ikke er pakket ut, til <specified file path>/<folder named as source zip file>/.
      • Hvis det ikke er merket av for dette alternativet, skriver tjenesten filer som ikke er pakket ut, direkte til <specified file path>. Kontroller at du ikke har dupliserte filnavn i ulike zip-filer for kilden for å unngå racing eller uventet virkemåte.

    Hvis du velger TarGzip/tjære som komprimeringstype, vil Behold komprimeringsfilnavnet som mappe vises under Avanserte innstillinger i kildefanen .

    • Behold navnet på komprimeringsfilen som mappe: Angir om det komprimerte filnavnet for kilden skal beholdes som mappestruktur under kopieringen.
      • Hvis det er merket av for (standard), skriver tjenesten dekomprimerte filer til <specified file path>/<folder named as source compressed file>/.
      • Hvis det ikke er merket av for denne boksen, skriver tjenesten dekomprimerte filer direkte til <specified file path>. Kontroller at du ikke har dupliserte filnavn i ulike zip-filer for kilden for å unngå racing eller uventet virkemåte.
  • Komprimeringsnivå: Angi komprimeringsforholdet når du velger en komprimeringstype. Du kan velge blant optimale eller raskeste.

    • Raskest: Komprimeringsoperasjonen skal fullføres så raskt som mulig, selv om den resulterende filen ikke er optimalt komprimert.
    • Optimalt: Komprimeringsoperasjonen bør komprimeres optimalt, selv om operasjonen tar lengre tid å fullføre. Hvis du vil ha mer informasjon, kan du se emnet Komprimeringsnivå.
  • Kolonneskilletegn: Tegnene som brukes til å skille kolonner i en fil. Standardverdien er komma (,).

  • Radskilletegn: Angi tegnet som brukes til å skille rader i en fil. Bare ett tegn er tillatt. Standardverdien er linjemating \n.

  • Koding: Kodingstypen som brukes til å lese/skrive testfiler. Standardverdien er UTF-8.

  • Escape-tegn: Enkelttegnet for å unnslippe anførselstegn i en anførselstegn. Standardverdien er omvendt skråstrek\. Når escape-tegn er definert som en tom streng, må anførselstegnet også angis som en tom streng. I så fall må du sørge for at alle kolonneverdier ikke inneholder skilletegn.

  • Anførselstegn: Enkelttegnet til anførselstegnkolonneverdier hvis det inneholder kolonneskilletegn. Standardverdien er doble anførselstegn". Når anførselstegn er definert som en tom streng, betyr det at det ikke er noe anførselstegn og kolonneverdi ikke er angitt, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv.

  • Første rad som overskrift: Angir om den første raden skal behandles som en overskriftslinje med navn på kolonner. Tillatte verdier er valgt og umerket (standard). Når første rad som topptekst ikke er merket, genererer forhåndsvisning av grensesnittdata og utdata for oppslagsaktivitet automatisk kolonnenavn som Prop_{n} (fra og med 0), kopieringsaktivitet krever eksplisitt tilordning fra kilde til mål og finner kolonner etter ordenstall (fra og med 1).

  • Nullverdi: Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng.

Under Avanserte innstillinger i kildefanen vises ytterligere relatert egenskap for tekstformat med skilletegn.

  • Hopp over linjeantall: Angir antall rader som ikke er tomme når du leser data fra inndatafiler. Hvis både Hopp over linjeantall og Første rad som topptekst er angitt, hoppes linjene først over, og deretter leses topptekstinformasjonen fra inndatafilen.

Tekstformat med skilletegn som mål

Når du har valgt Innstillinger i filformat-delen , vises følgende egenskaper i dialogboksen innstillinger for popup-filformat.

Skjermbilde som viser innstillinger for målfilformat.

  • Komprimeringstype: Komprimeringskodek som brukes til å skrive tekstfiler med skilletegn. Du kan velge mellom Ingen, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tjæretype i rullegardinlisten.

  • Komprimeringsnivå: Angi komprimeringsforholdet når du velger en komprimeringstype. Du kan velge blant optimale eller raskeste.

    • Raskest: Komprimeringsoperasjonen skal fullføres så raskt som mulig, selv om den resulterende filen ikke er optimalt komprimert.
    • Optimalt: Komprimeringsoperasjonen bør komprimeres optimalt, selv om operasjonen tar lengre tid å fullføre. Hvis du vil ha mer informasjon, kan du se emnet Komprimeringsnivå.
  • Kolonneskilletegn: Tegnene som brukes til å skille kolonner i en fil. Standardverdien er komma (,).

  • Radskilletegn: Tegnet som brukes til å skille rader i en fil. Bare ett tegn er tillatt. Standardverdien er linjemating \n.

  • Koding: Kodingstypen som brukes til å skrive testfiler. Standardverdien er UTF-8.

  • Escape-tegn: Enkelttegnet for å unnslippe anførselstegn i en anførselstegn. Standardverdien er omvendt skråstrek\. Når escape-tegn er definert som en tom streng, må anførselstegnet også angis som en tom streng. I så fall må du sørge for at alle kolonneverdier ikke inneholder skilletegn.

  • Anførselstegn: Enkelttegnet til anførselstegnkolonneverdier hvis det inneholder kolonneskilletegn. Standardverdien er doble anførselstegn". Når anførselstegn er definert som en tom streng, betyr det at det ikke er noe anførselstegn og kolonneverdi ikke er angitt, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv.

  • Første rad som overskrift: Angir om den første raden skal behandles som en overskriftslinje med navn på kolonner. Tillatte verdier er valgt og umerket (standard). Når første rad som topptekst ikke er merket, genererer forhåndsvisning av grensesnittdata og utdata for oppslagsaktivitet automatisk kolonnenavn som Prop_{n} (fra og med 0), kopieringsaktivitet krever eksplisitt tilordning fra kilde til mål og finner kolonner etter ordenstall (fra og med 1).

  • Nullverdi: Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng.

Under Avanserte innstillinger i Mål-fanen vises ytterligere relatert egenskap for tekstformat med skilletegn.

  • Sitat all tekst: Omslutte alle verdier i anførselstegn.

  • Filtype: Filtypen som brukes til å gi navn til utdatafilene, for eksempel , .csv.txt.

  • Maksimalt antall rader per fil: Når du skriver data til en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil.

  • Filnavnprefiks: Gjelder når maksimalt antall rader per fil er konfigurert. Angi filnavnprefikset når du skriver data til flere filer, noe som resulterte i dette mønsteret: <fileNamePrefix>_00000.<fileExtension>. Hvis det ikke er angitt, genereres filnavnprefikset automatisk. Denne egenskapen gjelder ikke når kilde er filbasert lager eller partisjonsalternativaktivert datalager.

Tabellsammendrag

Tekst med skilletegn som kilde

Følgende egenskaper støttes i delen kopier aktivitetskilde når du bruker tekstformat med skilletegn.

Navn Beskrivelse Verdi Obligatorisk JSON-skriptegenskap
 Filformat Filformatet du vil bruke. Tekst med skilletegn Ja type (under datasetSettings):
Tekst med skilletegn
Komprimeringstype Komprimeringskodek som brukes til å lese tekstfiler med skilletegn. Velg mellom:
Ingen
bzip2
Gzip
Deflate
ZipDeflate
TarGzip
tjære
Nei type (under compression):

bzip2
Gzip
Deflate
ZipDeflate
TarGzip
tjære
Behold zip-filnavn som mappe Angir om navnet på kilde-ZIP-filen skal beholdes som mappestruktur under kopieringen. Gjelder når du velger ZipDeflate-komprimering . Merket eller fjern merking Nei preserveZipFileNameAsFolder
(under compressionProperties->type som ZipDeflateReadSettings)
Behold navnet på komprimeringsfilen som mappe Angir om du vil beholde det komprimerte kildefilnavnet som mappestruktur under kopieringen. Gjelder når du velger TarGzip/tjærekomprimering . Merket eller fjern merking Nei preserveCompressionFileNameAsFolder
(under compressionProperties->type som TarGZipReadSettings eller TarReadSettings)
Komprimeringsnivå  Komprimeringsforholdet. Tillatte verdier er optimale eller raskeste. Optimal eller raskest Nei nivå (under compression):
Raskeste
Optimal
Kolonneskilletegn  Tegnene som brukes til å skille kolonner i en fil.  < det merkede kolonneskilletegnet >
Komma, (som standard)
Nei columnDelimiter
Radskilletegn Tegnet som brukes til å skille rader i en fil. < det merkede radskilletegnet >
\r,\n (som standard) eller r\n
Nei rowDelimiter
Encoding Kodingstypen som brukes til å lese/skrive testfiler. "UTF-8" (som standard),"UTF-8 uten stykkliste", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140 "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253, WINDOWS-1254, WINDOWS-1255, WINDOWS-1256, WINDOWS-1256, WINDOWS-1257, WINDOWS-1258 Nei kodingsnavn
Escape-tegn Enkelttegnet for å unngå anførselstegn i en angitt verdi. Når escape-tegn er definert som en tom streng, må anførselstegnet også angis som en tom streng. I så fall må du sørge for at alle kolonneverdier ikke inneholder skilletegn. < det valgte escape-tegnet >
Omvendt skråstrek\ (som standard)
Nei escapeChar
Anførselstegn Enkelttegnet som skal angi kolonneverdier hvis det inneholder kolonneskilletegn. Når anførselstegn er definert som en tom streng, betyr det at det ikke er noe anførselstegn og kolonneverdi ikke er angitt, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv. < det valgte anførselstegnet >
doble anførselstegn" (som standard)
Nei quoteChar
Første rad som topptekst Angir om den første raden i det angitte regnearket/området skal behandles som en overskriftslinje med navn på kolonner. Merket eller umerket Nei firstRowAsHeader:
sann eller usann (standard)
Nullverdi Angir strengpresentasjonen av nullverdi. Standardverdien er tom streng. < strengen som representerer nullverdi >
tom streng (som standard)
Nei nullValue
Hopp over linjeantall Angir antall rader som ikke er tomme, som skal hoppes over når du leser data fra inndatafiler. Hvis både Hopp over linjeantall og Første rad som overskrift er angitt, hoppes linjene først over, og deretter leses topptekstinformasjonen fra inndatafilen. < antall hopp over linjer > Nei skipLineCount

Tekst med skilletegn som mål

Følgende egenskaper støttes i måldelen for kopieringsaktivitet når du bruker tekstformat med skilletegn.

Navn Beskrivelse Verdi Obligatorisk JSON-skriptegenskap
 Filformat Filformatet du vil bruke. Tekst med skilletegn Ja type (under datasetSettings):
Tekst med skilletegn
Komprimeringstype Komprimeringskodek som brukes til å skrive tekstfiler med skilletegn. Velg mellom:
Ingen
bzip2
Gzip
Deflate
ZipDeflate
TarGzip
tjære
Nei type (under compression):

bzip2
Gzip
Deflate
ZipDeflate
TarGzip
tjære
Behold ZIP-filnavn som mappe Angir om kilde-ZIP-filnavnet skal beholdes som mappestruktur under kopiering. Merket eller fjern merking Nei preserveZipFileNameAsFolder
(under compressionProperties->type som ZipDeflateReadSettings)
Behold komprimeringsfilnavn som mappe Angir om du vil beholde det komprimerte kildefilnavnet som mappestruktur under kopiering. Merket eller fjern merking Nei preserveCompressionFileNameAsFolder
(under compressionProperties->type som TarGZipReadSettings eller TarReadSettings)
Komprimeringsnivå  Komprimeringsforholdet. Tillatte verdier er optimale eller raskeste. Optimal eller raskest Nei nivå (under compression):
Raskeste
Optimal
Skilletegn for kolonne  Tegnene som brukes til å skille kolonner i en fil.  < det merkede kolonneskilletegnet >
komma , (som standard)
Nei columnDelimiter
Radskilletegn Tegnet som brukes til å skille rader i en fil. < det merkede radskilletegnet >
\r,\n (som standard) eller r\n
Nei rowDelimiter
Encoding Kodingstypen som brukes til å lese/skrive testfiler. "UTF-8" (som standard),"UTF-8 uten STYKK", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253, WINDOWS-1254, WINDOWS-1255, WINDOWS-1256, WINDOWS-1257, WINDOWS-1258 Nei kodingsnavn
Escape-tegn Enkelttegnet for å unngå anførselstegn i en anførselstegnverdi. Når escape-tegn er definert som en tom streng, må anførselstegnet også angis som en tom streng. I så fall må du kontrollere at alle kolonneverdier ikke inneholder skilletegn. < det valgte escape-tegnet >
Omvendt skråstrek\ (som standard)
Nei escapeChar
Anførselstegn Enkelttegnet til anførselstegnkolonneverdier hvis det inneholder kolonneskilletegn. Når anførselstegn er definert som en tom streng, betyr det at det ikke finnes et anførselstegn og kolonneverdi ikke er sitert, og escape-tegn brukes til å unnslippe kolonneskilletegnet og seg selv. < det valgte anførselstegnet >
doble anførselstegn" (som standard)
Nei quoteChar
Første rad som topptekst Angir om den første raden i det angitte regnearket/området skal behandles som en overskriftslinje med kolonnenavn. Merket eller umerket Nei firstRowAsHeader:
sann eller usann (standard)
Anførselstegn all tekst Omslutte alle verdier i anførselstegn. Merket (standard) eller umerket Nei quoteAllText:
sann (standard) eller usann
Filtype Filtypen som brukes til å gi navn til utdatafilene. < filtypen >
.txt (som standard)
Nei fileExtension
Maksimalt antall rader per fil Når du skriver data til en mappe, kan du velge å skrive til flere filer og angi maksimalt antall rader per fil. < maksimalt antall rader per fil > Nei maxRowsPerFile
Prefiks for filnavn Gjelder når maksimalt antall rader per fil er konfigurert. Angi filnavnprefikset når du skriver data til flere filer, noe som resulterte i dette mønsteret: <fileNamePrefix>_00000.<fileExtension>. Hvis det ikke er angitt, genereres filnavnprefikset automatisk. Denne egenskapen gjelder ikke når kilde er filbasert lager eller partisjonsalternativaktivert datalager. < filnavnprefikset > Nei fileNamePrefix

Neste trinn

Oversikt over koblinger