Afgrænset tekstformat i Data Factory i Microsoft Fabric

I denne artikel beskrives det, hvordan du konfigurerer afgrænset tekstformat i datapipelines i Data Factory i Microsoft Fabric.

Vigtigt

Microsoft Fabric er i øjeblikket i PRØVEVERSION. Disse oplysninger relaterer til et foreløbig produkt, der kan ændres væsentligt, før de udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her. Se Azure Data Factory dokumentation for tjenesten i Azure.

Understøttede funktioner

Afgrænset tekstformat understøttes for følgende aktiviteter og forbindelser som kilde og destination.

Kategori Connector/aktivitet
Understøttet connector Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Understøttet aktivitet Kopiér aktivitet
Opslagsaktivitet
GetMetadata-aktivitet
Slet aktivitet

Afgrænset tekstformat i kopiaktivitet

Hvis du vil konfigurere afgrænset tekstformat, skal du vælge din forbindelse i kilden eller destinationen for kopiaktiviteten for datapipelinen og derefter vælge AfgrænserTekst på rullelisten i Filformat. Vælg Indstillinger for yderligere konfiguration af dette format.

Skærmbillede, der viser indstillinger for filformat.

Afgrænset tekstformat som kilde

Når du har valgt Indstillinger i afsnittet Filformat , vises følgende egenskaber i dialogboksen Indstillinger for pop op-filformat .

Skærmbillede, der viser indstillinger for kildefilformat.

  • Komprimeringstype: Den komprimeringscodec, der bruges til at læse afgrænsede tekstfiler. Du kan vælge mellem None, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tar type på rullelisten.

    Hvis du vælger ZipDeflate som komprimeringstype, vises Bevar zip-filnavnet som mappe under Avancerede indstillinger under fanen Kilde .

    • Bevar zip-filnavnet som mappe: Angiver, om kilde-zip-filnavnet skal bevares som mappestruktur under kopien.
      • Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten udpakkede filer til <specified file path>/<folder named as source zip file>/.
      • Hvis dette afkrydsningsfelt ikke er markeret, skriver tjenesten upakkede filer direkte til <specified file path>. Sørg for, at du ikke har duplikerede filnavne i forskellige zip-kildefiler for at undgå racing eller uventet funktionsmåde.

    Hvis du vælger TarGzip/tar som komprimeringstype, vises Bevar komprimeringsfilnavn som mappe under Avancerede indstillinger under fanen Kilde .

    • Bevar komprimeringsfilnavnet som mappe: Angiver, om kildekomprimeret filnavn skal bevares som mappestruktur under kopien.
      • Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten dekomprimerede filer til <specified file path>/<folder named as source compressed file>/.
      • Hvis dette afkrydsningsfelt ikke er markeret, skriver tjenesten dekomprimerede filer direkte til <specified file path>. Sørg for, at du ikke har duplikerede filnavne i forskellige zip-kildefiler for at undgå racing eller uventet funktionsmåde.
  • Komprimeringsniveau: Angiv komprimeringsforholdet, når du vælger en komprimeringstype. Du kan vælge mellem Optimal eller Hurtigste.

    • Hurtigst: Komprimeringshandlingen skal fuldføres så hurtigt som muligt, selvom den resulterende fil ikke er komprimeret optimalt.
    • Optimal: Komprimeringshandlingen skal komprimeres optimalt, selvom handlingen tager længere tid at fuldføre. Du kan få flere oplysninger under Emnet Komprimeringsniveau.
  • Kolonneafgrænser: Det eller de tegn, der bruges til at adskille kolonner i en fil. Standardværdien er komma (,).

  • Rækkeafgrænser: Angiv det tegn, der bruges til at adskille rækker i en fil. Der må kun angives ét tegn. Standardværdien er linjeskift \n.

  • Kodning: Den kodningstype, der bruges til at læse/skrive testfiler. Standardværdien er UTF-8.

  • Escape-tegn: Det enkelte tegn til at undslippe anførselstegn i en citeret værdi. Standardværdien er omvendt skråstreg\. Når escape-tegnet defineres som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere.

  • Anførselstegn: Det enkelt tegn, der citerer kolonneværdier, hvis det indeholder kolonneafgrænser. Standardværdien er dobbelte anførselstegn". Når anførselstegn defineres som en tom streng, betyder det, at der ikke er noget anførselstegn, og at kolonneværdien ikke citeres, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og selve tegnet.

  • Første række som overskrift: Angiver, om den første række skal behandles/laves som en overskriftslinje med navne på kolonner. Tilladte værdier er valgt og ikke markeret (standard). Når den første række som overskrift ikke er markeret, genereres kolonnenavne automatisk som Prop_{n} (startende fra 0), når der automatisk genereres kolonnenavne for data i opslagsaktiviteten (startende fra 0), og kopiaktiviteten kræver eksplicit tilknytning fra kilde til destination og finder kolonner efter ordenstal (startende fra 1).

  • Null-værdi: Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng.

Under Fanen Avancerede indstillinger under fanen Kilde vises yderligere egenskab, der er relateret til afgrænset tekstformat.

  • Spring linjeantal over: Angiver antallet af ikke-entydige rækker, der skal springes over, når data læses fra inputfiler. Hvis både Antal linjer og Første række som overskrift er angivet, springes linjerne først over, og oplysningerne i sidehovedet læses fra inputfilen.

Afgrænset tekstformat som destination

Når du har valgt Indstillinger i afsnittet Filformat , vises følgende egenskaber i dialogboksen Indstillinger for pop op-filformat .

Skærmbillede, der viser indstillinger for destinationsfilformat.

  • Komprimeringstype: Den komprimeringscodec, der bruges til at skrive afgrænsede tekstfiler. Du kan vælge mellem None, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tar type på rullelisten.

  • Komprimeringsniveau: Angiv komprimeringsforholdet, når du vælger en komprimeringstype. Du kan vælge mellem Optimal eller Hurtigste.

    • Hurtigst: Komprimeringshandlingen skal fuldføres så hurtigt som muligt, selvom den resulterende fil ikke er komprimeret optimalt.
    • Optimal: Komprimeringshandlingen skal komprimeres optimalt, selvom handlingen tager længere tid at fuldføre. Du kan få flere oplysninger under Emnet Komprimeringsniveau.
  • Kolonneafgrænser: Det eller de tegn, der bruges til at adskille kolonner i en fil. Standardværdien er komma (,).

  • Rækkeafgrænser: Det tegn, der bruges til at adskille rækker i en fil. Der må kun angives ét tegn. Standardværdien er linjeskift \n.

  • Kodning: Den kodningstype, der bruges til at skrive testfiler. Standardværdien er UTF-8.

  • Escape-tegn: Det enkelte tegn til at undslippe anførselstegn i en citeret værdi. Standardværdien er omvendt skråstreg\. Når escape-tegnet defineres som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere.

  • Anførselstegn: Det enkelt tegn, der citerer kolonneværdier, hvis det indeholder kolonneafgrænser. Standardværdien er dobbelte anførselstegn". Når anførselstegn defineres som en tom streng, betyder det, at der ikke er noget anførselstegn, og at kolonneværdien ikke citeres, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og selve tegnet.

  • Første række som overskrift: Angiver, om den første række skal behandles/laves som en overskriftslinje med navne på kolonner. Tilladte værdier er valgt og ikke markeret (standard). Når den første række som overskrift ikke er markeret, genereres kolonnenavne automatisk som Prop_{n} (startende fra 0), når der automatisk genereres kolonnenavne for data i opslagsaktiviteten (startende fra 0), og kopiaktiviteten kræver eksplicit tilknytning fra kilde til destination og finder kolonner efter ordenstal (startende fra 1).

  • Null-værdi: Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng.

Under Avancerede indstillinger under fanen Destination vises yderligere afgrænset tekstformatrelateret egenskab.

  • Citat al tekst: Omslut alle værdier i anførselstegn.

  • Filtypenavn: Det filtypenavn, der bruges til at navngive outputfilerne, .csvf.eks. , .txt.

  • Maksimalt antal rækker pr. fil: Når du skriver data til en mappe, kan du vælge at skrive til flere filer og angive de maksimale rækker pr. fil.

  • Præfiks for filnavn: Gælder, når der er konfigureret maks. rækker pr. fil . Angiv filnavnpræfikset, når du skriver data til flere filer, hvilket resulterede i dette mønster: <fileNamePrefix>_00000.<fileExtension>. Hvis det ikke er angivet, genereres filnavnpræfikset automatisk. Denne egenskab gælder ikke, når kilden er filbaseret lager eller partitionsindstilling aktiveret datalager.

Tabeloversigt

Afgrænset tekst som kilde

Følgende egenskaber understøttes i afsnittet Kopiér aktivitetskilde , når du bruger afgrænset tekstformat.

Navn Beskrivelse Værdi Påkrævet JSON-scriptegenskab
 Filformat Det filformat, du vil bruge. Afgrænset tekst Yes type (under datasetSettings):
Afgrænset tekst
Komprimeringstype Den komprimeringscodec, der bruges til at læse afgrænsede tekstfiler. Vælg mellem:
Ingen
bzip2
Gzip
Deflatere
ZipDeflate
TarGzip
Tar
No type (under compression):

bzip2
Gzip
Deflatere
ZipDeflate
TarGzip
Tar
Bevar zip-filnavnet som mappe Angiver, om zip-kildefilnavnet skal bevares som mappestruktur under kopien. Gælder, når du vælger ZipDeflate-komprimering . Markeret eller fravælg No preserveZipFileNameAsFolder
(under compressionProperties->type som ZipDeflateReadSettings)
Bevar komprimeringsfilnavnet som mappe Angiver, om kildekomprimeret filnavn skal bevares som mappestruktur under kopien. Gælder, når du vælger TarGzip/tar-komprimering . Markeret eller fravælg No preserveCompressionFileNameAsFolder
(under compressionProperties->type som TarGZipReadSettings eller TarReadSettings)
Komprimeringsniveau  Komprimeringsforholdet. Tilladte værdier er optimale eller hurtigste. Optimal eller hurtigste No niveau (under compression):
Hurtigste
Optimal
Kolonneafgrænser  Det eller de tegn, der bruges til at adskille kolonner i en fil.  < den markerede kolonneafgrænser >
Komma, (som standard)
No columnDelimiter
Rækkeafgrænser Det tegn, der bruges til at adskille rækker i en fil. < den markerede rækkeafgrænser >
\r,\n (som standard) eller r\n
No rowDelimiter
Encoding Den kodningstype, der bruges til at læse/skrive testfiler. "UTF-8" (som standard),"UTF-8 uden BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140 "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" No encodingName
Escape-tegn Det enkelt tegn, der undslipper anførselstegn i en citeret værdi. Når escape-tegnet defineres som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere. < dit valgte escape-tegn >
Omvendt skråstreg\ (som standard)
No escapeChar
Anførselstegn Det enkelt tegn, der skal citeres kolonneværdier, hvis det indeholder kolonneafgrænser. Når anførselstegn defineres som en tom streng, betyder det, at der ikke er noget anførselstegn, og at kolonneværdien ikke citeres, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og selve tegnet. < dit valgte anførselstegn >
dobbelte anførselstegn" (som standard)
No quoteChar
Første række som overskrift Angiver, om den første række i det angivne regneark/område skal behandles som en overskriftslinje med navne på kolonner. Markeret eller ikke markeret No firstRowAsHeader:
true eller false (standard)
Null-værdi Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng. < strengrepræsentationen af null-værdien >
tom streng (som standard)
No nullValue
Spring linjeantal over Angiver det antal rækker, der ikke er tomme, som skal springes over, når der læses data fra inputfiler. Hvis der er angivet både Antal linjer og Første række som overskrift , springes linjerne først over, og derefter læses oplysningerne i overskriften fra inputfilen. < antal skip-linjer > No skipLineCount

Afgrænset tekst som destination

Følgende egenskaber understøttes i afsnittet Kopiér aktivitetsdestination , når du bruger afgrænset tekstformat.

Navn Beskrivelse Værdi Påkrævet JSON-scriptegenskab
 Filformat Det filformat, du vil bruge. Afgrænset tekst Yes type (under datasetSettings):
Afgrænset tekst
Komprimeringstype Det komprimeringscodec, der bruges til at skrive afgrænsede tekstfiler. Vælg mellem:
Ingen
bzip2
Gzip
Deflatere
ZipDeflate
TarGzip
Tar
No type (under compression):

bzip2
Gzip
Deflatere
ZipDeflate
TarGzip
Tar
Bevar zip-filnavnet som mappe Angiver, om zip-kildefilnavnet skal bevares som mappestruktur under kopiering. Markeret eller fjern markering No preserveZipFileNameAsFolder
(under compressionProperties->type som ZipDeflateReadSettings)
Bevar komprimeringsfilnavnet som mappe Angiver, om kildens komprimerede filnavn skal bevares som mappestruktur under kopiering. Markeret eller fjern markering No preserveCompressionFileNameAsFolder
(under compressionProperties->type som TarGZipReadSettings eller TarReadSettings)
Komprimeringsniveau  Komprimeringsforholdet. Tilladte værdier er Optimale eller Hurtigste. Optimal eller hurtigste No niveau (under compression):
Hurtigste
Optimal
Kolonneafgrænser  De tegn, der bruges til at adskille kolonner i en fil.  < den markerede kolonneafgrænser >
komma , (som standard)
No columnDelimiter
Rækkeafgrænser Det tegn, der bruges til at adskille rækker i en fil. < den markerede rækkeafgrænser >
\r,\n (som standard) eller r\n
No rowDelimiter
Encoding Den kodningstype, der bruges til at læse/skrive testfiler. "UTF-8" (som standard),"UTF-8 uden BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140 "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" No encodingName
Escape-tegn Det enkelt tegn, der skal bruges til at undslippe anførselstegn i en værdi i anførselstegn. Når escape-tegnet er defineret som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere. < det valgte escape-tegn >
Omvendt skråstreg\ (som standard)
No escapeChar
Anførselstegn Det enkelt tegn, der skal anførselstegne kolonneværdier, hvis det indeholder kolonneafgrænser. Når anførselstegn er defineret som en tom streng, betyder det, at der ikke er et anførselstegn, og at der ikke er angivet nogen kolonneværdi, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og sig selv. < det valgte anførselstegn >
dobbelte anførselstegn" (som standard)
No quoteChar
Første række som overskrift Angiver, om den første række i det angivne regneark/område skal behandles som en overskriftslinje med navne på kolonner. Markeret eller ikke markeret No firstRowAsHeader:
true eller false (standard)
Citat al tekst Omslut alle værdier i anførselstegn. Valgt (standard) eller ikke markeret No quoteAllText:
true (standard) eller false
Filtypenavn Det filtypenavn, der bruges til at navngive outputfilerne. < filtypenavnet >
.txt (som standard)
No fileExtension
Maks. antal rækker pr. fil Når du skriver data i en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil. < dine maksimale rækker pr. fil > No maxRowsPerFile
Præfiks for filnavn Gælder, når Maks. rækker pr. fil er konfigureret. Angiv præfikset for filnavnet, når du skriver data til flere filer, hvilket resulterede i dette mønster: <fileNamePrefix>_00000.<fileExtension>. Hvis det ikke er angivet, oprettes præfikset for filnavnet automatisk. Denne egenskab gælder ikke, når kilden er filbaseret lager eller partitionsaktiveret datalager. < præfikset for filnavnet > No fileNamePrefix

Næste trin

Oversigt over forbindelser