Afgrænset tekstformat i Data Factory i Microsoft Fabric
I denne artikel beskrives det, hvordan du konfigurerer afgrænset tekstformat i datapipelines i Data Factory i Microsoft Fabric.
Vigtigt
Microsoft Fabric er i øjeblikket i PRØVEVERSION. Disse oplysninger relaterer til et foreløbig produkt, der kan ændres væsentligt, før de udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her. Se Azure Data Factory dokumentation for tjenesten i Azure.
Understøttede funktioner
Afgrænset tekstformat understøttes for følgende aktiviteter og forbindelser som kilde og destination.
Kategori | Connector/aktivitet |
---|---|
Understøttet connector | Amazon S3 |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Google Cloud Storage | |
HTTP | |
Understøttet aktivitet | Kopiér aktivitet |
Opslagsaktivitet | |
GetMetadata-aktivitet | |
Slet aktivitet |
Afgrænset tekstformat i kopiaktivitet
Hvis du vil konfigurere afgrænset tekstformat, skal du vælge din forbindelse i kilden eller destinationen for kopiaktiviteten for datapipelinen og derefter vælge AfgrænserTekst på rullelisten i Filformat. Vælg Indstillinger for yderligere konfiguration af dette format.
Afgrænset tekstformat som kilde
Når du har valgt Indstillinger i afsnittet Filformat , vises følgende egenskaber i dialogboksen Indstillinger for pop op-filformat .
Komprimeringstype: Den komprimeringscodec, der bruges til at læse afgrænsede tekstfiler. Du kan vælge mellem None, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tar type på rullelisten.
Hvis du vælger ZipDeflate som komprimeringstype, vises Bevar zip-filnavnet som mappe under Avancerede indstillinger under fanen Kilde .
- Bevar zip-filnavnet som mappe: Angiver, om kilde-zip-filnavnet skal bevares som mappestruktur under kopien.
- Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten udpakkede filer til
<specified file path>/<folder named as source zip file>/
. - Hvis dette afkrydsningsfelt ikke er markeret, skriver tjenesten upakkede filer direkte til
<specified file path>
. Sørg for, at du ikke har duplikerede filnavne i forskellige zip-kildefiler for at undgå racing eller uventet funktionsmåde.
- Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten udpakkede filer til
Hvis du vælger TarGzip/tar som komprimeringstype, vises Bevar komprimeringsfilnavn som mappe under Avancerede indstillinger under fanen Kilde .
- Bevar komprimeringsfilnavnet som mappe: Angiver, om kildekomprimeret filnavn skal bevares som mappestruktur under kopien.
- Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten dekomprimerede filer til
<specified file path>/<folder named as source compressed file>/
. - Hvis dette afkrydsningsfelt ikke er markeret, skriver tjenesten dekomprimerede filer direkte til
<specified file path>
. Sørg for, at du ikke har duplikerede filnavne i forskellige zip-kildefiler for at undgå racing eller uventet funktionsmåde.
- Hvis dette afkrydsningsfelt er markeret (standard), skriver tjenesten dekomprimerede filer til
- Bevar zip-filnavnet som mappe: Angiver, om kilde-zip-filnavnet skal bevares som mappestruktur under kopien.
Komprimeringsniveau: Angiv komprimeringsforholdet, når du vælger en komprimeringstype. Du kan vælge mellem Optimal eller Hurtigste.
- Hurtigst: Komprimeringshandlingen skal fuldføres så hurtigt som muligt, selvom den resulterende fil ikke er komprimeret optimalt.
- Optimal: Komprimeringshandlingen skal komprimeres optimalt, selvom handlingen tager længere tid at fuldføre. Du kan få flere oplysninger under Emnet Komprimeringsniveau.
Kolonneafgrænser: Det eller de tegn, der bruges til at adskille kolonner i en fil. Standardværdien er komma (
,
).Rækkeafgrænser: Angiv det tegn, der bruges til at adskille rækker i en fil. Der må kun angives ét tegn. Standardværdien er linjeskift
\n
.Kodning: Den kodningstype, der bruges til at læse/skrive testfiler. Standardværdien er UTF-8.
Escape-tegn: Det enkelte tegn til at undslippe anførselstegn i en citeret værdi. Standardværdien er omvendt skråstreg
\
. Når escape-tegnet defineres som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere.Anførselstegn: Det enkelt tegn, der citerer kolonneværdier, hvis det indeholder kolonneafgrænser. Standardværdien er dobbelte anførselstegn
"
. Når anførselstegn defineres som en tom streng, betyder det, at der ikke er noget anførselstegn, og at kolonneværdien ikke citeres, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og selve tegnet.Første række som overskrift: Angiver, om den første række skal behandles/laves som en overskriftslinje med navne på kolonner. Tilladte værdier er valgt og ikke markeret (standard). Når den første række som overskrift ikke er markeret, genereres kolonnenavne automatisk som Prop_{n} (startende fra 0), når der automatisk genereres kolonnenavne for data i opslagsaktiviteten (startende fra 0), og kopiaktiviteten kræver eksplicit tilknytning fra kilde til destination og finder kolonner efter ordenstal (startende fra 1).
Null-værdi: Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng.
Under Fanen Avancerede indstillinger under fanen Kilde vises yderligere egenskab, der er relateret til afgrænset tekstformat.
- Spring linjeantal over: Angiver antallet af ikke-entydige rækker, der skal springes over, når data læses fra inputfiler. Hvis både Antal linjer og Første række som overskrift er angivet, springes linjerne først over, og oplysningerne i sidehovedet læses fra inputfilen.
Afgrænset tekstformat som destination
Når du har valgt Indstillinger i afsnittet Filformat , vises følgende egenskaber i dialogboksen Indstillinger for pop op-filformat .
Komprimeringstype: Den komprimeringscodec, der bruges til at skrive afgrænsede tekstfiler. Du kan vælge mellem None, bzip2, gzip, deflate, ZipDeflate, TarGzip eller tar type på rullelisten.
Komprimeringsniveau: Angiv komprimeringsforholdet, når du vælger en komprimeringstype. Du kan vælge mellem Optimal eller Hurtigste.
- Hurtigst: Komprimeringshandlingen skal fuldføres så hurtigt som muligt, selvom den resulterende fil ikke er komprimeret optimalt.
- Optimal: Komprimeringshandlingen skal komprimeres optimalt, selvom handlingen tager længere tid at fuldføre. Du kan få flere oplysninger under Emnet Komprimeringsniveau.
Kolonneafgrænser: Det eller de tegn, der bruges til at adskille kolonner i en fil. Standardværdien er komma (
,
).Rækkeafgrænser: Det tegn, der bruges til at adskille rækker i en fil. Der må kun angives ét tegn. Standardværdien er linjeskift
\n
.Kodning: Den kodningstype, der bruges til at skrive testfiler. Standardværdien er UTF-8.
Escape-tegn: Det enkelte tegn til at undslippe anførselstegn i en citeret værdi. Standardværdien er omvendt skråstreg
\
. Når escape-tegnet defineres som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere.Anførselstegn: Det enkelt tegn, der citerer kolonneværdier, hvis det indeholder kolonneafgrænser. Standardværdien er dobbelte anførselstegn
"
. Når anførselstegn defineres som en tom streng, betyder det, at der ikke er noget anførselstegn, og at kolonneværdien ikke citeres, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og selve tegnet.Første række som overskrift: Angiver, om den første række skal behandles/laves som en overskriftslinje med navne på kolonner. Tilladte værdier er valgt og ikke markeret (standard). Når den første række som overskrift ikke er markeret, genereres kolonnenavne automatisk som Prop_{n} (startende fra 0), når der automatisk genereres kolonnenavne for data i opslagsaktiviteten (startende fra 0), og kopiaktiviteten kræver eksplicit tilknytning fra kilde til destination og finder kolonner efter ordenstal (startende fra 1).
Null-værdi: Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng.
Under Avancerede indstillinger under fanen Destination vises yderligere afgrænset tekstformatrelateret egenskab.
Citat al tekst: Omslut alle værdier i anførselstegn.
Filtypenavn: Det filtypenavn, der bruges til at navngive outputfilerne,
.csv
f.eks. ,.txt
.Maksimalt antal rækker pr. fil: Når du skriver data til en mappe, kan du vælge at skrive til flere filer og angive de maksimale rækker pr. fil.
Præfiks for filnavn: Gælder, når der er konfigureret maks. rækker pr. fil . Angiv filnavnpræfikset, når du skriver data til flere filer, hvilket resulterede i dette mønster:
<fileNamePrefix>_00000.<fileExtension>
. Hvis det ikke er angivet, genereres filnavnpræfikset automatisk. Denne egenskab gælder ikke, når kilden er filbaseret lager eller partitionsindstilling aktiveret datalager.
Tabeloversigt
Afgrænset tekst som kilde
Følgende egenskaber understøttes i afsnittet Kopiér aktivitetskilde , når du bruger afgrænset tekstformat.
Navn | Beskrivelse | Værdi | Påkrævet | JSON-scriptegenskab |
---|---|---|---|---|
Filformat | Det filformat, du vil bruge. | Afgrænset tekst | Yes | type (under datasetSettings ):Afgrænset tekst |
Komprimeringstype | Den komprimeringscodec, der bruges til at læse afgrænsede tekstfiler. | Vælg mellem: Ingen bzip2 Gzip Deflatere ZipDeflate TarGzip Tar |
No | type (under compression ):bzip2 Gzip Deflatere ZipDeflate TarGzip Tar |
Bevar zip-filnavnet som mappe | Angiver, om zip-kildefilnavnet skal bevares som mappestruktur under kopien. Gælder, når du vælger ZipDeflate-komprimering . | Markeret eller fravælg | No | preserveZipFileNameAsFolder (under compressionProperties ->type som ZipDeflateReadSettings ) |
Bevar komprimeringsfilnavnet som mappe | Angiver, om kildekomprimeret filnavn skal bevares som mappestruktur under kopien. Gælder, når du vælger TarGzip/tar-komprimering . | Markeret eller fravælg | No | preserveCompressionFileNameAsFolder (under compressionProperties ->type som TarGZipReadSettings eller TarReadSettings ) |
Komprimeringsniveau | Komprimeringsforholdet. Tilladte værdier er optimale eller hurtigste. | Optimal eller hurtigste | No | niveau (under compression ):Hurtigste Optimal |
Kolonneafgrænser | Det eller de tegn, der bruges til at adskille kolonner i en fil. | < den markerede kolonneafgrænser > Komma , (som standard) |
No | columnDelimiter |
Rækkeafgrænser | Det tegn, der bruges til at adskille rækker i en fil. | < den markerede rækkeafgrænser > \r ,\n (som standard) eller r\n |
No | rowDelimiter |
Encoding | Den kodningstype, der bruges til at læse/skrive testfiler. | "UTF-8" (som standard),"UTF-8 uden BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140 "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | No | encodingName |
Escape-tegn | Det enkelt tegn, der undslipper anførselstegn i en citeret værdi. Når escape-tegnet defineres som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere. | < dit valgte escape-tegn > Omvendt skråstreg \ (som standard) |
No | escapeChar |
Anførselstegn | Det enkelt tegn, der skal citeres kolonneværdier, hvis det indeholder kolonneafgrænser. Når anførselstegn defineres som en tom streng, betyder det, at der ikke er noget anførselstegn, og at kolonneværdien ikke citeres, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og selve tegnet. | < dit valgte anførselstegn > dobbelte anførselstegn " (som standard) |
No | quoteChar |
Første række som overskrift | Angiver, om den første række i det angivne regneark/område skal behandles som en overskriftslinje med navne på kolonner. | Markeret eller ikke markeret | No | firstRowAsHeader: true eller false (standard) |
Null-værdi | Angiver strengrepræsentationen af null-værdien. Standardværdien er en tom streng. | < strengrepræsentationen af null-værdien > tom streng (som standard) |
No | nullValue |
Spring linjeantal over | Angiver det antal rækker, der ikke er tomme, som skal springes over, når der læses data fra inputfiler. Hvis der er angivet både Antal linjer og Første række som overskrift , springes linjerne først over, og derefter læses oplysningerne i overskriften fra inputfilen. | < antal skip-linjer > | No | skipLineCount |
Afgrænset tekst som destination
Følgende egenskaber understøttes i afsnittet Kopiér aktivitetsdestination , når du bruger afgrænset tekstformat.
Navn | Beskrivelse | Værdi | Påkrævet | JSON-scriptegenskab |
---|---|---|---|---|
Filformat | Det filformat, du vil bruge. | Afgrænset tekst | Yes | type (under datasetSettings ):Afgrænset tekst |
Komprimeringstype | Det komprimeringscodec, der bruges til at skrive afgrænsede tekstfiler. | Vælg mellem: Ingen bzip2 Gzip Deflatere ZipDeflate TarGzip Tar |
No | type (under compression ):bzip2 Gzip Deflatere ZipDeflate TarGzip Tar |
Bevar zip-filnavnet som mappe | Angiver, om zip-kildefilnavnet skal bevares som mappestruktur under kopiering. | Markeret eller fjern markering | No | preserveZipFileNameAsFolder (under compressionProperties ->type som ZipDeflateReadSettings ) |
Bevar komprimeringsfilnavnet som mappe | Angiver, om kildens komprimerede filnavn skal bevares som mappestruktur under kopiering. | Markeret eller fjern markering | No | preserveCompressionFileNameAsFolder (under compressionProperties ->type som TarGZipReadSettings eller TarReadSettings ) |
Komprimeringsniveau | Komprimeringsforholdet. Tilladte værdier er Optimale eller Hurtigste. | Optimal eller hurtigste | No | niveau (under compression ):Hurtigste Optimal |
Kolonneafgrænser | De tegn, der bruges til at adskille kolonner i en fil. | < den markerede kolonneafgrænser > komma , (som standard) |
No | columnDelimiter |
Rækkeafgrænser | Det tegn, der bruges til at adskille rækker i en fil. | < den markerede rækkeafgrænser > \r ,\n (som standard) eller r\n |
No | rowDelimiter |
Encoding | Den kodningstype, der bruges til at læse/skrive testfiler. | "UTF-8" (som standard),"UTF-8 uden BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140 "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252" 1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | No | encodingName |
Escape-tegn | Det enkelt tegn, der skal bruges til at undslippe anførselstegn i en værdi i anførselstegn. Når escape-tegnet er defineret som en tom streng, skal anførselstegnet også angives som en tom streng. I så fald skal du sørge for, at alle kolonneværdier ikke indeholder afgrænsere. | < det valgte escape-tegn > Omvendt skråstreg \ (som standard) |
No | escapeChar |
Anførselstegn | Det enkelt tegn, der skal anførselstegne kolonneværdier, hvis det indeholder kolonneafgrænser. Når anførselstegn er defineret som en tom streng, betyder det, at der ikke er et anførselstegn, og at der ikke er angivet nogen kolonneværdi, og at escape-tegnet bruges til at undslippe kolonneafgrænseren og sig selv. | < det valgte anførselstegn > dobbelte anførselstegn " (som standard) |
No | quoteChar |
Første række som overskrift | Angiver, om den første række i det angivne regneark/område skal behandles som en overskriftslinje med navne på kolonner. | Markeret eller ikke markeret | No | firstRowAsHeader: true eller false (standard) |
Citat al tekst | Omslut alle værdier i anførselstegn. | Valgt (standard) eller ikke markeret | No | quoteAllText: true (standard) eller false |
Filtypenavn | Det filtypenavn, der bruges til at navngive outputfilerne. | < filtypenavnet > .txt (som standard) |
No | fileExtension |
Maks. antal rækker pr. fil | Når du skriver data i en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil. | < dine maksimale rækker pr. fil > | No | maxRowsPerFile |
Præfiks for filnavn | Gælder, når Maks. rækker pr. fil er konfigureret. Angiv præfikset for filnavnet, når du skriver data til flere filer, hvilket resulterede i dette mønster: <fileNamePrefix>_00000.<fileExtension> . Hvis det ikke er angivet, oprettes præfikset for filnavnet automatisk. Denne egenskab gælder ikke, når kilden er filbaseret lager eller partitionsaktiveret datalager. |
< præfikset for filnavnet > | No | fileNamePrefix |