Delen via


Tekstindeling met scheidingstekens in Data Factory in Microsoft Fabric

In dit artikel wordt beschreven hoe u een tekstindeling met scheidingstekens configureert in de gegevenspijplijn van Data Factory in Microsoft Fabric.

Ondersteunde mogelijkheden

Tekstindeling met scheidingstekens wordt ondersteund voor de volgende activiteiten en connectors als bron en bestemming.

Categorie Connector/activiteit
Ondersteunde connector Amazon S3
Amazon S3 compatibel
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Files
Bestandssysteem
FTP
Google Cloud Storage
HTTP
Lakehouse Files
Oracle Cloud Storage
SFTP
Ondersteunde activiteit Copy-activiteit (bron/doel)
Activiteit Lookup
GetMetadata-activiteit
Activiteit verwijderen

Tekstindeling met scheidingstekens in kopieeractiviteit

Als u de tekstindeling met scheidingstekens wilt configureren, kiest u de verbinding in de bron of het doel van de kopieeractiviteit van de gegevenspijplijn en selecteert u Vervolgens DelimitedText in de vervolgkeuzelijst Bestandsindeling. Selecteer Instellingen voor verdere configuratie van deze indeling.

Schermopname van de instellingen voor de bestandsindeling.

Tekstindeling met scheidingstekens als bron

Nadat u Instellingen hebt geselecteerd in de sectie Bestandsindeling, worden de volgende eigenschappen weergegeven in het dialoogvenster Instellingen voor bestandsindeling.

Schermopname van de instellingen voor de bronbestandsindeling.

  • Compressietype: de compressiecodec die wordt gebruikt voor het lezen van tekstbestanden met scheidingstekens. U kunt kiezen uit None, bzip2, gzip, deflate, ZipDeflate, TarGzip of tar-type in de vervolgkeuzelijst.

    Als u ZipDeflate selecteert als compressietype, wordt de naam van het zip-bestand behouden als map weergegeven onder Geavanceerde instellingen op het tabblad Bron.

    • De naam van het zip-bestand behouden als map: geeft aan of de naam van het zip-bronbestand moet worden bewaard als mapstructuur tijdens het kopiëren.
      • Als dit selectievakje is ingeschakeld (standaard), schrijft de service uitgepakte bestanden naar <specified file path>/<folder named as source zip file>/.
      • Als dit selectievakje is uitgeschakeld, schrijft de service uitgepakte bestanden rechtstreeks naar <specified file path>. Zorg ervoor dat u geen dubbele bestandsnamen in verschillende zip-bronbestanden hebt om racen of onverwacht gedrag te voorkomen.

    Als u TarGzip/tar als compressietype selecteert, wordt de bestandsnaam van het compressiebestand behouden als map weergegeven onder Geavanceerde instellingen op het tabblad Bron.

    • Compressiebestandsnaam behouden als map: Hiermee wordt aangegeven of de gecomprimeerde bronbestandsnaam behouden moet blijven als mapstructuur tijdens het kopiëren.
      • Als dit selectievakje is ingeschakeld (standaard), schrijft de service gedecomprimeerde bestanden naar <specified file path>/<folder named as source compressed file>/.
      • Als dit selectievakje is uitgeschakeld, schrijft de service gedecomprimeerde bestanden rechtstreeks naar <specified file path>. Zorg ervoor dat u geen dubbele bestandsnamen in verschillende zip-bronbestanden hebt om racen of onverwacht gedrag te voorkomen.
  • Compressieniveau: Geef de compressieverhouding op wanneer u een compressietype selecteert. U kunt kiezen uit Optimale of Snelste.

    • Snelste: De compressiebewerking moet zo snel mogelijk worden voltooid, zelfs als het resulterende bestand niet optimaal is gecomprimeerd.
    • Optimaal: De compressiebewerking moet optimaal worden gecomprimeerd, zelfs als het langer duurt om de bewerking te voltooien. Zie het onderwerp Compressieniveau voor meer informatie.
  • Kolomscheidingsteken: de tekens die worden gebruikt om kolommen in een bestand te scheiden. De standaardwaarde is komma (,).

  • Rijscheidingsteken: geef het teken op dat wordt gebruikt om rijen in een bestand te scheiden. Er is slechts één teken toegestaan. De standaardwaarde is regelfeed \n.

  • Codering: het coderingstype dat wordt gebruikt voor het lezen/schrijven van testbestanden. De standaardwaarde is UTF-8.

  • Escape-teken: het enkele teken om aanhalingstekens binnen een aanhalingsteken tussen aanhalingstekens te plaatsen. De standaardwaarde is backslash\. Wanneer escapeteken is gedefinieerd als lege tekenreeks, moet het aanhalingsteken ook als lege tekenreeks worden ingesteld. In dat geval moet u ervoor zorgen dat alle kolomwaarden geen scheidingstekens bevatten.

  • Aanhalingsteken: Het enkele teken om kolomwaarden aan te geven als deze kolomscheidingsteken bevat. De standaardwaarde is dubbele aanhalingstekens". Wanneer aanhalingsteken is gedefinieerd als lege tekenreeks, betekent dit dat er geen aanhalingstekens en kolomwaarde niet aanhalingstekens zijn en dat escapeteken wordt gebruikt om het kolomscheidingsteken en zichzelf te ontsnappen.

  • Eerste rij als koptekst: Hiermee geeft u op of de eerste rij moet worden behandeld/als veldnamenregel met namen van kolommen. Toegestane waarden worden geselecteerd en niet geselecteerd (standaard). Wanneer de eerste rij als veldnamen niet is geselecteerd, worden kolomnamen automatisch gegenereerd als Prop_{n} (vanaf 0), vereist kopieeractiviteit expliciete toewijzing van bron naar bestemming en zoekt u kolommen op rangschikken (beginnend vanaf 1).

  • Null-waarde: hiermee geeft u de tekenreeksweergave van null-waarde op. De standaardwaarde is een lege tekenreeks.

Onder Geavanceerde instellingen op het tabblad Bron worden andere eigenschappen voor tekstindelingen met scheidingstekens weergegeven.

Tekstindeling met scheidingstekens als doel

Nadat u Instellingen hebt geselecteerd in de sectie Bestandsindeling, worden de volgende eigenschappen weergegeven in het dialoogvenster Instellingen voor bestandsindeling.

Schermopname van de instellingen voor de doelbestandsindeling.

  • Compressietype: de compressiecodec die wordt gebruikt voor het schrijven van tekstbestanden met scheidingstekens. U kunt kiezen uit None, bzip2, gzip, deflate, ZipDeflate, TarGzip of tar-type in de vervolgkeuzelijst.

  • Compressieniveau: Geef de compressieverhouding op wanneer u een compressietype selecteert. U kunt kiezen uit Optimale of Snelste.

    • Snelste: De compressiebewerking moet zo snel mogelijk worden voltooid, zelfs als het resulterende bestand niet optimaal is gecomprimeerd.
    • Optimaal: De compressiebewerking moet optimaal worden gecomprimeerd, zelfs als het langer duurt om de bewerking te voltooien. Zie het onderwerp Compressieniveau voor meer informatie.
  • Kolomscheidingsteken: de tekens die worden gebruikt om kolommen in een bestand te scheiden. De standaardwaarde is komma (,).

  • Rijscheidingsteken: het teken dat wordt gebruikt om rijen in een bestand te scheiden. Er is slechts één teken toegestaan. De standaardwaarde is regelfeed \n.

  • Codering: het coderingstype dat wordt gebruikt voor het schrijven van testbestanden. De standaardwaarde is UTF-8.

  • Escape-teken: het enkele teken om aanhalingstekens binnen een aanhalingsteken tussen aanhalingstekens te plaatsen. De standaardwaarde is backslash\. Wanneer escapeteken is gedefinieerd als lege tekenreeks, moet het aanhalingsteken ook als lege tekenreeks worden ingesteld. In dat geval moet u ervoor zorgen dat alle kolomwaarden geen scheidingstekens bevatten.

  • Aanhalingsteken: Het enkele teken om kolomwaarden aan te geven als deze kolomscheidingsteken bevat. De standaardwaarde is dubbele aanhalingstekens". Wanneer aanhalingsteken is gedefinieerd als lege tekenreeks, betekent dit dat er geen aanhalingstekens en kolomwaarde niet aanhalingstekens zijn en dat escapeteken wordt gebruikt om het kolomscheidingsteken en zichzelf te ontsnappen.

  • Eerste rij als koptekst: Hiermee geeft u op of de eerste rij moet worden behandeld/als veldnamenregel met namen van kolommen. Toegestane waarden worden geselecteerd en niet geselecteerd (standaard). Wanneer de eerste rij als veldnamen niet is geselecteerd, worden kolomnamen automatisch gegenereerd als Prop_{n} (vanaf 0), vereist kopieeractiviteit expliciete toewijzing van bron naar bestemming en zoekt u kolommen op rangschikken (beginnend vanaf 1).

  • Null-waarde: hiermee geeft u de tekenreeksweergave van null-waarde op. De standaardwaarde is een lege tekenreeks.

Onder Geavanceerde instellingen op het tabblad Bestemming worden de gerelateerde eigenschap voor tekstopmaak met scheidingstekens weergegeven.

  • Alle tekst aanhalingstekens aanhalingstekens: plaats alle waarden tussen aanhalingstekens.

  • Bestandsextensie: De bestandsextensie die wordt gebruikt om de uitvoerbestanden een naam te geven, .csvbijvoorbeeld , .txt.

  • Maximum aantal rijen per bestand: Bij het schrijven van gegevens in een map kunt u ervoor kiezen om naar meerdere bestanden te schrijven en de maximumrijen per bestand op te geven.

  • Bestandsnaamvoorvoegsel: van toepassing wanneer maximumrijen per bestand is geconfigureerd. Geef het voorvoegsel voor de bestandsnaam op bij het schrijven van gegevens naar meerdere bestanden, wat resulteert in dit patroon: <fileNamePrefix>_00000.<fileExtension> Als dit niet is opgegeven, wordt het voorvoegsel van de bestandsnaam automatisch gegenereerd. Deze eigenschap is niet van toepassing wanneer de bron bestandsopslag of partitieoptie ingeschakeld gegevensarchief is.

Tabelsamenvatting

Tekst met scheidingstekens als bron

De volgende eigenschappen worden ondersteund in de sectie Bron van kopieeractiviteit wanneer u de tekstindeling met scheidingstekens gebruikt.

Naam Beschrijving Weergegeven als Vereist JSON-scripteigenschap
 Bestandsindeling De bestandsindeling die u wilt gebruiken. DelimitedText Ja type (onder datasetSettings):
DelimitedText
Compressietype De compressiecodec die wordt gebruikt voor het lezen van tekstbestanden met scheidingstekens. Kies uit de volgende mogelijkheden:
Geen
bzip2
gzip
Deflate
ZipDeflate
TarGzip
teer
Nee type (onder compression):

bzip2
gzip
Deflate
ZipDeflate
TarGzip
teer
Zip-bestandsnaam behouden als map Hiermee wordt aangegeven of de naam van het zip-bronbestand moet worden bewaard als mapstructuur tijdens het kopiëren. Is van toepassing wanneer u ZipDeflate-compressie selecteert. Geselecteerd of selectie opheffen Nee preserveZipFileNameAsFolder
(onder compressionProperties->type als ZipDeflateReadSettings)
Compressiebestandsnaam behouden als map Geeft aan of de gecomprimeerde bronbestandsnaam behouden moet blijven als mapstructuur tijdens het kopiëren. Is van toepassing wanneer u TarGzip/tar-compressie selecteert. Geselecteerd of selectie opheffen Nee preserveCompressionFileNameAsFolder
(onder compressionProperties->type als TarGZipReadSettings of TarReadSettings)
Compressieniveau  De compressieverhouding. Toegestane waarden zijn Optimaal of Snelste. Optimaal of snelst Nee niveau (onder compression):
Snelst
Optimaal
Kolomscheidingsteken  De tekens die worden gebruikt om kolommen in een bestand te scheiden.  < het geselecteerde kolomscheidingsteken >
komma , (standaard)
Nee columnDelimiter
Rijscheidingsteken Het teken dat wordt gebruikt voor het scheiden van rijen in een bestand. < het geselecteerde rijscheidingsteken >
\r,\n (standaard) of r\n
Nee rowDelimiter
Codering Het coderingstype dat wordt gebruikt voor het lezen/schrijven van testbestanden. "UTF-8" (standaard),"UTF-8 zonder BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM869".70', 'IBM01140', 'IBM01141', 'IBM01142', 'IBM01143', 'IBM01144', 'IBM01145', 'IBM01146', 'IBM01147', 'IBM01148', 'IBM01149', "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-11253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nee encodingName
Escape-teken Het enkele teken om aanhalingstekens binnen een aanhalingstekens te ontsnappen. Wanneer escapeteken is gedefinieerd als lege tekenreeks, moet het aanhalingsteken ook als lege tekenreeks worden ingesteld. In dat geval moet u ervoor zorgen dat alle kolomwaarden geen scheidingstekens bevatten. < het geselecteerde escape-teken >
backslash \ (standaard)
Nee escapeChar
Aanhalingsteken Het enkele teken om kolomwaarden aan te geven als het kolomscheidingsteken bevat. Wanneer aanhalingsteken is gedefinieerd als lege tekenreeks, betekent dit dat er geen aanhalingstekens en kolomwaarde niet aanhalingstekens zijn en dat escapeteken wordt gebruikt om het kolomscheidingsteken en zichzelf te ontsnappen. < het geselecteerde aanhalingsteken >
dubbele aanhalingstekens " (standaard)
Nee quoteChar
Eerste rij als koptekst Hiermee geeft u op of de eerste rij in het opgegeven werkblad/bereik moet worden behandeld als koptekstregel met namen van kolommen. Geselecteerd of niet geselecteerd Nee firstRowAsHeader:
waar of onwaar (standaard)
Null-waarde Hiermee geeft u de tekenreeksweergave van null-waarde. De standaardwaarde is een lege tekenreeks. < de tekenreeksweergave van null-waarde >
lege tekenreeks (standaard)
Nee nullValue

Tekst met scheidingstekens als doel

De volgende eigenschappen worden ondersteund in de sectie Doel van de kopieeractiviteit wanneer u de tekstindeling met scheidingstekens gebruikt.

Naam Beschrijving Weergegeven als Vereist JSON-scripteigenschap
 Bestandsindeling De bestandsindeling die u wilt gebruiken. DelimitedText Ja type (onder datasetSettings):
DelimitedText
Compressietype De compressiecodec die wordt gebruikt voor het schrijven van tekstbestanden met scheidingstekens. Kies uit de volgende mogelijkheden:
Geen
bzip2
gzip
Deflate
ZipDeflate
TarGzip
teer
Nee type (onder compression):

bzip2
gzip
Deflate
ZipDeflate
TarGzip
teer
Zip-bestandsnaam behouden als map Hiermee wordt aangegeven of de naam van het zip-bronbestand moet worden bewaard als mapstructuur tijdens het kopiëren. Geselecteerd of selectie opheffen Nee preserveZipFileNameAsFolder
(onder compressionProperties->type als ZipDeflateReadSettings)
Compressiebestandsnaam behouden als map Geeft aan of de gecomprimeerde bronbestandsnaam behouden moet blijven als mapstructuur tijdens het kopiëren. Geselecteerd of selectie opheffen Nee preserveCompressionFileNameAsFolder
(onder compressionProperties->type als TarGZipReadSettings of TarReadSettings)
Compressieniveau  De compressieverhouding. Toegestane waarden zijn Optimaal of Snelste. Optimaal of snelst Nee niveau (onder compression):
Snelst
Optimaal
Kolomscheidingsteken  De tekens die worden gebruikt om kolommen in een bestand te scheiden.  < het geselecteerde kolomscheidingsteken >
komma , (standaard)
Nee columnDelimiter
Rijscheidingsteken Het teken dat wordt gebruikt voor het scheiden van rijen in een bestand. < het geselecteerde rijscheidingsteken >
\r,\n (standaard) of r\n
Nee rowDelimiter
Codering Het coderingstype dat wordt gebruikt voor het lezen/schrijven van testbestanden. "UTF-8" (standaard),"UTF-8 zonder BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM869".70', 'IBM01140', 'IBM01141', 'IBM01142', 'IBM01143', 'IBM01144', 'IBM01145', 'IBM01146', 'IBM01147', 'IBM01148', 'IBM01149', "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-11253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nee encodingName
Escape-teken Het enkele teken om aanhalingstekens binnen een aanhalingstekens te ontsnappen. Wanneer escapeteken is gedefinieerd als lege tekenreeks, moet het aanhalingsteken ook als lege tekenreeks worden ingesteld. In dat geval moet u ervoor zorgen dat alle kolomwaarden geen scheidingstekens bevatten. < het geselecteerde escape-teken >
backslash \ (standaard)
Nee escapeChar
Aanhalingsteken Het enkele teken om kolomwaarden aan te geven als het kolomscheidingsteken bevat. Wanneer aanhalingsteken is gedefinieerd als lege tekenreeks, betekent dit dat er geen aanhalingstekens en kolomwaarde niet aanhalingstekens zijn en dat escapeteken wordt gebruikt om het kolomscheidingsteken en zichzelf te ontsnappen. < het geselecteerde aanhalingsteken >
dubbele aanhalingstekens " (standaard)
Nee quoteChar
Eerste rij als koptekst Hiermee geeft u op of de eerste rij in het opgegeven werkblad/bereik moet worden behandeld als koptekstregel met namen van kolommen. Geselecteerd of niet geselecteerd Nee firstRowAsHeader:
waar of onwaar (standaard)
Alle tekst aanhalingstekens Plaats alle waarden tussen aanhalingstekens. Geselecteerd (standaard) of niet geselecteerd Nee quoteAllText:
waar (standaard) of onwaar
Bestandsextensie De bestandsextensie die wordt gebruikt om de uitvoerbestanden een naam te geven. < uw bestandsextensie >
.txt (standaard)
Nee fileExtension
Maximum aantal rijen per bestand Wanneer u gegevens in een map schrijft, kunt u ervoor kiezen om naar meerdere bestanden te schrijven en de maximumrijen per bestand op te geven. < uw maximum aantal rijen per bestand > Nee maxRowsPerFile
Bestandsnaamvoorvoegsel Van toepassing wanneer maximumrijen per bestand zijn geconfigureerd. Geef het voorvoegsel voor de bestandsnaam op bij het schrijven van gegevens naar meerdere bestanden, wat resulteert in dit patroon: <fileNamePrefix>_00000.<fileExtension> Als dit niet is opgegeven, wordt het voorvoegsel van de bestandsnaam automatisch gegenereerd. Deze eigenschap is niet van toepassing wanneer de bron bestandsopslag of partitieoptie ingeschakeld gegevensarchief is. < uw bestandsnaamvoorvoegsel > Nee fileNamePrefix