Textformat mit Trennzeichen in Data Factory in Microsoft Fabric

In diesem Artikel wird beschrieben, wie Sie das durch Trennzeichen getrennte Textformat in der Datenpipeline von Data Factory in Microsoft Fabric konfigurieren.

Wichtig

Microsoft Fabric befindet sich derzeit in der VORSCHAU. Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen. Weitere Informationen finden Sie in Azure Data Factory Dokumentation für den Dienst in Azure.

Unterstützte Funktionen

Das Durch Trennzeichen getrennte Textformat wird für die folgenden Aktivitäten und Connectors als Quelle und Ziel unterstützt.

Category Connector/Aktivität
Unterstützter Connector Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Unterstützte Aktivität Kopieraktivität
Lookup-Aktivität
GetMetadata-Aktivität
Delete activity

Durch Trennzeichen getrenntes Textformat in der Kopieraktivität

Um das Textformat mit Trennzeichen zu konfigurieren, wählen Sie ihre Verbindung in der Quelle oder dem Ziel der Kopieraktivität der Datenpipeline aus, und wählen Sie dann in der Dropdownliste Dateiformat die Option TrennzeichenText aus. Wählen Sie Einstellungen für die weitere Konfiguration dieses Formats aus.

Screenshot: Dateiformateinstellungen

Textformat mit Trennzeichen als Quelle

Nachdem Sie einstellungen im Abschnitt Dateiformat ausgewählt haben, werden die folgenden Eigenschaften im Popupdialogfeld Dateiformateinstellungen angezeigt.

Screenshot: Einstellungen für das Quelldateiformat.

  • Komprimierungstyp: Der Komprimierungscodec, der zum Lesen von durch Trennzeichen getrennten Textdateien verwendet wird. Sie können in der Dropdownliste zwischen None, bzip2, gzip, deflate, ZipDeflate, TarGzip oder tar type wählen.

    Wenn Sie ZipDeflate als Komprimierungstyp auswählen, wird zip-Dateiname als Ordner beibehalten unter Erweiterte Einstellungen auf der Registerkarte Quelle angezeigt.

    • Zip-Dateiname als Ordner beibehalten: Gibt an, ob der Name der QUELL-ZIP-Datei während des Kopiervorgangs als Ordnerstruktur beibehalten werden soll.
      • Wenn dieses Kontrollkästchen aktiviert ist (Standard), schreibt der Dienst entpackte Dateien in <specified file path>/<folder named as source zip file>/.
      • Wenn dieses Kontrollkästchen deaktiviert ist, schreibt der Dienst entzippte Dateien direkt in <specified file path>. Stellen Sie sicher, dass es in unterschiedlichen ZIP-Quelldateien keine doppelten Dateinamen gibt, um Racebedingungen oder unerwartetes Verhalten zu vermeiden.

    Wenn Sie TarGzip/tar als Komprimierungstyp auswählen, wird der Komprimierungsdateiname als Ordner beibehalten unter Erweiterte Einstellungen auf der Registerkarte Quelle angezeigt.

    • Komprimierungsdateiname als Ordner beibehalten: Gibt an, ob der komprimierte Quelldateiname während des Kopiervorgangs als Ordnerstruktur beibehalten werden soll.
      • Wenn dieses Kontrollkästchen aktiviert ist (Standard), schreibt der Dienst dekomprimierte Dateien in <specified file path>/<folder named as source compressed file>/.
      • Wenn dieses Kontrollkästchen deaktiviert ist, schreibt der Dienst dekomprimierte Dateien direkt in <specified file path>. Stellen Sie sicher, dass es in unterschiedlichen ZIP-Quelldateien keine doppelten Dateinamen gibt, um Racebedingungen oder unerwartetes Verhalten zu vermeiden.
  • Komprimierungsebene: Geben Sie das Komprimierungsverhältnis an, wenn Sie einen Komprimierungstyp auswählen. Sie können zwischen Optimal oder Schnellster wählen.

    • Am schnellsten: Der Komprimierungsvorgang sollte so schnell wie möglich abgeschlossen werden, auch wenn die resultierende Datei nicht optimal komprimiert ist.
    • Optimal: Die Daten sollten optimal komprimiert sein, auch wenn der Vorgang eine längere Zeit in Anspruch nimmt. Weitere Informationen finden Sie im Thema Komprimierungsgrad.
  • Spaltentrennzeichen: Die Zeichen, die zum Trennen von Spalten in einer Datei verwendet werden. Der Standardwert ist Komma (,).

  • Zeilentrennzeichen: Geben Sie das Zeichen an, das zum Trennen von Zeilen in einer Datei verwendet wird. Es ist nur ein Zeichen zulässig. Der Standardwert ist Zeilenvorschub \n.

  • Codierung: Der Codierungstyp, der zum Lesen/Schreiben von Testdateien verwendet wird. Der Standardwert ist UTF-8.

  • Escapezeichen: Das einzelne Zeichen, das Anführungszeichen innerhalb eines Werts in Anführungszeichen escapen soll. Der Standardwert ist umgekehrter Schrägstrich\. Wenn escapezeichen als leere Zeichenfolge definiert ist, muss das Anführungszeichen ebenfalls als leere Zeichenfolge festgelegt werden. Stellen Sie in diesem Fall sicher, dass alle Spaltenwerte keine Trennzeichen enthalten.

  • Anführungszeichen: Das einzelne Zeichen zum Anführungszeichen von Spaltenwerten, wenn es Spaltentrennzeichen enthält. Der Standardwert ist ein doppeltes Anführungszeichen". Wenn Anführungszeichen als leere Zeichenfolge definiert ist, bedeutet dies, dass kein Anführungszeichen vorhanden ist und der Spaltenwert nicht in Anführungszeichen gesetzt wird, und das Escapezeichen wird verwendet, um das Spaltentrennzeichen und sich selbst mit Escapezeichen zu versehen.

  • Erste Zeile als Kopfzeile: Gibt an, ob die erste Zeile als Kopfzeile mit Spaltennamen behandelt bzw. festgelegt werden soll. Zulässige Werte sind ausgewählt und nicht ausgewählt (Standard). Wenn die erste Zeile als Header nicht ausgewählt ist, beachten Sie, dass benutzeroberflächendatenvorschau und nachschlageaktivitätsausgabe Spaltennamen automatisch als Prop_{n} generieren (ab 0), die Kopieraktivität erfordert eine explizite Zuordnung von Quelle zu Ziel und sucht Spalten nach Ordnungszahl (ab 1).

  • NULL-Wert: Gibt die Zeichenfolgendarstellung des NULL-Werts an. Der Standardwert ist eine leere Zeichenfolge.

Unter Erweiterte Einstellungen auf der Registerkarte Quelle werden weitere durch Trennzeichen getrennte Textformateigenschaften angezeigt.

  • Zeilenanzahl überspringen: Gibt die Anzahl nicht leerer Zeilen an, die beim Lesen von Daten aus Eingabedateien übersprungen werden sollen. Wenn sowohl Zeilenanzahl überspringenals auch Erste Zeile als Kopfzeile angegeben sind, werden die Zeilen zuerst übersprungen, und dann werden die Headerinformationen aus der Eingabedatei gelesen.

Textformat mit Trennzeichen als Ziel

Nachdem Sie einstellungen im Abschnitt Dateiformat ausgewählt haben, werden die folgenden Eigenschaften im Popupdialogfeld Dateiformateinstellungen angezeigt.

Screenshot: Einstellungen für das Zieldateiformat

  • Komprimierungstyp: Der Komprimierungscodec, der zum Schreiben von durch Trennzeichen getrennten Textdateien verwendet wird. Sie können in der Dropdownliste zwischen None, bzip2, gzip, deflate, ZipDeflate, TarGzip oder tar type wählen.

  • Komprimierungsebene: Geben Sie das Komprimierungsverhältnis an, wenn Sie einen Komprimierungstyp auswählen. Sie können zwischen Optimal oder Schnellster wählen.

    • Am schnellsten: Der Komprimierungsvorgang sollte so schnell wie möglich abgeschlossen werden, auch wenn die resultierende Datei nicht optimal komprimiert ist.
    • Optimal: Die Daten sollten optimal komprimiert sein, auch wenn der Vorgang eine längere Zeit in Anspruch nimmt. Weitere Informationen finden Sie im Thema Komprimierungsgrad.
  • Spaltentrennzeichen: Die Zeichen, die zum Trennen von Spalten in einer Datei verwendet werden. Der Standardwert ist Komma (,).

  • Zeilentrennzeichen: Das Zeichen, das zum Trennen von Zeilen in einer Datei verwendet wird. Es ist nur ein Zeichen zulässig. Der Standardwert ist Zeilenvorschub \n.

  • Codierung: Der Codierungstyp, der zum Schreiben von Testdateien verwendet wird. Der Standardwert ist UTF-8.

  • Escapezeichen: Das einzelne Zeichen, das Anführungszeichen innerhalb eines Werts in Anführungszeichen escapen soll. Der Standardwert ist umgekehrter Schrägstrich\. Wenn escapezeichen als leere Zeichenfolge definiert ist, muss das Anführungszeichen ebenfalls als leere Zeichenfolge festgelegt werden. Stellen Sie in diesem Fall sicher, dass alle Spaltenwerte keine Trennzeichen enthalten.

  • Anführungszeichen: Das einzelne Zeichen zum Anführungszeichen von Spaltenwerten, wenn es Spaltentrennzeichen enthält. Der Standardwert ist ein doppeltes Anführungszeichen". Wenn Anführungszeichen als leere Zeichenfolge definiert ist, bedeutet dies, dass kein Anführungszeichen vorhanden ist und der Spaltenwert nicht in Anführungszeichen gesetzt wird, und das Escapezeichen wird verwendet, um das Spaltentrennzeichen und sich selbst mit Escapezeichen zu versehen.

  • Erste Zeile als Kopfzeile: Gibt an, ob die erste Zeile als Kopfzeile mit Spaltennamen behandelt bzw. festgelegt werden soll. Zulässige Werte sind ausgewählt und nicht ausgewählt (Standard). Wenn die erste Zeile als Header nicht ausgewählt ist, beachten Sie, dass benutzeroberflächendatenvorschau und nachschlageaktivitätsausgabe Spaltennamen automatisch als Prop_{n} generieren (ab 0), die Kopieraktivität erfordert eine explizite Zuordnung von Quelle zu Ziel und sucht Spalten nach Ordnungszahl (ab 1).

  • NULL-Wert: Gibt die Zeichenfolgendarstellung des NULL-Werts an. Der Standardwert ist eine leere Zeichenfolge.

Unter Erweiterte Einstellungen auf der Registerkarte Ziel werden weitere durch Trennzeichen getrennte Textformateigenschaften angezeigt.

  • Anführungszeichen: Schließen Sie alle Werte in Anführungszeichen ein.

  • Dateierweiterung: Die Dateierweiterung, die zum Benennen der Ausgabedateien verwendet wird, .csvz. B. , .txt.

  • Max. Zeilen pro Datei: Wenn Sie Daten in einen Ordner schreiben, können Sie in mehrere Dateien schreiben und die maximale Anzahl von Zeilen pro Datei angeben.

  • Dateinamepräfix: Gilt, wenn max. Zeilen pro Datei konfiguriert sind. Geben Sie das Dateinamenpräfix beim Schreiben von Daten in mehrere Dateien an, das zu diesem Muster führt: <fileNamePrefix>_00000.<fileExtension>. Wenn keine Angabe erfolgt, wird das Dateinamenpräfix automatisch generiert. Diese Eigenschaft gilt nicht, wenn die Quelle einen dateibasierten Datenspeicher oder einen aktivierten Datenspeicher für Partitionen ist.

Tabellenzusammenfassung

Durch Trennzeichen getrennter Text als Quelle

Die folgenden Eigenschaften werden im Abschnitt Quelle der Kopieraktivität unterstützt, wenn das Textformat mit Trennzeichen verwendet wird.

Name BESCHREIBUNG Wert Erforderlich JSON-Skripteigenschaft
 Dateiformat Das Dateiformat, das Sie verwenden möchten. DelimitedText Yes type (unter datasetSettings):
DelimitedText
Komprimierungstyp Der Komprimierungscodec, der zum Lesen von durch Trennzeichen getrennten Textdateien verwendet wird. Folgende Optionen stehen zur Auswahl:
None
BZIP2
Gzip
Deflate
ZipDeflate
TarGzip
Tar
No type (unter compression):

BZIP2
gzip
Deflate
ZipDeflate
TarGzip
tar
Zip-Dateiname als Ordner beibehalten Sie gibt an, ob der Name der ZIP-Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll. Gilt, wenn Sie ZipDeflate-Komprimierung auswählen. Auswahl oder Aufheben der Auswahl Nein preserveZipFileNameAsFolder
(unter compressionProperties->type als ZipDeflateReadSettings)
Komprimierungsdateiname als Ordner beibehalten Gibt an, ob der Name der komprimierten Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll. Gilt, wenn Sie TarGzip/ tar-Komprimierung auswählen. Auswahl oder Aufheben der Auswahl Nein preserveCompressionFileNameAsFolder
(unter compressionProperties->type als TarGZipReadSettings oder TarReadSettings)
Komprimierungsgrad  Das Komprimierungsverhältnis. Zulässige Werte sind Optimal oder Sehr schnell. Optimal oder schnellste No level (unter compression):
Sehr schnell
Optimal
Spaltentrennzeichen  Das Zeichen, das in einer Datei zum Trennen von Spalten verwendet wird.  < das ausgewählte Spaltentrennzeichen >
Komma, (standardmäßig)
No columnDelimiter
Zeilentrennzeichen Das Zeichen, das zum Trennen von Zeilen in einer Datei verwendet wird. < das ausgewählte Zeilentrennzeichen >
\r,\n (standardmäßig) oder r\n
Nein rowDelimiter
Codieren Der zu Lesen/Schreiben von Testdateien verwendete Codierungstyp. "UTF-8" (standardmäßig),"UTF-8 ohne BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140" ", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nein encodingName
Escapezeichen Das einzelne Zeichen zum Escapen von Anführungszeichen innerhalb eines mit Anführungszeichen versehenen Wertes. Wenn escapezeichen als leere Zeichenfolge definiert ist, muss das Anführungszeichen ebenfalls als leere Zeichenfolge festgelegt werden. Stellen Sie in diesem Fall sicher, dass alle Spaltenwerte keine Trennzeichen enthalten. < ausgewähltes Escapezeichen >
Backslash\ (standardmäßig)
Nein escapeChar
Anführungszeichen Das einzelne Zeichen, um Spaltenwerte mit Anführungszeichen zu versehen, wenn es ein Spaltentrennzeichen enthält. Wenn Anführungszeichen als leere Zeichenfolge definiert ist, bedeutet dies, dass kein Anführungszeichen vorhanden ist und der Spaltenwert nicht in Anführungszeichen gesetzt wird, und das Escapezeichen wird verwendet, um das Spaltentrennzeichen und sich selbst mit Escapezeichen zu versehen. < Ausgewähltes Anführungszeichen >
doppelte Anführungszeichen" (standardmäßig)
Nein quoteChar
Erste Zeile als Kopfzeile Gibt an, ob die erste Zeile des jeweiligen Arbeitsblatts bzw. Bereichs als Headerzeile mit den Namen der Spalten behandelt werden soll. Ausgewählt oder nicht ausgewählt No firstRowAsHeader:
true oder false (Standard)
NULL-Wert Gibt eine Zeichenfolgendarstellung von Null-Werten an. Der Standardwert ist eine leere Zeichenfolge. < die Zeichenfolgendarstellung des NULL-Werts >
leere Zeichenfolge (standardmäßig)
Nein nullValue
Anzahl der Zeilen überspringen Gibt die Anzahl der nicht leeren Zeilen an, die beim Lesen von Daten aus Eingabedateien übersprungen werden sollen. Wenn sowohl Zeilenanzahlüberspringen als auch Erste Zeile als Header angegeben werden, werden die Zeilen zuerst übersprungen, und dann werden die Headerinformationen aus der Eingabedatei gelesen. < Ihre Anzahl von Skip-Line-Zählern > Nein skipLineCount

Text mit Trennzeichen als Ziel

Die folgenden Eigenschaften werden im Abschnitt Ziel der Kopieraktivität unterstützt, wenn sie ein durch Trennzeichen getrenntes Textformat verwenden.

Name BESCHREIBUNG Wert Erforderlich JSON-Skripteigenschaft
 Dateiformat Das Dateiformat, das Sie verwenden möchten. TrennzeichenText Yes geben Sie ein (unter datasetSettings):
DelimitedText
Komprimierungstyp Der Komprimierungscodec, der zum Schreiben von Textdateien mit Trennzeichen verwendet wird. Folgende Optionen stehen zur Auswahl:
None
BZIP2
Gzip
Deflate
ZipDeflate
TarGzip
Tar
No geben Sie ein (unter compression):

BZIP2
gzip
Deflate
ZipDeflate
TarGzip
tar
Zip-Dateiname als Ordner beibehalten Sie gibt an, ob der Name der ZIP-Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll. Auswählen oder Aufheben der Auswahl Nein preserveZipFileNameAsFolder
(unter compressionProperties->type als ZipDeflateReadSettings)
Beibehalten des Komprimierungsdateinamens als Ordner Gibt an, ob der Name der komprimierten Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll. Auswählen oder Aufheben der Auswahl Nein preserveCompressionFileNameAsFolder
(unter compressionProperties->type als TarGZipReadSettings oder TarReadSettings)
Komprimierungsgrad  Das Komprimierungsverhältnis. Zulässige Werte sind Optimal oder Sehr schnell. Optimal oder schnellste No Ebene (unter compression):
Sehr schnell
Optimal
Spaltentrennzeichen  Das Zeichen, das in einer Datei zum Trennen von Spalten verwendet wird.  < das ausgewählte Spaltentrennzeichen >
Komma , (standardmäßig)
No columnDelimiter
Zeilentrennzeichen Das Zeichen, das zum Trennen von Zeilen in einer Datei verwendet wird. < das ausgewählte Zeilentrennzeichen >
\r,\n (standardmäßig) oder r\n
Nein rowDelimiter
Codieren Der zu Lesen/Schreiben von Testdateien verwendete Codierungstyp. "UTF-8" (standardmäßig),"UTF-8 ohne BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140" ", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nein encodingName
Escapezeichen Das einzelne Zeichen zum Escapen von Anführungszeichen innerhalb eines mit Anführungszeichen versehenen Wertes. Wenn das Escapezeichen als leere Zeichenfolge definiert ist, muss auch das Anführungszeichen als leere Zeichenfolge festgelegt werden. Stellen Sie in diesem Fall sicher, dass alle Spaltenwerte keine Trennzeichen enthalten. < Ihr ausgewähltes Escapezeichen >
Backslash\ (standardmäßig)
Nein escapeChar
Anführungszeichen Das einzelne Zeichen, um Spaltenwerte mit Anführungszeichen zu versehen, wenn es ein Spaltentrennzeichen enthält. Wenn Das Anführungszeichen als leere Zeichenfolge definiert ist, bedeutet dies, dass kein Anführungszeichen vorhanden ist und der Spaltenwert nicht in Anführungszeichen angegeben ist, und das Escapezeichen wird verwendet, um das Spaltentrennzeichen und sich selbst zu escapen. < Ihr ausgewähltes Anführungszeichen >
Doppelte Anführungszeichen" (standardmäßig)
Nein quoteChar
Erste Zeile als Kopfzeile Gibt an, ob die erste Zeile des jeweiligen Arbeitsblatts bzw. Bereichs als Headerzeile mit den Namen der Spalten behandelt werden soll. Ausgewählt oder nicht ausgewählt No firstRowAsHeader:
true oder false (Standard)
Anführungszeichen für alle Texte Schließen Sie alle Werte in Anführungszeichen ein. Ausgewählt (Standard) oder nicht ausgewählt No quoteAllText:
true (Standard) oder false
Dateierweiterung Die Dateierweiterung, die zum Benennen der Ausgabedateien verwendet wird. < Ihre Dateierweiterung >
.txt (standardmäßig)
No fileExtension
Max. Zeilen pro Datei Wenn Sie Daten in einen Ordner schreiben, können Sie in mehrere Dateien zu schreiben und die maximale Anzahl von Zeilen pro Datei angeben. < Maximale Anzahl von Zeilen pro Datei > No maxRowsPerFile
Dateinamenpräfix Anwendbar, wenn max. Zeilen pro Datei konfiguriert sind. Geben Sie das Dateinamenpräfix beim Schreiben von Daten in mehrere Dateien an, das zu diesem Muster führt: <fileNamePrefix>_00000.<fileExtension>. Wenn keine Angabe erfolgt, wird das Dateinamenpräfix automatisch generiert. Diese Eigenschaft gilt nicht, wenn die Quelle einen dateibasierten Datenspeicher oder einen aktivierten Datenspeicher für Partitionen ist. < Ihr Dateinamenpräfix > Nein fileNamePrefix

Nächste Schritte

Übersicht über Connectors