Textformat mit Trennzeichen in Data Factory in Microsoft Fabric
In diesem Artikel wird beschrieben, wie Sie das durch Trennzeichen getrennte Textformat in der Datenpipeline von Data Factory in Microsoft Fabric konfigurieren.
Wichtig
Microsoft Fabric befindet sich derzeit in der VORSCHAU. Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen. Weitere Informationen finden Sie in Azure Data Factory Dokumentation für den Dienst in Azure.
Unterstützte Funktionen
Das Durch Trennzeichen getrennte Textformat wird für die folgenden Aktivitäten und Connectors als Quelle und Ziel unterstützt.
Category | Connector/Aktivität |
---|---|
Unterstützter Connector | Amazon S3 |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Google Cloud Storage | |
HTTP | |
Unterstützte Aktivität | Kopieraktivität |
Lookup-Aktivität | |
GetMetadata-Aktivität | |
Delete activity |
Durch Trennzeichen getrenntes Textformat in der Kopieraktivität
Um das Textformat mit Trennzeichen zu konfigurieren, wählen Sie ihre Verbindung in der Quelle oder dem Ziel der Kopieraktivität der Datenpipeline aus, und wählen Sie dann in der Dropdownliste Dateiformat die Option TrennzeichenText aus. Wählen Sie Einstellungen für die weitere Konfiguration dieses Formats aus.
Textformat mit Trennzeichen als Quelle
Nachdem Sie einstellungen im Abschnitt Dateiformat ausgewählt haben, werden die folgenden Eigenschaften im Popupdialogfeld Dateiformateinstellungen angezeigt.
Komprimierungstyp: Der Komprimierungscodec, der zum Lesen von durch Trennzeichen getrennten Textdateien verwendet wird. Sie können in der Dropdownliste zwischen None, bzip2, gzip, deflate, ZipDeflate, TarGzip oder tar type wählen.
Wenn Sie ZipDeflate als Komprimierungstyp auswählen, wird zip-Dateiname als Ordner beibehalten unter Erweiterte Einstellungen auf der Registerkarte Quelle angezeigt.
- Zip-Dateiname als Ordner beibehalten: Gibt an, ob der Name der QUELL-ZIP-Datei während des Kopiervorgangs als Ordnerstruktur beibehalten werden soll.
- Wenn dieses Kontrollkästchen aktiviert ist (Standard), schreibt der Dienst entpackte Dateien in
<specified file path>/<folder named as source zip file>/
. - Wenn dieses Kontrollkästchen deaktiviert ist, schreibt der Dienst entzippte Dateien direkt in
<specified file path>
. Stellen Sie sicher, dass es in unterschiedlichen ZIP-Quelldateien keine doppelten Dateinamen gibt, um Racebedingungen oder unerwartetes Verhalten zu vermeiden.
- Wenn dieses Kontrollkästchen aktiviert ist (Standard), schreibt der Dienst entpackte Dateien in
Wenn Sie TarGzip/tar als Komprimierungstyp auswählen, wird der Komprimierungsdateiname als Ordner beibehalten unter Erweiterte Einstellungen auf der Registerkarte Quelle angezeigt.
- Komprimierungsdateiname als Ordner beibehalten: Gibt an, ob der komprimierte Quelldateiname während des Kopiervorgangs als Ordnerstruktur beibehalten werden soll.
- Wenn dieses Kontrollkästchen aktiviert ist (Standard), schreibt der Dienst dekomprimierte Dateien in
<specified file path>/<folder named as source compressed file>/
. - Wenn dieses Kontrollkästchen deaktiviert ist, schreibt der Dienst dekomprimierte Dateien direkt in
<specified file path>
. Stellen Sie sicher, dass es in unterschiedlichen ZIP-Quelldateien keine doppelten Dateinamen gibt, um Racebedingungen oder unerwartetes Verhalten zu vermeiden.
- Wenn dieses Kontrollkästchen aktiviert ist (Standard), schreibt der Dienst dekomprimierte Dateien in
- Zip-Dateiname als Ordner beibehalten: Gibt an, ob der Name der QUELL-ZIP-Datei während des Kopiervorgangs als Ordnerstruktur beibehalten werden soll.
Komprimierungsebene: Geben Sie das Komprimierungsverhältnis an, wenn Sie einen Komprimierungstyp auswählen. Sie können zwischen Optimal oder Schnellster wählen.
- Am schnellsten: Der Komprimierungsvorgang sollte so schnell wie möglich abgeschlossen werden, auch wenn die resultierende Datei nicht optimal komprimiert ist.
- Optimal: Die Daten sollten optimal komprimiert sein, auch wenn der Vorgang eine längere Zeit in Anspruch nimmt. Weitere Informationen finden Sie im Thema Komprimierungsgrad.
Spaltentrennzeichen: Die Zeichen, die zum Trennen von Spalten in einer Datei verwendet werden. Der Standardwert ist Komma (
,
).Zeilentrennzeichen: Geben Sie das Zeichen an, das zum Trennen von Zeilen in einer Datei verwendet wird. Es ist nur ein Zeichen zulässig. Der Standardwert ist Zeilenvorschub
\n
.Codierung: Der Codierungstyp, der zum Lesen/Schreiben von Testdateien verwendet wird. Der Standardwert ist UTF-8.
Escapezeichen: Das einzelne Zeichen, das Anführungszeichen innerhalb eines Werts in Anführungszeichen escapen soll. Der Standardwert ist umgekehrter Schrägstrich
\
. Wenn escapezeichen als leere Zeichenfolge definiert ist, muss das Anführungszeichen ebenfalls als leere Zeichenfolge festgelegt werden. Stellen Sie in diesem Fall sicher, dass alle Spaltenwerte keine Trennzeichen enthalten.Anführungszeichen: Das einzelne Zeichen zum Anführungszeichen von Spaltenwerten, wenn es Spaltentrennzeichen enthält. Der Standardwert ist ein doppeltes Anführungszeichen
"
. Wenn Anführungszeichen als leere Zeichenfolge definiert ist, bedeutet dies, dass kein Anführungszeichen vorhanden ist und der Spaltenwert nicht in Anführungszeichen gesetzt wird, und das Escapezeichen wird verwendet, um das Spaltentrennzeichen und sich selbst mit Escapezeichen zu versehen.Erste Zeile als Kopfzeile: Gibt an, ob die erste Zeile als Kopfzeile mit Spaltennamen behandelt bzw. festgelegt werden soll. Zulässige Werte sind ausgewählt und nicht ausgewählt (Standard). Wenn die erste Zeile als Header nicht ausgewählt ist, beachten Sie, dass benutzeroberflächendatenvorschau und nachschlageaktivitätsausgabe Spaltennamen automatisch als Prop_{n} generieren (ab 0), die Kopieraktivität erfordert eine explizite Zuordnung von Quelle zu Ziel und sucht Spalten nach Ordnungszahl (ab 1).
NULL-Wert: Gibt die Zeichenfolgendarstellung des NULL-Werts an. Der Standardwert ist eine leere Zeichenfolge.
Unter Erweiterte Einstellungen auf der Registerkarte Quelle werden weitere durch Trennzeichen getrennte Textformateigenschaften angezeigt.
- Zeilenanzahl überspringen: Gibt die Anzahl nicht leerer Zeilen an, die beim Lesen von Daten aus Eingabedateien übersprungen werden sollen. Wenn sowohl Zeilenanzahl überspringenals auch Erste Zeile als Kopfzeile angegeben sind, werden die Zeilen zuerst übersprungen, und dann werden die Headerinformationen aus der Eingabedatei gelesen.
Textformat mit Trennzeichen als Ziel
Nachdem Sie einstellungen im Abschnitt Dateiformat ausgewählt haben, werden die folgenden Eigenschaften im Popupdialogfeld Dateiformateinstellungen angezeigt.
Komprimierungstyp: Der Komprimierungscodec, der zum Schreiben von durch Trennzeichen getrennten Textdateien verwendet wird. Sie können in der Dropdownliste zwischen None, bzip2, gzip, deflate, ZipDeflate, TarGzip oder tar type wählen.
Komprimierungsebene: Geben Sie das Komprimierungsverhältnis an, wenn Sie einen Komprimierungstyp auswählen. Sie können zwischen Optimal oder Schnellster wählen.
- Am schnellsten: Der Komprimierungsvorgang sollte so schnell wie möglich abgeschlossen werden, auch wenn die resultierende Datei nicht optimal komprimiert ist.
- Optimal: Die Daten sollten optimal komprimiert sein, auch wenn der Vorgang eine längere Zeit in Anspruch nimmt. Weitere Informationen finden Sie im Thema Komprimierungsgrad.
Spaltentrennzeichen: Die Zeichen, die zum Trennen von Spalten in einer Datei verwendet werden. Der Standardwert ist Komma (
,
).Zeilentrennzeichen: Das Zeichen, das zum Trennen von Zeilen in einer Datei verwendet wird. Es ist nur ein Zeichen zulässig. Der Standardwert ist Zeilenvorschub
\n
.Codierung: Der Codierungstyp, der zum Schreiben von Testdateien verwendet wird. Der Standardwert ist UTF-8.
Escapezeichen: Das einzelne Zeichen, das Anführungszeichen innerhalb eines Werts in Anführungszeichen escapen soll. Der Standardwert ist umgekehrter Schrägstrich
\
. Wenn escapezeichen als leere Zeichenfolge definiert ist, muss das Anführungszeichen ebenfalls als leere Zeichenfolge festgelegt werden. Stellen Sie in diesem Fall sicher, dass alle Spaltenwerte keine Trennzeichen enthalten.Anführungszeichen: Das einzelne Zeichen zum Anführungszeichen von Spaltenwerten, wenn es Spaltentrennzeichen enthält. Der Standardwert ist ein doppeltes Anführungszeichen
"
. Wenn Anführungszeichen als leere Zeichenfolge definiert ist, bedeutet dies, dass kein Anführungszeichen vorhanden ist und der Spaltenwert nicht in Anführungszeichen gesetzt wird, und das Escapezeichen wird verwendet, um das Spaltentrennzeichen und sich selbst mit Escapezeichen zu versehen.Erste Zeile als Kopfzeile: Gibt an, ob die erste Zeile als Kopfzeile mit Spaltennamen behandelt bzw. festgelegt werden soll. Zulässige Werte sind ausgewählt und nicht ausgewählt (Standard). Wenn die erste Zeile als Header nicht ausgewählt ist, beachten Sie, dass benutzeroberflächendatenvorschau und nachschlageaktivitätsausgabe Spaltennamen automatisch als Prop_{n} generieren (ab 0), die Kopieraktivität erfordert eine explizite Zuordnung von Quelle zu Ziel und sucht Spalten nach Ordnungszahl (ab 1).
NULL-Wert: Gibt die Zeichenfolgendarstellung des NULL-Werts an. Der Standardwert ist eine leere Zeichenfolge.
Unter Erweiterte Einstellungen auf der Registerkarte Ziel werden weitere durch Trennzeichen getrennte Textformateigenschaften angezeigt.
Anführungszeichen: Schließen Sie alle Werte in Anführungszeichen ein.
Dateierweiterung: Die Dateierweiterung, die zum Benennen der Ausgabedateien verwendet wird,
.csv
z. B. ,.txt
.Max. Zeilen pro Datei: Wenn Sie Daten in einen Ordner schreiben, können Sie in mehrere Dateien schreiben und die maximale Anzahl von Zeilen pro Datei angeben.
Dateinamepräfix: Gilt, wenn max. Zeilen pro Datei konfiguriert sind. Geben Sie das Dateinamenpräfix beim Schreiben von Daten in mehrere Dateien an, das zu diesem Muster führt:
<fileNamePrefix>_00000.<fileExtension>
. Wenn keine Angabe erfolgt, wird das Dateinamenpräfix automatisch generiert. Diese Eigenschaft gilt nicht, wenn die Quelle einen dateibasierten Datenspeicher oder einen aktivierten Datenspeicher für Partitionen ist.
Tabellenzusammenfassung
Durch Trennzeichen getrennter Text als Quelle
Die folgenden Eigenschaften werden im Abschnitt Quelle der Kopieraktivität unterstützt, wenn das Textformat mit Trennzeichen verwendet wird.
Name | BESCHREIBUNG | Wert | Erforderlich | JSON-Skripteigenschaft |
---|---|---|---|---|
Dateiformat | Das Dateiformat, das Sie verwenden möchten. | DelimitedText | Yes | type (unter datasetSettings ):DelimitedText |
Komprimierungstyp | Der Komprimierungscodec, der zum Lesen von durch Trennzeichen getrennten Textdateien verwendet wird. | Folgende Optionen stehen zur Auswahl: None BZIP2 Gzip Deflate ZipDeflate TarGzip Tar |
No | type (unter compression ):BZIP2 gzip Deflate ZipDeflate TarGzip tar |
Zip-Dateiname als Ordner beibehalten | Sie gibt an, ob der Name der ZIP-Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll. Gilt, wenn Sie ZipDeflate-Komprimierung auswählen. | Auswahl oder Aufheben der Auswahl | Nein | preserveZipFileNameAsFolder (unter compressionProperties ->type als ZipDeflateReadSettings ) |
Komprimierungsdateiname als Ordner beibehalten | Gibt an, ob der Name der komprimierten Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll. Gilt, wenn Sie TarGzip/ tar-Komprimierung auswählen. | Auswahl oder Aufheben der Auswahl | Nein | preserveCompressionFileNameAsFolder (unter compressionProperties ->type als TarGZipReadSettings oder TarReadSettings ) |
Komprimierungsgrad | Das Komprimierungsverhältnis. Zulässige Werte sind Optimal oder Sehr schnell. | Optimal oder schnellste | No | level (unter compression ):Sehr schnell Optimal |
Spaltentrennzeichen | Das Zeichen, das in einer Datei zum Trennen von Spalten verwendet wird. | < das ausgewählte Spaltentrennzeichen > Komma , (standardmäßig) |
No | columnDelimiter |
Zeilentrennzeichen | Das Zeichen, das zum Trennen von Zeilen in einer Datei verwendet wird. | < das ausgewählte Zeilentrennzeichen > \r ,\n (standardmäßig) oder r\n |
Nein | rowDelimiter |
Codieren | Der zu Lesen/Schreiben von Testdateien verwendete Codierungstyp. | "UTF-8" (standardmäßig),"UTF-8 ohne BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140" ", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nein | encodingName |
Escapezeichen | Das einzelne Zeichen zum Escapen von Anführungszeichen innerhalb eines mit Anführungszeichen versehenen Wertes. Wenn escapezeichen als leere Zeichenfolge definiert ist, muss das Anführungszeichen ebenfalls als leere Zeichenfolge festgelegt werden. Stellen Sie in diesem Fall sicher, dass alle Spaltenwerte keine Trennzeichen enthalten. | < ausgewähltes Escapezeichen > Backslash \ (standardmäßig) |
Nein | escapeChar |
Anführungszeichen | Das einzelne Zeichen, um Spaltenwerte mit Anführungszeichen zu versehen, wenn es ein Spaltentrennzeichen enthält. Wenn Anführungszeichen als leere Zeichenfolge definiert ist, bedeutet dies, dass kein Anführungszeichen vorhanden ist und der Spaltenwert nicht in Anführungszeichen gesetzt wird, und das Escapezeichen wird verwendet, um das Spaltentrennzeichen und sich selbst mit Escapezeichen zu versehen. | < Ausgewähltes Anführungszeichen > doppelte Anführungszeichen " (standardmäßig) |
Nein | quoteChar |
Erste Zeile als Kopfzeile | Gibt an, ob die erste Zeile des jeweiligen Arbeitsblatts bzw. Bereichs als Headerzeile mit den Namen der Spalten behandelt werden soll. | Ausgewählt oder nicht ausgewählt | No | firstRowAsHeader: true oder false (Standard) |
NULL-Wert | Gibt eine Zeichenfolgendarstellung von Null-Werten an. Der Standardwert ist eine leere Zeichenfolge. | < die Zeichenfolgendarstellung des NULL-Werts > leere Zeichenfolge (standardmäßig) |
Nein | nullValue |
Anzahl der Zeilen überspringen | Gibt die Anzahl der nicht leeren Zeilen an, die beim Lesen von Daten aus Eingabedateien übersprungen werden sollen. Wenn sowohl Zeilenanzahlüberspringen als auch Erste Zeile als Header angegeben werden, werden die Zeilen zuerst übersprungen, und dann werden die Headerinformationen aus der Eingabedatei gelesen. | < Ihre Anzahl von Skip-Line-Zählern > | Nein | skipLineCount |
Text mit Trennzeichen als Ziel
Die folgenden Eigenschaften werden im Abschnitt Ziel der Kopieraktivität unterstützt, wenn sie ein durch Trennzeichen getrenntes Textformat verwenden.
Name | BESCHREIBUNG | Wert | Erforderlich | JSON-Skripteigenschaft |
---|---|---|---|---|
Dateiformat | Das Dateiformat, das Sie verwenden möchten. | TrennzeichenText | Yes | geben Sie ein (unter datasetSettings ):DelimitedText |
Komprimierungstyp | Der Komprimierungscodec, der zum Schreiben von Textdateien mit Trennzeichen verwendet wird. | Folgende Optionen stehen zur Auswahl: None BZIP2 Gzip Deflate ZipDeflate TarGzip Tar |
No | geben Sie ein (unter compression ):BZIP2 gzip Deflate ZipDeflate TarGzip tar |
Zip-Dateiname als Ordner beibehalten | Sie gibt an, ob der Name der ZIP-Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll. | Auswählen oder Aufheben der Auswahl | Nein | preserveZipFileNameAsFolder (unter compressionProperties ->type als ZipDeflateReadSettings ) |
Beibehalten des Komprimierungsdateinamens als Ordner | Gibt an, ob der Name der komprimierten Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll. | Auswählen oder Aufheben der Auswahl | Nein | preserveCompressionFileNameAsFolder (unter compressionProperties ->type als TarGZipReadSettings oder TarReadSettings ) |
Komprimierungsgrad | Das Komprimierungsverhältnis. Zulässige Werte sind Optimal oder Sehr schnell. | Optimal oder schnellste | No | Ebene (unter compression ):Sehr schnell Optimal |
Spaltentrennzeichen | Das Zeichen, das in einer Datei zum Trennen von Spalten verwendet wird. | < das ausgewählte Spaltentrennzeichen > Komma , (standardmäßig) |
No | columnDelimiter |
Zeilentrennzeichen | Das Zeichen, das zum Trennen von Zeilen in einer Datei verwendet wird. | < das ausgewählte Zeilentrennzeichen > \r ,\n (standardmäßig) oder r\n |
Nein | rowDelimiter |
Codieren | Der zu Lesen/Schreiben von Testdateien verwendete Codierungstyp. | "UTF-8" (standardmäßig),"UTF-8 ohne BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140" ", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Nein | encodingName |
Escapezeichen | Das einzelne Zeichen zum Escapen von Anführungszeichen innerhalb eines mit Anführungszeichen versehenen Wertes. Wenn das Escapezeichen als leere Zeichenfolge definiert ist, muss auch das Anführungszeichen als leere Zeichenfolge festgelegt werden. Stellen Sie in diesem Fall sicher, dass alle Spaltenwerte keine Trennzeichen enthalten. | < Ihr ausgewähltes Escapezeichen > Backslash \ (standardmäßig) |
Nein | escapeChar |
Anführungszeichen | Das einzelne Zeichen, um Spaltenwerte mit Anführungszeichen zu versehen, wenn es ein Spaltentrennzeichen enthält. Wenn Das Anführungszeichen als leere Zeichenfolge definiert ist, bedeutet dies, dass kein Anführungszeichen vorhanden ist und der Spaltenwert nicht in Anführungszeichen angegeben ist, und das Escapezeichen wird verwendet, um das Spaltentrennzeichen und sich selbst zu escapen. | < Ihr ausgewähltes Anführungszeichen > Doppelte Anführungszeichen " (standardmäßig) |
Nein | quoteChar |
Erste Zeile als Kopfzeile | Gibt an, ob die erste Zeile des jeweiligen Arbeitsblatts bzw. Bereichs als Headerzeile mit den Namen der Spalten behandelt werden soll. | Ausgewählt oder nicht ausgewählt | No | firstRowAsHeader: true oder false (Standard) |
Anführungszeichen für alle Texte | Schließen Sie alle Werte in Anführungszeichen ein. | Ausgewählt (Standard) oder nicht ausgewählt | No | quoteAllText: true (Standard) oder false |
Dateierweiterung | Die Dateierweiterung, die zum Benennen der Ausgabedateien verwendet wird. | < Ihre Dateierweiterung > .txt (standardmäßig) |
No | fileExtension |
Max. Zeilen pro Datei | Wenn Sie Daten in einen Ordner schreiben, können Sie in mehrere Dateien zu schreiben und die maximale Anzahl von Zeilen pro Datei angeben. | < Maximale Anzahl von Zeilen pro Datei > | No | maxRowsPerFile |
Dateinamenpräfix | Anwendbar, wenn max. Zeilen pro Datei konfiguriert sind. Geben Sie das Dateinamenpräfix beim Schreiben von Daten in mehrere Dateien an, das zu diesem Muster führt: <fileNamePrefix>_00000.<fileExtension> . Wenn keine Angabe erfolgt, wird das Dateinamenpräfix automatisch generiert. Diese Eigenschaft gilt nicht, wenn die Quelle einen dateibasierten Datenspeicher oder einen aktivierten Datenspeicher für Partitionen ist. |
< Ihr Dateinamenpräfix > | Nein | fileNamePrefix |