Format tekstu rozdzielanego w usłudze Data Factory w usłudze Microsoft Fabric

Artykuł
06/25/2024

W tym artykule opisano sposób konfigurowania rozdzielanego formatu tekstu w potoku danych usługi Data Factory w usłudze Microsoft Fabric.

Obsługiwane możliwości

Format tekstu rozdzielanego jest obsługiwany w przypadku następujących działań i łączników jako źródła i miejsca docelowego.

Kategoria	Łącznik/działanie
Obsługiwany łącznik	Amazon S3
	Zgodność z usługą Amazon S3
	Azure Blob Storage
	Usługa Azure Data Lake Storage 1. generacji
	Azure Data Lake Storage Gen2
	Azure Files
	System plików
	FTP
	Google Cloud Storage
	HTTP
	Pliki lakehouse
	Oracle Cloud Storage
	SFTP
Obsługiwane działanie	działanie Kopiuj (źródło/miejsce docelowe)
	Działanie Lookup
	Działanie GetMetadata
	Działanie usuwania

Rozdzielany format tekstu w działaniu kopiowania

Aby skonfigurować format tekstu rozdzielanego, wybierz połączenie w źródle lub miejscu docelowym działania kopiowania potoku danych, a następnie wybierz pozycję RozdzielanyTekst na liście rozwijanej Format pliku. Wybierz pozycję Ustawienia , aby uzyskać dalszą konfigurację tego formatu.

Zrzut ekranu przedstawiający ustawienia formatu pliku.

Rozdzielany format tekstu jako źródło

Po wybraniu pozycji Ustawienia w sekcji Format pliku w oknie dialogowym Ustawienia formatu pliku zostaną wyświetlone następujące właściwości.

Zrzut ekranu przedstawiający ustawienia formatu pliku źródłowego.

Typ kompresji: koder koder kompresji używany do odczytywania rozdzielonych plików tekstowych. Możesz wybrać typ Brak, bzip2, gzip, deflate, ZipDeflate, TarGzip lub tar na liście rozwijanej.

Jeśli wybierzesz opcję ZipDeflate jako typ kompresji, zachowaj nazwę pliku zip jako folder będzie wyświetlany w obszarze Ustawienia zaawansowane na karcie Źródło .
- Zachowaj nazwę pliku zip jako folder: wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów.
  - Jeśli to pole jest zaznaczone (ustawienie domyślne), usługa zapisuje rozpakowane pliki na .<specified file path>/<folder named as source zip file>/
  - Jeśli to pole jest niezaznaczone, usługa zapisuje rozpakowane pliki bezpośrednio do <specified file path>. Upewnij się, że nie masz zduplikowanych nazw plików w różnych źródłowych plikach zip, aby uniknąć wyścigów ani nieoczekiwanych zachowań.
W przypadku wybrania opcji TarGzip/tar jako typu kompresji zachowaj nazwę pliku kompresji jako folder zostanie wyświetlona w obszarze Ustawienia zaawansowane na karcie Źródło .
- Zachowaj nazwę pliku kompresji jako folder: wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów.
  - Jeśli to pole jest zaznaczone (ustawienie domyślne), usługa zapisuje dekompresowane pliki do <specified file path>/<folder named as source compressed file>/.
  - Jeśli to pole jest niezaznaczone, usługa zapisuje dekompresowane pliki bezpośrednio do <specified file path>. Upewnij się, że nie masz zduplikowanych nazw plików w różnych źródłowych plikach zip, aby uniknąć wyścigów ani nieoczekiwanych zachowań.
Poziom kompresji: określ współczynnik kompresji po wybraniu typu kompresji. Możesz wybrać jedną z opcji Optymalna lub Najszybsza.
- Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
- Optymalna: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz Temat Poziom kompresji.
Ogranicznik kolumn: znaki używane do oddzielania kolumn w pliku. Wartość domyślna to przecinek (,).
Ogranicznik wierszy: określ znak używany do oddzielania wierszy w pliku. Dozwolony jest tylko jeden znak. Wartość domyślna to źródło danych \nwiersza .
Kodowanie: typ kodowania używany do odczytu/zapisu plików testowych. Wartość domyślna to UTF-8.
Znak ucieczki: pojedynczy znak ucieczki cudzysłowów wewnątrz wartości cudzysłowu. Wartość domyślna to ukośnik \odwrotny. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w tym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.
Znak cudzysłowu: pojedynczy znak cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Wartość domyślna to podwójne cudzysłowy ". Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.
Pierwszy wiersz jako nagłówek: określa, czy należy traktować/tworzyć pierwszy wiersz jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości są zaznaczone i niezaznaczone (ustawienie domyślne). Gdy pierwszy wiersz jako nagłówek jest niezaznaczony, zwróć uwagę na podgląd danych interfejsu użytkownika i dane wyjściowe działania wyszukiwania automatycznie generują nazwy kolumn jako Prop_{n} (począwszy od 0), działanie kopiowania wymaga jawnego mapowania ze źródła do miejsca docelowego i lokalizuje kolumny według porządkowych (począwszy od 1).
Wartość null: określa ciąg reprezentujący wartość null. Wartość domyślna to pusty ciąg.

W obszarze Ustawienia zaawansowane na karcie Źródło uwidocznione są inne właściwości powiązane z formatem tekstu rozdzielanego.

Rozdzielany format tekstu jako miejsce docelowe

Po wybraniu pozycji Ustawienia w sekcji Format pliku w oknie dialogowym Ustawienia formatu pliku zostaną wyświetlone następujące właściwości.

Zrzut ekranu przedstawiający ustawienia formatu pliku docelowego.

Typ kompresji: koder koder kompresji używany do pisania rozdzielonych plików tekstowych. Możesz wybrać typ Brak, bzip2, gzip, deflate, ZipDeflate, TarGzip lub tar na liście rozwijanej.
Poziom kompresji: określ współczynnik kompresji po wybraniu typu kompresji. Możesz wybrać jedną z opcji Optymalna lub Najszybsza.
- Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
- Optymalna: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz Temat Poziom kompresji.
Ogranicznik kolumn: znaki używane do oddzielania kolumn w pliku. Wartość domyślna to przecinek (,).
Ogranicznik wierszy: znak używany do oddzielania wierszy w pliku. Dozwolony jest tylko jeden znak. Wartość domyślna to źródło danych \nwiersza .
Kodowanie: typ kodowania używany do pisania plików testowych. Wartość domyślna to UTF-8.
Znak ucieczki: pojedynczy znak ucieczki cudzysłowów wewnątrz wartości cudzysłowu. Wartość domyślna to ukośnik \odwrotny. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w tym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.
Znak cudzysłowu: pojedynczy znak cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Wartość domyślna to podwójne cudzysłowy ". Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.
Pierwszy wiersz jako nagłówek: określa, czy należy traktować/tworzyć pierwszy wiersz jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości są zaznaczone i niezaznaczone (ustawienie domyślne). Gdy pierwszy wiersz jako nagłówek jest niezaznaczony, zwróć uwagę na podgląd danych interfejsu użytkownika i dane wyjściowe działania wyszukiwania automatycznie generują nazwy kolumn jako Prop_{n} (począwszy od 0), działanie kopiowania wymaga jawnego mapowania ze źródła do miejsca docelowego i lokalizuje kolumny według porządkowych (począwszy od 1).
Wartość null: określa ciąg reprezentujący wartość null. Wartość domyślna to pusty ciąg.

W obszarze Ustawienia zaawansowane na karcie Miejsce docelowe są wyświetlane dalsze właściwości powiązane z formatem tekstu rozdzielanego.

Zacytuj cały tekst: Ujęć wszystkie wartości w cudzysłowie.
Rozszerzenie pliku: rozszerzenie pliku używane do nazywania plików wyjściowych, na przykład .csv, .txt.
Maksymalna liczba wierszy na plik: podczas zapisywania danych w folderze można zapisać w wielu plikach i określić maksymalną liczbę wierszy na plik.
Prefiks nazwy pliku: ma zastosowanie, gdy skonfigurowano maksymalną liczbę wierszy na plik . Określ prefiks nazwy pliku podczas zapisywania danych w wielu plikach, co spowodowało następujący wzorzec: <fileNamePrefix>_00000.<fileExtension>. Jeśli nie zostanie określony, prefiks nazwy pliku zostanie wygenerowany automatycznie. Ta właściwość nie ma zastosowania, gdy źródło jest magazynem opartym na plikach lub włączoną opcją partycji magazynu danych.

Podsumowanie tabeli

Rozdzielany tekst jako źródło

Poniższe właściwości są obsługiwane w sekcji Źródło działania kopiowania w przypadku używania formatu tekstu rozdzielanego.

Nazwa	Opis	Wartość	Wymagane	Właściwość skryptu JSON
Format pliku	Format pliku, którego chcesz użyć.	Rozdzielany tekst	Tak	type (w obszarze `datasetSettings`): Rozdzielany tekst
Typ kompresji	Koder koder kompresji używany do odczytywania rozdzielonych plików tekstowych.	Wybierz spośród następujących: Brak bzip2 gzip Deflate ZipDeflate TarGzip smoła	Nie.	type (w obszarze `compression`): bzip2 gzip Deflate ZipDeflate TarGzip smoła
Zachowaj nazwę pliku zip jako folder	Wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów. Ma zastosowanie po wybraniu opcji Kompresja ZipDeflate .	Zaznaczone lub usuń zaznaczenie	Nie	preserveZipFileNameAsFolder (pod `compressionProperties`->`type` jako `ZipDeflateReadSettings`)
Zachowaj nazwę pliku kompresji jako folder	Wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów. Ma zastosowanie podczas wybierania kompresji TarGzip/tar .	Zaznaczone lub usuń zaznaczenie	Nie.	preserveCompressionFileNameAsFolder (w obszarze `compressionProperties`->`type` jako `TarGZipReadSettings` lub `TarReadSettings`)
Poziom kompresji	Współczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze.	Optymalna lub najszybsza	Nie	poziom (w obszarze `compression`): Najszybszy Optymalny
Ogranicznik kolumn	Znaki używane do oddzielania kolumn w pliku.	< ogranicznik wybranej kolumny > przecinek `,` (domyślnie)	Nie.	columnDelimiter
Ogranicznik wierszy	Znak używany do rozdzielania wierszy w pliku.	< ogranicznik zaznaczonego wiersza > `\r`,`\n` (domyślnie) lub `r\n`	Nie	rowDelimiter
Kodowanie	Typ kodowania używany do odczytu/zapisu plików testowych.	"UTF-8" (domyślnie),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM869"70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258"	Nie	encodingName
Znak ucieczki	Pojedynczy znak ucieczki cudzysłowów wewnątrz cytowanej wartości. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w tym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.	< wybrany znak ucieczki > ukośnik `\` odwrotny (domyślnie)	Nie.	escapeChar
Znak cudzysłowu	Pojedynczy znak cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.	< wybrany znak cudzysłowu > cudzysłowy `"` (domyślnie)	Nie.	quoteChar
Pierwszy wiersz jako nagłówek	Określa, czy pierwszy wiersz w danym arkuszu/zakresie ma być traktowany jako wiersz nagłówka z nazwami kolumn.	Wybrane lub niezaznaczone	Nie.	firstRowAsHeader: true lub false (wartość domyślna)
Wartość null	Określa ciąg reprezentujący wartość null. Wartość domyślna to pusty ciąg.	< reprezentacja ciągu wartości null > pusty ciąg (domyślnie)	Nie.	nullValue

Rozdzielany tekst jako miejsce docelowe

Następujące właściwości są obsługiwane w sekcji Miejsce docelowe działania kopiowania w przypadku używania formatu tekstu rozdzielanego.

Nazwa	Opis	Wartość	Wymagane	Właściwość skryptu JSON
Format pliku	Format pliku, którego chcesz użyć.	Rozdzielany tekst	Tak	type (w obszarze `datasetSettings`): Rozdzielany tekst
Typ kompresji	Koder koder kompresji używany do pisania rozdzielonych plików tekstowych.	Wybierz spośród następujących: Brak bzip2 gzip Deflate ZipDeflate TarGzip smoła	Nie.	type (w obszarze `compression`): bzip2 gzip Deflate ZipDeflate TarGzip smoła
Zachowaj nazwę pliku zip jako folder	Wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów.	Zaznaczone lub usuń zaznaczenie	Nie	preserveZipFileNameAsFolder (pod `compressionProperties`->`type` jako `ZipDeflateReadSettings`)
Zachowaj nazwę pliku kompresji jako folder	Wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów.	Zaznaczone lub usuń zaznaczenie	Nie.	preserveCompressionFileNameAsFolder (w obszarze `compressionProperties`->`type` jako `TarGZipReadSettings` lub `TarReadSettings`)
Poziom kompresji	Współczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze.	Optymalna lub najszybsza	Nie	poziom (w obszarze `compression`): Najszybszy Optymalny
Ogranicznik kolumn	Znaki używane do oddzielania kolumn w pliku.	< ogranicznik wybranej kolumny > przecinek `,` (domyślnie)	Nie.	columnDelimiter
Ogranicznik wierszy	Znak używany do rozdzielania wierszy w pliku.	< ogranicznik zaznaczonego wiersza > `\r`,`\n` (domyślnie) lub `r\n`	Nie	rowDelimiter
Kodowanie	Typ kodowania używany do odczytu/zapisu plików testowych.	"UTF-8" (domyślnie),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM869"70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258"	Nie	encodingName
Znak ucieczki	Pojedynczy znak ucieczki cudzysłowów wewnątrz cytowanej wartości. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w tym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.	< wybrany znak ucieczki > ukośnik `\` odwrotny (domyślnie)	Nie.	escapeChar
Znak cudzysłowu	Pojedynczy znak cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.	< wybrany znak cudzysłowu > cudzysłowy `"` (domyślnie)	Nie.	quoteChar
Pierwszy wiersz jako nagłówek	Określa, czy pierwszy wiersz w danym arkuszu/zakresie ma być traktowany jako wiersz nagłówka z nazwami kolumn.	Wybrane lub niezaznaczone	Nie.	firstRowAsHeader: true lub false (wartość domyślna)
Cudzysłowuj cały tekst	Ujęć wszystkie wartości w cudzysłowie.	Wybrane (domyślne) lub niezaznaczone	Nie.	quoteAllText: true (wartość domyślna) lub fałsz
Formatem	Rozszerzenie pliku używane do nazywania plików wyjściowych.	< rozszerzenie pliku > `.txt` (domyślnie)	Nie.	fileExtension
Maksymalna liczba wierszy na plik	Podczas zapisywania danych w folderze można wybrać zapisywanie w wielu plikach i określić maksymalną liczbę wierszy na plik.	< maksymalna liczba wierszy na plik >	Nie.	maxRowsPerFile
Prefiks nazwy pliku	Ma zastosowanie w przypadku skonfigurowania maksymalnej liczby wierszy na plik . Określ prefiks nazwy pliku podczas zapisywania danych w wielu plikach, co spowodowało następujący wzorzec: `<fileNamePrefix>_00000.<fileExtension>`. Jeśli nie zostanie określony, prefiks nazwy pliku zostanie wygenerowany automatycznie. Ta właściwość nie ma zastosowania, gdy źródło jest magazynem opartym na plikach lub włączoną opcją partycji magazynu danych.	< prefiks nazwy pliku >	Nie.	fileNamePrefix

Omówienie łączników

Udostępnij za pośrednictwem

Format tekstu rozdzielanego w usłudze Data Factory w usłudze Microsoft Fabric

Obsługiwane możliwości

Rozdzielany format tekstu w działaniu kopiowania

Rozdzielany format tekstu jako źródło

Rozdzielany format tekstu jako miejsce docelowe

Podsumowanie tabeli

Rozdzielany tekst jako źródło

Rozdzielany tekst jako miejsce docelowe

Opinia

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Format tekstu rozdzielanego w usłudze Data Factory w usłudze Microsoft Fabric

Obsługiwane możliwości

Rozdzielany format tekstu w działaniu kopiowania

Rozdzielany format tekstu jako źródło

Rozdzielany format tekstu jako miejsce docelowe

Podsumowanie tabeli

Rozdzielany tekst jako źródło

Rozdzielany tekst jako miejsce docelowe

Powiązana zawartość

Opinia

Opinia

Dodatkowe zasoby