Udostępnij za pośrednictwem


Format tekstu rozdzielanego w usłudze Data Factory w usłudze Microsoft Fabric

W tym artykule opisano sposób konfigurowania rozdzielanego formatu tekstu w potoku danych usługi Data Factory w usłudze Microsoft Fabric.

Obsługiwane możliwości

Format tekstu rozdzielanego jest obsługiwany w przypadku następujących działań i łączników jako źródła i miejsca docelowego.

Kategoria Łącznik/działanie
Obsługiwany łącznik Amazon S3
Zgodność z usługą Amazon S3
Azure Blob Storage
Usługa Azure Data Lake Storage 1. generacji
Azure Data Lake Storage Gen2
Azure Files
System plików
FTP
Google Cloud Storage
HTTP
Pliki lakehouse
Oracle Cloud Storage
SFTP
Obsługiwane działanie działanie Kopiuj (źródło/miejsce docelowe)
Działanie Lookup
Działanie GetMetadata
Działanie usuwania

Rozdzielany format tekstu w działaniu kopiowania

Aby skonfigurować format tekstu rozdzielanego, wybierz połączenie w źródle lub miejscu docelowym działania kopiowania potoku danych, a następnie wybierz pozycję RozdzielanyTekst na liście rozwijanej Format pliku. Wybierz pozycję Ustawienia , aby uzyskać dalszą konfigurację tego formatu.

Zrzut ekranu przedstawiający ustawienia formatu pliku.

Rozdzielany format tekstu jako źródło

Po wybraniu pozycji Ustawienia w sekcji Format pliku w oknie dialogowym Ustawienia formatu pliku zostaną wyświetlone następujące właściwości.

Zrzut ekranu przedstawiający ustawienia formatu pliku źródłowego.

  • Typ kompresji: koder koder kompresji używany do odczytywania rozdzielonych plików tekstowych. Możesz wybrać typ Brak, bzip2, gzip, deflate, ZipDeflate, TarGzip lub tar na liście rozwijanej.

    Jeśli wybierzesz opcję ZipDeflate jako typ kompresji, zachowaj nazwę pliku zip jako folder będzie wyświetlany w obszarze Ustawienia zaawansowane na karcie Źródło .

    • Zachowaj nazwę pliku zip jako folder: wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów.
      • Jeśli to pole jest zaznaczone (ustawienie domyślne), usługa zapisuje rozpakowane pliki na .<specified file path>/<folder named as source zip file>/
      • Jeśli to pole jest niezaznaczone, usługa zapisuje rozpakowane pliki bezpośrednio do <specified file path>. Upewnij się, że nie masz zduplikowanych nazw plików w różnych źródłowych plikach zip, aby uniknąć wyścigów ani nieoczekiwanych zachowań.

    W przypadku wybrania opcji TarGzip/tar jako typu kompresji zachowaj nazwę pliku kompresji jako folder zostanie wyświetlona w obszarze Ustawienia zaawansowane na karcie Źródło .

    • Zachowaj nazwę pliku kompresji jako folder: wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów.
      • Jeśli to pole jest zaznaczone (ustawienie domyślne), usługa zapisuje dekompresowane pliki do <specified file path>/<folder named as source compressed file>/.
      • Jeśli to pole jest niezaznaczone, usługa zapisuje dekompresowane pliki bezpośrednio do <specified file path>. Upewnij się, że nie masz zduplikowanych nazw plików w różnych źródłowych plikach zip, aby uniknąć wyścigów ani nieoczekiwanych zachowań.
  • Poziom kompresji: określ współczynnik kompresji po wybraniu typu kompresji. Możesz wybrać jedną z opcji Optymalna lub Najszybsza.

    • Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
    • Optymalna: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz Temat Poziom kompresji.
  • Ogranicznik kolumn: znaki używane do oddzielania kolumn w pliku. Wartość domyślna to przecinek (,).

  • Ogranicznik wierszy: określ znak używany do oddzielania wierszy w pliku. Dozwolony jest tylko jeden znak. Wartość domyślna to źródło danych \nwiersza .

  • Kodowanie: typ kodowania używany do odczytu/zapisu plików testowych. Wartość domyślna to UTF-8.

  • Znak ucieczki: pojedynczy znak ucieczki cudzysłowów wewnątrz wartości cudzysłowu. Wartość domyślna to ukośnik \odwrotny. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w tym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.

  • Znak cudzysłowu: pojedynczy znak cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Wartość domyślna to podwójne cudzysłowy ". Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.

  • Pierwszy wiersz jako nagłówek: określa, czy należy traktować/tworzyć pierwszy wiersz jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości są zaznaczone i niezaznaczone (ustawienie domyślne). Gdy pierwszy wiersz jako nagłówek jest niezaznaczony, zwróć uwagę na podgląd danych interfejsu użytkownika i dane wyjściowe działania wyszukiwania automatycznie generują nazwy kolumn jako Prop_{n} (począwszy od 0), działanie kopiowania wymaga jawnego mapowania ze źródła do miejsca docelowego i lokalizuje kolumny według porządkowych (począwszy od 1).

  • Wartość null: określa ciąg reprezentujący wartość null. Wartość domyślna to pusty ciąg.

W obszarze Ustawienia zaawansowane na karcie Źródło uwidocznione są inne właściwości powiązane z formatem tekstu rozdzielanego.

Rozdzielany format tekstu jako miejsce docelowe

Po wybraniu pozycji Ustawienia w sekcji Format pliku w oknie dialogowym Ustawienia formatu pliku zostaną wyświetlone następujące właściwości.

Zrzut ekranu przedstawiający ustawienia formatu pliku docelowego.

  • Typ kompresji: koder koder kompresji używany do pisania rozdzielonych plików tekstowych. Możesz wybrać typ Brak, bzip2, gzip, deflate, ZipDeflate, TarGzip lub tar na liście rozwijanej.

  • Poziom kompresji: określ współczynnik kompresji po wybraniu typu kompresji. Możesz wybrać jedną z opcji Optymalna lub Najszybsza.

    • Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
    • Optymalna: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz Temat Poziom kompresji.
  • Ogranicznik kolumn: znaki używane do oddzielania kolumn w pliku. Wartość domyślna to przecinek (,).

  • Ogranicznik wierszy: znak używany do oddzielania wierszy w pliku. Dozwolony jest tylko jeden znak. Wartość domyślna to źródło danych \nwiersza .

  • Kodowanie: typ kodowania używany do pisania plików testowych. Wartość domyślna to UTF-8.

  • Znak ucieczki: pojedynczy znak ucieczki cudzysłowów wewnątrz wartości cudzysłowu. Wartość domyślna to ukośnik \odwrotny. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w tym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.

  • Znak cudzysłowu: pojedynczy znak cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Wartość domyślna to podwójne cudzysłowy ". Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.

  • Pierwszy wiersz jako nagłówek: określa, czy należy traktować/tworzyć pierwszy wiersz jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości są zaznaczone i niezaznaczone (ustawienie domyślne). Gdy pierwszy wiersz jako nagłówek jest niezaznaczony, zwróć uwagę na podgląd danych interfejsu użytkownika i dane wyjściowe działania wyszukiwania automatycznie generują nazwy kolumn jako Prop_{n} (począwszy od 0), działanie kopiowania wymaga jawnego mapowania ze źródła do miejsca docelowego i lokalizuje kolumny według porządkowych (począwszy od 1).

  • Wartość null: określa ciąg reprezentujący wartość null. Wartość domyślna to pusty ciąg.

W obszarze Ustawienia zaawansowane na karcie Miejsce docelowe są wyświetlane dalsze właściwości powiązane z formatem tekstu rozdzielanego.

  • Zacytuj cały tekst: Ujęć wszystkie wartości w cudzysłowie.

  • Rozszerzenie pliku: rozszerzenie pliku używane do nazywania plików wyjściowych, na przykład .csv, .txt.

  • Maksymalna liczba wierszy na plik: podczas zapisywania danych w folderze można zapisać w wielu plikach i określić maksymalną liczbę wierszy na plik.

  • Prefiks nazwy pliku: ma zastosowanie, gdy skonfigurowano maksymalną liczbę wierszy na plik . Określ prefiks nazwy pliku podczas zapisywania danych w wielu plikach, co spowodowało następujący wzorzec: <fileNamePrefix>_00000.<fileExtension>. Jeśli nie zostanie określony, prefiks nazwy pliku zostanie wygenerowany automatycznie. Ta właściwość nie ma zastosowania, gdy źródło jest magazynem opartym na plikach lub włączoną opcją partycji magazynu danych.

Podsumowanie tabeli

Rozdzielany tekst jako źródło

Poniższe właściwości są obsługiwane w sekcji Źródło działania kopiowania w przypadku używania formatu tekstu rozdzielanego.

Nazwa Opis Wartość Wymagane Właściwość skryptu JSON
 Format pliku Format pliku, którego chcesz użyć. Rozdzielany tekst Tak type (w obszarze datasetSettings):
Rozdzielany tekst
Typ kompresji Koder koder kompresji używany do odczytywania rozdzielonych plików tekstowych. Wybierz spośród następujących:
Brak
bzip2
gzip
Deflate
ZipDeflate
TarGzip
smoła
Nie. type (w obszarze compression):

bzip2
gzip
Deflate
ZipDeflate
TarGzip
smoła
Zachowaj nazwę pliku zip jako folder Wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów. Ma zastosowanie po wybraniu opcji Kompresja ZipDeflate . Zaznaczone lub usuń zaznaczenie Nie preserveZipFileNameAsFolder
(pod compressionProperties->type jako ZipDeflateReadSettings)
Zachowaj nazwę pliku kompresji jako folder Wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów. Ma zastosowanie podczas wybierania kompresji TarGzip/tar . Zaznaczone lub usuń zaznaczenie Nie. preserveCompressionFileNameAsFolder
(w obszarze compressionProperties->type jako TarGZipReadSettings lub TarReadSettings)
Poziom kompresji  Współczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze. Optymalna lub najszybsza Nie poziom (w obszarze compression):
Najszybszy
Optymalny
Ogranicznik kolumn  Znaki używane do oddzielania kolumn w pliku.  < ogranicznik wybranej kolumny >
przecinek , (domyślnie)
Nie. columnDelimiter
Ogranicznik wierszy Znak używany do rozdzielania wierszy w pliku. < ogranicznik zaznaczonego wiersza >
\r,\n (domyślnie) lub r\n
Nie rowDelimiter
Kodowanie Typ kodowania używany do odczytu/zapisu plików testowych. "UTF-8" (domyślnie),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM869"70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nie encodingName
Znak ucieczki Pojedynczy znak ucieczki cudzysłowów wewnątrz cytowanej wartości. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w tym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników. < wybrany znak ucieczki >
ukośnik \ odwrotny (domyślnie)
Nie. escapeChar
Znak cudzysłowu Pojedynczy znak cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie. < wybrany znak cudzysłowu >
cudzysłowy " (domyślnie)
Nie. quoteChar
Pierwszy wiersz jako nagłówek Określa, czy pierwszy wiersz w danym arkuszu/zakresie ma być traktowany jako wiersz nagłówka z nazwami kolumn. Wybrane lub niezaznaczone Nie. firstRowAsHeader:
true lub false (wartość domyślna)
Wartość null Określa ciąg reprezentujący wartość null. Wartość domyślna to pusty ciąg. < reprezentacja ciągu wartości null >
pusty ciąg (domyślnie)
Nie. nullValue

Rozdzielany tekst jako miejsce docelowe

Następujące właściwości są obsługiwane w sekcji Miejsce docelowe działania kopiowania w przypadku używania formatu tekstu rozdzielanego.

Nazwa Opis Wartość Wymagane Właściwość skryptu JSON
 Format pliku Format pliku, którego chcesz użyć. Rozdzielany tekst Tak type (w obszarze datasetSettings):
Rozdzielany tekst
Typ kompresji Koder koder kompresji używany do pisania rozdzielonych plików tekstowych. Wybierz spośród następujących:
Brak
bzip2
gzip
Deflate
ZipDeflate
TarGzip
smoła
Nie. type (w obszarze compression):

bzip2
gzip
Deflate
ZipDeflate
TarGzip
smoła
Zachowaj nazwę pliku zip jako folder Wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów. Zaznaczone lub usuń zaznaczenie Nie preserveZipFileNameAsFolder
(pod compressionProperties->type jako ZipDeflateReadSettings)
Zachowaj nazwę pliku kompresji jako folder Wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów. Zaznaczone lub usuń zaznaczenie Nie. preserveCompressionFileNameAsFolder
(w obszarze compressionProperties->type jako TarGZipReadSettings lub TarReadSettings)
Poziom kompresji  Współczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze. Optymalna lub najszybsza Nie poziom (w obszarze compression):
Najszybszy
Optymalny
Ogranicznik kolumn  Znaki używane do oddzielania kolumn w pliku.  < ogranicznik wybranej kolumny >
przecinek , (domyślnie)
Nie. columnDelimiter
Ogranicznik wierszy Znak używany do rozdzielania wierszy w pliku. < ogranicznik zaznaczonego wiersza >
\r,\n (domyślnie) lub r\n
Nie rowDelimiter
Kodowanie Typ kodowania używany do odczytu/zapisu plików testowych. "UTF-8" (domyślnie),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM869"70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nie encodingName
Znak ucieczki Pojedynczy znak ucieczki cudzysłowów wewnątrz cytowanej wartości. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w tym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników. < wybrany znak ucieczki >
ukośnik \ odwrotny (domyślnie)
Nie. escapeChar
Znak cudzysłowu Pojedynczy znak cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie. < wybrany znak cudzysłowu >
cudzysłowy " (domyślnie)
Nie. quoteChar
Pierwszy wiersz jako nagłówek Określa, czy pierwszy wiersz w danym arkuszu/zakresie ma być traktowany jako wiersz nagłówka z nazwami kolumn. Wybrane lub niezaznaczone Nie. firstRowAsHeader:
true lub false (wartość domyślna)
Cudzysłowuj cały tekst Ujęć wszystkie wartości w cudzysłowie. Wybrane (domyślne) lub niezaznaczone Nie. quoteAllText:
true (wartość domyślna) lub fałsz
Formatem Rozszerzenie pliku używane do nazywania plików wyjściowych. < rozszerzenie pliku >
.txt (domyślnie)
Nie. fileExtension
Maksymalna liczba wierszy na plik Podczas zapisywania danych w folderze można wybrać zapisywanie w wielu plikach i określić maksymalną liczbę wierszy na plik. < maksymalna liczba wierszy na plik > Nie. maxRowsPerFile
Prefiks nazwy pliku Ma zastosowanie w przypadku skonfigurowania maksymalnej liczby wierszy na plik . Określ prefiks nazwy pliku podczas zapisywania danych w wielu plikach, co spowodowało następujący wzorzec: <fileNamePrefix>_00000.<fileExtension>. Jeśli nie zostanie określony, prefiks nazwy pliku zostanie wygenerowany automatycznie. Ta właściwość nie ma zastosowania, gdy źródło jest magazynem opartym na plikach lub włączoną opcją partycji magazynu danych. < prefiks nazwy pliku > Nie. fileNamePrefix