Format tekstu rozdzielanego w usłudze Data Factory w usłudze Microsoft Fabric

W tym artykule opisano sposób konfigurowania formatu tekstu rozdzielanego w potoku danych usługi Data Factory w usłudze Microsoft Fabric.

Ważne

Usługa Microsoft Fabric jest obecnie dostępna w wersji zapoznawczej. Te informacje odnoszą się do produktu w wersji wstępnej, który może zostać znacząco zmodyfikowany przed jego wydaniem. Firma Microsoft nie udziela żadnych gwarancji, wyrażonych ani domniemanych w odniesieniu do informacji podanych tutaj. Zapoznaj się z dokumentacją Azure Data Factory dotyczącą usługi na platformie Azure.

Obsługiwane funkcje

Format tekstu rozdzielanego jest obsługiwany w przypadku następujących działań i łączników jako źródła i miejsca docelowego.

Kategoria Łącznik/działanie
Obsługiwany łącznik Amazon S3
Azure Blob Storage
Usługa Azure Data Lake Storage 1. generacji
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Obsługiwane działanie działanie Kopiuj
działanie Lookup
Działanie GetMetadata
Działanie usuwania

Rozdzielany format tekstu w działaniu kopiowania

Aby skonfigurować format tekstu rozdzielanego, wybierz połączenie w źródle lub miejscu docelowym działania kopiowania potoku danych, a następnie wybierz pozycję RozdzielanyTekst na liście rozwijanej Format pliku. Wybierz pozycję Ustawienia , aby uzyskać dalszą konfigurację tego formatu.

Zrzut ekranu przedstawiający ustawienia formatu pliku.

Format tekstu rozdzielanego jako źródło

Po wybraniu pozycji Ustawienia w sekcji Format pliku w oknie dialogowym Ustawienia formatu pliku zostaną wyświetlone następujące właściwości.

Zrzut ekranu przedstawiający ustawienia formatu pliku źródłowego.

  • Typ kompresji: koder kompresji używany do odczytywania rozdzielonych plików tekstowych. Możesz wybrać spośród typów None, bzip2, gzip, deflate, ZipDeflate, TarGzip lub tar na liście rozwijanej.

    Jeśli wybierzesz opcję ZipDeflate jako typ kompresji, zachowaj nazwę pliku zip jako folder zostanie wyświetlony w obszarze Ustawienia zaawansowane na karcie Źródło .

    • Zachowaj nazwę pliku zip jako folder: wskazuje, czy zachować nazwę źródłowego pliku zip jako strukturę folderów podczas kopiowania.
      • Jeśli to pole jest zaznaczone (wartość domyślna), usługa zapisuje rozpakowane pliki do <specified file path>/<folder named as source zip file>/.
      • Jeśli to pole jest niezaznaczone, usługa zapisuje rozpakowane pliki bezpośrednio do <specified file path>. Upewnij się, że nie masz zduplikowanych nazw plików w różnych źródłowych plikach zip, aby uniknąć wyścigów ani nieoczekiwanych zachowań.

    W przypadku wybrania opcji TarGzip/tar jako typu kompresji zachowaj nazwę pliku kompresji jako folder zostanie wyświetlony w obszarze Ustawienia zaawansowane na karcie Źródło .

    • Zachowaj nazwę pliku kompresji jako folder: wskazuje, czy zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów podczas kopiowania.
      • Jeśli to pole jest zaznaczone (wartość domyślna), usługa zapisuje dekompresowane pliki do <specified file path>/<folder named as source compressed file>/.
      • Jeśli to pole jest niezaznaczone, usługa zapisuje dekompresowane pliki bezpośrednio do <specified file path>. Upewnij się, że nie masz zduplikowanych nazw plików w różnych źródłowych plikach zip, aby uniknąć wyścigów ani nieoczekiwanych zachowań.
  • Poziom kompresji: określ współczynnik kompresji po wybraniu typu kompresji. Możesz wybrać jedną z opcji Optymalna lub Najszybsza.

    • Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
    • Optymalny: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz temat Poziom kompresji.
  • Ogranicznik kolumn: znaki używane do oddzielania kolumn w pliku. Wartość domyślna to przecinek (,).

  • Ogranicznik wierszy: określ znak używany do oddzielania wierszy w pliku. Dozwolony jest tylko jeden znak. Wartość domyślna to kanał informacyjny \nwiersza .

  • Kodowanie: typ kodowania używany do odczytu/zapisu plików testowych. Wartość domyślna to UTF-8.

  • Znak ucieczki: pojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cytowanej. Wartość domyślna to ukośnik\ odwrotny. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.

  • Znak cudzysłowu: pojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Wartość domyślna to podwójne cudzysłowy". Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.

  • Pierwszy wiersz jako nagłówek: określa, czy należy traktować/tworzyć pierwszy wiersz jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości są zaznaczone i niezaznaczone (wartość domyślna). Gdy pierwszy wiersz jako nagłówek jest niezaznaczony, zwróć uwagę na podgląd danych interfejsu użytkownika i dane wyjściowe działania wyszukiwania automatycznie generują nazwy kolumn jako Prop_{n} (począwszy od 0), działanie kopiowania wymaga jawnego mapowania ze źródła na miejsce docelowe i lokalizuje kolumny według porządkowych (począwszy od 1).

  • Wartość null: określa reprezentację ciągu wartości null. Wartość domyślna to pusty ciąg.

W obszarze Ustawienia zaawansowane na karcie Źródło są wyświetlane dalsze właściwości powiązane z formatem tekstu rozdzielanego.

  • Pomiń liczbę wierszy: wskazuje liczbę brakliwych wierszy do pominięcia podczas odczytywania danych z plików wejściowych. Jeśli określono wartość Pomiń liczbę wierszy i Pierwszy wiersz jako nagłówek , najpierw pominięto wiersze, a następnie informacje nagłówka są odczytywane z pliku wejściowego.

Format tekstu rozdzielanego jako miejsce docelowe

Po wybraniu pozycji Ustawienia w sekcji Format pliku w oknie dialogowym Ustawienia formatu pliku zostaną wyświetlone następujące właściwości.

Zrzut ekranu przedstawiający ustawienia formatu pliku docelowego.

  • Typ kompresji: koder kompresji używany do zapisywania rozdzielonych plików tekstowych. Możesz wybrać spośród typów None, bzip2, gzip, deflate, ZipDeflate, TarGzip lub tar na liście rozwijanej.

  • Poziom kompresji: określ współczynnik kompresji po wybraniu typu kompresji. Możesz wybrać jedną z opcji Optymalna lub Najszybsza.

    • Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
    • Optymalny: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz temat Poziom kompresji.
  • Ogranicznik kolumn: znaki używane do oddzielania kolumn w pliku. Wartość domyślna to przecinek (,).

  • Ogranicznik wierszy: znak używany do oddzielania wierszy w pliku. Dozwolony jest tylko jeden znak. Wartość domyślna to kanał informacyjny \nwiersza .

  • Kodowanie: typ kodowania używany do pisania plików testowych. Wartość domyślna to UTF-8.

  • Znak ucieczki: pojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cytowanej. Wartość domyślna to ukośnik\ odwrotny. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.

  • Znak cudzysłowu: pojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Wartość domyślna to podwójne cudzysłowy". Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.

  • Pierwszy wiersz jako nagłówek: określa, czy należy traktować/tworzyć pierwszy wiersz jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości są zaznaczone i niezaznaczone (wartość domyślna). Gdy pierwszy wiersz jako nagłówek jest niezaznaczony, zwróć uwagę na podgląd danych interfejsu użytkownika i dane wyjściowe działania wyszukiwania automatycznie generują nazwy kolumn jako Prop_{n} (począwszy od 0), działanie kopiowania wymaga jawnego mapowania ze źródła na miejsce docelowe i lokalizuje kolumny według porządkowych (począwszy od 1).

  • Wartość null: określa reprezentację ciągu wartości null. Wartość domyślna to pusty ciąg.

W obszarze Ustawienia zaawansowane na karcie Miejsce docelowe wyświetlane są dalsze właściwości powiązane z formatem tekstu rozdzielanego.

  • Zacytuj cały tekst: Załącz wszystkie wartości w cudzysłowie.

  • Rozszerzenie pliku: rozszerzenie pliku używane do nazywania plików wyjściowych, na przykład .csv, .txt.

  • Maksymalna liczba wierszy na plik: podczas zapisywania danych w folderze można zapisać w wielu plikach i określić maksymalną liczbę wierszy na plik.

  • Prefiks nazwy pliku: ma zastosowanie, gdy skonfigurowano maksymalną liczbę wierszy na plik . Określ prefiks nazwy pliku podczas zapisywania danych w wielu plikach, co spowodowało następujący wzorzec: <fileNamePrefix>_00000.<fileExtension>. Jeśli nie zostanie określony, prefiks nazwy pliku zostanie wygenerowany automatycznie. Ta właściwość nie ma zastosowania, gdy źródło jest magazynem opartym na plikach ani opcją partycji włączonego magazynu danych.

Podsumowanie tabeli

Rozdzielany tekst jako źródło

Następujące właściwości są obsługiwane w sekcji Źródło działania kopiowania podczas używania formatu tekstu rozdzielanego.

Nazwa Opis Wartość Wymagane Właściwość skryptu JSON
 Format pliku Format pliku, którego chcesz użyć. Rozdzielany tekst Tak type (w obszarze datasetSettings):
Rozdzielany tekst
Typ kompresji Koder kodowy kompresji używany do odczytywania rozdzielanych plików tekstowych. Wybierz spośród opcji:
Brak
bzip2
Gzip
Deflate
ZipDeflate
TarGzip
Tar
Nie type (w obszarze compression):

bzip2
Gzip
Deflate
ZipDeflate
TarGzip
Tar
Zachowaj nazwę pliku zip jako folder Wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów. Ma zastosowanie podczas wybierania kompresji ZipDeflate . Wybrane lub usuń zaznaczenie Nie preserveZipFileNameAsFolder
(w obszarze compressionProperties->type jako ZipDeflateReadSettings)
Zachowaj nazwę pliku kompresji jako folder Wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów. Ma zastosowanie podczas wybierania kompresji TarGzip/tar . Wybrane lub usuń zaznaczenie Nie preserveCompressionFileNameAsFolder
(w obszarze compressionProperties—>type jako TarGZipReadSettings lub TarReadSettings)
Poziom kompresji  Współczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze. Optymalna lub najszybsza Nie poziom (w obszarze compression):
Najszybszy
Optymalne
Ogranicznik kolumn  Znaki używane do oddzielania kolumn w pliku.  < ogranicznik wybranej kolumny >
Przecinek, (domyślnie)
Nie columnDelimiter
Ogranicznik wierszy Znak używany do rozdzielania wierszy w pliku. < ogranicznik wybranego wiersza >
\r,\n (domyślnie) lub r\n
Nie rowDelimiter
Kodowanie Typ kodowania używany do odczytu/zapisu plików testowych. "UTF-8" (domyślnie),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140"", "IBM01141", "IBM01142", "IBM01143", "IBM011444", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nie encodingName
Znak ucieczki Pojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cudzysłowu. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników. < wybrany znak ucieczki >
Ukośnik odwrotny\ (domyślnie)
Nie escapeChar
Znak cudzysłowu Pojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie. < wybrany znak cudzysłowu >
Cudzysłów" (domyślnie)
Nie quoteChar
Pierwszy wiersz jako nagłówek Określa, czy należy traktować pierwszy wiersz w danym arkuszu/zakresie jako wiersz nagłówka z nazwami kolumn. Wybrane lub niezaznaczone Nie firstRowAsHeader:
prawda lub fałsz (wartość domyślna)
Wartość null Określa reprezentację ciągu wartości null. Wartość domyślna to pusty ciąg. < reprezentacja ciągu wartości null >
pusty ciąg (domyślnie)
Nie nullValue
Pomiń liczbę wierszy Wskazuje liczbę niepustych wierszy do pominięcia podczas odczytywania danych z plików wejściowych. Jeśli określono wartość Pomiń liczbę wierszy i Pierwszy wiersz jako nagłówek , najpierw pominięto wiersze, a następnie informacje nagłówka są odczytywane z pliku wejściowego. < liczba wierszy pominięcia > Nie skipLineCount

Rozdzielany tekst jako miejsce docelowe

Następujące właściwości są obsługiwane w sekcji miejsce docelowe działania kopiowania w przypadku korzystania z formatu tekstu rozdzielanego.

Nazwa Opis Wartość Wymagane Właściwość skryptu JSON
 Format pliku Format pliku, którego chcesz użyć. Rozdzielany tekst Tak type (w obszarze datasetSettings):
Rozdzielany tekst
Typ kompresji Koder kompresji używany do pisania rozdzielanych plików tekstowych. Wybierz spośród opcji:
Brak
bzip2
Gzip
Deflate
ZipDeflate
TarGzip
Tar
Nie type (w obszarze compression):

bzip2
Gzip
Deflate
ZipDeflate
TarGzip
Tar
Zachowaj nazwę pliku zip jako folder Wskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów. Wybrane lub usuń zaznaczenie Nie preserveZipFileNameAsFolder
(w obszarze compressionProperties->type jako ZipDeflateReadSettings)
Zachowaj nazwę pliku kompresji jako folder Wskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów. Wybrane lub usuń zaznaczenie Nie preserveCompressionFileNameAsFolder
(w obszarze compressionProperties—>type jako TarGZipReadSettings lub TarReadSettings)
Poziom kompresji  Współczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze. Optymalna lub najszybsza Nie poziom (w obszarze compression):
Najszybszy
Optymalne
Ogranicznik kolumn  Znaki używane do oddzielania kolumn w pliku.  < ogranicznik wybranej kolumny >
przecinek , (domyślnie)
Nie columnDelimiter
Ogranicznik wierszy Znak używany do rozdzielania wierszy w pliku. < ogranicznik wybranego wiersza >
\r,\n (domyślnie) lub r\n
Nie rowDelimiter
Kodowanie Typ kodowania używany do odczytu/zapisu plików testowych. "UTF-8" (domyślnie),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140"", "IBM01141", "IBM01142", "IBM01143", "IBM011444", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nie encodingName
Znak ucieczki Pojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cudzysłowu. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników. < wybrany znak ucieczki >
Ukośnik odwrotny\ (domyślnie)
Nie escapeChar
Znak cudzysłowu Pojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie. < wybrany znak cudzysłowu >
Cudzysłów" (domyślnie)
Nie quoteChar
Pierwszy wiersz jako nagłówek Określa, czy należy traktować pierwszy wiersz w danym arkuszu/zakresie jako wiersz nagłówka z nazwami kolumn. Wybrane lub niezaznaczone Nie firstRowAsHeader:
prawda lub fałsz (wartość domyślna)
Zacytuj cały tekst Ujmij wszystkie wartości w cudzysłowie. Wybrane (domyślne) lub niezaznaczone Nie quoteAllText:
true (wartość domyślna) lub fałsz
Formatem Rozszerzenie pliku używane do nazywania plików wyjściowych. < rozszerzenie pliku >
.txt (domyślnie)
Nie fileExtension
Maksymalna liczba wierszy na plik Podczas zapisywania danych w folderze można wybrać zapisywanie w wielu plikach i określić maksymalną liczbę wierszy na plik. < maksymalna liczba wierszy na plik > Nie maxRowsPerFile
Prefiks nazwy pliku Ma zastosowanie, gdy skonfigurowano maksymalną liczbę wierszy na plik . Określ prefiks nazwy pliku podczas zapisywania danych w wielu plikach, co spowodowało następujący wzorzec: <fileNamePrefix>_00000.<fileExtension>. Jeśli nie zostanie określony, prefiks nazwy pliku zostanie wygenerowany automatycznie. Ta właściwość nie ma zastosowania, gdy źródło jest magazynem opartym na plikach ani opcją partycji włączonego magazynu danych. < prefiks nazwy pliku > Nie fileNamePrefix

Następne kroki

Omówienie łączników