Формат текста с разделителями в фабрике данных в Microsoft Fabric

В этой статье описывается, как настроить формат текста с разделителями в конвейере данных фабрики данных в Microsoft Fabric.

Поддерживаемые возможности

Формат текста с разделителями поддерживается для следующих действий и соединителей в качестве источника и назначения.

Категория Подключение or/Activity
Поддерживаемый соединитель Amazon S3
Хранилище BLOB-объектов Azure
Azure Data Lake Storage 1-го поколения
Azure Data Lake Storage 2-го поколения
Google Cloud Storage
HTTP
Поддерживаемая активность Действие копирования
Действие поиска
Действие получения метаданных в Фабрике данных Azure
Действие удаления

Формат текста с разделителями в действии копирования

Чтобы настроить формат текста с разделителями, выберите подключение в исходном или целевом расположении действия копирования конвейера данных, а затем выберите РазделителиText в раскрывающемся списке формата файла. Выберите Параметры для дальнейшей настройки этого формата.

Screenshot showing file format settings.

Формат текста с разделителями в качестве источника

После выбора Параметры в разделе "Формат файла" в диалоговом окне "Параметры формата файла" отображаются следующие свойства.

Screenshot showing source file format settings.

  • Тип сжатия: кодек сжатия, используемый для чтения текстовых файлов с разделителями. Вы можете выбрать вариант None, bzip2, gzip, deflate, ZipDeflate, TarGzip или tar в раскрывающемся списке.

    Если выбрать ZipDeflate в качестве типа сжатия, сохраните имя ZIP-файла в качестве папки , в разделе "Дополнительные параметры" на вкладке "Источник ".

    • Сохранение имени ZIP-файла в виде папки: указывает, следует ли сохранять имя исходного ZIP-файла в виде структуры папок во время копирования.
      • Если это поле проверка (по умолчанию), служба записывает распакуированные файлы <specified file path>/<folder named as source zip file>/в .
      • Если это поле не проверка, служба записывает распакуированные файлы непосредственно в <specified file path>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных ZIP-файлах нет файлов с одинаковыми именами.

    Если вы выбрали TarGzip/tar в качестве типа сжатия, сохраните имя файла сжатия в качестве папки в разделе "Дополнительные параметры" на вкладке "Источник ".

    • Сохранение имени файла сжатия в виде папки: указывает, следует ли сохранять исходное сжатое имя файла в виде структуры папок во время копирования.
      • Если это поле проверка (по умолчанию), служба записывает распакованные файлы <specified file path>/<folder named as source compressed file>/в .
      • Если это поле не проверка, служба записывает распакованные файлы непосредственно в <specified file path>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных ZIP-файлах нет файлов с одинаковыми именами.
  • Уровень сжатия. Укажите коэффициент сжатия при выборе типа сжатия. Вы можете выбрать вариант "Оптимальный " или "Быстрый".

    • Fastest: операция сжатия должна выполняться как можно быстрее, даже если итоговый файл будет сжат не оптимально.
    • Optimal: операция сжатия должна выполняться оптимально, даже если для ее завершения требуется больше времени. Дополнительные сведения см. в разделе Уровень сжатия.
  • Разделитель столбцов: символы, используемые для разделения столбцов в файле. Значение по умолчанию — запятая (,).

  • Разделитель строк: укажите символ, используемый для разделения строк в файле. Допускается только один знак. Значением по умолчанию является канал \nстроки.

  • Кодировка: тип кодирования, используемый для чтения и записи тестовых файлов. Значение по умолчанию — UTF-8.

  • Escape-символ: один символ для экранирования кавычки внутри кавычек. Значение по умолчанию — обратная косая черта\. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей.

  • Символ кавычки: один символ для кавычки значений столбцов, если он содержит разделитель столбцов. Значение по умолчанию — двойные кавычки ("). Если символ кавычки определен как пустая строка, это означает, что значение символа кавычки и значения столбца не кавычек, а escape-символ используется для экранирования разделителя столбцов и самого себя.

  • Первая строка в качестве заголовка: указывает, следует ли обрабатывать и делать первую строку в виде строки заголовка с именами столбцов. Допустимые значения выбраны и не выбраны (по умолчанию). Если первая строка в качестве заголовка не выбрана, обратите внимание, что предварительный просмотр данных пользовательского интерфейса и выходные данные действия подстановки автоматически создают имена столбцов как Prop_{n} (начиная с 0), действие копирования требует явного сопоставления из источника в место назначения и поиска столбцов по порядковой строке (начиная с 1).

  • Значение NULL: указывает строковое представление значения NULL. Значение по умолчанию — пустая строка.

В разделе "Дополнительные параметры" на вкладке "Источник " отображаются дополнительные свойства связанного формата текста с разделителями.

  • Пропустить число строк: указывает количество строк nonempty, которые следует пропустить при чтении данных из входных файлов. Если указано число строк пропуска и первая строка в качестве заголовка, строки пропускаются сначала, а затем данные заголовка считываются из входного файла.

Формат текста с разделителями в качестве назначения

После выбора Параметры в разделе "Формат файла" в диалоговом окне "Параметры формата файла" отображаются следующие свойства.

Screenshot showing destination file format settings.

  • Тип сжатия: кодек сжатия, используемый для записи текстовых файлов с разделителями. Вы можете выбрать вариант None, bzip2, gzip, deflate, ZipDeflate, TarGzip или tar в раскрывающемся списке.

  • Уровень сжатия. Укажите коэффициент сжатия при выборе типа сжатия. Вы можете выбрать вариант "Оптимальный " или "Быстрый".

    • Fastest: операция сжатия должна выполняться как можно быстрее, даже если итоговый файл будет сжат не оптимально.
    • Optimal: операция сжатия должна выполняться оптимально, даже если для ее завершения требуется больше времени. Дополнительные сведения см. в разделе Уровень сжатия.
  • Разделитель столбцов: символы, используемые для разделения столбцов в файле. Значение по умолчанию — запятая (,).

  • Разделитель строк: символ, используемый для разделения строк в файле. Допускается только один знак. Значением по умолчанию является канал \nстроки.

  • Кодировка: тип кодирования, используемый для записи тестовых файлов. Значение по умолчанию — UTF-8.

  • Escape-символ: один символ для экранирования кавычки внутри кавычек. Значение по умолчанию — обратная косая черта\. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей.

  • Символ кавычки: один символ для кавычки значений столбцов, если он содержит разделитель столбцов. Значение по умолчанию — двойные кавычки ("). Если символ кавычки определен как пустая строка, это означает, что значение символа кавычки и значения столбца не кавычек, а escape-символ используется для экранирования разделителя столбцов и самого себя.

  • Первая строка в качестве заголовка: указывает, следует ли обрабатывать и делать первую строку в виде строки заголовка с именами столбцов. Допустимые значения выбраны и не выбраны (по умолчанию). Если первая строка в качестве заголовка не выбрана, обратите внимание, что предварительный просмотр данных пользовательского интерфейса и выходные данные действия подстановки автоматически создают имена столбцов как Prop_{n} (начиная с 0), действие копирования требует явного сопоставления из источника в место назначения и поиска столбцов по порядковой строке (начиная с 1).

  • Значение NULL: указывает строковое представление значения NULL. Значение по умолчанию — пустая строка.

В разделе "Дополнительные параметры" на вкладке "Назначение " отображаются дополнительные свойства связанного формата текста с разделителями.

  • Процитировать весь текст: заключите все значения в кавычки.

  • Расширение файла: расширение файла, используемое для имени выходных файлов, например .csv, .txt.

  • Максимальное количество строк для каждого файла: при записи данных в папку можно выбрать запись в несколько файлов и указать максимальные строки для каждого файла.

  • Префикс имени файла: применимо, если настроены максимальные строки для каждого файла . Оно задает префикс, добавляемый к имени файла при записи данных с разбиением на несколько файлов. Имя присваивается по следующему шаблону: <fileNamePrefix>_00000.<fileExtension>. Если это свойство не задано, то префикс имени файла будет создан автоматически. Это свойство не применяется, если исходное хранилище является хранилищем на основе файлов или параметром секционирования включено хранилище данных.

Сводка таблицы

Текст с разделителями в качестве источника

Следующие свойства поддерживаются в разделе источника действия копирования при использовании текстового формата с разделителями.

Имя Описание Значение Обязательно Свойство скрипта JSON
 Формат файлов Формат файла, который требуется использовать. Разделитель Да тип (под datasetSettings):
Текст с разделителями
Тип сжатия Кодек сжатия, используемый для чтения текстовых файлов с разделителями. Можно выбрать:
Не допускается
bzip2
Gzip
Deflate
ZipDeflate
TarGzip
Смолы
No тип (под compression):

bzip2
gzip
Deflate
ZipDeflate
TarGzip
tar
Сохранение имени ZIP-файла в качестве папки Указывает, следует ли использовать имя исходного ZIP-файла в качестве имени структуры папок во время копирования. Применяется при выборе сжатия ZipDeflate . Выбранный или отмена выбора Без preserveZipFileNameAsFolder
(в разделе compressionProperties->type как ZipDeflateReadSettings)
Сохранение имени файла сжатия в виде папки Указывает, следует ли сохранять имя исходного сжатого файла в качестве имени структуры папок во время копирования. Применяется при выборе сжатия TarGzip/tar . Выбранный или отмена выбора No preserveCompressionFileNameAsFolder
(в разделе compressionProperties->type как TarGZipReadSettings или TarReadSettings)
Уровень сжатия  Коэффициент сжатия. Допустимые значения: оптимальный или самый быстрый. Оптимальный или быстрый Без уровень (под compression):
Самый быстрый
Оптимально
Разделитель столбцов  Знаки, используемые для разделения столбцов в файле.  < выбранный разделитель столбцов >
запятая, (по умолчанию)
No columnDelimiter
Разделитель строк символ, используемый для разделения строк в файле. < выбранный разделитель строк >
\r,\n (по умолчанию) или r\n
Без rowDelimiter
Кодирование Тип кодировки, используемый для чтения и записи тестовых файлов. UTF-8 (по умолчанию),"UTF-8 без BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM869"70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", ISO-2022-JP, ISO-2022-KR, ISO-8859-1, ISO-8859-2, "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-12555", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Без encodingName
Escape-символ Один знак для экранирования кавычек внутри значения в кавычках. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей. < выбранный escape-символ >
обратная косая черта\ (по умолчанию)
No escapeChar
Символ кавычки Один знак для заключения в кавычки значения столбца, если оно содержит разделитель столбцов. Если символ кавычки определен как пустая строка, это означает, что значение символа кавычки и значения столбца не кавычек, а escape-символ используется для экранирования разделителя столбцов и самого себя. < выбранный символ кавычки >
двойные кавычки" (по умолчанию)
No quoteChar
Первая строка в качестве заголовка Следует ли рассматривать первую строку в заданном листе или диапазоне как строку заголовка с именами столбцов. Выбрано или не выбрано No firstRowAsHeader:
true или false (по умолчанию)
Значение NULL Задает строковое представление значения NULL. Значение по умолчанию — пустая строка. < строковое представление значения NULL >
пустая строка (по умолчанию)
No nullValue

Текст с разделителями в качестве назначения

Следующие свойства поддерживаются в разделе назначения действия копирования при использовании текстового формата с разделителями.

Имя Описание Значение Обязательно Свойство скрипта JSON
 Формат файлов Формат файла, который требуется использовать. Разделитель Да тип (под datasetSettings):
Текст с разделителями
Тип сжатия Кодек сжатия, используемый для записи текстовых файлов с разделителями. Можно выбрать:
Не допускается
bzip2
Gzip
Deflate
ZipDeflate
TarGzip
Смолы
No тип (под compression):

bzip2
gzip
Deflate
ZipDeflate
TarGzip
tar
Сохранение имени ZIP-файла в качестве папки Указывает, следует ли использовать имя исходного ZIP-файла в качестве имени структуры папок во время копирования. Выбранный или отмена выбора Без preserveZipFileNameAsFolder
(в разделе compressionProperties->type как ZipDeflateReadSettings)
Сохранение имени файла сжатия в виде папки Указывает, следует ли сохранять имя исходного сжатого файла в качестве имени структуры папок во время копирования. Выбранный или отмена выбора No preserveCompressionFileNameAsFolder
(в разделе compressionProperties->type как TarGZipReadSettings или TarReadSettings)
Уровень сжатия  Коэффициент сжатия. Допустимые значения: оптимальный или самый быстрый. Оптимальный или быстрый Без уровень (под compression):
Самый быстрый
Оптимально
Разделитель столбцов  Знаки, используемые для разделения столбцов в файле.  < выбранный разделитель столбцов >
запятая , (по умолчанию)
No columnDelimiter
Разделитель строк символ, используемый для разделения строк в файле. < выбранный разделитель строк >
\r,\n (по умолчанию) или r\n
Без rowDelimiter
Кодирование Тип кодировки, используемый для чтения и записи тестовых файлов. UTF-8 (по умолчанию),"UTF-8 без BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM869", "IBM869"70", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", ISO-2022-JP, ISO-2022-KR, ISO-8859-1, ISO-8859-2, "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-12555", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Без encodingName
Escape-символ Один знак для экранирования кавычек внутри значения в кавычках. Если escape-символ определяется как пустая строка, символ кавычки также должен быть задан как пустая строка, в этом случае убедитесь, что все значения столбцов не содержат разделителей. < выбранный escape-символ >
обратная косая черта\ (по умолчанию)
No escapeChar
Символ кавычки Один знак для заключения в кавычки значения столбца, если оно содержит разделитель столбцов. Если символ кавычки определен как пустая строка, это означает, что значение символа кавычки и значения столбца не кавычек, а escape-символ используется для экранирования разделителя столбцов и самого себя. < выбранный символ кавычки >
двойные кавычки" (по умолчанию)
No quoteChar
Первая строка в качестве заголовка Следует ли рассматривать первую строку в заданном листе или диапазоне как строку заголовка с именами столбцов. Выбрано или не выбрано No firstRowAsHeader:
true или false (по умолчанию)
Кавычек весь текст Заключите все значения в кавычки. Выбрано (по умолчанию) или не выбрано No quoteAllText:
true (по умолчанию) или false
Расширение файла Расширение файла, используемое для имени выходных файлов. < расширение файла >
.txt (по умолчанию);
No fileExtension
Максимальное количество строк на файл Можно выбрать режим записи данных в папку с разбиением на несколько файлов и указать максимальное число строк в одном таком файле. < максимальное количество строк на файл > No maxRowsPerFile
Префикс имени файла Применимо, если настроены максимальные строки для каждого файла . Оно задает префикс, добавляемый к имени файла при записи данных с разбиением на несколько файлов. Имя присваивается по следующему шаблону: <fileNamePrefix>_00000.<fileExtension>. Если это свойство не задано, то префикс имени файла будет создан автоматически. Это свойство не применяется, если исходное хранилище является хранилищем на основе файлов или параметром секционирования включено хранилище данных. < префикс имени файла > No fileNamePrefix