Двоичный формат в Фабрике данных Azure и Synapse Analytics
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
Двоичный формат поддерживается для следующих соединителей: Amazon S3, Хранилище, совместимое с Amazon S3, BLOB-объект Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, Файлы Azure, Файловая система, FTP, Облачное хранилище Google, HDFS, HTTP, Облачное хранилище Oracle и SFTP.
Двоичный набор данных можно использовать в Действии копирования, Действии с метаданными или Действии удаления. При использовании двоичного набора данных служба не анализирует содержимое файла, а обрабатывает его как есть.
Примечание
При использовании двоичного набора данных в действии копирования можно копировать только из одного двоичного набора данных в другой.
Полный список разделов и свойств, доступных для определения наборов данных, см. в статье о наборах данных. В этом разделе перечислены свойства, поддерживаемые двоичным набором данных.
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Для свойства type набора данных необходимо задать значение Двоичный. | Да |
расположение | Параметры расположения файлов. Каждый файловый соединитель имеет собственный тип расположения и поддерживает собственный набор свойств в разделе location . Подробные сведения см. в статье о соединителях —> раздел "Свойства набора данных". |
Да |
compression | Группа свойств для настройки сжатия файлов. Настройте этот раздел, если требуется сжатие/распаковка при выполнении действия. | No |
type | Кодек сжатия, используемый для чтения и записи двоичных файлов. Допустимые значения: bzip2, gzip, deflate, ZipDeflate, tar или TarGzip. Обратите внимание, что при использовании действия копирования для распаковки файлов ZipDeflate / TarGzip / tar и записи в файловое хранилище данных приемника по умолчанию файлы распаковываются в папку: <path specified in dataset>/<folder named as source compressed file>/ , используйте preserveZipFileNameAsFolder /preserveCompressionFileNameAsFolder в источнике действия копирования, чтобы использовать имя сжатого (-ых) файла (-ов) для названия структуры папок. |
No |
level | Коэффициент сжатия. Применяется при использовании набора данных в приемнике действия копирования. Допустимые значения: оптимальный или самый быстрый. - Fastest: операция сжатия должна выполняться как можно быстрее, даже если итоговый файл будет сжат не оптимально. - Optimal: операция сжатия должна выполняться оптимально, даже если для ее завершения требуется больше времени. Дополнительные сведения см. в разделе Уровень сжатия. |
No |
Ниже приведен пример двоичного набора данных в хранилище BLOB-объектов Azure:
{
"name": "BinaryDataset",
"properties": {
"type": "Binary",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder",
},
"compression": {
"type": "ZipDeflate"
}
}
}
}
Полный список разделов и свойств, используемых для определения действий, см. в статье Конвейеры и действия в фабрике данных Azure. В этом разделе содержится список свойств, поддерживаемых источником и приемником двоичных данных.
Примечание
При использовании двоичного набора данных в действии копирования можно копировать только из одного двоичного набора данных в другой.
В разделе источника *source* действия копирования поддерживаются указанные ниже свойства.
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство type источника действия копирования должно иметь значение BlobSource. | Да |
formatSettings | Группа свойств. См. таблицу Параметры чтения двоичных данных ниже. | No |
storeSettings | Группа свойств, определяющих способ чтения данных из хранилища данных. Каждый файловый соединитель поддерживает собственный набор параметров чтения в разделе storeSettings . Подробные сведения см. в статье о соединителях —> раздел "Свойства действия Copy". |
No |
Поддерживаемые параметры чтения двоичных данных в formatSettings
:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Для типа formatSettings должно быть задано значение BinaryReadSettings. | Да |
compressionProperties | Группа свойств для распаковки данных для данного кодека сжатия. | No |
preserveZipFileNameAsFolder (в разделе compressionProperties ->type как ZipDeflateReadSettings ) |
Применяется, когда для входного набора данных настроено сжатие ZipDeflate. Указывает, следует ли использовать имя исходного ZIP-файла в качестве имени структуры папок во время копирования. — Если задано значение true (по умолчанию), служба записывает разархивированные файлы в <path specified in dataset>/<folder named as source zip file>/ .— Если задано значение false, служба записывает разархивированные файлы непосредственно в <path specified in dataset> . Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных ZIP-файлах нет файлов с одинаковыми именами. |
No |
preserveCompressionFileNameAsFolder (в разделе compressionProperties ->type как TarGZipReadSettings или TarReadSettings ) |
Применяется, когда для входного набора данных настроено сжатие TarGzip/Tar. Указывает, следует ли сохранять имя исходного сжатого файла в качестве имени структуры папок во время копирования. — Если задано значение true (по умолчанию), служба записывает распакованные файлы в <path specified in dataset>/<folder named as source compressed file>/ . — Если задано значение false, служба записывает распакованные файлы непосредственно в <path specified in dataset> . Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных файлах нет файлов с одинаковыми именами. |
No |
"activities": [
{
"name": "CopyFromBinary",
"type": "Copy",
"typeProperties": {
"source": {
"type": "BinarySource",
"storeSettings": {
"type": "AzureBlobStorageReadSettings",
"recursive": true,
"deleteFilesAfterCompletion": true
},
"formatSettings": {
"type": "BinaryReadSettings",
"compressionProperties": {
"type": "ZipDeflateReadSettings",
"preserveZipFileNameAsFolder": false
}
}
},
...
}
...
}
]
В разделе *sink* действия Copy поддерживаются следующие свойства.
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство type источника действия копирования должно иметь значение BinarySink. | Да |
storeSettings | Группа свойств, определяющих способы записи данных в хранилище данных. Каждый файловый соединитель поддерживает собственный набор параметров записи в разделе storeSettings . Подробные сведения см. в статье о соединителях —> раздел "Свойства действия Copy". |
No |