Прочитать на английском

Поделиться через


Двоичный формат в Фабрике данных Azure и Synapse Analytics

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Двоичный формат поддерживается для следующих соединителей: Amazon S3, Хранилище, совместимое с Amazon S3, BLOB-объект Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, Файлы Azure, Файловая система, FTP, Облачное хранилище Google, HDFS, HTTP, Облачное хранилище Oracle и SFTP.

Двоичный набор данных можно использовать в Действии копирования, Действии с метаданными или Действии удаления. При использовании двоичного набора данных служба не анализирует содержимое файла, а обрабатывает его как есть.

Примечание

При использовании двоичного набора данных в действии копирования можно копировать только из одного двоичного набора данных в другой.

Свойства набора данных

Полный список разделов и свойств, доступных для определения наборов данных, см. в статье о наборах данных. В этом разделе перечислены свойства, поддерживаемые двоичным набором данных.

Свойство Описание: Обязательное поле
type Для свойства type набора данных необходимо задать значение Двоичный. Да
расположение Параметры расположения файлов. Каждый файловый соединитель имеет собственный тип расположения и поддерживает собственный набор свойств в разделе location. Подробные сведения см. в статье о соединителях —> раздел "Свойства набора данных". Да
compression Группа свойств для настройки сжатия файлов. Настройте этот раздел, если требуется сжатие/распаковка при выполнении действия. No
type Кодек сжатия, используемый для чтения и записи двоичных файлов.
Допустимые значения: bzip2, gzip, deflate, ZipDeflate, tar или TarGzip.
Обратите внимание, что при использовании действия копирования для распаковки файлов ZipDeflate / TarGzip / tar и записи в файловое хранилище данных приемника по умолчанию файлы распаковываются в папку: <path specified in dataset>/<folder named as source compressed file>/, используйте preserveZipFileNameAsFolder/preserveCompressionFileNameAsFolder в источнике действия копирования, чтобы использовать имя сжатого (-ых) файла (-ов) для названия структуры папок.
No
level Коэффициент сжатия. Применяется при использовании набора данных в приемнике действия копирования.
Допустимые значения: оптимальный или самый быстрый.
- Fastest: операция сжатия должна выполняться как можно быстрее, даже если итоговый файл будет сжат не оптимально.
- Optimal: операция сжатия должна выполняться оптимально, даже если для ее завершения требуется больше времени. Дополнительные сведения см. в разделе Уровень сжатия.
No

Ниже приведен пример двоичного набора данных в хранилище BLOB-объектов Azure:

{
    "name": "BinaryDataset",
    "properties": {
        "type": "Binary",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "compression": {
                "type": "ZipDeflate"
            }
        }
    }
}

Свойства действия копирования

Полный список разделов и свойств, используемых для определения действий, см. в статье Конвейеры и действия в фабрике данных Azure. В этом разделе содержится список свойств, поддерживаемых источником и приемником двоичных данных.

Примечание

При использовании двоичного набора данных в действии копирования можно копировать только из одного двоичного набора данных в другой.

Двоичный файл в качестве источника

В разделе источника *source* действия копирования поддерживаются указанные ниже свойства.

Свойство Описание: Обязательное поле
type Свойство type источника действия копирования должно иметь значение BlobSource. Да
formatSettings Группа свойств. См. таблицу Параметры чтения двоичных данных ниже. No
storeSettings Группа свойств, определяющих способ чтения данных из хранилища данных. Каждый файловый соединитель поддерживает собственный набор параметров чтения в разделе storeSettings. Подробные сведения см. в статье о соединителях —> раздел "Свойства действия Copy". No

Поддерживаемые параметры чтения двоичных данных в formatSettings:

Свойство Описание: Обязательное поле
type Для типа formatSettings должно быть задано значение BinaryReadSettings. Да
compressionProperties Группа свойств для распаковки данных для данного кодека сжатия. No
preserveZipFileNameAsFolder
(в разделе compressionProperties->type как ZipDeflateReadSettings)
Применяется, когда для входного набора данных настроено сжатие ZipDeflate. Указывает, следует ли использовать имя исходного ZIP-файла в качестве имени структуры папок во время копирования.
— Если задано значение true (по умолчанию), служба записывает разархивированные файлы в <path specified in dataset>/<folder named as source zip file>/.
— Если задано значение false, служба записывает разархивированные файлы непосредственно в <path specified in dataset>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных ZIP-файлах нет файлов с одинаковыми именами.
No
preserveCompressionFileNameAsFolder
(в разделе compressionProperties->type как TarGZipReadSettings или TarReadSettings)
Применяется, когда для входного набора данных настроено сжатие TarGzip/Tar. Указывает, следует ли сохранять имя исходного сжатого файла в качестве имени структуры папок во время копирования.
— Если задано значение true (по умолчанию), служба записывает распакованные файлы в <path specified in dataset>/<folder named as source compressed file>/.
— Если задано значение false, служба записывает распакованные файлы непосредственно в <path specified in dataset>. Чтобы избежать непредвиденных ситуаций, убедитесь в том, что в разных исходных файлах нет файлов с одинаковыми именами.
No
"activities": [
    {
        "name": "CopyFromBinary",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "BinarySource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true,
                    "deleteFilesAfterCompletion": true
                },
                "formatSettings": {
                    "type": "BinaryReadSettings",
                    "compressionProperties": {
                        "type": "ZipDeflateReadSettings",
                        "preserveZipFileNameAsFolder": false
                    }
                }
            },
            ...
        }
        ...
    }
]

Двоичный файл в качестве приемника

В разделе *sink* действия Copy поддерживаются следующие свойства.

Свойство Описание: Обязательное поле
type Свойство type источника действия копирования должно иметь значение BinarySink. Да
storeSettings Группа свойств, определяющих способы записи данных в хранилище данных. Каждый файловый соединитель поддерживает собственный набор параметров записи в разделе storeSettings. Подробные сведения см. в статье о соединителях —> раздел "Свойства действия Copy". No