Задача Azure Synapse Analytics

Область применения:SQL Server Среда выполнения интеграции SSIS в Фабрика данных Azure

Tip

Microsoft Fabric Data Warehouse — это реляционное хранилище корпоративного масштаба на основе озера данных, с архитектурой, готовой к будущему, встроенным ИИ и новыми функциями. Если вы не знакомы с хранилищем данных, начните с Fabric Data Warehouse. Существующие рабочие нагрузки выделенных пулов SQL могут быть обновлены до Fabric для доступа к новым возможностям в области науки о данных, аналитики в реальном времени и создания отчётов.

Задача Azure Synapse Analytics позволяет пакету служб SSIS копировать табличные данные в выделенный пул SQL Azure Synapse Analytics из файловой системы или Хранилища BLOB-объектов Azure. Для повышения производительности в задаче используется PolyBase, как описано в статье Шаблоны и стратегии загрузки в Azure Synapse Analytics. В настоящее время в качестве формата исходного файла данных поддерживается текст с разделителями в кодировке UTF-8. В процессе копирования из файловой системы данные сначала будут переданы на промежуточное хранение в Хранилище BLOB-объектов Azure, а затем в выделенный пул SQL. Поэтому требуется учетная запись хранилища BLOB-объектов Azure.

Примечание.

Диспетчер подключений службы хранилища Azure с типом службы Озеро данных 2-го поколения не поддерживается.

Чтобы использовать Azure Data Lake 2-го поколения для промежуточного или исходного хранения, можно подключиться через диспетчер подключений службы хранилища Azure с типом "Хранилище BLOB-объектов Azure".

Задача Azure Synapse Analytics входит в пакет дополнительных компонентов SQL Server Integration Services (SSIS) для Azure.

Чтобы добавить задачу Azure Synapse Analytics, перетащите ее с панели элементов служб SSIS на холст конструктора и дважды щелкните ее (или щелкните ее правой кнопкой мыши), а затем выберите команду Изменить, чтобы открыть диалоговое окно редактора задач.

На странице Общие настройте следующие свойства.

В свойстве SourceType указывается тип источника данных. Выберите один из следующих вариантов:

  • FileSystem: исходные данные находятся в локальной файловой системе.
  • BlobStorage: исходные данные находятся в хранилище BLOB-объектов Azure.

Ниже указаны свойства для каждого типа источника.

Файловая система

Поле Описание
ЛокальныйКаталог Указывает локальный каталог с файлами данных для отправки.
Рекурсивно Указывает, выполнять ли рекурсивный поиск в подкаталогах.
Имя файла Указывает фильтр имен для выбора файлов с определенным именем. Например, MySheet*.xsl* выберет такие файлы, как MySheet001.xsl и MySheetABC.xlsx.
разделитель строк Указывает символы, обозначающие конец строки.
РазделительСтолбцов Указывает символы, обозначающие конец столбца. Например, | («пайп»), \t («табуляция»), ' («одинарная кавычка»), " («двойная кавычка») и 0x5c («обратная косая черта»).
IsFirstRowHeader Указывает, содержит ли первая строка каждого файла данных названия столбцов, а не фактические данные.
AzureStorageConnection Указывает диспетчер подключений для служба хранилища Azure.
BlobContainer Задает имя блоб-контейнера, в который будут загружены локальные данные для передачи в выделенный пул SQL Azure Synapse Analytics через PolyBase. Будет создан новый контейнер, если он не существует.
BlobDirectory Задает каталог больших двоичных объектов (виртуальная иерархическая структура), в который будут загружены локальные данные и переданы в выделенный пул SQL Azure Synapse Analytics через PolyBase.
RetainFiles Указывает, следует ли сохранить файлы, переданные в службу хранилища Azure.
Тип сжатия Указывает формат сжатия, используемый при передаче файлов в службу хранилища Azure. Локальный источник не затронут.
Уровень сжатия Указывает уровень сжатия, используемый в рамках формата сжатия.
SqlPoolConnection Указывает менеджер подключений ADO.NET для выделенного SQL-пула в Azure Synapse Analytics.
TableName Указывает название целевой таблицы. Выберите существующую таблицу или создайте новую, выбрав пункт <Создать таблицу ...>.
TableDistribution Указывает метод распределения данных для новой таблицы. Применяется, если для TableNameуказано название новой таблицы.
HashColumnName Указывает столбец, используемый для распределения данных посредством хэш-таблицы. Применяется, если для TableDistribution указано значение HASH.

BlobStorage

Поле Описание
AzureStorageConnection Указывает менеджер подключений службы хранилища Azure.
BlobContainer Указывает имя контейнера blob, в котором находятся исходные данные.
BlobDirectory Указывает каталог больших двоичных объектов (виртуальную иерархическую структуру), в котором находится источник данных.
RowDelimiter Указывает символы, обозначающие конец строки.
РазделительСтолбцов Указывает символы, обозначающие конец столбца. Например, | (вертикальная черта), \t (табуляция), ' (одинарная кавычка), " (двойная кавычка) и 0x5c (обратная косая черта).
ТипСжатия Указывает формат сжатия, используемый для источника данных.
SqlPoolConnection Указывает диспетчер подключений ADO.NET для выделенного SQL-пула Azure Synapse Analytics.
TableName Указывает имя целевой таблицы. Выберите существующую таблицу или создайте новую, выбрав пункт <Создать таблицу ...>.
TableDistribution Указывает метод распределения данных для новой таблицы. Применяется, если для TableNameуказано название новой таблицы.
HashColumnName Указывает столбец, используемый для распределения данных посредством хэш-таблицы. Применяется, если для TableDistribution указано значение HASH.

Содержимое страницы Сопоставления изменяется в зависимости от того, в какую таблицу копируются данные — в новую или существующую. В первом случае необходимо будет настроить сопоставляемые исходные столбцы и соответствующие им названия целевых столбцов в создаваемой целевой таблице. Во втором случае необходимо сопоставить исходные и целевые столбцы.

На странице Столбцы необходимо настроить свойства типов данных для каждого исходного столбца.

На странице T-SQL отображается код T-SQL, используемый для загрузки данных из Хранилища BLOB-объектов Azure в выделенный пул SQL. Этот T-SQL код создается автоматически на основе конфигураций на других страницах и будет исполняться в процессе выполнения задачи. Вы можете вручную изменить созданный код T-SQL, если нужно, нажав кнопку Изменить . Вы можете позже вернуться к автоматически сгенерированному варианту, нажав кнопку Сброс.