Копирование данных с помощью действия копирования
В конвейере данных можно использовать действие Copy для копирования данных между хранилищами данных, расположенными в облаке.
После копирования данных можно использовать другие действия для дальнейшего преобразования и анализа. С помощью действия копирования можно также публиковать результаты преобразования и анализа для бизнес-аналитики и использования приложения.
Чтобы скопировать данные из источника в место назначения, служба, которая запускает действие Copy выполняет следующие действия:
- Считывает данные из источника данных.
- Выполняет сериализацию или десериализацию, сжатие или распаковку, сопоставление столбцов и т. д. Он выполняет эти операции на основе конфигурации.
- Записывает данные в целевое хранилище данных.
Необходимые компоненты
Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:
Учетная запись клиента Microsoft Fabric с активной подпиской. Создайте учетную запись бесплатно .
Убедитесь, что у вас есть рабочая область с поддержкой Microsoft Fabric.
Добавление действия копирования с помощью помощника по копированию
Выполните следующие действия, чтобы настроить действие копирования с помощью помощника по копированию.
Начало работы с помощником по копированию
Откройте существующий конвейер данных или создайте новый конвейер данных.
Выберите " Копировать данные на холсте", чтобы открыть средство помощника по копированию, чтобы приступить к работе. Или выберите "Использовать помощник по копированию" в раскрывающемся списке "Копирование данных " на вкладке "Действия " на ленте.
Настройка источника
Выберите тип источника данных из категории. Вы будете использовать Хранилище BLOB-объектов Azure в качестве примера. Выберите Хранилище BLOB-объектов Azure и нажмите кнопку "Далее".
Создайте подключение к источнику данных, выбрав "Создать новое подключение".
После нажатия кнопки "Создать новое подключение" введите необходимые сведения о подключении и нажмите кнопку "Далее". Сведения о создании подключения для каждого типа источника данных см. в каждой статье соединителя.
Если у вас есть подключения, можно выбрать существующее подключение и выбрать подключение в раскрывающемся списке.
Выберите файл или папку, скопированные на этом шаге конфигурации источника, и нажмите кнопку "Далее".
Настройка назначения
Выберите тип источника данных из категории. Вы будете использовать Хранилище BLOB-объектов Azure в качестве примера. Вы можете создать новое подключение, которое ссылается на новую учетную запись Хранилище BLOB-объектов Azure, выполнив действия, описанные в предыдущем разделе, или используйте существующее подключение из раскрывающегося списка подключений. Возможности тестового подключения и редактирования доступны для каждого выбранного подключения.
Настройте и сопоставите исходные данные с назначением. Затем нажмите кнопку "Далее", чтобы завершить конфигурации назначения.
Примечание.
В одном действие Copy можно использовать только один локальный шлюз данных. Если источник и приемник являются локальными источниками данных, они должны использовать один и тот же шлюз. Чтобы переместить данные между локальными источниками данных с разными шлюзами, необходимо скопировать первый шлюз в промежуточный источник облака в одном действие Copy. Затем можно использовать еще один действие Copy для копирования из промежуточного источника облака с помощью второго шлюза.
Просмотр и создание действия копирования
Просмотрите параметры действия копирования на предыдущих шагах и нажмите кнопку "ОК ", чтобы завершить работу. Вы также можете вернуться к предыдущим шагам, чтобы изменить параметры при необходимости в средстве.
После завершения действие копирования будет добавлено на холст конвейера данных. Все параметры, включая дополнительные параметры для этого действия копирования, доступны на вкладках при выборе.
Теперь можно сохранить конвейер данных с помощью этого действия копирования или продолжить разработку конвейера данных.
Добавление действия копирования напрямую
Выполните следующие действия, чтобы напрямую добавить действие копирования.
Добавление действия копирования
Откройте существующий конвейер данных или создайте новый конвейер данных.
Добавьте действие копирования, выбрав "Добавить действие> конвейера действие Copy или выбрав "Копировать данные>" на холсте на вкладке "Действия".
Настройка общих параметров на вкладке "Общие"
Сведения о настройке общих параметров см. в разделе "Общие".
Настройка источника на вкладке "Источник"
Выберите +Создать рядом с подключением , чтобы создать подключение к источнику данных.
Выберите тип источника данных в всплывающем окне. Вы будете использовать База данных SQL Azure в качестве примера. Выберите База данных SQL Azure и нажмите кнопку Продолжить.
Он переходит на страницу создания подключения. Введите необходимые сведения о подключении на панели и нажмите кнопку "Создать". Сведения о создании подключения для каждого типа источника данных см. в каждой статье соединителя.
После успешного создания подключения вы вернеесь на страницу конвейера данных. Затем выберите "Обновить" , чтобы получить подключение, созданное из раскрывающегося списка. Вы также можете выбрать существующее База данных SQL Azure подключение непосредственно в раскрывающемся списке, если вы уже создали его. Возможности тестового подключения и редактирования доступны для каждого выбранного подключения. Затем выберите База данных SQL Azure в типе подключения.
Укажите таблицу для копирования. Выберите предварительный просмотр данных , чтобы просмотреть исходную таблицу. Вы также можете использовать хранимую процедуру запроса и хранимой процедуры для чтения данных из источника.
Разверните " Дополнительно" для более сложных параметров.
Настройка назначения на вкладке назначения
Выберите тип назначения. Это может быть внутреннее хранилище данных первого класса из рабочей области, например Lakehouse или внешние хранилища данных. Вы будете использовать Lakehouse в качестве примера.
Выберите использовать Lakehouse в типе хранилища данных рабочей области. Нажмите кнопку +Создать, а затем перейдите на страницу создания Lakehouse. Укажите имя Lakehouse и нажмите кнопку "Создать".
После успешного создания подключения вы вернеесь на страницу конвейера данных. Затем выберите "Обновить" , чтобы получить подключение, созданное из раскрывающегося списка. Вы также можете выбрать существующее подключение Lakehouse непосредственно в раскрывающемся списке, если вы уже создали его раньше.
Укажите таблицу или настройте путь к файлу, чтобы определить файл или папку в качестве назначения. Здесь выберите таблицы и укажите таблицу для записи данных.
Разверните " Дополнительно" для более сложных параметров.
Теперь можно сохранить конвейер данных с помощью этого действия копирования или продолжить разработку конвейера данных.
Настройка сопоставлений на вкладке сопоставления
Если соединитель, который вы применяете, поддерживает сопоставление, перейдите на вкладку "Сопоставление ", чтобы настроить сопоставление.
Выберите "Импорт схем" , чтобы импортировать схему данных.
Отображается автоматическое сопоставление. Укажите исходный столбец и столбец назначения. Если вы создаете новую таблицу в назначении, вы можете настроить имя столбца назначения здесь. Если вы хотите записать данные в существующую целевую таблицу, нельзя изменить существующее имя столбца назначения . Вы также можете просмотреть тип исходных и целевых столбцов.
Кроме того, можно выбрать +Создать сопоставление, чтобы добавить новое сопоставление, удалить все параметры сопоставления и сбросить все столбцы источника сопоставления.
Настройка других параметров на вкладке "Параметры"
Вкладка "Параметры" содержит параметры производительности, промежуточного хранения и т. д.
Описание каждого параметра см. в следующей таблице.
Параметр | Description | Свойство скрипта JSON |
---|---|---|
Интеллектуальная оптимизация пропускной способности | Укажите для оптимизации пропускной способности. Вы можете выбрать один из вариантов: • Авто • Стандартный • Сбалансированный • Максимальное При выборе авто оптимальный параметр динамически применяется на основе пары назначения источника и шаблона данных. Вы также можете настроить пропускную способность, а настраиваемое значение может быть 2–256, а более высокое значение подразумевает больше прибыли. |
dataIntegrationUnits |
Степень параллелизма копирования | Укажите степень параллелизма, которую будет использовать загрузка данных. | parallelCopies |
Отказоустойчивость | При выборе этого параметра можно игнорировать некоторые ошибки, возникшие в середине процесса копирования. Например, несовместимые строки между исходным и целевым хранилищем, удаление файла во время перемещения данных и т. д. | • enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden invalidFileName |
Включение ведения журналов | При выборе этого параметра можно записывать скопированные файлы, пропускать файлы и строки. | / |
Включение промежуточного хранения | Укажите, следует ли копировать данные через промежуточное хранилище промежуточного хранения. Включите промежуточное хранение только для полезных сценариев. | enableStaging |
Тип хранилища данных | При включении промежуточного хранения можно выбрать рабочую область и внешнюю в качестве типа хранилища данных. | / |
Для рабочей области | ||
Рабочая область | Укажите для использования встроенного промежуточного хранилища. | / |
Для внешних | ||
Подключение промежуточной учетной записи | Укажите подключение Хранилище BLOB-объектов Azure или Azure Data Lake Storage 2-го поколения, которое относится к экземпляру хранилища, используемому в качестве промежуточного хранилища. Создайте промежуточное подключение, если у вас его нет. | подключение (в )externalReferences |
Путь к хранилищу | Задайте путь, по которому должна располагаться область промежуточного хранения данных. В противном случае служба создаст контейнер для хранения временных данных. Укажите путь, только если используется хранилище с подписанным URL-адресом или требуется, чтобы временные данные хранились в определенном месте. | path |
Включение сжатия | Указывает, следует ли сжимать данные перед их копированием в место назначения. Этот параметр позволяет уменьшить объем передаваемых данных. | enableCompression |
Preserve | Укажите, следует ли сохранять метаданные и списки ACL во время копирования данных. | охранная зона |
Примечание.
Если вы используете поэтапное копирование с включенным сжатием, проверка подлинности субъекта-службы для промежуточного подключения к BLOB-объектам не поддерживается.
Настройка параметров в действии копирования
Параметры можно использовать для управления поведением конвейера и его действиями. Вы можете использовать добавление динамического содержимого для указания параметров свойств действия копирования. Давайте рассмотрим, как указать Lakehouse, Хранилище данных или базу данных KQL, чтобы узнать, как использовать ее.
В исходном или целевом расположении после выбора типа хранилища данных рабочей области и указания типа хранилища данных KQL Хранилища/данных Lakehouse/в качестве типа хранилища данных рабочей области выберите "Добавить динамическое содержимое" в раскрывающемся списке "Lakehouse" или "Хранилище данных" или "База данных KQL".
В всплывающей области "Добавить динамическое содержимое " на вкладке "Параметры " выберите +.
Укажите имя параметра и при необходимости присвойте ему значение по умолчанию или укажите значение параметра после выбора запуска в конвейере.
Обратите внимание, что значение параметра должно быть идентификатором объекта Lakehouse/Data Warehouse/KQL Database. Чтобы получить идентификатор объекта Lakehouse/Data Warehouse/KQL Database, откройте свою базу данных Lakehouse/Хранилище данных/KQL в рабочей области, а идентификатор находится после
/lakehouses/
или/datawarehouses/
/databases/
в URL-адресе.Идентификатор объекта Lakehouse:
Идентификатор объекта хранилища данных:
Идентификатор объекта базы данных KQL:
Нажмите кнопку "Сохранить", чтобы вернуться в область "Добавить динамическое содержимое". Затем выберите параметр, чтобы он появился в поле выражения. Затем выберите OK. Вы вернетесь на страницу конвейера и увидите, что выражение параметра указано после идентификатора объекта Data Warehouse объекта Lakehouse ИД//объекта KQL Database.