Настройка Lakehouse в действии копирования
В этой статье описывается, как использовать действие копирования в конвейере данных для копирования данных из Fabric Lakehouse и из нее. По умолчанию данные записываются в таблицу Lakehouse в V-Order, и вы можете перейти к оптимизации таблиц Delta Lake и V-Order для получения дополнительных сведений.
Поддерживаемые форматы
Lakehouse поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.
- Формат Avro
- Двоичный формат
- Формат текста с разделителями
- Формат Excel
- Формат JSON
- Формат ORC
- Формат Parquet
- ФОРМАТ XML
Поддерживаемая конфигурация
Для настройки каждой вкладки в действии копирования перейдите к следующим разделам соответственно.
Общие
Для конфигурации вкладки "Общие" перейдите к разделу "Общие".
Исходный код
Следующие свойства поддерживаются для Lakehouse на вкладке "Источник " действия копирования.
Требуются следующие свойства:
Подключение. Выберите подключение Lakehouse из списка подключений. Если подключение не существует, создайте новое подключение Lakehouse, выбрав "Дополнительно " в нижней части списка подключений. При применении динамического содержимого для указания Lakehouse добавьте параметр и укажите идентификатор объекта Lakehouse в качестве значения параметра. Чтобы получить идентификатор объекта Lakehouse, откройте Lakehouse в рабочей области, а идентификатор находится в
/lakehouses/
URL-адресе.Корневая папка: выберите таблицы или файлы, указывающие виртуальное представление управляемой или неуправляемой области в озере. Дополнительные сведения см. в обзоре Lakehouse.
Если выбрать таблицы:
Имя таблицы: выберите существующую таблицу из списка таблиц или укажите имя таблицы в качестве источника. Вы также можете выбрать "Создать" , чтобы создать новую таблицу.
Таблица. При применении Lakehouse с схемами в соединении выберите существующую таблицу со схемой из списка таблиц или укажите таблицу с схемой в качестве источника. Вы также можете выбрать "Создать" , чтобы создать новую таблицу со схемой. Если имя схемы не указано, служба будет использовать dbo в качестве схемы по умолчанию.
В разделе "Дополнительно" можно указать следующие поля:
- Метка времени. Укажите, чтобы запросить старый моментальный снимок по метке времени.
- Версия. Укажите запрос к более старой моментальному снимку по версии.
- Дополнительные столбцы: добавьте дополнительные столбцы данных в относительный путь или статический путь к файлам хранилища. Выражение поддерживается для последнего.
Поддерживается читатель версии 1. Соответствующие поддерживаемые функции Delta Lake см. в этой статье.
Если выбрать "Файлы":
Тип пути к файлу: можно выбрать путь к файлу, путь к файлу подстановочного знака или список файлов в качестве типа пути к файлу. В следующем списке описана конфигурация каждого параметра:
Путь к файлу: нажмите кнопку "Обзор" , чтобы выбрать файл, который требуется скопировать, или указать путь вручную.
Путь к файлу с подстановочными знаками: укажите папку или путь к файлу с подстановочными знаками в заданной неуправляемой области Lakehouse (в разделе "Файлы") для фильтрации исходных папок или файлов. Допустимые знаки подстановки:
*
(соответствует нулю или нескольким символам) и?
(соответствует нулю или одному символу). Используется^
для экранирования, если в папке или имени файла есть подстановочный знак или этот escape-символ внутри.Путь к папке с подстановочными знаками: путь к папке под заданным контейнером. Если вы хотите использовать подстановочный знак для фильтрации папки, пропустите этот параметр и укажите эти сведения в параметрах источника действия.
Имя файла подстановочного знака: имя файла под заданной неуправляемой областью Lakehouse (в разделе "Файлы") и путь к папке.
Список файлов: указывает на копирование заданного набора файлов.
- Путь к папке: указывает на папку, содержащую файлы, которые нужно скопировать.
- Путь к списку файлов: указывает на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку, который является относительным путем к указанному пути к файлу.
Рекурсивно: указывает, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. При включении все файлы во входной папке и ее вложенных папках обрабатываются рекурсивно. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.
Формат файла: выберите формат файла из раскрывающегося списка. Нажмите кнопку "Параметры", чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .
В разделе "Дополнительно" можно указать следующие поля:
- Фильтр по последнему изменению: файлы фильтруются на основе последних измененных дат. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.
- Время начала: файлы выбираются, если время последнего изменения больше или равно заданному времени.
- Время окончания: файлы выбираются, если время последнего изменения меньше настроенного времени.
- Включение обнаружения секций: для файлов, секционированных, укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов.
- Корневой путь к секционированиям. Если обнаружение секций включено, укажите абсолютный корневой путь, чтобы читать секционированные папки в виде столбцов данных.
- Максимальное число одновременных подключений: указывает верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.
- Фильтр по последнему изменению: файлы фильтруются на основе последних измененных дат. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.
Назначение
Следующие свойства поддерживаются для Lakehouse на вкладке "Назначение " действия копирования.
Требуются следующие свойства:
Подключение. Выберите подключение Lakehouse из списка подключений. Если подключение не существует, создайте новое подключение Lakehouse, выбрав "Дополнительно " в нижней части списка подключений. При применении динамического содержимого для указания Lakehouse добавьте параметр и укажите идентификатор объекта Lakehouse в качестве значения параметра. Чтобы получить идентификатор объекта Lakehouse, откройте Lakehouse в рабочей области, а идентификатор находится в
/lakehouses/
URL-адресе.Корневая папка: выберите таблицы или файлы, указывающие виртуальное представление управляемой или неуправляемой области в озере. Дополнительные сведения см. в обзоре Lakehouse.
Если выбрать таблицы:
Имя таблицы: выберите существующую таблицу из списка таблиц или укажите имя таблицы в качестве назначения. Вы также можете выбрать "Создать" , чтобы создать новую таблицу.
Таблица. При применении Lakehouse с схемами в соединении выберите существующую таблицу со схемой из списка таблиц или укажите таблицу с схемой в качестве назначения. Вы также можете выбрать "Создать" , чтобы создать новую таблицу со схемой. Если имя схемы не указано, служба будет использовать dbo в качестве схемы по умолчанию.
В разделе "Дополнительно" можно указать следующие поля:
Действия таблицы: укажите операцию для выбранной таблицы.
Добавление: добавление новых значений в существующую таблицу.
- Включение секции. Этот выбор позволяет создавать секции в структуре папок на основе одного или нескольких столбцов. Каждое отдельное значение столбца (пара) — это новая секция. Например, "year=2000/month=01/file".
- Имя столбца секции: выберите из целевых столбцов в сопоставлении схем при добавлении данных в новую таблицу. При добавлении данных в существующую таблицу с уже имеющимися секциями столбцы секций автоматически извлекаются из существующей таблицы. Поддерживаемые типы данных — строка, целое число, логическое значение и datetime. Формат учитывает параметры преобразования типов на вкладке "Сопоставление ".
- Включение секции. Этот выбор позволяет создавать секции в структуре папок на основе одного или нескольких столбцов. Каждое отдельное значение столбца (пара) — это новая секция. Например, "year=2000/month=01/file".
Перезапись: перезаписать существующие данные и схему в таблице с помощью новых значений. Если эта операция выбрана, можно включить секцию в целевой таблице:
- Включение секции. Этот выбор позволяет создавать секции в структуре папок на основе одного или нескольких столбцов. Каждое отдельное значение столбца (пара) — это новая секция. Например, "year=2000/month=01/file".
- Имя столбца секции: выберите из целевых столбцов в сопоставлении схем. Поддерживаемые типы данных — строка, целое число, логическое значение и datetime. Формат учитывает параметры преобразования типов на вкладке "Сопоставление ".
Он поддерживает путешествие по времени Delta Lake. Перезаписавшаяся таблица содержит разностные журналы для предыдущих версий, доступ к которым можно получить в Lakehouse. Вы также можете скопировать предыдущую таблицу версий из Lakehouse, указав версию в источнике действия копирования.
- Включение секции. Этот выбор позволяет создавать секции в структуре папок на основе одного или нескольких столбцов. Каждое отдельное значение столбца (пара) — это новая секция. Например, "year=2000/month=01/file".
Максимальное число одновременных подключений: верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.
Поддерживается модуль записи версии 2. Соответствующие поддерживаемые функции Delta Lake см. в этой статье.
Если выбрать "Файлы":
Путь к файлу: нажмите кнопку "Обзор" , чтобы выбрать файл, который требуется скопировать, или указать путь вручную.
Формат файла: выберите формат файла из раскрывающегося списка. Выберите "Параметры", чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .
В разделе "Дополнительно" можно указать следующие поля:
Поведение копирования: определяет поведение копирования, если источник является файлами из файлового хранилища данных. Вы можете выбрать плоскую иерархию, файлы слияния, сохранить иерархию или добавить динамическое содержимое в качестве поведения копирования. Конфигурация каждого параметра:
Неструктурированный иерархия: все файлы из исходной папки находятся на первом уровне целевой папки. У целевых файлов есть автоматически созданные имена.
Файлы слияния: объединяет все файлы из исходной папки в один файл. Если указано имя файла, то оно присваивается объединенному файлу. В противном случае это автоматически созданное имя файла.
Сохранение иерархии: сохраняет иерархию файлов в целевой папке. Относительный путь исходного файла к исходной папке идентичен относительному пути целевого файла к целевой папке.
Добавление динамического содержимого. Чтобы указать выражение для значения свойства, выберите " Добавить динамическое содержимое". Это поле открывает построитель выражений, где можно создавать выражения из поддерживаемых системных переменных, выходных данных действий, функций и пользовательских переменных или параметров. Дополнительные сведения о языке выражений см. в описании выражений и функций.
Максимальное число одновременных подключений: верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.
Размер блока (МБ): укажите размер блока в МБ при записи данных в Lakehouse. Допустимое значение — от 4 до 100 МБ.
Метаданные. Задайте пользовательские метаданные при копировании в целевое хранилище данных. Каждый объект в массиве
metadata
представляет дополнительный столбец.name
определяет имя ключа метаданных, аvalue
указывает значение данных этого ключа. Если используется функция сохранения атрибутов, указанные метаданные будут объединены с метаданными исходного файла или перезаписаны ими. Допустимые значения данных:
Сопоставление
Если вы не применяете таблицу Lakehouse в качестве целевого хранилища данных, перейдите в раздел "Сопоставление".
Если вы применяете таблицу Lakehouse в качестве целевого хранилища данных, за исключением конфигурации в сопоставлении, можно изменить тип для целевых столбцов. После выбора схемы импорта можно указать тип столбца в назначении.
Например, тип столбца PersonID в источнике является int, и его можно изменить на тип строки при сопоставлении с целевым столбцом.
Примечание.
Изменение типа назначения в настоящее время не поддерживается, если исходный тип имеет десятичный тип.
Если в качестве формата файла выбран двоичный файл, сопоставление не поддерживается.
Настройки
Для настройки вкладки "Параметры" перейдите в раздел "Параметры".
Сводка таблицы
В следующих таблицах содержатся дополнительные сведения о действии копирования в Lakehouse.
Сведения об источнике
Имя | Описание | Значение | Обязательное поле | Свойство скрипта JSON |
---|---|---|---|---|
Соединение | Раздел для выбора подключения. | < подключение Lakehouse> | Да | workspaceId artifactId |
Корневая папка | Тип корневой папки. | • Таблицы • Файлы |
No | rootFolder: Таблица или файлы |
Имя таблицы | Имя таблицы, которую требуется считывать. | <имя таблицы> | Да при выборе таблиц в корневой папке | table |
Таблицу | Имя таблицы со схемой, которую необходимо считывать при применении Lakehouse с схемами в качестве соединения. | <таблица со схемой> | Да при выборе таблиц в корневой папке | / |
Для таблицы | ||||
Имя схемы | Имя схемы. | <имя схемы> (значение по умолчанию — dbo) |
No | (под source ->datasetSettings ->typeProperties )schema |
имя таблицы | Название таблицы. | <имя таблицы> | Да | table |
Timestamp | Метка времени для запроса старого моментального снимка. | <timestamp> | No | timestampAsOf |
Версия | Версия для запроса старого моментального снимка. | <version> | No | versionAsOf |
Дополнительные столбцы | Дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего. | • Имя •Ценность |
No | additionalColumns: •имя •ценность |
Тип пути к файлу | Тип используемого пути к файлу. | • Путь к файлу • Путь к файлу с подстановочными знаками • Список файлов |
Да при выборе файлов в корневой папке | / |
Путь к файлу | Скопируйте путь к папке или файлу в исходном хранилище данных. | <Путь к файлу> | Да при выборе пути к файлу | • folderPath •имя файла |
Пути с подстановочными знаками | Путь к папке с подстановочными знаками в исходном хранилище данных, настроенный для фильтрации исходных папок. | <Пути с подстановочными знаками> | Да при выборе пути к файлу с подстановочными знаками | • подстановочный знакFolderPath • подстановочный знакFileName |
Путь к папке | Указывает на папку, содержащую файлы, которые нужно скопировать. | <Путь к папке> | No | folderPath |
Путь к списку файлов | Указывает, что нужно скопировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку, который является относительным путем к настроенного пути. | <путь к списку файлов> | No | fileListPath |
Рекурсивно | Обработайте все файлы во входной папке и ее вложенных папках рекурсивно или просто те, которые в выбранной папке. Этот параметр отключен при выборе одного файла. | Выбор или отмена выбора | No | рекурсивный: true или false |
Формат файлов | Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. | / | Да при выборе файлов в корневой папке | / |
Фильтрация по последней измененной | Файлы с последним измененным временем в диапазоне [время начала, время окончания) будут отфильтрованы для дальнейшей обработки. Время применяется к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ .Это свойство можно пропустить, что означает, что фильтр атрибутов файла не применяется. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов. |
• Время начала • Время окончания |
No | modifiedDatetimeStart modifiedDatetimeEnd |
Включение обнаружения секций | Следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. | Выбрано или не выбрано | No | enablePartitionDiscovery: true или false (по умолчанию) |
Корневой путь раздела | Абсолютный корневой путь секционирования для чтения секционированных папок в виде столбцов данных. | <корневой путь к секции> | No | partitionRootPath |
Максимальное число одновременных подключений | Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Значение необходимо только в том случае, если требуется ограничить одновременные подключения. | <максимальное число одновременных подключений> | No | maxConcurrentConnections |
Сведения о назначении
Имя | Описание | Значение | Обязательное поле | Свойство скрипта JSON |
---|---|---|---|---|
Соединение | Раздел для выбора подключения. | < подключение Lakehouse> | Да | workspaceId artifactId |
Корневая папка | Тип корневой папки. | • Таблицы • Файлы |
Да | rootFolder: Таблица или файлы |
Имя таблицы | Имя таблицы, в которую требуется записать данные. | <имя таблицы> | Да при выборе таблиц в корневой папке | table |
Таблицу | Имя таблицы со схемой, в которую необходимо записать данные при применении Lakehouse с схемами в качестве соединения. | <таблица со схемой> | Да при выборе таблиц в корневой папке | / |
Для таблицы | ||||
Имя схемы | Имя схемы. | <имя схемы> (значение по умолчанию — dbo) |
No | (под sink ->datasetSettings ->typeProperties )schema |
имя таблицы | Название таблицы. | <имя таблицы> | Да | table |
Действие таблицы | Добавьте новые значения в существующую таблицу или перезаписать существующие данные и схему в таблице с помощью новых значений. | • Добавление • Перезапись |
No | tableActionOption: Добавление или перезаписьSchema |
Включение секций | Этот выбор позволяет создавать секции в структуре папок на основе одного или нескольких столбцов. Каждое отдельное значение столбца (пара) — это новая секция. Например, "year=2000/month=01/file". | Выбрано или не выбрано | No | partitionOption: PartitionByKey или None |
Столбцы секционирования | Конечные столбцы в сопоставлении схем. | <столбцы секций> | No | partitionNameList |
Путь к файлу | Запись данных в путь к папке или файлу в целевом хранилище данных. | <Путь к файлу> | No | • folderPath •имя файла |
Формат файлов | Формат файла для целевых данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. | / | Да при выборе файлов в корневой папке | / |
Поведение копирования | Поведение копирования, определенное, когда источник является файлами из файлового хранилища данных. | • Плоская иерархия • Слияние файлов • Сохранение иерархии • Добавление динамического содержимого |
No | copyBehavior: • FlattenHierarchy • MergeFiles • СохранитьHierarchy |
Максимальное число одновременных подключений | Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. | <максимальное число одновременных подключений> | No | maxConcurrentConnections |
Размер блока (МБ) | Размер блока в МБ, используемый для записи данных в Lakehouse. Допустимое значение — от 4 до 100 МБ. | <Размер блока> | No | blockSizeInMB |
Метаданные | Настраиваемый набор метаданных при копировании в место назначения. | • $$LASTMODIFIED •Выражение • Статическое значение |
No | metadata |