Поделиться через


Настройка Lakehouse в действии копирования

В этой статье описывается, как использовать действие копирования в конвейере данных для копирования данных из Fabric Lakehouse и из нее. По умолчанию данные записываются в таблицу Lakehouse в V-Order, и вы можете перейти к оптимизации таблиц Delta Lake и V-Order для получения дополнительных сведений.

Поддерживаемые форматы

Lakehouse поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Поддерживаемая конфигурация

Для настройки каждой вкладки в действии копирования перейдите к следующим разделам соответственно.

Общие

Для конфигурации вкладки "Общие" перейдите к разделу "Общие".

Исходный код

Следующие свойства поддерживаются для Lakehouse на вкладке "Источник " действия копирования.

Снимок экрана: вкладка источника и список свойств.

Требуются следующие свойства:

  • Подключение. Выберите подключение Lakehouse из списка подключений. Если подключение не существует, создайте новое подключение Lakehouse, выбрав "Дополнительно " в нижней части списка подключений. При применении динамического содержимого для указания Lakehouse добавьте параметр и укажите идентификатор объекта Lakehouse в качестве значения параметра. Чтобы получить идентификатор объекта Lakehouse, откройте Lakehouse в рабочей области, а идентификатор находится в /lakehouses/URL-адресе.

    Снимок экрана: идентификатор объекта Lakehouse.

  • Корневая папка: выберите таблицы или файлы, указывающие виртуальное представление управляемой или неуправляемой области в озере. Дополнительные сведения см. в обзоре Lakehouse.

    • Если выбрать таблицы:

      • Имя таблицы: выберите существующую таблицу из списка таблиц или укажите имя таблицы в качестве источника. Вы также можете выбрать "Создать" , чтобы создать новую таблицу.

        Снимок экрана: имя таблицы.

      • Таблица. При применении Lakehouse с схемами в соединении выберите существующую таблицу со схемой из списка таблиц или укажите таблицу с схемой в качестве источника. Вы также можете выбрать "Создать" , чтобы создать новую таблицу со схемой. Если имя схемы не указано, служба будет использовать dbo в качестве схемы по умолчанию.

        Снимок экрана: имя таблицы с схемой.

      • В разделе "Дополнительно" можно указать следующие поля:

        • Метка времени. Укажите, чтобы запросить старый моментальный снимок по метке времени.
        • Версия. Укажите запрос к более старой моментальному снимку по версии.
        • Дополнительные столбцы: добавьте дополнительные столбцы данных в относительный путь или статический путь к файлам хранилища. Выражение поддерживается для последнего.

      Поддерживается читатель версии 1. Соответствующие поддерживаемые функции Delta Lake см. в этой статье.

    • Если выбрать "Файлы":

      • Тип пути к файлу: можно выбрать путь к файлу, путь к файлу подстановочного знака или список файлов в качестве типа пути к файлу. В следующем списке описана конфигурация каждого параметра:

        Снимок экрана: путь к файлу.

        • Путь к файлу: нажмите кнопку "Обзор" , чтобы выбрать файл, который требуется скопировать, или указать путь вручную.

        • Путь к файлу с подстановочными знаками: укажите папку или путь к файлу с подстановочными знаками в заданной неуправляемой области Lakehouse (в разделе "Файлы") для фильтрации исходных папок или файлов. Допустимые знаки подстановки: * (соответствует нулю или нескольким символам) и ? (соответствует нулю или одному символу). Используется ^ для экранирования, если в папке или имени файла есть подстановочный знак или этот escape-символ внутри.

          • Путь к папке с подстановочными знаками: путь к папке под заданным контейнером. Если вы хотите использовать подстановочный знак для фильтрации папки, пропустите этот параметр и укажите эти сведения в параметрах источника действия.

          • Имя файла подстановочного знака: имя файла под заданной неуправляемой областью Lakehouse (в разделе "Файлы") и путь к папке.

            Снимок экрана: путь к файлу подстановочного знака.

        • Список файлов: указывает на копирование заданного набора файлов.

          • Путь к папке: указывает на папку, содержащую файлы, которые нужно скопировать.
          • Путь к списку файлов: указывает на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку, который является относительным путем к указанному пути к файлу.

          Снимок экрана: путь к списку файлов.

      • Рекурсивно: указывает, считываются ли данные рекурсивно из вложенных папок или только из указанной папки. При включении все файлы во входной папке и ее вложенных папках обрабатываются рекурсивно. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.

      • Формат файла: выберите формат файла из раскрывающегося списка. Нажмите кнопку "Параметры", чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .

      • В разделе "Дополнительно" можно указать следующие поля:

        • Фильтр по последнему изменению: файлы фильтруются на основе последних измененных дат. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.
          • Время начала: файлы выбираются, если время последнего изменения больше или равно заданному времени.
          • Время окончания: файлы выбираются, если время последнего изменения меньше настроенного времени.
        • Включение обнаружения секций: для файлов, секционированных, укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов.
          • Корневой путь к секционированиям. Если обнаружение секций включено, укажите абсолютный корневой путь, чтобы читать секционированные папки в виде столбцов данных.
        • Максимальное число одновременных подключений: указывает верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.

Назначение

Следующие свойства поддерживаются для Lakehouse на вкладке "Назначение " действия копирования.

Снимок экрана: вкладка назначения.

Требуются следующие свойства:

  • Подключение. Выберите подключение Lakehouse из списка подключений. Если подключение не существует, создайте новое подключение Lakehouse, выбрав "Дополнительно " в нижней части списка подключений. При применении динамического содержимого для указания Lakehouse добавьте параметр и укажите идентификатор объекта Lakehouse в качестве значения параметра. Чтобы получить идентификатор объекта Lakehouse, откройте Lakehouse в рабочей области, а идентификатор находится в /lakehouses/URL-адресе.

    Снимок экрана: идентификатор объекта Lakehouse.

  • Корневая папка: выберите таблицы или файлы, указывающие виртуальное представление управляемой или неуправляемой области в озере. Дополнительные сведения см. в обзоре Lakehouse.

    • Если выбрать таблицы:

      • Имя таблицы: выберите существующую таблицу из списка таблиц или укажите имя таблицы в качестве назначения. Вы также можете выбрать "Создать" , чтобы создать новую таблицу.

        Снимок экрана: имя таблицы.

      • Таблица. При применении Lakehouse с схемами в соединении выберите существующую таблицу со схемой из списка таблиц или укажите таблицу с схемой в качестве назначения. Вы также можете выбрать "Создать" , чтобы создать новую таблицу со схемой. Если имя схемы не указано, служба будет использовать dbo в качестве схемы по умолчанию.

        Снимок экрана: имя таблицы с схемой.

      • В разделе "Дополнительно" можно указать следующие поля:

        • Действия таблицы: укажите операцию для выбранной таблицы.

          • Добавление: добавление новых значений в существующую таблицу.

            • Включение секции. Этот выбор позволяет создавать секции в структуре папок на основе одного или нескольких столбцов. Каждое отдельное значение столбца (пара) — это новая секция. Например, "year=2000/month=01/file".
              • Имя столбца секции: выберите из целевых столбцов в сопоставлении схем при добавлении данных в новую таблицу. При добавлении данных в существующую таблицу с уже имеющимися секциями столбцы секций автоматически извлекаются из существующей таблицы. Поддерживаемые типы данных — строка, целое число, логическое значение и datetime. Формат учитывает параметры преобразования типов на вкладке "Сопоставление ".
          • Перезапись: перезаписать существующие данные и схему в таблице с помощью новых значений. Если эта операция выбрана, можно включить секцию в целевой таблице:

            • Включение секции. Этот выбор позволяет создавать секции в структуре папок на основе одного или нескольких столбцов. Каждое отдельное значение столбца (пара) — это новая секция. Например, "year=2000/month=01/file".
              • Имя столбца секции: выберите из целевых столбцов в сопоставлении схем. Поддерживаемые типы данных — строка, целое число, логическое значение и datetime. Формат учитывает параметры преобразования типов на вкладке "Сопоставление ".

            Он поддерживает путешествие по времени Delta Lake. Перезаписавшаяся таблица содержит разностные журналы для предыдущих версий, доступ к которым можно получить в Lakehouse. Вы также можете скопировать предыдущую таблицу версий из Lakehouse, указав версию в источнике действия копирования.

        • Максимальное число одновременных подключений: верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.

      Поддерживается модуль записи версии 2. Соответствующие поддерживаемые функции Delta Lake см. в этой статье.

    • Если выбрать "Файлы":

      • Путь к файлу: нажмите кнопку "Обзор" , чтобы выбрать файл, который требуется скопировать, или указать путь вручную.

        Снимок экрана: путь к файлам в назначении.

      • Формат файла: выберите формат файла из раскрывающегося списка. Выберите "Параметры", чтобы настроить формат файла. Сведения о параметрах различных форматов файлов см. в статьях в поддерживаемом формате .

      • В разделе "Дополнительно" можно указать следующие поля:

        • Поведение копирования: определяет поведение копирования, если источник является файлами из файлового хранилища данных. Вы можете выбрать плоскую иерархию, файлы слияния, сохранить иерархию или добавить динамическое содержимое в качестве поведения копирования. Конфигурация каждого параметра:

          • Неструктурированный иерархия: все файлы из исходной папки находятся на первом уровне целевой папки. У целевых файлов есть автоматически созданные имена.

          • Файлы слияния: объединяет все файлы из исходной папки в один файл. Если указано имя файла, то оно присваивается объединенному файлу. В противном случае это автоматически созданное имя файла.

          • Сохранение иерархии: сохраняет иерархию файлов в целевой папке. Относительный путь исходного файла к исходной папке идентичен относительному пути целевого файла к целевой папке.

          • Добавление динамического содержимого. Чтобы указать выражение для значения свойства, выберите " Добавить динамическое содержимое". Это поле открывает построитель выражений, где можно создавать выражения из поддерживаемых системных переменных, выходных данных действий, функций и пользовательских переменных или параметров. Дополнительные сведения о языке выражений см. в описании выражений и функций.

            Снимок экрана: поведение копирования.

        • Максимальное число одновременных подключений: верхний предел одновременных подключений, установленных в хранилище данных во время выполнения действия. Указывайте значение только при необходимости ограничить количество одновременных подключений.

        • Размер блока (МБ): укажите размер блока в МБ при записи данных в Lakehouse. Допустимое значение — от 4 до 100 МБ.

        • Метаданные. Задайте пользовательские метаданные при копировании в целевое хранилище данных. Каждый объект в массиве metadata представляет дополнительный столбец. name определяет имя ключа метаданных, а value указывает значение данных этого ключа. Если используется функция сохранения атрибутов, указанные метаданные будут объединены с метаданными исходного файла или перезаписаны ими. Допустимые значения данных:

          • $$LASTMODIFIED: зарезервированная переменная указывает на сохранение времени последнего изменения исходных файлов. Применяется только к источнику на основе файлов с двоичным форматом.

          • Expression

          • Статическое значение

            Снимок экрана: метаданные.

Сопоставление

Если вы не применяете таблицу Lakehouse в качестве целевого хранилища данных, перейдите в раздел "Сопоставление".

Если вы применяете таблицу Lakehouse в качестве целевого хранилища данных, за исключением конфигурации в сопоставлении, можно изменить тип для целевых столбцов. После выбора схемы импорта можно указать тип столбца в назначении.

Например, тип столбца PersonID в источнике является int, и его можно изменить на тип строки при сопоставлении с целевым столбцом.

Снимок экрана: тип целевого столбца сопоставления.

Примечание.

Изменение типа назначения в настоящее время не поддерживается, если исходный тип имеет десятичный тип.

Если в качестве формата файла выбран двоичный файл, сопоставление не поддерживается.

Настройки

Для настройки вкладки "Параметры" перейдите в раздел "Параметры".

Сводка таблицы

В следующих таблицах содержатся дополнительные сведения о действии копирования в Lakehouse.

Сведения об источнике

Имя Описание Значение Обязательное поле Свойство скрипта JSON
Соединение Раздел для выбора подключения. < подключение Lakehouse> Да workspaceId
artifactId
Корневая папка Тип корневой папки. • Таблицы
Файлы
No rootFolder:
Таблица или файлы
Имя таблицы Имя таблицы, которую требуется считывать. <имя таблицы> Да при выборе таблиц в корневой папке table
Таблицу Имя таблицы со схемой, которую необходимо считывать при применении Lakehouse с схемами в качестве соединения. <таблица со схемой> Да при выборе таблиц в корневой папке /
Для таблицы
Имя схемы Имя схемы. <имя схемы>
(значение по умолчанию — dbo)
No (под source ->datasetSettings ->typeProperties)
schema
имя таблицы Название таблицы. <имя таблицы> Да table
Timestamp Метка времени для запроса старого моментального снимка. <timestamp> No timestampAsOf
Версия Версия для запроса старого моментального снимка. <version> No versionAsOf
Дополнительные столбцы Дополнительные столбцы данных для хранения относительного пути или статического значения исходных файлов. Выражение поддерживается для последнего. • Имя
•Ценность
No additionalColumns:
•имя
•ценность
Тип пути к файлу Тип используемого пути к файлу. Путь к файлу
Путь к файлу с подстановочными знаками
Список файлов
Да при выборе файлов в корневой папке /
Путь к файлу Скопируйте путь к папке или файлу в исходном хранилище данных. <Путь к файлу> Да при выборе пути к файлу • folderPath
•имя файла
Пути с подстановочными знаками Путь к папке с подстановочными знаками в исходном хранилище данных, настроенный для фильтрации исходных папок. <Пути с подстановочными знаками> Да при выборе пути к файлу с подстановочными знаками • подстановочный знакFolderPath
• подстановочный знакFileName
Путь к папке Указывает на папку, содержащую файлы, которые нужно скопировать. <Путь к папке> No folderPath
Путь к списку файлов Указывает, что нужно скопировать заданный набор файлов. Наведите указатель на текстовый файл, содержащий список файлов, которые требуется скопировать, один файл на строку, который является относительным путем к настроенного пути. <путь к списку файлов> No fileListPath
Рекурсивно Обработайте все файлы во входной папке и ее вложенных папках рекурсивно или просто те, которые в выбранной папке. Этот параметр отключен при выборе одного файла. Выбор или отмена выбора No рекурсивный:
true или false
Формат файлов Формат файла для исходных данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. / Да при выборе файлов в корневой папке /
Фильтрация по последней измененной Файлы с последним измененным временем в диапазоне [время начала, время окончания) будут отфильтрованы для дальнейшей обработки.

Время применяется к часовой поясу UTC в формате yyyy-mm-ddThh:mm:ss.fffZ.

Это свойство можно пропустить, что означает, что фильтр атрибутов файла не применяется. Это свойство не применяется при настройке типа пути к файлу в качестве списка файлов.
Время начала
Время окончания
No modifiedDatetimeStart
modifiedDatetimeEnd
Включение обнаружения секций Следует ли анализировать секции из пути к файлу и добавлять их в качестве дополнительных исходных столбцов. Выбрано или не выбрано No enablePartitionDiscovery:
true или false (по умолчанию)
Корневой путь раздела Абсолютный корневой путь секционирования для чтения секционированных папок в виде столбцов данных. <корневой путь к секции> No partitionRootPath
Максимальное число одновременных подключений Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Значение необходимо только в том случае, если требуется ограничить одновременные подключения. <максимальное число одновременных подключений> No maxConcurrentConnections

Сведения о назначении

Имя Описание Значение Обязательное поле Свойство скрипта JSON
Соединение Раздел для выбора подключения. < подключение Lakehouse> Да workspaceId
artifactId
Корневая папка Тип корневой папки. • Таблицы
Файлы
Да rootFolder:
Таблица или файлы
Имя таблицы Имя таблицы, в которую требуется записать данные. <имя таблицы> Да при выборе таблиц в корневой папке table
Таблицу Имя таблицы со схемой, в которую необходимо записать данные при применении Lakehouse с схемами в качестве соединения. <таблица со схемой> Да при выборе таблиц в корневой папке /
Для таблицы
Имя схемы Имя схемы. <имя схемы>
(значение по умолчанию — dbo)
No (под sink ->datasetSettings ->typeProperties)
schema
имя таблицы Название таблицы. <имя таблицы> Да table
Действие таблицы Добавьте новые значения в существующую таблицу или перезаписать существующие данные и схему в таблице с помощью новых значений. Добавление
Перезапись
No tableActionOption:
Добавление или перезаписьSchema
Включение секций Этот выбор позволяет создавать секции в структуре папок на основе одного или нескольких столбцов. Каждое отдельное значение столбца (пара) — это новая секция. Например, "year=2000/month=01/file". Выбрано или не выбрано No partitionOption:
PartitionByKey или None
Столбцы секционирования Конечные столбцы в сопоставлении схем. <столбцы секций> No partitionNameList
Путь к файлу Запись данных в путь к папке или файлу в целевом хранилище данных. <Путь к файлу> No • folderPath
•имя файла
Формат файлов Формат файла для целевых данных. Сведения о различных форматах файлов см. в статьях в поддерживаемом формате для получения подробных сведений. / Да при выборе файлов в корневой папке /
Поведение копирования Поведение копирования, определенное, когда источник является файлами из файлового хранилища данных. Плоская иерархия
Слияние файлов
Сохранение иерархии
Добавление динамического содержимого
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• СохранитьHierarchy
Максимальное число одновременных подключений Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. <максимальное число одновременных подключений> No maxConcurrentConnections
Размер блока (МБ) Размер блока в МБ, используемый для записи данных в Lakehouse. Допустимое значение — от 4 до 100 МБ. <Размер блока> No blockSizeInMB
Метаданные Настраиваемый набор метаданных при копировании в место назначения. $$LASTMODIFIED
•Выражение
• Статическое значение
No metadata