Преобразование структурированных файлов в таблицы Delta

Используйте сочетания клавиш для преобразования структурированных файлов в запрашиваемые таблицы Delta. Если исходные данные уже имеют табличный формат, например CSV, Parquet, JSON или Excel, преобразования файлов автоматически копируют и преобразуют эти данные в формат Delta Lake, чтобы запросить его с помощью SQL, Spark или Power BI без создания конвейеров ETL.

Для неструктурированных текстовых файлов, которым требуется обработка с помощью ИИ, например, для создания сводок, перевода или анализа тональности, см. Преобразования с использованием ИИ.

Преобразования ярлыков всегда синхронизированы с исходными данными. Вычисление Fabric Spark выполняет преобразование и копирует данные, на которые ссылается ярлык OneLake, в управляемую таблицу Delta. Благодаря автоматической обработке схем, возможностям глубокого выравнивания и поддержке нескольких форматов сжатия, ускоренные преобразования устраняют сложность создания и обслуживания конвейеров ETL.

Зачем использовать быстрые преобразования?

  • Автоматическое преобразование — Fabric копирует и преобразует исходные файлы в Delta формат без ручного управления процессом.
  • Частое синхронизация — Структура опрашивает ярлык каждые две минуты и синхронизирует изменения.
  • Обнаружение рекурсивных папок — Структура автоматически проходит подпапки для обнаружения и преобразования файлов во всей иерархии каталогов.
  • Выходные данные Delta Lake — полученная таблица совместима с любым движком Apache Spark.
  • Унаследованное управление — ярлык наследует происхождение OneLake, разрешения и политики Microsoft Purview.

Необходимые условия

Требование Сведения
Microsoft Fabric артикул Емкость или пробная версия, поддерживающая рабочие нагрузки Lakehouse .
Исходные данные Папка, содержащая однородные CSV-файлы, Parquet, JSON или Excel.
Роль рабочей области Участник или выше.

Поддерживаемые форматы файлов

Трансформации ярлыков работают с папками из любого источника данных, поддерживаемого сокращениями OneLake.

Формат исходного файла Поддерживаемые расширения Поддерживаемые типы сжатия Поддерживаемый тип ярлыка Примечания
CSV (UTF-8, UTF-16) .csv, .txt (разделитель), .tsv (разделенный табуляцией), .psv (разделенный вертикальной чертой) .csv.gz, .csv.bz2 Ярлык таблицы .csv.zip и .csv.snappy не поддерживаются.
Parquet .parquet .parquet.snappy, .parquet.gzip, , .parquet.lz4, .parquet.brotli.parquet.zstd Ярлык таблицы Нет.
JSON .json, .jsonl, .ndjson .json.gz, .json.bz2, .jsonl.gz, .ndjson.gz, .jsonl.bz2, .ndjson.bz2 Ярлык таблицы .json.zip и .json.snappy не поддерживаются.
Excel .xlsx, .xls Неприменимо Ярлык таблицы или ярлык схемы Шорткаты таблиц объединяют листы в одну таблицу Delta. Ярлыки схемы создают одну таблицу Delta на лист. .xls (устаревший двоичный формат) поддерживается на основе лучших усилий; .xlsx — рекомендуемый формат.

Замечание

Преобразования файлов Excel в настоящее время находятся в предварительной версии. Преобразования CSV, Parquet и JSON являются общедоступными.

Создайте ярлык таблицы с преобразованием данных

Ярлык таблицы создает одну таблицу Delta в папке «Таблицы» lakehouse. Используйте его для преобразования CSV-файлов, Parquet, JSON или Excel.

Для файлов Excel с несколькими листами ярлык таблицы объединяет выбранные листы в одну таблицу Delta. Если на одном листе требуется одна Delta-таблица, создайте ярлык схемы.

  1. В lakehouse щелкните правой кнопкой мыши схему в папке "Таблицы " и выберите "Создать ярлык таблицы". Выберите источник ярлыка, например Azure Data Lake, хранилище BLOB-объектов Azure, Dataverse, Amazon S3, GCP, SharePoint или OneDrive.

    Снимок экрана: создание ярлыка таблицы.

  2. Выберите папку с ФАЙЛАми CSV, Parquet или JSON или выберите папку, содержащую файлы .xlsx.

  3. На шаге преобразования настройте параметры преобразования Delta:

    • CSV-файлы:

      • Разделитель — выберите символ, используемый для разделения столбцов, таких как запятая, точка с запятой, канал, вкладка, амперсанд или пробел.
      • Первая строка в виде заголовков — указывает, содержит ли первая строка имена столбцов.
    • Файлы Excel:

      • Первая строка в виде заголовков — указывает, содержит ли первая строка имена столбцов.
      • Листы для включения — выберите все листы или только подмножество листов. Вы можете выбирать листы по имени, по индексу или с помощью шаблонов подстановочных знаков (например, Sales_* совпадают с листами, например Sales_Q1 и Sales_2026). Сопоставление с подстановочными знаками не учитывает регистр.
  4. Просмотрите конфигурацию ярлыка. На шаге предварительного просмотра сочетаний клавиш вы также можете настроить эти параметры перед выбором Создать.

    • Имя ярлыка — выберите значок карандаша, чтобы изменить имя ярлыка.
    • Включение вложенных папок — включение рекурсивной обработки файлов в вложенных подкаталогах. Этот параметр выбран по умолчанию для новых преобразований. Снимите флажок, если вы хотите обработать только папку верхнего уровня.
  5. Отслеживание обновлений и просмотр журналов в центре управления мониторингом ярлыков.

Вычислительная мощность Fabric Spark создает таблицу Delta и отображает ход выполнения в области «Управление ярлыками».

Для файлов Excel результирующая таблица Delta включает __filepath__ и __sheetname__ столбцы метаданных, чтобы можно было отслеживать каждую строку обратно к исходному файлу и листу.

Создайте ярлык схемы с преобразованием данных

Ярлык схемы создает несколько Delta-таблиц, которые отображаются под новой схемой в папке таблиц озерохранилища. Используйте его, если книга Excel содержит несколько листов и требуется одна таблица Delta на лист.

Сочетания клавиш для схем с преобразованием данных в настоящее время доступны только для файлов Excel (.xlsx). Для них также требуется озеро с включенными схемами. Дополнительные сведения см. в схемах Lakehouse.

  1. В lakehouse щелкните правой кнопкой мыши папку "Таблицы " и выберите "Создать ярлык схемы".

    Снимок экрана: создание ярлыка схемы.

  2. Выберите источник данных для этого ярлыка и перейдите в папку, содержащую .xlsx файлы.

  3. На шаге преобразования настройте параметры преобразования Delta:

    • Первая строка в виде заголовков — указывает, содержит ли первая строка имена столбцов.
    • Листы для включения — выберите все листы или только подмножество листов. Вы можете выбрать листы по имени, по индексу или с помощью шаблонов подстановочных знаков.

    Снимок экрана: параметры преобразования для ярлыка схемы.

  4. Просмотрите конфигурацию ярлыка. На шаге предварительного просмотра сочетаний клавиш вы также можете настроить эти параметры перед выбором Создать.

    • Имя ярлыка — выберите значок карандаша, чтобы изменить имя ярлыка.
    • Включение вложенных папок — включение рекурсивной обработки файлов в вложенных подкаталогах. Этот параметр выбран по умолчанию для новых преобразований. Снимите флажок, если вы хотите обработать только папку верхнего уровня.
  5. Отслеживание обновлений и просмотр журналов в центре управления мониторингом ярлыков.

Вычисление Fabric Spark создает отдельные Delta таблицы для выбранных листов и поддерживает их синхронизацию с исходными файлами. Имена листов автоматически санируются до допустимых имен таблиц. Например, лист с именем Sales Data (Q1) становится Sales_Data_Q1.

Как работает синхронизация

После начальной загрузки вычислительная платформа Fabric Spark:

  • Опрашивает целевой объект ярлыка каждые две минуты.
  • Обнаруживает новые или измененные файлы и добавляет или перезаписывает строки соответствующим образом.
  • Обнаруживает удаленные файлы и удаляет соответствующие строки.

Если включена поддержка вложенных папок, система рекурсивно обнаруживает и обрабатывает файлы во всех вложенных подкаталогах в целевой папке.

Мониторинг и устранение неполадок

Преобразования быстрого доступа включают мониторинг и обработку ошибок для отслеживания статуса загрузки и диагностики проблем.

  1. Откройте lakehouse и щелкните правой кнопкой мыши ярлык, который передает преобразование.

  2. Выберите Управление ярлыками.

  3. В области сведений можно просмотреть следующее:

    • Состояние — результат последней проверки и текущее состояние синхронизации.

    • Журнал обновления — хронологический список операций синхронизации с счетчиками строк и любыми сведениями об ошибке.

    • Включение вложенных папок — указывает, включено ли преобразование вложенных папок (да или нет).

      Снимок экрана:

  4. Дополнительные сведения см. в журналах для устранения неполадок.

    Снимок экрана, на котором показано, как получить доступ к файлу журнала для устранения неполадок.

Ограничения

Следующие ограничения в настоящее время применяются к преобразованиям сочетаний клавиш.

Общие ограничения

  • Исходный формат: Поддерживаются ФАЙЛЫ CSV, JSON, Parquet и Excel.
  • Согласованность схемы файлов: Файлы должны совместно использовать идентичную схему.
  • Доступность рабочей области: Доступно только в элементах Lakehouse (не хранилищах данных или базах данных KQL).
  • Операции записи: Преобразования оптимизированы для чтения. Инструкции Direct MERGE INTO или DELETE в целевой таблице преобразования не поддерживаются.
  • Доступность ярлыка схемы: Ярлыки схемы для преобразования файлов поддерживают только файлы Excel.

Ограничения CSV

  • Неподдерживаемые типы данных: Столбцы смешанных типов данных, Timestamp_Nanos, сложные логические типы — MAP/LIST/STRUCT, необработанный двоичный файл.

Ограничения Parquet

  • Неподдерживаемые типы данных: Timestamp_nanos, Десятичное значение с INT32/INT64, INT96, Неназначенные типы целых чисел — UINT_8/UINT_16/UINT_64, сложные логические типы — MAP/LIST/STRUCT.

Ограничения JSON

  • Неподдерживаемые типы данных: Смешанные типы данных в массиве, необработанные двоичные BLOB-объекты внутри JSON, Timestamp_Nanos.
  • Выравнивание типа данных массива: Тип данных массива сохраняется в таблице Delta и доступен с помощью Spark SQL и PySpark. Для дальнейших преобразований используйте представления Fabric Materialized Lake для серебряного слоя.
  • Уровень упрощения: Вложенные структуры упрощены до пяти уровней вглубь. Для более глубокого вложения требуется предварительная обработка.

Ограничения Excel

  • Диапазон ячеек: Данные всегда считываются начиная с ячейки A1. Книги, в которых данные начинаются в другой ячейке или используют именованные таблицы или диапазоны, не могут быть целевыми.
  • Пропустить строки: Заголовки баннеров, преамблированные метаданные и сводки нижних колонтитулов выше или ниже фактических данных не могут быть исключены. Они загружаются как строки данных.
  • Вывод схемы: Вывод схемы всегда включен для файлов Excel. Идентификаторы с начальными нулями (например, коды ZIP, такие 02134 как или идентификаторы 001245сотрудников), преобразуются в целые числа, которые удаляют начальные нули.
  • Скрытые листы: Все листы, включая скрытые и системные листы, обрабатываются без явной фильтрации по имени или индексу.
  • Форматирование валют: Ячейки в формате валюты (например, $1,234.56) преобразуются в обычные числовые значения. Символ валюты отрезается.
  • Метки чувствительности: Книги с метками чувствительности Microsoft Purview не подлежат обработке.
  • Поврежденные строки: Средство чтения Excel не поддерживает изоляцию поврежденных записей. Поврежденные или несовпадаемые строки в листе не могут быть изолированы и регистрированы отдельно.
  • Ограничение листа: Файлы с более чем 25 листами пропускаются.
  • Устаревший формат:.xls (устаревший двоичный формат) поддерживается в рамках возможного и может иметь меньшую точность при сложном форматировании. .xlsx — рекомендуемый формат.
  • Оценка формул: Spark считывает кэшированное значение ячеек формул. Если книга Excel не была сохранена с вычисленными значениями, ячейки с формулами могут отображаться пустыми или устаревшими.

Ограничения вложенных папок

  • Доступно только для новых преобразований. Существующие преобразования не могут включить поддержку вложенных папок.
  • После включения поддержки вложенных папок его нельзя отключить.
  • Ярлыки, находящиеся в целевой папке, не обрабатываются. Обрабатываются только физические папки и файлы.
  • Выборочное включение или исключение определенных вложенных папок не поддерживается.
  • Вложенные папки не работают с ярлыками SharePoint.

Чтобы узнать о новых функциях и выпусках, воспользуйтесь Fabric Roadmap и Fabric Updates Blog.

Очистка

Чтобы остановить синхронизацию, удалите преобразование ярлыка из Lakehouse Explorer.

Удаление преобразования не удаляет базовые файлы.