Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Используйте сочетания клавиш для преобразования структурированных файлов в запрашиваемые таблицы Delta. Если исходные данные уже имеют табличный формат, например CSV, Parquet, JSON или Excel, преобразования файлов автоматически копируют и преобразуют эти данные в формат Delta Lake, чтобы запросить его с помощью SQL, Spark или Power BI без создания конвейеров ETL.
Для неструктурированных текстовых файлов, которым требуется обработка с помощью ИИ, например, для создания сводок, перевода или анализа тональности, см. Преобразования с использованием ИИ.
Преобразования ярлыков всегда синхронизированы с исходными данными. Вычисление Fabric Spark выполняет преобразование и копирует данные, на которые ссылается ярлык OneLake, в управляемую таблицу Delta. Благодаря автоматической обработке схем, возможностям глубокого выравнивания и поддержке нескольких форматов сжатия, ускоренные преобразования устраняют сложность создания и обслуживания конвейеров ETL.
Зачем использовать быстрые преобразования?
- Автоматическое преобразование — Fabric копирует и преобразует исходные файлы в Delta формат без ручного управления процессом.
- Частое синхронизация — Структура опрашивает ярлык каждые две минуты и синхронизирует изменения.
- Обнаружение рекурсивных папок — Структура автоматически проходит подпапки для обнаружения и преобразования файлов во всей иерархии каталогов.
- Выходные данные Delta Lake — полученная таблица совместима с любым движком Apache Spark.
- Унаследованное управление — ярлык наследует происхождение OneLake, разрешения и политики Microsoft Purview.
Необходимые условия
| Требование | Сведения |
|---|---|
| Microsoft Fabric артикул | Емкость или пробная версия, поддерживающая рабочие нагрузки Lakehouse . |
| Исходные данные | Папка, содержащая однородные CSV-файлы, Parquet, JSON или Excel. |
| Роль рабочей области | Участник или выше. |
Поддерживаемые форматы файлов
Трансформации ярлыков работают с папками из любого источника данных, поддерживаемого сокращениями OneLake.
| Формат исходного файла | Поддерживаемые расширения | Поддерживаемые типы сжатия | Поддерживаемый тип ярлыка | Примечания |
|---|---|---|---|---|
| CSV (UTF-8, UTF-16) |
.csv, .txt (разделитель), .tsv (разделенный табуляцией), .psv (разделенный вертикальной чертой) |
.csv.gz, .csv.bz2 |
Ярлык таблицы |
.csv.zip и .csv.snappy не поддерживаются. |
| Parquet | .parquet |
.parquet.snappy, .parquet.gzip, , .parquet.lz4, .parquet.brotli.parquet.zstd |
Ярлык таблицы | Нет. |
| JSON |
.json, .jsonl, .ndjson |
.json.gz, .json.bz2, .jsonl.gz, .ndjson.gz, .jsonl.bz2, .ndjson.bz2 |
Ярлык таблицы |
.json.zip и .json.snappy не поддерживаются. |
| Excel |
.xlsx, .xls |
Неприменимо | Ярлык таблицы или ярлык схемы | Шорткаты таблиц объединяют листы в одну таблицу Delta. Ярлыки схемы создают одну таблицу Delta на лист.
.xls (устаревший двоичный формат) поддерживается на основе лучших усилий; .xlsx — рекомендуемый формат. |
Замечание
Преобразования файлов Excel в настоящее время находятся в предварительной версии. Преобразования CSV, Parquet и JSON являются общедоступными.
Создайте ярлык таблицы с преобразованием данных
Ярлык таблицы создает одну таблицу Delta в папке «Таблицы» lakehouse. Используйте его для преобразования CSV-файлов, Parquet, JSON или Excel.
Для файлов Excel с несколькими листами ярлык таблицы объединяет выбранные листы в одну таблицу Delta. Если на одном листе требуется одна Delta-таблица, создайте ярлык схемы.
В lakehouse щелкните правой кнопкой мыши схему в папке "Таблицы " и выберите "Создать ярлык таблицы". Выберите источник ярлыка, например Azure Data Lake, хранилище BLOB-объектов Azure, Dataverse, Amazon S3, GCP, SharePoint или OneDrive.
Выберите папку с ФАЙЛАми CSV, Parquet или JSON или выберите папку, содержащую файлы .xlsx.
На шаге преобразования настройте параметры преобразования Delta:
CSV-файлы:
- Разделитель — выберите символ, используемый для разделения столбцов, таких как запятая, точка с запятой, канал, вкладка, амперсанд или пробел.
- Первая строка в виде заголовков — указывает, содержит ли первая строка имена столбцов.
Файлы Excel:
- Первая строка в виде заголовков — указывает, содержит ли первая строка имена столбцов.
-
Листы для включения — выберите все листы или только подмножество листов. Вы можете выбирать листы по имени, по индексу или с помощью шаблонов подстановочных знаков (например,
Sales_*совпадают с листами, напримерSales_Q1иSales_2026). Сопоставление с подстановочными знаками не учитывает регистр.
Просмотрите конфигурацию ярлыка. На шаге предварительного просмотра сочетаний клавиш вы также можете настроить эти параметры перед выбором Создать.
- Имя ярлыка — выберите значок карандаша, чтобы изменить имя ярлыка.
- Включение вложенных папок — включение рекурсивной обработки файлов в вложенных подкаталогах. Этот параметр выбран по умолчанию для новых преобразований. Снимите флажок, если вы хотите обработать только папку верхнего уровня.
Отслеживание обновлений и просмотр журналов в центре управления мониторингом ярлыков.
Вычислительная мощность Fabric Spark создает таблицу Delta и отображает ход выполнения в области «Управление ярлыками».
Для файлов Excel результирующая таблица Delta включает __filepath__ и __sheetname__ столбцы метаданных, чтобы можно было отслеживать каждую строку обратно к исходному файлу и листу.
Создайте ярлык схемы с преобразованием данных
Ярлык схемы создает несколько Delta-таблиц, которые отображаются под новой схемой в папке таблиц озерохранилища. Используйте его, если книга Excel содержит несколько листов и требуется одна таблица Delta на лист.
Сочетания клавиш для схем с преобразованием данных в настоящее время доступны только для файлов Excel (.xlsx). Для них также требуется озеро с включенными схемами. Дополнительные сведения см. в схемах Lakehouse.
В lakehouse щелкните правой кнопкой мыши папку "Таблицы " и выберите "Создать ярлык схемы".
Выберите источник данных для этого ярлыка и перейдите в папку, содержащую
.xlsxфайлы.На шаге преобразования настройте параметры преобразования Delta:
- Первая строка в виде заголовков — указывает, содержит ли первая строка имена столбцов.
- Листы для включения — выберите все листы или только подмножество листов. Вы можете выбрать листы по имени, по индексу или с помощью шаблонов подстановочных знаков.
Просмотрите конфигурацию ярлыка. На шаге предварительного просмотра сочетаний клавиш вы также можете настроить эти параметры перед выбором Создать.
- Имя ярлыка — выберите значок карандаша, чтобы изменить имя ярлыка.
- Включение вложенных папок — включение рекурсивной обработки файлов в вложенных подкаталогах. Этот параметр выбран по умолчанию для новых преобразований. Снимите флажок, если вы хотите обработать только папку верхнего уровня.
Отслеживание обновлений и просмотр журналов в центре управления мониторингом ярлыков.
Вычисление Fabric Spark создает отдельные Delta таблицы для выбранных листов и поддерживает их синхронизацию с исходными файлами. Имена листов автоматически санируются до допустимых имен таблиц. Например, лист с именем Sales Data (Q1) становится Sales_Data_Q1.
Как работает синхронизация
После начальной загрузки вычислительная платформа Fabric Spark:
- Опрашивает целевой объект ярлыка каждые две минуты.
- Обнаруживает новые или измененные файлы и добавляет или перезаписывает строки соответствующим образом.
- Обнаруживает удаленные файлы и удаляет соответствующие строки.
Если включена поддержка вложенных папок, система рекурсивно обнаруживает и обрабатывает файлы во всех вложенных подкаталогах в целевой папке.
Мониторинг и устранение неполадок
Преобразования быстрого доступа включают мониторинг и обработку ошибок для отслеживания статуса загрузки и диагностики проблем.
Откройте lakehouse и щелкните правой кнопкой мыши ярлык, который передает преобразование.
Выберите Управление ярлыками.
В области сведений можно просмотреть следующее:
Состояние — результат последней проверки и текущее состояние синхронизации.
Журнал обновления — хронологический список операций синхронизации с счетчиками строк и любыми сведениями об ошибке.
Включение вложенных папок — указывает, включено ли преобразование вложенных папок (да или нет).
Дополнительные сведения см. в журналах для устранения неполадок.
Ограничения
Следующие ограничения в настоящее время применяются к преобразованиям сочетаний клавиш.
Общие ограничения
- Исходный формат: Поддерживаются ФАЙЛЫ CSV, JSON, Parquet и Excel.
- Согласованность схемы файлов: Файлы должны совместно использовать идентичную схему.
- Доступность рабочей области: Доступно только в элементах Lakehouse (не хранилищах данных или базах данных KQL).
- Операции записи: Преобразования оптимизированы для чтения. Инструкции Direct MERGE INTO или DELETE в целевой таблице преобразования не поддерживаются.
- Доступность ярлыка схемы: Ярлыки схемы для преобразования файлов поддерживают только файлы Excel.
Ограничения CSV
- Неподдерживаемые типы данных: Столбцы смешанных типов данных, Timestamp_Nanos, сложные логические типы — MAP/LIST/STRUCT, необработанный двоичный файл.
Ограничения Parquet
- Неподдерживаемые типы данных: Timestamp_nanos, Десятичное значение с INT32/INT64, INT96, Неназначенные типы целых чисел — UINT_8/UINT_16/UINT_64, сложные логические типы — MAP/LIST/STRUCT.
Ограничения JSON
- Неподдерживаемые типы данных: Смешанные типы данных в массиве, необработанные двоичные BLOB-объекты внутри JSON, Timestamp_Nanos.
- Выравнивание типа данных массива: Тип данных массива сохраняется в таблице Delta и доступен с помощью Spark SQL и PySpark. Для дальнейших преобразований используйте представления Fabric Materialized Lake для серебряного слоя.
- Уровень упрощения: Вложенные структуры упрощены до пяти уровней вглубь. Для более глубокого вложения требуется предварительная обработка.
Ограничения Excel
- Диапазон ячеек: Данные всегда считываются начиная с ячейки A1. Книги, в которых данные начинаются в другой ячейке или используют именованные таблицы или диапазоны, не могут быть целевыми.
- Пропустить строки: Заголовки баннеров, преамблированные метаданные и сводки нижних колонтитулов выше или ниже фактических данных не могут быть исключены. Они загружаются как строки данных.
-
Вывод схемы: Вывод схемы всегда включен для файлов Excel. Идентификаторы с начальными нулями (например, коды ZIP, такие
02134как или идентификаторы001245сотрудников), преобразуются в целые числа, которые удаляют начальные нули. - Скрытые листы: Все листы, включая скрытые и системные листы, обрабатываются без явной фильтрации по имени или индексу.
-
Форматирование валют: Ячейки в формате валюты (например,
$1,234.56) преобразуются в обычные числовые значения. Символ валюты отрезается. - Метки чувствительности: Книги с метками чувствительности Microsoft Purview не подлежат обработке.
- Поврежденные строки: Средство чтения Excel не поддерживает изоляцию поврежденных записей. Поврежденные или несовпадаемые строки в листе не могут быть изолированы и регистрированы отдельно.
- Ограничение листа: Файлы с более чем 25 листами пропускаются.
-
Устаревший формат:
.xls(устаревший двоичный формат) поддерживается в рамках возможного и может иметь меньшую точность при сложном форматировании..xlsx— рекомендуемый формат. - Оценка формул: Spark считывает кэшированное значение ячеек формул. Если книга Excel не была сохранена с вычисленными значениями, ячейки с формулами могут отображаться пустыми или устаревшими.
Ограничения вложенных папок
- Доступно только для новых преобразований. Существующие преобразования не могут включить поддержку вложенных папок.
- После включения поддержки вложенных папок его нельзя отключить.
- Ярлыки, находящиеся в целевой папке, не обрабатываются. Обрабатываются только физические папки и файлы.
- Выборочное включение или исключение определенных вложенных папок не поддерживается.
- Вложенные папки не работают с ярлыками SharePoint.
Чтобы узнать о новых функциях и выпусках, воспользуйтесь Fabric Roadmap и Fabric Updates Blog.
Очистка
Чтобы остановить синхронизацию, удалите преобразование ярлыка из Lakehouse Explorer.
Удаление преобразования не удаляет базовые файлы.