Поделиться через


Загрузка в таблицу Delta Lake

Lakehouse в Microsoft Fabric предоставляет функцию для эффективной загрузки распространенных типов файлов в оптимизированную таблицу Delta, готовую для аналитики. Функция "Загрузка в таблицу " позволяет пользователям загружать один файл или папку файлов в таблицу. Эта функция повышает производительность инженеров данных, позволяя им быстро использовать действие щелчка правой кнопкой мыши, чтобы включить загрузку таблиц в файлах и папках. Загрузка в таблицу также является интерфейсом без кода, который снижает панель входа для всех пользователей.

Обзор возможностей загрузки в таблицу

Ниже приведен список функций, которые мы включили в интегрированной загрузке в таблицу, чтобы обеспечить пользователям гибкость при повышении производительности:

  • Поддерживаемые типы файлов: эта функция в настоящее время поддерживает загрузку только типов ФАЙЛОВ PARQUET или CSV. Дело расширения файла не имеет значения.

  • Загрузка одного файла. Пользователи могут загрузить один файл в одном из поддерживаемых форматов, выбрав "Загрузить в разностную таблицу" в контекстном меню файла.

  • Загрузка на уровне папки: вы можете загрузить все файлы в папку и ее вложенные папки одновременно, нажав кнопку "Загрузить в разностную таблицу" после нажатия кнопки мыши на папку. Эта функция автоматически проходит все файлы и загружает их в разностную таблицу. Важно отметить, что одновременно в таблицу могут загружаться только файлы одного типа.

  • Загрузка в новую и существующую таблицу: пользователь может загрузить свои файлы и папки в новую таблицу или существующую таблицу. Если они решили загрузить в существующую таблицу, они могут добавить или перезаписать свои данные в таблице.

  • Параметр исходного файла CSV: для CSV-файлов можно указать, содержит ли исходный файл заголовки, которые они хотели бы использовать в качестве имен столбцов. Пользователи также могут указать разделитель для переопределения разделителя запятых по умолчанию.

  • Загружены как разностные таблицы: таблицы всегда загружаются с помощью формата таблицы Delta Lake с включенной оптимизацией V-Order.

    Gif общего объема папки загрузки в таблицу.

Примечание.

В настоящее время невозможно указать схему таблицы с помощью пользовательского интерфейса Lakehouse; Для этого необходимо использовать записную книжку.

Рекомендации и правила проверки

Следующий стандарт применяется к интерфейсу load to table experience:

  • Имена таблиц могут содержать только буквенно-цифровые символы и символы подчеркивания. Он также позволяет использовать любую букву английского языка, верхний или нижний регистр и символ подчеркивания (_) с максимальной длиной 256 символов. Не допускаются дефисы (-) или пробелы.

  • Текстовые файлы без заголовков столбцов заменяются стандартной col# нотацией в качестве имен столбцов таблицы.

  • Имена столбцов разрешают любое английское письмо, верхний или нижний регистр, символы подчеркивания (_) и символы на другом языке, например китайский в UTF, длину до 32 символов. Имена столбцов проверяются во время действия загрузки. Алгоритм Load to Delta заменяет запрещенные значения под панелью (_). Если во время проверки не достигнуто правильное имя столбца, действие загрузки завершается ошибкой.

  • Для CSV-файлов разделитель не может быть пустым, не может превышать 8 символов или использовать любой из следующих символов: (, , )[, ]}{одинарные кавычки (), двойные кавычки ("') и пробелы.