Поделиться через


Таблицы Lakehouse и Delta Lake

Microsoft Fabric Lakehouse — это платформа архитектуры данных для хранения, управления и анализа структурированных и неструктурированных данных в одном расположении. Чтобы обеспечить простой доступ к данным во всех вычислительных модулях в Microsoft Fabric, Delta Lake выбирается в качестве единого формата таблицы.

При сохранении данных в лейкхаусе с помощью таких возможностей, как Загрузка в таблицу или методов, описанных в разделе Параметры для получения данных в Fabric Lakehouse, все данные сохраняются в формате Delta.

Чтобы получить более полное представление о формате таблицы Delta Lake, следуйте ссылкам на связанное содержимое в конце этой статьи.

Большие данные, Apache Spark и устаревшие форматы таблиц

Среда выполнения Microsoft Fabric для Apache Spark использует ту же основу, что и среда выполнения Azure Synapse Analytics для Apache Spark, но содержит ключевые различия, чтобы обеспечить более упрощенное поведение во всех ядрах в службе Microsoft Fabric. В Microsoft Fabric ключевые функции производительности включены по умолчанию. Расширенные пользователи Apache Spark могут вернуть конфигурации к предыдущим значениям, чтобы лучше соответствовать конкретным сценариям.

Microsoft Fabric Lakehouse и подсистема Apache Spark поддерживают все типы таблиц, управляемые и неуправляемые; сюда входят представления и обычные форматы таблиц Hive, отличные от Delta. Таблицы, определенные с помощью PARQUET, CSV, AVRO, JSON и любого формата файлов, совместимого с Apache Hive, работают должным образом.

Интерфейс пользовательского интерфейса обозревателя Lakehouse зависит от типа таблицы. В настоящее время обозреватель Lakehouse отображает только объекты таблицы.

Различия в конфигурации с Azure Synapse Analytics

В следующей таблице содержатся различия конфигурации между Azure Synapse Analytics и средой выполнения Microsoft Fabric для Apache Spark.

Конфигурация Apache Spark Значение Microsoft Fabric Значение Azure Synapse Analytics Примечания.
spark.sql.sources.default дельта паркет Формат таблицы по умолчанию
spark.sql.parquet.vorder.default правда Н/П Записывающее устройство V-Order
spark.sql.parquet.vorder.dictionaryPageSize 2 ГБ Н/П Ограничение размера страницы словаря для V-Order
spark.databricks.delta.optimizeWrite.enabled правда не установлен (false) Оптимизация записи

Автоматическое обнаружение таблиц

Обозреватель Lakehouse предоставляет древовидное представление объектов в элементе Microsoft Fabric Lakehouse. Он имеет ключевую возможность обнаружения и отображения таблиц, описанных в репозитории метаданных и в хранилище OneLake. Ссылки на таблицы отображаются в Tables разделе пользовательского интерфейса Обозревателя Lakehouse. Автоматическое обнаружение также применяется к таблицам, определенным по сочетаниям клавиш OneLake.

Таблицы для сочетаний клавиш

Microsoft Fabric Lakehouse поддерживает таблицы, определенные по сочетаниям клавиш OneLake, чтобы обеспечить максимальную совместимость и отсутствие перемещения данных. В следующей таблице приведены рекомендации по сценарию для каждого типа элемента при использовании сочетаний клавиш.

Назначение ссылки Где можно создать ярлык Лучшие практики
Таблица Delta Lake Раздел Tables Если в назначении присутствует несколько таблиц, создайте один ярлык для каждой таблицы.
Папки с файлами Раздел Files Используйте Apache Spark для работы с местом назначения напрямую, используя относительные пути. Загрузите данные в таблицы Delta, являющиеся нативными для Lakehouse, для максимальной производительности.
Устаревшие таблицы Apache Hive Раздел Files Используйте Apache Spark для доступа к месту назначения непосредственно через относительные пути или создайте ссылку на каталог метаданных с помощью синтаксиса CREATE EXTERNAL TABLE. Загрузите данные в родные для Lakehouse таблицы Delta для максимальной производительности.

Загрузка в таблицу

Microsoft Fabric Lakehouse предоставляет удобный и продуктивный пользовательский интерфейс для упрощения загрузки данных в таблицы Delta. Функция "Загрузка в таблицу" позволяет визуализировать загрузку общих форматов файлов в Delta для повышения аналитической производительности для всех пользователей. Дополнительные сведения о функции "Загрузка в таблицу" см. в справочной документации по таблицам Load to Delta Lake .

Оптимизация таблицы Delta Lake

Поддержание таблиц в надлежащем состоянии для разнообразных аналитических сценариев — это нелегкая задача. Microsoft Fabric Lakehouse преимущественно настраивает важные параметры для минимизации распространенных проблем, связанных с таблицами больших данных, такими как сжатие и небольшие размеры файлов, а также для повышения эффективности выполнения запросов. Тем не менее, существует множество сценариев, в которых эти параметры нуждаются в изменениях. В статье по оптимизации таблиц Delta Lake и V-Order рассматриваются некоторые ключевые сценарии и подробное руководство по эффективному обслуживанию таблиц Delta для обеспечения максимальной производительности.