Поделиться через


Таблицы Azure Databricks

Azure Databricks предоставляет несколько типов таблиц и форматов хранилища для удовлетворения различных потребностей управления данными. В этом разделе рассматриваются управляемые, внешние и внешние таблицы, а также форматы хранилища Delta Lake и Apache Iceberg, которые поддерживают расширенные функции, такие как атомарность, согласованность, изоляция и устойчивость (ACID) и перемещение времени.

Основные понятия

Ознакомьтесь с основами интеграции типов таблиц, форматов хранения и каталога Unity.

Тема Description
Основные понятия таблиц Основные понятия и основные сведения о типах таблиц, форматах хранения и интеграции каталога Unity.

Типы таблиц

Изучите различные типы таблиц и их возможности для различных сценариев управления данными.

Тип таблицы Description
Таблицы, управляемые каталогом Unity в Azure Databricks для Delta Lake и Apache Iceberg Azure Databricks управляет метаданными и файлами данных. Используется для новых таблиц, требующих оптимизированной производительности.
Временные таблицы Управляемые сессией таблицы в Unity Catalog для промежуточных данных. Только хранилища SQL.
Работа с внешними таблицами Данные, хранящиеся во внешних системах. Каталог Unity управляет только метаданными.
Работа с внешними таблицами Доступ к данным только для чтения во внешних системах, подключенных через Lakehouse Federation.

Форматы хранилища

Работа с открытыми форматами таблиц, предоставляющими расширенные возможности управления данными.

Формат Description
Delta Lake Формат хранилища по умолчанию, предоставляющий транзакции ACID, перемещение по времени и принудительное применение схемы для управляемых и внешних таблиц.
Apache Iceberg Открытый формат таблицы для интеграции с экосистемой Айсберга, поддерживающий расширенное управление метаданными.

Управление таблицами

Настройте и оптимизируйте поведение таблицы, структуру и производительность.

Функция Description
Ограничения таблиц Определите и примените правила качества данных с ограничениями проверки, а не ограничениями NULL.
Принудительное применение схемы Управление тем, как Azure Databricks обрабатывает изменения схемы и применение типов данных во время записи.
Секционирование таблиц Упорядочение данных по ключам секции для повышения производительности запросов и управления данными.
Мониторинг размера таблицы Мониторинг и анализ шаблонов использования и роста хранилища таблиц.
Преобразование внешних в управляемый Перенос внешних таблиц в управляемые таблицы для повышения производительности и управления.
Обнаружение внешних секций Автоматическое обнаружение и регистрация секций во внешних таблицах, хранящихся в облачном хранилище.