Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
На этой странице представлен обзор функциональных возможностей и рекомендаций по обеспечению управления данными, управляемыми Azure Databricks доступными для внешних систем.
Эти шаблоны сосредоточены на сценариях, в которых вашей организации необходимо интегрировать доверенные инструменты или системы с Azure Databricks. Если вы ищете рекомендации по совместному использованию данных за пределами вашей организации, см. статью "Безопасное предоставление общего доступа к данным и ресурсам ИИ".
Какой внешний доступ поддерживает Azure Databricks?
Azure Databricks рекомендует использовать каталог Unity для управления всеми ресурсами данных. Каталог Unity обеспечивает интеграцию с клиентами Delta Lake с помощью REST API Unity и клиентов Apache Iceberg с помощью каталога REST Iceberg. Полный список поддерживаемых интеграции см. в разделе "Интеграция каталога Unity".
В следующей таблице представлен обзор форматов поддержки и шаблонов доступа для объектов каталога Unity.
| Объект каталога Unity | Поддерживаемые форматы | Шаблоны доступа |
|---|---|---|
| Управляемые таблицы | Delta Lake, Айсберг | REST API Unity, каталог REST Iceberg, Delta Sharing |
| Внешние таблицы | Delta Lake | REST API Unity, каталог REST Iceberg, Delta Sharing, облачные URI |
| Внешние таблицы | CSV, JSON, Avro, Parquet, ORC, текст | REST API Unity, облачные URI |
| Внешние тома | Все типы данных | Облачные URI |
| Внешние таблицы* | Delta Lake, Айсберг | API REST Unity, каталог REST Iceberg (предварительная версия), Delta Sharing |
| Внешние таблицы* | CSV, JSON, Avro, Parquet, ORC, текст | REST API Unity, облачные URI |
* Поддерживаются только внешние таблицы, федеративно присоединенные через федерацию каталога. Чтобы гарантировать актуальные чтения из внешних движков на сторонних таблицах, клиенты могут периодически обновлять метаданные с помощью заданий Lakeflow.
Дополнительные сведения об этих объектах каталога Unity см. в следующих статьях:
- управляемые таблицы Unity Catalog в Azure Databricks для Delta Lake и Apache Iceberg
- Работа с внешними таблицами
- Что такое тома каталога Unity?
Выдача учетных данных каталога Unity
Выдача учетных данных каталога Unity позволяет пользователям настраивать внешние клиенты для наследования привилегий на данные, которыми управляет Azure Databricks. Как клиенты Iceberg, так и Delta могут поддерживать выдачу учетных данных. Для информации о распределении учетных данных для доступа к внешней системе см. раздел каталога Unity.
Доступ к таблицам с помощью клиентов Delta
Используйте REST API Unity для чтения, записи и создания управляемых и внешних таблиц каталога Unity, поддерживаемых Delta Lake из поддерживаемых клиентов Delta. См. таблицы Access Databricks из клиентов Delta.
Это важно
Создание и запись в управляемые таблицы Unity Catalog через клиентов Delta находятся в стадии бета-тестирования.
Для внешних таблиц каталог Unity не управляет чтением и записью, выполняемой непосредственно в облачном хранилище объектов из внешних систем, поэтому необходимо настроить дополнительные политики и учетные данные в облачной учетной записи, чтобы обеспечить соблюдение политик управления данными за пределами Azure Databricks.
Заметка
В документации Azure Databricks перечислены ограничения и рекомендации по совместимости на основе версий и функций платформы Databricks Runtime. Необходимо подтвердить, какие протоколы чтения и записи и функции таблиц поддерживают клиент. См. delta.io.
Доступ к таблицам с клиентами Iceberg
Azure Databricks предоставляет клиентам Iceberg поддержку чтения, записи и создания таблиц, зарегистрированных в каталоге Unity. Поддерживаемые клиенты включают Apache Spark, Apache Flink, Trino и Snowflake. См. доступ к таблицам Azure Databricks из клиентов Apache Iceberg.
Совместное использование таблиц только для чтения между доменами
Вы можете использовать Delta Sharing для предоставления доступа только для чтения к управляемым или внешним таблицам Delta в разных доменах и поддерживаемых системах. Программные системы, поддерживающие чтение таблиц Delta Sharing с нулевой копией, включают SAP, Amperity и Oracle. Сведения о безопасном использовании данных и ресурсов ИИ см. в статье "Общий доступ к данным и ресурсам ИИ".
Заметка
Вы также можете использовать Delta Sharing для предоставления клиентам или партнерам доступа только для чтения. Delta Sharing также поддерживает обмен данными с помощью Databricks Marketplace.
Получите доступ к табличным данным не Delta Lake с помощью внешних таблиц
Внешние таблицы каталога Unity поддерживают множество форматов, отличных от Delta Lake, включая Parquet, ORC, CSV и JSON. Внешние таблицы хранят все файлы данных в каталогах в расположении облачного хранилища объектов, указанном в облачном URI, предоставленном во время создания таблицы. Другие системы получают доступ к этим файлам данных непосредственно из облачного хранилища объектов.
Каталог Unity не управляет чтением и записью непосредственно в облачном хранилище объектов из внешних систем, поэтому необходимо настроить дополнительные политики и учетные данные в облачной учетной записи, чтобы обеспечить соблюдение политик управления данными за пределами Azure Databricks.
Чтение и запись во внешние таблицы из нескольких систем может привести к проблемам согласованности и повреждению данных, так как никакие гарантии транзакций не предоставляются для форматов, отличных от Delta Lake.
Каталог Unity может не обнаружить новые разделы, записанные во внешние таблицы на основе форматов, отличных от Delta Lake. Databricks рекомендует регулярно выполнять MSCK REPAIR TABLE table_name, чтобы гарантировать, что каталог Unity зарегистрировал все файлы данных, написанные внешними системами.
Доступ к не-табличным данным с внешними накопителями
Databricks рекомендует использовать внешние тома для хранения не табличных файлов данных, которые считываются или записываются внешними системами в дополнение к Azure Databricks. См. статью Что такое тома каталога Unity?.
Каталог Unity не управляет чтением и записью непосредственно в облачном хранилище объектов из внешних систем, поэтому необходимо настроить дополнительные политики и учетные данные в облачной учетной записи, чтобы обеспечить соблюдение политик управления данными за пределами Azure Databricks.
Программные интерфейсы, пакеты SDK и другие инструменты предоставляют возможность извлечения файлов из томов и их загрузки в тома. См . статью "Работа с файлами в томах каталога Unity".
Заметка
Функция Delta Sharing позволяет делиться томами с другими учетными записями Azure Databricks, но не интегрируется с внешними системами.