Поделиться через


Предоставление доступа к данным с помощью открытого протокола Delta Sharing (для поставщиков)

На этой странице представлен обзор того, как поставщики могут использовать протокол общего доступа Delta Sharing для совместного использования данных из рабочей области Azure Databricks с поддержкой каталога Unity с любым пользователем на любой вычислительной платформе в любом месте. Если вы являетесь получателем данных (пользователь или группа пользователей, которым предоставлен доступ к данным), см. вместо этого доступ к данным, которыми с вами поделились с помощью Delta Sharing (для получателей).

Кто должен использовать протокол открытого общего доступа Delta Sharing?

Существует три способа обмена данными с помощью Delta Sharing:

  1. Открытый протокол обмена данными Databricks, описанный в этой статье, позволяет вам делиться данными, которыми вы управляете в рабочей области Databricks с поддержкой Unity Catalog, с пользователями на любой вычислительной платформе.

    Этот подход использует сервер Delta Share, встроенный в Azure Databricks, и полезен при управлении данными с помощью каталога Unity и хотите поделиться им с пользователями, которые не используют Databricks или не имеют доступа к рабочей области Databricks с поддержкой каталога Unity. Интеграция с каталогом Unity на стороне поставщика упрощает настройку и управление поставщиками.

  2. Управляемая клиентом реализация сервера с открытым исходным кодом Delta Sharing позволяет предоставлять общий доступ от любой платформы к любой платформе, независимо от того, используется ли Databricks или нет.

    См . github.com/delta-io/delta-sharing.

  3. Протокол совместного использования Databricks-to-Databricks позволяет делиться данными из рабочей области с поддержкой Unity Catalog с пользователями, которые также имеют доступ к рабочей области Databricks с поддержкой Unity Catalog.

    См. общий доступ к данным с использованием протокола Delta Sharing Databricks-to-Databricks (для поставщиков).

Для введения в Delta Sharing и получения дополнительной информации об этих трех подходах см. статью «Что такое Delta Sharing?».

Рабочий процесс для открытого обмена Delta Sharing

В этом разделе представлен общий обзор рабочего процесса открытого общего доступа с ссылками на подробную документацию для каждого шага.

В модели открытого общего доступа Delta Sharing:

  1. Поставщик данных создает получателя, который является именованным объектом, который представляет пользователя или группу пользователей, с которыми поставщик данных хочет предоставить общий доступ к данным.

    Когда поставщик данных создает получателя, поставщик настраивает аутентификацию с помощью продолжительно действующего маркера носителя или федерации Open ID Connect (OIDC). Если поставщик использует маркер носителя, Azure Databricks создает файл учетных данных и ссылку активации, которую поставщик данных может отправить получателю для доступа к файлу учетных данных. В потоке федерации OIDC IdP получателя управляет аутентификацией на основе политики, созданной поставщиком.

    Для получения подробной информации см. создание объекта получателя для пользователей, не связанных с Databricks, с использованием маркеров доступа (открытый общий доступ) и использование федерации Open ID Connect (OIDC) для включения аутентификации в разделяемых областях Delta Sharing (открытый общий доступ).

  2. Поставщик данных создает общую папку, которая представляет собой именованный объект, содержащий коллекцию таблиц, зарегистрированных в хранилище метаданных каталога Unity в учетной записи поставщика.

    Дополнительные сведения см. в статье Создание общих папок и управление ими для delta Sharing.

  3. Поставщик данных предоставляет получателю доступ к ресурсу.

    Дополнительные сведения см. в статье Управление доступом к общим папкам данных Delta Sharing (для поставщиков).

  4. В потоке маркеров носителя поставщик данных отправляет ссылку активации получателю через безопасный канал, а также инструкции по использованию ссылки активации для скачивания файла учетных данных, который получатель будет использовать для установления безопасного подключения к поставщику данных для получения общих данных.

    Дополнительные сведения см. в статье "Получение ссылки на активацию".

    В процессе федерации OIDC пользователи проходят аутентификацию через свой поставщик удостоверений. См. используйте федерацию Open ID Connect (OIDC) для включения проверки подлинности к ресурсам Delta Sharing (общий доступ).

  5. В потоке токенов доступа получатель данных следует ссылке активации, чтобы скачать файл доступа, а затем использовать его для доступа к общим данным.

    Общие данные доступны только для чтения. Пользователи могут получить доступ к данным с помощью выбранной платформы или инструментов. Дополнительные сведения см. в разделе «Чтение данных, которым предоставлен общий доступ с помощью открытого обмена с токенами носителя (для получателей)».

    В процессе федерации OIDC пользователи проходят аутентификацию через свой поставщик удостоверений. См. используйте федерацию Open ID Connect (OIDC) для включения проверки подлинности к ресурсам Delta Sharing (общий доступ).

Конфигурации для конкретного поставщика

Многие поставщики имеют собственные сети Delta Sharing для общего доступа. Инструкции по совместному использованию см. в следующих примерах:

Рекомендации по настройке и безопасности провайдера для открытого доступа

Хорошее управление маркерами — это ключ к безопасному обмену данными при использовании открытой модели общего доступа:

  • Поставщики данных в Azure Databricks, которые намерены использовать открытый общий доступ при предоставлении общих ресурсов, должны настроить время существования маркера получателя по умолчанию, когда они включают Delta Sharing для хранилища метаданных каталога Unity. Databricks рекомендует настраивать срок действия токенов. См. Включение Delta Sharing в метахранилище.
  • Если необходимо изменить время существования маркера по умолчанию, см. раздел "Изменить время существования маркера получателя".
  • Поощряйте получателей безопасно управлять скачанным файлом учетных данных.
  • Дополнительные сведения об управлении маркерами и безопасности открытого общего доступа см. в разделе "Управление маркерами получателей".
  • Открытый общий доступ поддерживается между типами облачных сред, например из коммерческих облаков AWS в AWS GovCloud или Azure China.

Поставщики данных могут обеспечить дополнительную безопасность, назначив списки IP-доступа, чтобы ограничить доступ получателя к определенным сетевым расположениям. См. раздел Ограничение доступа получателей Delta Sharing с помощью списков IP-доступа (открытый доступ).