Поделиться через


Подключение к источникам данных

В этой статье приводятся рекомендации по настройке подключений между Azure Databricks и источниками данных администраторами и другими пользователями. Если вы пытаетесь определить, есть ли у вас доступ к данным чтения из внешней системы, сначала просмотрите данные, к которым у вас есть доступ к рабочей области. См. статью " Обнаружение данных".

Вы можете подключить учетную запись Azure Databricks к таким источникам данных, как облачное хранилище объектов, системы управления реляционными базами данных, службы потоковых данных и корпоративные платформы, такие как CRM. Определенные привилегии, необходимые для настройки подключений, зависят от источника данных, способа настройки разрешений в рабочей области Azure Databricks, необходимых разрешений для взаимодействия с данными в источнике, модели управления данными и предпочитаемого метода подключения.

Большинство методов требуют повышенных привилегий как в источнике данных, так и в рабочей области Azure Databricks, чтобы настроить необходимые разрешения для интеграции систем. Пользователи без этих разрешений должны запрашивать справку. См. статью "Запрос доступа к источникам данных".

Настройка подключений к хранилищу объектов

Облачное хранилище объектов предоставляет основу для хранения большинства данных в Azure Databricks. Дополнительные сведения о облачном хранилище объектов и о том, где Azure Databricks хранит данные, см. в статье "Где azure Databricks записывает данные?".

Databricks рекомендует использовать каталог Unity для настройки доступа к облачному хранилищу объектов. Каталог Unity предоставляет управление данными для структурированных и неструктурированных данных в облачном хранилище объектов. См. статью "Подключение к облачному хранилищу объектов" с помощью каталога Unity.

Клиенты, не использующие каталог Unity, должны настраивать подключения с помощью устаревших методов. Сведения о настройке доступа к облачному хранилищу объектов для Azure Databricks.

Сведения о настройке сети в облачном хранилище объектов см. в разделе "Сеть".

Настройка подключений к внешним системам данных

Databricks рекомендует несколько вариантов настройки подключений к внешним системам данных в зависимости от ваших потребностей. В следующей таблице представлен общий обзор этих параметров:

Вариант Описание
Федерация Lakehouse Предоставляет доступ только для чтения к данным в корпоративных системах данных. Подключения настраиваются с помощью каталога Unity на уровне каталога или схемы, синхронизируя несколько таблиц с одной конфигурацией. См. статью "Что такое Федерация Lakehouse?".
Подключение участника Использует технологические решения для подключения к внешним источникам данных и автоматизации приема данных в lakehouse. Некоторые решения также включают обратный ETL и прямой доступ к данным Lakehouse из внешних систем. См. раздел "Что такое Databricks Partner Connect?"
Драйверы Azure Databricks включает драйверы для внешних систем данных в каждой среде выполнения Databricks. При необходимости можно установить сторонние драйверы для доступа к данным в других системах. Необходимо настроить подключения для каждой таблицы. Некоторые драйверы включают доступ на запись. См. статью "Подключение к внешним системам".
JDBC Несколько включенных драйверов для внешних систем, базируемых на основе поддержки JDBC, и параметр JDBC предоставляет расширяемые параметры настройки подключений к другим системам. Необходимо настроить подключения для каждой таблицы. См. статью "Запросы баз данных с помощью JDBC".

Подключение к источникам данных потоковой передачи

Azure Databricks предоставляет оптимизированные соединители для многих систем потоковой передачи данных.

Для всех источников данных потоковой передачи необходимо создать учетные данные, которые предоставляют доступ и загружают эти учетные данные в Azure Databricks. Databricks рекомендует хранить учетные данные с помощью секретов, так как вы можете использовать секреты для всех параметров конфигурации и во всех режимах доступа.

Все соединители данных для источников потоковой передачи поддерживают передачу учетных данных с помощью параметров при определении потоковых запросов. См. раздел "Настройка источников данных потоковой передачи".

Запрос доступа к источникам данных

Во многих организациях большинство пользователей не имеют достаточных привилегий в Azure Databricks или внешних источниках данных для настройки подключений к данным.

Возможно, ваша организация уже настроили доступ к источнику данных с помощью одного из шаблонов, описанных в статьях, связанных с этой страницей. Если у вашей организации есть четко определенный процесс запроса доступа к данным, Databricks рекомендует выполнить этот процесс.

Если вы не уверены, как получить доступ к источнику данных, эта процедура может помочь вам:

  1. Используйте обозреватель каталогов для просмотра таблиц и томов, к которым можно получить доступ. См. раздел "Что такое обозреватель каталогов?".
  2. Попросите своих товарищей по команде или менеджеров о источниках данных, к которым они могут получить доступ.
    • Большинство организаций используют группы, синхронизированные с поставщиком удостоверений (например, Okta или Microsoft Entra ID) для управления разрешениями для пользователей рабочей области. Если другие члены вашей команды могут получить доступ к источникам данных, к которым требуется доступ, администратор рабочей области добавит вас в правильную группу, чтобы предоставить вам доступ.
    • Если определенная таблица, том или источник данных была настроена коллегой, то у этого человека должны быть разрешения на предоставление доступа к данным.
  3. Некоторые организации настраивают разрешения доступа к данным с помощью параметров вычислительных кластеров и хранилищ SQL.
    • Доступ к источникам данных может отличаться по вычислениям.
    • Вы можете просмотреть создателя вычислений на вкладке "Вычисления ". Обратитесь к создателю, чтобы узнать о источниках данных, которые должны быть доступны.