Поделиться через


Подключение к Infoworks

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Infoworks DataFoundry — это автоматизированная система операций и оркестрации для корпоративных данных, которая имеет встроенную поддержку в Azure Databricks и использует всю мощь этой платформы в формате простого решения для подключения данных, которое является важным первым шагом при подготовке озера данных. DataFoundry автоматизирует не только прием данных, но и многие важные функции, которые традиционно выполняются при приеме данных для создания основы для аналитики. Подключение данных с помощью DataFoundry автоматизирует следующие процессы:

  • прием данных из всех корпоративных и внешних источников данных;
  • синхронизация данных методом CDC для сохранения синхронизации данных с источником;
  • управление данными, включая создание каталога, отслеживание происхождения, управление метаданными, аудит и ведение журнала.

Ниже приведены инструкции по использованию Infoworks с Azure Databricks.

Шаг 1. Создание личного маркера доступа Databricks

Infoworks выполняет проверку подлинности для Azure Databricks с помощью личного маркера доступа Azure Databricks.

Примечание.

В качестве рекомендации по обеспечению безопасности при проверке подлинности с помощью автоматизированных средств, систем, сценариев и приложений Databricks рекомендуется использовать личные маркеры доступа, принадлежащие субъектам-службам, а не пользователям рабочей области. Сведения о создании маркеров для субъектов-служб см. в разделе "Управление маркерами" для субъекта-службы.

Шаг 2. Настройка кластера для поддержки потребностей интеграции

Infoworks будет записывать данные в путь Azure Data Lake Storage, и кластер интеграции Azure Databricks будет считывать данные из этого расположения, Поэтому кластеру интеграции требуется безопасный доступ к пути Azure Data Lake Storage.

Безопасный доступ по пути в Azure Data Lake Storage

Для защиты доступа к данным в Azure Data Lake Storage (ADLS) можно использовать ключ доступа к учетной записи хранения Azure (рекомендуется) или субъект-службу идентификатора Microsoft Entra ID.

Использование ключа доступа к учетной записи хранения Azure

Вы можете настроить ключ доступа к учетной записи хранения в кластере интеграции как часть конфигурации Spark. Убедитесь, что у учетной записи хранения есть доступ к контейнеру ADLS и файловой системе, используемой для промежуточного хранения и обработки данных, а также к контейнеру ADLS и файловой системе, в которую вы хотите записать таблицы Delta Lake. Чтобы настроить кластер интеграции для использования ключа, выполните действия, описанные в разделе "Подключение к Azure Data Lake Storage 2-го поколения и хранилищу BLOB-объектов".

Использование субъекта-службы Идентификатора Microsoft Entra

Вы можете настроить субъект-службу в кластере интеграции Azure Databricks в составе конфигурации Spark. Убедитесь, что у субъекта-службы есть доступ к контейнеру ADLS, используемому для промежуточного хранения и обработки данных, и к контейнеру ADLS, в который вы хотите записать разностные таблицы. Чтобы настроить кластер интеграции для использования субъекта-службы, выполните действия, описанные в статье Доступ к ADLS 2-го поколения с помощью субъекта-службы.

Указание конфигурации кластера

  1. Задайте для параметра Режим кластера значение Стандартный.

  2. Укажите для параметра Версия Databricks Runtime версию среды выполнения Databricks.

  3. Включите оптимизированные операции записи и автоматическое сжатие , добавив следующие свойства в конфигурацию Spark:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Настройте кластер в соответствии с вашими потребностями в интеграции и масштабировании.

Сведения о конфигурации кластера см . в справочнике по конфигурации вычислений.

Сведения о подключении для вычислительного ресурса Azure Databricks см. в разделе "Получение сведений о подключении" для получения URL-адреса JDBC и ПУТИ HTTP.

Шаг 3. Получение сведений о подключении JDBC и ODBC для подключения к кластеру

Чтобы подключить кластер Azure Databricks к Infoworks, вам потребуются следующие свойства подключения JDBC / ODBC.

  • URL-адрес JDBC
  • Путь HTTP

Шаг 4. получение Infoworks для Azure Databricks

Перейдите на сайт Infoworks, чтобы получить дополнительные сведения и демонстрационный пример.

Дополнительные ресурсы

Поддержка