Подключение к базам данных хранилища метаданных Hive и управление ими в Microsoft Purview

В этой статье описывается, как регистрировать базы данных хранилища метаданных Hive, а также как выполнять проверку подлинности и взаимодействовать с базами данных хранилища метаданных Hive в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.

Поддерживаемые возможности

Извлечение метаданных Полная проверка Добавочное сканирование Сканирование с заданной областью Классификация Присвоение подписей Политика доступа Линии Общий доступ к данным Динамическое представление
Да Да Нет Да Нет Нет Нет Да* Нет Нет

* Помимо происхождения в ресурсах в источнике данных, также поддерживается происхождение, если набор данных используется в качестве источника или приемника в фабрике данных или конвейере Synapse.

Поддерживаемые версии Hive — от 2.x до 3.x. Поддерживаемые платформы — Apache Hadoop, Cloudera и Hortonworks. Если вы хотите проверить Azure Databricks, рекомендуется использовать соединитель Azure Databricks , который является более совместимым и удобным для пользователя.

При сканировании источника хранилища метаданных Hive Microsoft Purview поддерживает:

  • Извлечение технических метаданных, включая:

    • Сервер
    • Databases
    • Таблицы, включая столбцы, внешние ключи, уникальные ограничения и описание хранилища
    • Представления, включая столбцы и описание хранилища
  • Получение статического происхождения данных о связях ресурсов между таблицами и представлениями.

При настройке проверки можно выбрать проверку всей базы данных хранилища метаданных Hive или область проверку на подмножество схем, соответствующих заданным именам или шаблонам имен.

Известные ограничения

При удалении объекта из источника данных в настоящее время при последующей проверке соответствующий ресурс в Microsoft Purview автоматически не удаляется.

Предварительные требования

Регистрация

В этом разделе описывается, как зарегистрировать базу данных хранилища метаданных Hive в Microsoft Purview с помощью портала управления Microsoft Purview.

Единственная поддерживаемая проверка подлинности для базы данных хранилища метаданных Hive — обычная проверка подлинности.

  1. Откройте портал управления Microsoft Purview, выполнив следующие действия.

  2. Выберите Карта данных в левой области.

  3. Нажмите Зарегистрировать.

  4. В окне Регистрация источников выберите Хранилище метаданных> HiveПродолжить.

  5. На экране Регистрация источников (хранилище метаданных Hive) выполните следующие действия.

    1. В поле Имя введите имя, которое Microsoft Purview будет отображать в качестве источника данных.

    2. В поле URL-адрес кластера Hive введите значение, полученное из URL-адреса Ambari. Например, введите hive.azurehdinsight.net.

    3. В поле URL-адрес сервера хранилища метаданных Hive введите URL-адрес сервера. Например, введите sqlserver://hive.database.windows.net.

    4. В поле Выберите коллекцию выберите коллекцию из списка или создайте новую. Это действие необязательно.

    Снимок экрана: поля для регистрации источников Hive.

  6. Нажмите Готово.

Проверка

Совет

Чтобы устранить неполадки со сканированием, выполните указанные ниже действия.

  1. Убедитесь, что выполнены все предварительные требования.
  2. Ознакомьтесь с нашей документацией по устранению неполадок сканирования.

Выполните следующие действия, чтобы проверить базы данных хранилища метаданных Hive для автоматической идентификации ресурсов. Дополнительные сведения о сканировании в целом см. в статье Сканирование и прием данных в Microsoft Purview.

  1. В Центре управления выберите среды выполнения интеграции. Убедитесь, что настроена локальная среда выполнения интеграции. Если она не настроена, выполните действия, описанные в статье Создание локальной среды выполнения интеграции и управление ею.

  2. Перейдите в раздел Источники.

  3. Выберите зарегистрированную базу данных хранилища метаданных Hive.

  4. Выберите + Создать сканирование.

  5. Укажите следующие сведения.

    1. Имя. Введите имя проверки.

    2. Подключение через среду выполнения интеграции. Выберите настроенную локальную среду выполнения интеграции.

    3. Учетные данные. Выберите учетные данные для подключения к источнику данных. Убедитесь, что:

      • При создании учетных данных выберите Обычная проверка подлинности.
      • Укажите имя пользователя хранилища метаданных в соответствующем поле.
      • Храните пароль хранилища метаданных в секретном ключе.

      Дополнительные сведения см. в разделе Учетные данные для проверки подлинности источника в Microsoft Purview.

    4. Расположение драйвера JDBC хранилища метаданных. Укажите путь к расположению драйвера JDBC на компьютере, где запущена среда выполнения интеграции с локальным узлом, например D:\Drivers\HiveMetastore. Это путь к допустимому расположению jar-папки. Убедитесь, что драйвер доступен локальной среде выполнения интеграции. Дополнительные сведения см. в разделе предварительных требований.

    5. Класс драйвера JDBC хранилища метаданных. Укажите имя класса для драйвера подключения. Например, введите \com.microsoft.sqlserver.jdbc.SQLServerDriver.

    6. URL-адрес хранилища метаданных JDBC. Укажите значение URL-адреса подключения и определите подключение к URL-адресу сервера базы данных хранилища метаданных. Пример: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.

      Примечание.

      При копировании URL-адреса из hive-site.xmlудалите amp; из строки, в противном случае проверка завершится ошибкой.

      Скачайте SSL-сертификат на локальный компьютер среды выполнения интеграции, а затем обновите путь к расположению SSL-сертификата на компьютере в URL-адресе.

      При вводе локальных путей к файлам в конфигурации сканирования измените символ разделителя пути Windows с обратной косой черты (\) на косую черту (/). Например, если вы размещаете SSL-сертификат по локальному пути к файлу D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem, измените serverSslCert значение параметра на D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.

      Значение URL-адреса JDBC хранилища метаданных будет выглядеть так, как в следующем примере:

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. Имя базы данных хранилища метаданных. Укажите имя базы данных хранилища метаданных Hive.

    8. Схема. Укажите список схем Hive для импорта. Например: schema1; schema2.

      Все пользовательские схемы импортируются, если этот список пуст. Все системные схемы (например, SysAdmin) и объекты по умолчанию игнорируются.

      Допустимые шаблоны имен схемы, использующие синтаксис выражений SQL LIKE , включают знак процента (%). Например, A%; %B; %C%; D означает:

      • Начните с A или
      • Заканчивается на B или
      • Содержать C или
      • Равный D

      NOT Использование специальных символов и недопустимо.

    9. Максимальный объем доступной памяти: максимальный объем памяти (в гигабайтах), доступный на компьютере клиента для используемых процессов сканирования. Это значение зависит от размера проверяемой базы данных хранилища метаданных Hive.

      Примечание.

      Как правило, укажите 1 ГБ памяти для каждых 1000 таблиц.

    Снимок экрана: поля для сведений о проверке.

  6. Нажмите Продолжить.

  7. В поле Триггер сканирования укажите, следует ли настроить расписание или запустить проверку один раз.

  8. Просмотрите проверку и выберите Сохранить и запустить.

Просмотр проверок и запусков сканирования

Чтобы просмотреть существующие проверки, выполните приведенные далее действия.

  1. Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.
  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
  3. Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
  4. Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.

Управление проверками

Чтобы изменить, отменить или удалить сканирование:

  1. Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.

  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .

  3. Выберите проверку, которой вы хотите управлять. Далее вы можете:

    • Измените сканирование, выбрав Изменить проверку.
    • Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
    • Удалите сканирование, выбрав Удалить сканирование.

Примечание.

  • При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
  • Ресурс больше не будет обновляться с изменениями схемы, если исходная таблица изменилась и вы повторно просканируете исходную таблицу после изменения описания на вкладке Схема Microsoft Purview.

Линии

После сканирования источника хранилища метаданных Hive можно просмотреть каталог данных или выполнить поиск в каталоге данных , чтобы просмотреть сведения об активе.

Перейдите на вкладку asset — lineage (Ресурс —> происхождение), и при необходимости вы увидите связь активов. Сведения о поддерживаемых сценариях происхождения в хранилище метаданных Hive см. в разделе Поддерживаемые возможности. Дополнительные сведения о происхождении данных в целом см. в руководстве пользователя по происхождению данных и происхождению данных.

Дальнейшие действия

Теперь, когда вы зарегистрировали источник, используйте следующие руководства, чтобы узнать больше о Microsoft Purview и ваших данных: