Подключение к базам данных хранилища метаданных Hive и управление ими в Microsoft Purview
Мақала
В этой статье описывается, как регистрировать базы данных хранилища метаданных Hive, а также как выполнять проверку подлинности и взаимодействовать с базами данных хранилища метаданных Hive в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.
*
Помимо происхождения в ресурсах в источнике данных, также поддерживается происхождение, если набор данных используется в качестве источника или приемника в фабрике данных или конвейере Synapse.
Поддерживаемые версии Hive — от 2.x до 3.x. Поддерживаемые платформы — Apache Hadoop, Cloudera и Hortonworks. Если вы хотите проверить Azure Databricks, рекомендуется использовать соединитель Azure Databricks , который является более совместимым и удобным для пользователя.
При сканировании источника хранилища метаданных Hive Microsoft Purview поддерживает:
Извлечение технических метаданных, включая:
Сервер
Databases
Таблицы, включая столбцы, внешние ключи, уникальные ограничения и описание хранилища
Представления, включая столбцы и описание хранилища
Получение статического происхождения данных о связях ресурсов между таблицами и представлениями.
При настройке проверки можно выбрать проверку всей базы данных хранилища метаданных Hive или область проверку на подмножество схем, соответствующих заданным именам или шаблонам имен.
Известные ограничения
При удалении объекта из источника данных в настоящее время при последующей проверке соответствующий ресурс в Microsoft Purview автоматически не удаляется.
Для регистрации источника данных и управления им на портале управления Microsoft Purview требуются разрешения администратора источника и читателя данных. Дополнительные сведения о разрешениях см. в статье Управление доступом в Microsoft Purview.
Убедитесь, что JDK 11 установлен на компьютере, где установлена локальная среда выполнения интеграции. Перезапустите компьютер после установки JDK, чтобы он вступил в силу.
Убедитесь, что Распространяемый компонент Visual C++ (версия Visual Studio 2012 с обновлением 4 или более поздней) установлена на компьютере, где запущена локальная среда выполнения интеграции. Если у вас не установлено это обновление, скачайте его сейчас.
Скачайте драйвер JDBC базы данных Хранилища метаданных Hive на компьютер, на котором работает локальная среда выполнения интеграции. Например, если база данных — mssql, скачайте драйвер JDBC корпорации Майкрософт для SQL Server. Запишите путь к папке, который будет использоваться для настройки проверки.
Ескерім
Драйвер должен быть доступен локальной среде выполнения интеграции. По умолчанию локальная среда выполнения интеграции использует учетную запись локальной службы "NT SERVICE\DIAHostService". Убедитесь, что у него есть разрешения "Чтение и выполнение" и "Вывод списка содержимого папки" для папки драйвера.
Регистрация
В этом разделе описывается, как зарегистрировать базу данных хранилища метаданных Hive в Microsoft Purview с помощью портала управления Microsoft Purview.
Единственная поддерживаемая проверка подлинности для базы данных хранилища метаданных Hive — обычная проверка подлинности.
Откройте портал управления Microsoft Purview, выполнив следующие действия.
Выполните следующие действия, чтобы проверить базы данных хранилища метаданных Hive для автоматической идентификации ресурсов. Дополнительные сведения о сканировании в целом см. в статье Сканирование и прием данных в Microsoft Purview.
Расположение драйвера JDBC хранилища метаданных. Укажите путь к расположению драйвера JDBC на компьютере, где запущена среда выполнения интеграции с локальным узлом, например D:\Drivers\HiveMetastore. Это путь к допустимому расположению jar-папки. Убедитесь, что драйвер доступен локальной среде выполнения интеграции. Дополнительные сведения см. в разделе предварительных требований.
Класс драйвера JDBC хранилища метаданных. Укажите имя класса для драйвера подключения. Например, введите \com.microsoft.sqlserver.jdbc.SQLServerDriver.
URL-адрес хранилища метаданных JDBC. Укажите значение URL-адреса подключения и определите подключение к URL-адресу сервера базы данных хранилища метаданных. Пример: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.
Ескерім
При копировании URL-адреса из hive-site.xmlудалите amp; из строки, в противном случае проверка завершится ошибкой.
Скачайте SSL-сертификат на локальный компьютер среды выполнения интеграции, а затем обновите путь к расположению SSL-сертификата на компьютере в URL-адресе.
При вводе локальных путей к файлам в конфигурации сканирования измените символ разделителя пути Windows с обратной косой черты (\) на косую черту (/). Например, если вы размещаете SSL-сертификат по локальному пути к файлу D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem, измените serverSslCert значение параметра на D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.
Значение URL-адреса JDBC хранилища метаданных будет выглядеть так, как в следующем примере:
Имя базы данных хранилища метаданных. Укажите имя базы данных хранилища метаданных Hive.
Схема. Укажите список схем Hive для импорта. Например: schema1; schema2.
Все пользовательские схемы импортируются, если этот список пуст. Все системные схемы (например, SysAdmin) и объекты по умолчанию игнорируются.
Допустимые шаблоны имен схемы, использующие синтаксис выражений SQL LIKE , включают знак процента (%). Например, A%; %B; %C%; D означает:
Начните с A или
Заканчивается на B или
Содержать C или
Равный D
NOT Использование специальных символов и недопустимо.
Максимальный объем доступной памяти: максимальный объем памяти (в гигабайтах), доступный на компьютере клиента для используемых процессов сканирования. Это значение зависит от размера проверяемой базы данных хранилища метаданных Hive.
Ескерім
Как правило, укажите 1 ГБ памяти для каждых 1000 таблиц.
Нажмите Продолжить.
В поле Триггер сканирования укажите, следует ли настроить расписание или запустить проверку один раз.
Просмотрите проверку и выберите Сохранить и запустить.
Просмотр проверок и запусков сканирования
Чтобы просмотреть существующие проверки, выполните приведенные далее действия.
Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
Выберите проверку, которой вы хотите управлять. Далее вы можете:
Измените сканирование, выбрав Изменить проверку.
Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
Ресурс больше не будет обновляться с изменениями схемы, если исходная таблица изменилась и вы повторно просканируете исходную таблицу после изменения описания на вкладке Схема Microsoft Purview.
Перейдите на вкладку asset — lineage (Ресурс —> происхождение), и при необходимости вы увидите связь активов. Сведения о поддерживаемых сценариях происхождения в хранилище метаданных Hive см. в разделе Поддерживаемые возможности. Дополнительные сведения о происхождении данных в целом см. в руководстве пользователя по происхождению данных и происхождению данных.
Дальнейшие действия
Теперь, когда вы зарегистрировали источник, используйте следующие руководства, чтобы узнать больше о Microsoft Purview и ваших данных:
Продемонстрировать понимание распространенных задач проектирования данных для реализации рабочих нагрузок проектирования данных и управления ими в Microsoft Azure с помощью ряда служб Azure.