Подключение к HDFS и управление ими в Microsoft Purview
В этой статье описывается регистрация распределенной файловой системы Hadoop (HDFS), а также проверка подлинности HDFS и взаимодействие с ним в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.
Поддерживаемые возможности
Извлечение метаданных | Полная проверка | Добавочное сканирование | Сканирование с заданной областью | Классификация | Присвоение подписей | Политика доступа | Линии | Общий доступ к данным | Динамическое представление |
---|---|---|---|---|---|---|---|---|---|
Да | Да | Да | Да | Да | Нет | Нет | Нет | Нет | Нет |
При сканировании источника HDFS Microsoft Purview поддерживает извлечение технических метаданных, включая HDFS:
- Namenode
- Folders
- Files
- Наборы ресурсов
При настройке сканирования можно выбрать проверку всего HDFS или выборочных папок. Сведения о поддерживаемом формате файлов см. здесь.
Соединитель использует протокол webhdfs для подключения к HDFS и получения метаданных. Распространение Hadoop MapR не поддерживается.
Предварительные требования
Учетная запись Azure с активной подпиской. Создайте учетную запись бесплатно.
Активная учетная запись Microsoft Purview.
Для регистрации источника данных и управления им на портале управления Microsoft Purview требуются разрешения администратора источника и читателя данных. Дополнительные сведения о разрешениях см. в статье Управление доступом в Microsoft Purview.
Настройте последнюю локальную среду выполнения интеграции. Дополнительные сведения см. в руководстве по созданию и настройке локальной среды выполнения интеграции. Минимальная поддерживаемая версия локального Integration Runtime — 5.20.8235.2.
- Убедитесь, что на локальном компьютере среды выполнения интеграции установлен Распространяемый компонент Visual C++ (версия Visual Studio 2012 с обновлением 4 или более поздней). Если это обновление не установлено, его можно скачать здесь.
- Убедитесь, что на локальном компьютере среды выполнения интеграции установлен JRE или OpenJDK для анализа файлов Parquet и ORC. Дополнительные сведения см. здесь.
- Сведения о настройке среды для включения проверки подлинности Kerberos см. в разделе Использование проверки подлинности Kerberos для соединителя HDFS .
Регистрация
В этом разделе описывается, как зарегистрировать HDFS в Microsoft Purview с помощью портала управления Microsoft Purview.
Действия по регистрации
Чтобы зарегистрировать новый источник HDFS в каталоге данных, выполните следующие действия.
- Перейдите к учетной записи Microsoft Purview на портале управления Microsoft Purview.
- Выберите Карта данных в области навигации слева.
- Выберите Зарегистрировать
- В разделе Регистрация источников выберите HDFS. Нажмите Продолжить.
На экране Регистрация источников (HDFS) выполните следующие действия.
Введите имя , которое источник данных будет указан в каталоге.
Введите URL-адрес кластера hdFS NameNode в виде
https://<namenode>:<port>
илиhttp://<namenode>:<port>
, напримерhttps://namenodeserver.com:50470
илиhttp://namenodeserver.com:50070
.Выберите коллекцию или создайте новую (необязательно)
Завершите регистрацию источника данных.
Проверка
Выполните приведенные ниже действия, чтобы проверить HDFS для автоматической идентификации ресурсов. Дополнительные сведения о сканировании в целом см. в статье Введение в сканирование и прием данных.
Проверка подлинности для сканирования
Поддерживаемый тип проверки подлинности для источника HDFS — проверка подлинности Kerberos.
Создание и запуск сканирования
Чтобы создать и запустить проверку, выполните следующие действия.
Убедитесь, что настроена локальная среда выполнения интеграции. Если она не настроена, выполните описанные здесь действия, чтобы создать локальную среду выполнения интеграции.
Перейдите в раздел Источники.
Выберите зарегистрированный источник HDFS.
Выберите + Создать сканирование.
На странице "Сканирование source_name"" укажите следующие сведения:
Имя: имя сканирования
Подключение через среду выполнения интеграции. Выберите настроенную локальную среду выполнения интеграции. См. требования к установке в разделе Предварительные требования .
Учетные данные. Выберите учетные данные для подключения к источнику данных. Убедитесь, что:
- Выберите Проверка подлинности Kerberos при создании учетных данных.
- Укажите имя пользователя в формате
<username>@<domain>.com
в поле Ввода имени пользователя. Дополнительные сведения см . в статье Использование проверки подлинности Kerberos для соединителя HDFS. - Сохраните пароль пользователя, используемый для подключения к HDFS, в секретном ключе.
Выберите Проверить подключение.
Нажмите Продолжить.
На странице "Область сканирования" выберите пути, которые нужно проверить.
На странице "Выбор набора правил сканирования" выберите набор правил сканирования, который требуется использовать для извлечения и классификации схемы. Вы можете выбрать системный набор правил по умолчанию, существующие настраиваемые наборы правил или создать новый встроенный набор правил. Дополнительные сведения см . в статье Создание набора правил сканирования.
На странице "Настройка триггера сканирования" выберите триггер сканирования. Вы можете настроить расписание или запустить проверку один раз.
Просмотрите проверку и выберите Сохранить и запустить.
Просмотр проверок и запусков сканирования
Чтобы просмотреть существующие проверки, выполните приведенные далее действия.
- Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.
- Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
- Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
- Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.
Управление проверками
Чтобы изменить, отменить или удалить сканирование:
Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.
Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
Выберите проверку, которой вы хотите управлять. Далее вы можете:
- Измените сканирование, выбрав Изменить проверку.
- Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
- Удалите сканирование, выбрав Удалить сканирование.
Примечание.
- При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
- Ресурс больше не будет обновляться с изменениями схемы, если исходная таблица изменилась и вы повторно просканируете исходную таблицу после изменения описания на вкладке Схема Microsoft Purview.
Использование проверки подлинности Kerberos для соединителя HDFS
Существует два варианта настройки локальной среды для использования проверки подлинности Kerberos для соединителя HDFS. Вы можете выбрать тот, который лучше подходит для вашей ситуации.
- Вариант 1. Присоединение локального компьютера среды выполнения интеграции в области Kerberos
- Вариант 2 . Включение взаимного доверия между доменом Windows и областью Kerberos
Для любого из этих вариантов убедитесь, что вы включили webhdfs для кластера Hadoop:
Создайте субъект HTTP и keytab для webhdfs.
Важно!
Участник HTTP Kerberos должен начинаться с "HTTP/" в соответствии со спецификацией HTTP SPNEGO Kerberos. Дополнительные сведения см. здесь.
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
Параметры конфигурации HDFS: добавьте следующие три свойства в
hdfs-site.xml
.<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
Вариант 1. Присоединение локального компьютера среды выполнения интеграции в области Kerberos
Требования
- Локальный компьютер среды выполнения интеграции должен присоединиться к области Kerberos и не может присоединиться ни к одному домену Windows.
Способ настройки
На сервере KDC:
Создайте субъект и укажите пароль.
Важно!
Имя пользователя не должно содержать имя узла.
Kadmin> addprinc <username>@<REALM.COM>
На локальном компьютере среды выполнения интеграции:
Запустите служебную программу Ksetup, чтобы настроить сервер и область Kerberos Key Distribution Center (KDC).
Компьютер должен быть настроен в качестве члена рабочей группы, так как область Kerberos отличается от домена Windows. Эту конфигурацию можно достичь, задав область Kerberos и добавив сервер KDC, выполнив следующие команды. Замените REALM.COM именем своей области.
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
После выполнения этих команд перезапустите компьютер.
Проверьте конфигурацию с помощью
Ksetup
команды . Выходные данные должны выглядеть следующим образом:C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
В учетной записи Purview:
- Настройте учетные данные с типом проверки подлинности Kerberos с именем участника Kerberos и паролем для сканирования HDFS. Сведения о конфигурации проверка часть параметра учетных данных в разделе Проверка.
Вариант 2. Включение взаимного доверия между доменом Windows и областью Kerberos
Требования
- Локальный компьютер среды выполнения интеграции должен присоединиться к домену Windows.
- Для обновления параметров контроллера домена требуется разрешение.
Способ настройки
Примечание.
Замените REALM.COM и AD.COM в следующем руководстве собственным именем области и контроллером домена.
На сервере KDC:
Измените конфигурацию KDC в файле krb5.conf , чтобы разрешить KDC доверять домену Windows, ссылаясь на следующий шаблон конфигурации. По умолчанию конфигурация находится по адресу /etc/krb5.conf.
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
После настройки файла перезапустите службу KDC.
Подготовьте субъект с именем krbtgt/REALM.COM@AD.COM на сервере KDC с помощью следующей команды:
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
В файле конфигурации службы HDFS hadoop.security.auth_to_local добавьте
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
.
На контроллере домена:
Выполните следующие
Ksetup
команды, чтобы добавить запись области:C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Установите отношения доверия между доменом Windows и областью Kerberos. [password] — это пароль для субъекта krbtgt/REALM.COM@AD.COM.
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
Выберите алгоритм шифрования, используемый в Kerberos.
Выберите диспетчер сервера>групповая политика Домен> управления >групповая политика Объекты>По умолчанию или Активная политика домена, а затем выберите Изменить.
В области редактора управления групповая политика выберитеПолитики>конфигурации> компьютераПараметры>безопасности Параметры> безопасностиЛокальные политики>Параметры безопасности, а затем настройте сетевую безопасность: настройка типов шифрования, разрешенных для Kerberos.
Выберите алгоритм шифрования, который необходимо использовать при подключении к серверу KDC. Вы можете выбрать все параметры.
Используйте команду ,
Ksetup
чтобы указать алгоритм шифрования, который будет использоваться в указанной области.C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
Создайте сопоставление между учетной записью домена и субъектом Kerberos, чтобы можно было использовать субъект Kerberos в домене Windows.
Выберите Средства администрирования>Active Directory Пользователи и компьютеры.
Настройте дополнительные функции, выбрав Просмотреть>дополнительные функции.
На панели Дополнительные функции щелкните правой кнопкой мыши учетную запись, для которой требуется создать сопоставления, и в области Сопоставления имен выберите вкладку Имена Kerberos .
Добавьте субъект из области.
На локальном компьютере среды выполнения интеграции:
Выполните следующие
Ksetup
команды, чтобы добавить запись области.C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
В учетной записи Purview:
- Настройте учетные данные с типом проверки подлинности Kerberos с именем участника Kerberos и паролем для сканирования HDFS. Сведения о конфигурации проверка часть параметра учетных данных в разделе Проверка.
Известные ограничения
В настоящее время соединитель HDFS не поддерживает пользовательское правило шаблона набора ресурсов для расширенного набора ресурсов, будут применены встроенные шаблоны набора ресурсов.
Метка конфиденциальности пока не поддерживается.
Дальнейшие действия
Теперь, когда вы зарегистрировали источник, следуйте приведенным ниже руководствам, чтобы узнать больше о Microsoft Purview и ваших данных.