Подключение к HDFS и управление ими в Microsoft Purview
В этой статье описывается регистрация распределенной файловой системы Hadoop (HDFS), а также проверка подлинности HDFS и взаимодействие с ним в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.
Извлечение метаданных | Полная проверка | Добавочное сканирование | Сканирование с заданной областью | Классификация | Присвоение подписей | Политика доступа | Lineage | Общий доступ к данным | Интерактивное представление |
---|---|---|---|---|---|---|---|---|---|
Да | Да | Да | Да | Да | Нет | Нет | Нет | Нет | Нет |
При сканировании источника HDFS Microsoft Purview поддерживает извлечение технических метаданных, включая HDFS:
- Namenode
- Folders
- Файлы
- Наборы ресурсов
При настройке сканирования можно выбрать проверку всего HDFS или выборочных папок. Сведения о поддерживаемом формате файлов см. здесь.
Соединитель использует протокол webhdfs для подключения к HDFS и получения метаданных. Распространение Hadoop MapR не поддерживается.
- Учетная запись Azure с активной подпиской. Создайте учетную запись бесплатно.
- Активная учетная запись Microsoft Purview.
- Для регистрации источника данных и управления им на портале управления Microsoft Purview требуются разрешения администратора источника и читателя данных. Дополнительные сведения о разрешениях см. в статье Управление доступом в Microsoft Purview.
-
Настройте правильную среду выполнения интеграции для своего сценария:
-
Чтобы использовать локальную среду выполнения интеграции, выполните следующие действия.
- Следуйте инструкциям в этой статье, чтобы создать и настроить локальную среду выполнения интеграции.
- Убедитесь, что JDK 11 установлен на компьютере, где установлена локальная среда выполнения интеграции. Перезапустите компьютер после установки JDK, чтобы он вступил в силу.
- Убедитесь, что Распространяемый компонент Visual C++ (версия Visual Studio 2012 с обновлением 4 или более поздней) установлена на компьютере, где запущена локальная среда выполнения интеграции. Если у вас не установлено это обновление, скачайте его сейчас.
- Сведения о настройке среды для включения проверки подлинности Kerberos см. в разделе Использование проверки подлинности Kerberos для соединителя HDFS .
-
Чтобы использовать локальную среду выполнения интеграции, поддерживаемую Kubernetes, выполните следующие действия.
- Следуйте инструкциям в этой статье, чтобы создать и настроить среду выполнения интеграции, поддерживаемую Kubernetes.
- Сведения о настройке среды для включения проверки подлинности Kerberos см. в разделе Использование проверки подлинности Kerberos для соединителя HDFS .
-
Чтобы использовать локальную среду выполнения интеграции, выполните следующие действия.
В этом разделе описывается, как зарегистрировать HDFS в Microsoft Purview с помощью портала управления Microsoft Purview.
Чтобы зарегистрировать новый источник HDFS в каталоге данных, выполните следующие действия.
- Перейдите к учетной записи Microsoft Purview на портале управления Microsoft Purview.
- Выберите Карта данных в области навигации слева.
- Выберите Зарегистрировать
- В разделе Регистрация источников выберите HDFS. Нажмите Продолжить.
На экране Регистрация источников (HDFS) выполните следующие действия.
Введите имя , которое источник данных будет указан в каталоге.
Введите URL-адрес кластера hdFS NameNode в виде
https://<namenode>:<port>
илиhttp://<namenode>:<port>
, напримерhttps://namenodeserver.com:50470
илиhttp://namenodeserver.com:50070
.Выберите коллекцию из списка.
Завершите регистрацию источника данных.
Выполните приведенные ниже действия, чтобы проверить HDFS для автоматической идентификации ресурсов. Дополнительные сведения о сканировании в целом см. в статье Введение в сканирование и прием данных.
Поддерживаемый тип проверки подлинности для источника HDFS — проверка подлинности Kerberos.
Чтобы создать и запустить проверку, выполните следующие действия.
Убедитесь, что настроена локальная среда выполнения интеграции. Если она не настроена, выполните действия, описанные в предварительных требованиях , чтобы создать локальную среду выполнения интеграции.
Перейдите в раздел Источники.
Выберите зарегистрированный источник HDFS.
Выберите + Создать сканирование.
На странице "Сканирование source_name"" укажите следующие сведения:
Имя: имя сканирования
Подключение через среду выполнения интеграции. Выберите настроенную локальную среду выполнения интеграции. См. требования к установке в разделе Предварительные требования .
Учетные данные. Выберите учетные данные для подключения к источнику данных. Убедитесь, что:
- Выберите Проверка подлинности Kerberos при создании учетных данных.
- Укажите имя пользователя в формате
<username>@<domain>.com
в поле Ввода имени пользователя. Дополнительные сведения см . в статье Использование проверки подлинности Kerberos для соединителя HDFS. - Сохраните пароль пользователя, используемый для подключения к HDFS, в секретном ключе.
Выберите Проверить подключение.
Нажмите Продолжить.
На странице "Область сканирования" выберите пути, которые нужно проверить.
На странице "Выбор набора правил сканирования" выберите набор правил сканирования, который требуется использовать для извлечения и классификации схемы. Вы можете выбрать системный набор правил по умолчанию, существующие настраиваемые наборы правил или создать новый встроенный набор правил. Дополнительные сведения см . в статье Создание набора правил сканирования.
На странице "Настройка триггера сканирования" выберите триггер сканирования. Вы можете настроить расписание или запустить проверку один раз.
Просмотрите проверку и выберите Сохранить и запустить.
Чтобы просмотреть существующие проверки, выполните приведенные далее действия.
- Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.
- Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
- Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
- Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.
Чтобы изменить, отменить или удалить сканирование:
Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.
Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
Выберите проверку, которой вы хотите управлять. Далее вы можете:
- Измените сканирование, выбрав Изменить проверку.
- Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
- Удалите сканирование, выбрав Удалить сканирование.
Примечание
- При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
Существует два варианта настройки локальной среды для использования проверки подлинности Kerberos для соединителя HDFS. Вы можете выбрать тот, который лучше подходит для вашей ситуации.
- Вариант 1. Присоединение локального компьютера среды выполнения интеграции в области Kerberos
- Вариант 2 . Включение взаимного доверия между доменом Windows и областью Kerberos
Для любого из этих вариантов убедитесь, что вы включили webhdfs для кластера Hadoop:
Создайте субъект HTTP и keytab для webhdfs.
Важно!
Участник HTTP Kerberos должен начинаться с "HTTP/" в соответствии со спецификацией HTTP SPNEGO Kerberos. Дополнительные сведения см. здесь.
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
Параметры конфигурации HDFS: добавьте следующие три свойства в
hdfs-site.xml
.<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
- Локальный компьютер среды выполнения интеграции должен присоединиться к области Kerberos и не может присоединиться ни к одному домену Windows.
На сервере KDC:
Создайте субъект и укажите пароль.
Важно!
Имя пользователя не должно содержать имя узла.
Kadmin> addprinc <username>@<REALM.COM>
На локальном компьютере среды выполнения интеграции:
Запустите служебную программу Ksetup, чтобы настроить сервер и область Kerberos Key Distribution Center (KDC).
Компьютер должен быть настроен в качестве члена рабочей группы, так как область Kerberos отличается от домена Windows. Эту конфигурацию можно достичь, задав область Kerberos и добавив сервер KDC, выполнив следующие команды. Замените REALM.COM именем своей области.
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
После выполнения этих команд перезапустите компьютер.
Проверьте конфигурацию с помощью
Ksetup
команды . Выходные данные должны выглядеть следующим образом:C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
В учетной записи Purview:
- Настройте учетные данные с типом проверки подлинности Kerberos с именем участника Kerberos и паролем для сканирования HDFS. Сведения о конфигурации проверка часть параметра учетных данных в разделе Проверка.
- Локальный компьютер среды выполнения интеграции должен присоединиться к домену Windows.
- Для обновления параметров контроллера домена требуется разрешение.
Примечание
Замените REALM.COM и AD.COM в следующем руководстве собственным именем области и контроллером домена.
На сервере KDC:
Измените конфигурацию KDC в файле krb5.conf , чтобы разрешить KDC доверять домену Windows, ссылаясь на следующий шаблон конфигурации. По умолчанию конфигурация находится по адресу /etc/krb5.conf.
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
После настройки файла перезапустите службу KDC.
Подготовьте субъект с именем krbtgt/REALM.COM@AD.COM на сервере KDC с помощью следующей команды:
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
В файле конфигурации службы HDFS hadoop.security.auth_to_local добавьте
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
.
На контроллере домена:
Выполните следующие
Ksetup
команды, чтобы добавить запись области:C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Установите отношения доверия между доменом Windows и областью Kerberos. [password] — это пароль для субъекта krbtgt/REALM.COM@AD.COM.
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
Выберите алгоритм шифрования, используемый в Kerberos.
Выберите диспетчер сервера>групповая политика Домен> управления >групповая политика Объекты>По умолчанию или Активная политика домена, а затем выберите Изменить.
На панели групповая политика Управление Редактор выберитеПолитики>конфигурации>компьютера Параметры Windows Параметры>>безопасностиПараметры безопасности Локальные политики>Параметры безопасности, а затем настройте сетевую безопасность: настройка типов шифрования, разрешенных для Kerberos.
Выберите алгоритм шифрования, который необходимо использовать при подключении к серверу KDC. Вы можете выбрать все параметры.
Используйте команду ,
Ksetup
чтобы указать алгоритм шифрования, который будет использоваться в указанной области.C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
Создайте сопоставление между учетной записью домена и субъектом Kerberos, чтобы можно было использовать субъект Kerberos в домене Windows.
Выберите Администрирование>Пользователи и компьютеры Active Directory.
Настройте дополнительные функции, выбрав Просмотреть>дополнительные функции.
На панели Дополнительные функции щелкните правой кнопкой мыши учетную запись, для которой требуется создать сопоставления, и в области Сопоставления имен выберите вкладку Имена Kerberos .
Добавьте субъект из области.
На локальном компьютере среды выполнения интеграции:
Выполните следующие
Ksetup
команды, чтобы добавить запись области.C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
В учетной записи Purview:
- Настройте учетные данные с типом проверки подлинности Kerberos с именем участника Kerberos и паролем для сканирования HDFS. Сведения о конфигурации проверка часть параметра учетных данных в разделе Проверка.
В настоящее время соединитель HDFS не поддерживает пользовательское правило шаблона набора ресурсов для расширенного набора ресурсов, будут применены встроенные шаблоны набора ресурсов.
Метка конфиденциальности пока не поддерживается.
Теперь, когда вы зарегистрировали источник, следуйте приведенным ниже руководствам, чтобы узнать больше о Microsoft Purview и ваших данных.