Подключение к HDFS и управление ими в Microsoft Purview

В этой статье описывается регистрация распределенной файловой системы Hadoop (HDFS), а также проверка подлинности HDFS и взаимодействие с ним в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.

Поддерживаемые возможности

Извлечение метаданных Полная проверка Добавочное сканирование Сканирование с заданной областью Классификация Присвоение подписей Политика доступа Линии Общий доступ к данным Динамическое представление
Да Да Да Да Да Нет Нет Нет Нет Нет

При сканировании источника HDFS Microsoft Purview поддерживает извлечение технических метаданных, включая HDFS:

  • Namenode
  • Folders
  • Files
  • Наборы ресурсов

При настройке сканирования можно выбрать проверку всего HDFS или выборочных папок. Сведения о поддерживаемом формате файлов см. здесь.

Соединитель использует протокол webhdfs для подключения к HDFS и получения метаданных. Распространение Hadoop MapR не поддерживается.

Предварительные требования

Регистрация

В этом разделе описывается, как зарегистрировать HDFS в Microsoft Purview с помощью портала управления Microsoft Purview.

Действия по регистрации

Чтобы зарегистрировать новый источник HDFS в каталоге данных, выполните следующие действия.

  1. Перейдите к учетной записи Microsoft Purview на портале управления Microsoft Purview.
  2. Выберите Карта данных в области навигации слева.
  3. Выберите Зарегистрировать
  4. В разделе Регистрация источников выберите HDFS. Нажмите Продолжить.

На экране Регистрация источников (HDFS) выполните следующие действия.

  1. Введите имя , которое источник данных будет указан в каталоге.

  2. Введите URL-адрес кластера hdFS NameNode в виде https://<namenode>:<port> или http://<namenode>:<port>, например https://namenodeserver.com:50470 или http://namenodeserver.com:50070.

  3. Выберите коллекцию или создайте новую (необязательно)

  4. Завершите регистрацию источника данных.

    Снимок экрана: регистрация источника HDFS в Purview.

Проверка

Выполните приведенные ниже действия, чтобы проверить HDFS для автоматической идентификации ресурсов. Дополнительные сведения о сканировании в целом см. в статье Введение в сканирование и прием данных.

Проверка подлинности для сканирования

Поддерживаемый тип проверки подлинности для источника HDFS — проверка подлинности Kerberos.

Создание и запуск сканирования

Чтобы создать и запустить проверку, выполните следующие действия.

  1. Убедитесь, что настроена локальная среда выполнения интеграции. Если она не настроена, выполните описанные здесь действия, чтобы создать локальную среду выполнения интеграции.

  2. Перейдите в раздел Источники.

  3. Выберите зарегистрированный источник HDFS.

  4. Выберите + Создать сканирование.

  5. На странице "Сканирование source_name"" укажите следующие сведения:

    1. Имя: имя сканирования

    2. Подключение через среду выполнения интеграции. Выберите настроенную локальную среду выполнения интеграции. См. требования к установке в разделе Предварительные требования .

    3. Учетные данные. Выберите учетные данные для подключения к источнику данных. Убедитесь, что:

      Снимок экрана: конфигурации проверки HDFS в Purview.

  6. Выберите Проверить подключение.

  7. Нажмите Продолжить.

  8. На странице "Область сканирования" выберите пути, которые нужно проверить.

  9. На странице "Выбор набора правил сканирования" выберите набор правил сканирования, который требуется использовать для извлечения и классификации схемы. Вы можете выбрать системный набор правил по умолчанию, существующие настраиваемые наборы правил или создать новый встроенный набор правил. Дополнительные сведения см . в статье Создание набора правил сканирования.

  10. На странице "Настройка триггера сканирования" выберите триггер сканирования. Вы можете настроить расписание или запустить проверку один раз.

  11. Просмотрите проверку и выберите Сохранить и запустить.

Просмотр проверок и запусков сканирования

Чтобы просмотреть существующие проверки, выполните приведенные далее действия.

  1. Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.
  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
  3. Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
  4. Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.

Управление проверками

Чтобы изменить, отменить или удалить сканирование:

  1. Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.

  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .

  3. Выберите проверку, которой вы хотите управлять. Далее вы можете:

    • Измените сканирование, выбрав Изменить проверку.
    • Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
    • Удалите сканирование, выбрав Удалить сканирование.

Примечание.

  • При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
  • Ресурс больше не будет обновляться с изменениями схемы, если исходная таблица изменилась и вы повторно просканируете исходную таблицу после изменения описания на вкладке Схема Microsoft Purview.

Использование проверки подлинности Kerberos для соединителя HDFS

Существует два варианта настройки локальной среды для использования проверки подлинности Kerberos для соединителя HDFS. Вы можете выбрать тот, который лучше подходит для вашей ситуации.

Для любого из этих вариантов убедитесь, что вы включили webhdfs для кластера Hadoop:

  1. Создайте субъект HTTP и keytab для webhdfs.

    Важно!

    Участник HTTP Kerberos должен начинаться с "HTTP/" в соответствии со спецификацией HTTP SPNEGO Kerberos. Дополнительные сведения см. здесь.

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. Параметры конфигурации HDFS: добавьте следующие три свойства в hdfs-site.xml.

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

Вариант 1. Присоединение локального компьютера среды выполнения интеграции в области Kerberos

Требования

  • Локальный компьютер среды выполнения интеграции должен присоединиться к области Kerberos и не может присоединиться ни к одному домену Windows.

Способ настройки

На сервере KDC:

Создайте субъект и укажите пароль.

Важно!

Имя пользователя не должно содержать имя узла.

Kadmin> addprinc <username>@<REALM.COM>

На локальном компьютере среды выполнения интеграции:

  1. Запустите служебную программу Ksetup, чтобы настроить сервер и область Kerberos Key Distribution Center (KDC).

    Компьютер должен быть настроен в качестве члена рабочей группы, так как область Kerberos отличается от домена Windows. Эту конфигурацию можно достичь, задав область Kerberos и добавив сервер KDC, выполнив следующие команды. Замените REALM.COM именем своей области.

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    После выполнения этих команд перезапустите компьютер.

  2. Проверьте конфигурацию с помощью Ksetup команды . Выходные данные должны выглядеть следующим образом:

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

В учетной записи Purview:

  • Настройте учетные данные с типом проверки подлинности Kerberos с именем участника Kerberos и паролем для сканирования HDFS. Сведения о конфигурации проверка часть параметра учетных данных в разделе Проверка.

Вариант 2. Включение взаимного доверия между доменом Windows и областью Kerberos

Требования

  • Локальный компьютер среды выполнения интеграции должен присоединиться к домену Windows.
  • Для обновления параметров контроллера домена требуется разрешение.

Способ настройки

Примечание.

Замените REALM.COM и AD.COM в следующем руководстве собственным именем области и контроллером домена.

На сервере KDC:

  1. Измените конфигурацию KDC в файле krb5.conf , чтобы разрешить KDC доверять домену Windows, ссылаясь на следующий шаблон конфигурации. По умолчанию конфигурация находится по адресу /etc/krb5.conf.

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    После настройки файла перезапустите службу KDC.

  2. Подготовьте субъект с именем krbtgt/REALM.COM@AD.COM на сервере KDC с помощью следующей команды:

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. В файле конфигурации службы HDFS hadoop.security.auth_to_local добавьте RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//.

На контроллере домена:

  1. Выполните следующие Ksetup команды, чтобы добавить запись области:

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. Установите отношения доверия между доменом Windows и областью Kerberos. [password] — это пароль для субъекта krbtgt/REALM.COM@AD.COM.

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. Выберите алгоритм шифрования, используемый в Kerberos.

    1. Выберите диспетчер сервера>групповая политика Домен> управления >групповая политика Объекты>По умолчанию или Активная политика домена, а затем выберите Изменить.

    2. В области редактора управления групповая политика выберитеПолитики>конфигурации> компьютераПараметры>безопасности Параметры> безопасностиЛокальные политики>Параметры безопасности, а затем настройте сетевую безопасность: настройка типов шифрования, разрешенных для Kerberos.

    3. Выберите алгоритм шифрования, который необходимо использовать при подключении к серверу KDC. Вы можете выбрать все параметры.

      Снимок экрана: панель

    4. Используйте команду , Ksetup чтобы указать алгоритм шифрования, который будет использоваться в указанной области.

      C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
      
  4. Создайте сопоставление между учетной записью домена и субъектом Kerberos, чтобы можно было использовать субъект Kerberos в домене Windows.

    1. Выберите Средства администрирования>Active Directory Пользователи и компьютеры.

    2. Настройте дополнительные функции, выбрав Просмотреть>дополнительные функции.

    3. На панели Дополнительные функции щелкните правой кнопкой мыши учетную запись, для которой требуется создать сопоставления, и в области Сопоставления имен выберите вкладку Имена Kerberos .

    4. Добавьте субъект из области.

      Снимок экрана: область

На локальном компьютере среды выполнения интеграции:

  • Выполните следующие Ksetup команды, чтобы добавить запись области.

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

В учетной записи Purview:

  • Настройте учетные данные с типом проверки подлинности Kerberos с именем участника Kerberos и паролем для сканирования HDFS. Сведения о конфигурации проверка часть параметра учетных данных в разделе Проверка.

Известные ограничения

В настоящее время соединитель HDFS не поддерживает пользовательское правило шаблона набора ресурсов для расширенного набора ресурсов, будут применены встроенные шаблоны набора ресурсов.

Метка конфиденциальности пока не поддерживается.

Дальнейшие действия

Теперь, когда вы зарегистрировали источник, следуйте приведенным ниже руководствам, чтобы узнать больше о Microsoft Purview и ваших данных.