Подключение к Azure Data Lake Storage в Microsoft Purview

В этой статье описывается процесс регистрации и управления источником данных Azure Data Lake Storage (ADLS 2-го поколения) в Microsoft Purview, включая инструкции по проверке подлинности и взаимодействию с источником ADLS 2-го поколения.

Поддерживаемые возможности

Извлечение метаданных Полная проверка Добавочное сканирование Сканирование с заданной областью Классификация Присвоение подписей Политика доступа Линии Общий доступ к данным Динамическое представление
Да Да Да Да Да Да Да (предварительная версия) Ограниченное* Да Да

* Происхождение данных поддерживается, если набор данных используется в качестве источника или приемника в фабрике данных или конвейере Synapse.

При сканировании Azure Data Lake Storage 2-го поколения источника Microsoft Purview поддерживает извлечение технических метаданных, в том числе:

  • Учетная запись хранения
  • Служба Data Lake Storage 2-го поколения
  • Файловая система (контейнер)
  • Folders
  • Files
  • Наборы ресурсов

При настройке проверки можно выбрать проверку всех adls 2-го поколения или выборочных папок. Сведения о поддерживаемом формате файлов см. здесь.

Предварительные требования

Регистрация

В этом разделе вы сможете зарегистрировать источник данных ADLS 2-го поколения для сканирования и общей папки данных в Purview.

Необходимые условия для регистрации

  • Вы должны быть Администратор источника данных и одной из других ролей Purview (например, читатель данных или участник Data Share), чтобы зарегистрировать источник и управлять им на портале управления Microsoft Purview. Дополнительные сведения см. на странице разрешений Microsoft Purview .

Действия по регистрации

Перед настройкой проверки источника данных важно зарегистрировать источник данных в Microsoft Purview.

  1. Перейдите на портал управления Microsoft Purview:

  2. Перейдите к схеме данных —> источники

    Снимок экрана: ссылка на открытие портала управления Microsoft Purview

    Снимок экрана: переход по ссылке

  3. Создайте иерархию коллекции с помощью меню Коллекции и назначьте разрешения отдельным вложенным коллекциям при необходимости.

    Снимок экрана: меню коллекции для создания иерархии коллекций

  4. Перейдите к соответствующей коллекции в меню Источники и щелкните значок Зарегистрировать , чтобы зарегистрировать новый источник данных ADLS 2-го поколения.

    Снимок экрана: коллекция, используемая для регистрации источника данных

  5. Выберите источник данных Azure Data Lake Storage 2-го поколения и нажмите кнопку Продолжить.

    Снимок экрана: выбор источника данных

  6. Укажите подходящее имя для источника данных, выберите соответствующую подписку Azure, имя существующей учетной записи Data Lake Store и коллекцию и нажмите кнопку Применить. Оставьте переключатель Управление использованием данных в отключенной позиции, пока не будете иметь возможность тщательно перейти к этому документу.

    Снимок экрана: сведения, которые необходимо ввести для регистрации источника данных

  7. Учетная запись хранения ADLS 2-го поколения будет отображаться в выбранной коллекции.

    Снимок экрана: источник данных, сопоставленный с коллекцией для запуска сканирования

Проверка

Совет

Чтобы устранить неполадки со сканированием, выполните указанные ниже действия.

  1. Убедитесь, что вы правильно настроили проверку подлинности для сканирования
  2. Ознакомьтесь с нашей документацией по устранению неполадок сканирования.

Проверка подлинности для сканирования

Сеть Azure может разрешить обмен данными между ресурсами Azure, но если вы настроили брандмауэры, частные конечные точки или виртуальные сети в Azure, вам потребуется выполнить одну из приведенных ниже конфигураций.

Ограничения сети Тип среды выполнения интеграции Доступные типы учетных данных
Нет частных конечных точек или брандмауэров Azure IR Управляемое удостоверение (рекомендуется), субъект-служба или ключ учетной записи
Брандмауэр включен, но нет частных конечных точек Azure IR Управляемое удостоверение
Включены частные конечные точки *Локальная среда ir Субъект-служба, ключ учетной записи

Важно!

  1. *Чтобы использовать локальную среду выполнения интеграции, сначала необходимо создать ее и подтвердить параметры сети для Microsoft Purview.
  2. Если для сканирования файлов Parquet используется среда выполнения интеграции Self-Hosted, необходимо установить на компьютере ir IR 64-разрядную версию JRE 8 (среда выполнения Java) или OpenJDK . Вы можете проверка руководство по установке среды выполнения Java.

Использование управляемого удостоверения, назначаемого системой или пользователем, для сканирования

Существует два типа управляемых удостоверений, которые можно использовать:

  • Управляемое удостоверение, назначаемое системой (рекомендуется) — как только создается учетная запись Microsoft Purview, в Azure AD клиенте автоматически создается управляемое удостоверение, назначаемое системой (SAMI). В зависимости от типа ресурса для выполнения проверок назначаемого системой управляемого удостоверения Microsoft Purview (SAMI) требуются определенные назначения ролей RBAC.

  • Управляемое удостоверение, назначаемое пользователем (предварительная версия). Как и системное управляемое удостоверение, назначаемое пользователем управляемое удостоверение (UAMI) — это ресурс учетных данных, который можно использовать для проверки подлинности Microsoft Purview в Azure Active Directory. Дополнительные сведения см. в руководстве по управляемому удостоверению, назначаемому пользователем.

Важно предоставить учетной записи Microsoft Purview или управляемому удостоверению, назначаемому пользователем (UAMI), разрешение на сканирование источника данных ADLS 2-го поколения. Вы можете добавить управляемое удостоверение учетной записи Microsoft Purview, назначаемое системой (имя которого совпадает с именем вашей учетной записи Microsoft Purview) или UAMI на уровне подписки, группы ресурсов или ресурса в зависимости от того, на каком уровне требуются разрешения на сканирование.

Примечание.

Чтобы добавить управляемое удостоверение в ресурс Azure, необходимо быть владельцем подписки.

  1. В портал Azure найдите подписку, группу ресурсов или ресурс (например, учетную запись хранения Azure Data Lake Storage 2-го поколения), которые вы хотите разрешить сканировать каталогу.

    Снимок экрана: учетная запись хранения

  2. Выберите контроль доступа (IAM) в области навигации слева, а затем выберите + Добавить -->Добавить назначение ролей.

    Снимок экрана: управление доступом для учетной записи хранения

  3. Задайте для параметра Роль значение Читатель данных BLOB-объектов хранилища и введите имя учетной записи Microsoft Purview или управляемое удостоверение, назначаемое пользователем , в поле Выбор входных данных. Затем нажмите кнопку Сохранить , чтобы предоставить это назначение роли учетной записи Microsoft Purview.

    Снимок экрана: сведения о назначении разрешений для учетной записи Microsoft Purview

    Примечание.

    Дополнительные сведения см. в статье Авторизация доступа к BLOB-объектам и очередям с помощью Azure Active Directory.

    Примечание.

    Если для учетной записи хранения включен брандмауэр, при настройке проверки необходимо использовать метод проверки подлинности управляемого удостоверения .

  4. Перейдите в учетную запись хранения ADLS 2-го поколения в портал Azure

  5. Перейдите к разделу Безопасность и сетевые > сети.

    Снимок экрана, на котором показаны сведения о предоставлении доступа к брандмауэру

  6. Выберите Выбранные сети в разделе Разрешить доступ из

    Снимок экрана: сведения о доступе к выбранным сетям

  7. В разделе Исключения выберите Разрешить доверенным службам Майкрософт доступ к этой учетной записи хранения и нажмите кнопку Сохранить.

    Снимок экрана: исключения, позволяющие доверенным службам Майкрософт получить доступ к учетной записи хранения

Создание сканирования

  1. Откройте учетную запись Microsoft Purview и выберите Открыть портал управления Microsoft Purview.

  2. Перейдите к схеме данных -->Sources , чтобы просмотреть иерархию коллекций.

  3. Щелкните значок Создать сканирование под источником данных ADLS 2-го поколения, зарегистрированным ранее.

    Снимок экрана: экран для создания новой проверки

При использовании управляемого удостоверения, назначаемого системой или пользователем

  1. Укажите имя для сканирования, выберите управляемое удостоверение, назначаемое системой или пользователем, в разделе Учетные данные, выберите соответствующую коллекцию для сканирования и выберите Проверить подключение. При успешном подключении нажмите кнопку Продолжить.

    Снимок экрана: параметр управляемого удостоверения для запуска проверки

Определение области и запуск сканирования

  1. Вы можете область сканирование в определенные папки и вложенные папки, выбрав соответствующие элементы в списке.

    Область сканирования

  2. Затем выберите набор правил сканирования. Вы можете выбрать системный набор правил по умолчанию, существующие настраиваемые наборы правил или создать новый встроенный набор правил.

    Набор правил сканирования

  3. При создании нового набора правил проверки выберите типы файлов , которые будут включены в правило сканирования.

    Типы файлов набора правил сканирования

  4. Вы можете выбрать правила классификации , которые будут включены в правило сканирования.

    Правила классификации набора правил сканирования

    Выбор набора правил сканирования

  5. Выберите триггер сканирования. Вы можете настроить расписание или запустить проверку один раз.

    Триггер сканирования

  6. Просмотрите проверку и выберите Сохранить и запустить.

    проверка проверки

Просмотр проверок и запусков сканирования

Чтобы просмотреть существующие проверки, выполните приведенные далее действия.

  1. Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.
  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
  3. Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
  4. Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.

Управление проверками

Чтобы изменить, отменить или удалить сканирование:

  1. Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.

  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .

  3. Выберите проверку, которой вы хотите управлять. Далее вы можете:

    • Измените сканирование, выбрав Изменить проверку.
    • Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
    • Удалите сканирование, выбрав Удалить сканирование.

Примечание.

  • При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
  • Ресурс больше не будет обновляться с изменениями схемы, если исходная таблица изменилась и вы повторно просканируете исходную таблицу после изменения описания на вкладке Схема Microsoft Purview.

Общий доступ к данным

Общий доступ к данным Microsoft Purview (предварительная версия) позволяет совместно использовать данные на месте из ADLS 2-го поколения в ADLS 2-го поколения. В этом разделе содержатся сведения о требованиях ADLS 2-го поколения к совместному использованию и получению данных на месте. Пошаговые инструкции по использованию общего доступа к данным см. в статье Предоставление общего доступа к данным и Получение общего доступа.

Учетные записи хранения, поддерживаемые для общего доступа к данным на месте

Для общего доступа к данным на месте поддерживаются следующие учетные записи хранения:

  • Регионы: Центральная Канада, Восточная Канада, Южная Часть Соединенного Королевства, Западная Часть Соединенного Королевства, Восточная Австралия, Восточная Япония, Южная Корея и Северная Южная Африка
  • Параметры избыточности: LRS, GRS, RA-GRS
  • Уровни: Горячий, Холодный

Для предварительной версии используйте только учетные записи хранения без рабочей нагрузки.

Примечание.

Исходная и целевая учетные записи хранения должны находиться в одном регионе. Они не должны находиться в том же регионе, что и учетная запись Microsoft Purview.

Разрешения учетной записи хранения, необходимые для совместного использования данных

Чтобы добавить или обновить ресурс учетной записи хранения в общей папке, вам потребуется одно из следующих разрешений:

  • Microsoft.Authorization/roleAssignments/write — это разрешение доступно в роли владелец .
  • Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ — это разрешение доступно в роли владельца данных хранилища BLOB-объектов .

Разрешения учетной записи хранения, необходимые для получения общих данных

Чтобы сопоставить ресурс учетной записи хранения в полученной общей папке, вам потребуется одно из следующих разрешений:

  • Microsoft.Storage/storageAccounts/write — это разрешение доступно в роли Участник и Владелец .
  • Microsoft.Storage/storageAccounts/blobServices/containers/write . Это разрешение доступно в роли Участник, Владелец, Участник данных BLOB-объектов хранилища и Владелец данных BLOB-объектов хранилища .

Обновление общих данных в исходной учетной записи хранения

Обновления, которые вы делаете для общих файлов или данных в общей папке из исходной учетной записи хранения, будут доступны получателю в целевой учетной записи хранения почти в реальном времени. При удалении вложенных папок или файлов в общей папке они исчезают для получателя. Чтобы удалить общую папку, файл или родительские папки или контейнеры, необходимо сначала отозвать доступ ко всем общим папкам из исходной учетной записи хранения.

Доступ к общим данным в целевой учетной записи хранения

Целевая учетная запись хранения позволяет получателю получить доступ к общим данным только для чтения практически в режиме реального времени. Вы можете подключить средства аналитики, такие как рабочая область Synapse и Databricks, к общим данным для выполнения аналитики. Плата за доступ к общим данным взимается с целевой учетной записи хранения.

Ограничение службы

Исходная учетная запись хранения может поддерживать до 20 целевых объектов, а целевая учетная запись хранения — до 100 источников. Если вам нужно увеличить ограничение, обратитесь в службу поддержки.

Политика доступа

Поддерживаемые политики

В этом ресурсе данных из Microsoft Purview поддерживаются следующие типы политик:

Предварительные требования политики доступа к учетным записям службы хранилища Azure

Поддержка регионов

  • Поддерживаются все регионы Microsoft Purview .
  • Учетные записи хранения в следующих регионах поддерживаются без дополнительной настройки. Однако учетные записи хранилища с избыточностью между зонами (ZRS) не поддерживаются.
    • Восточная часть США
    • Восточная часть США2
    • Центрально-южная часть США
    • Западная часть США 2
    • Центральная Канада
    • Северная Европа
    • Западная Европа
    • Центральная Франция
    • Южная часть Соединенного Королевства
    • Юго-Восточная Азия
    • Восток Австралии
  • Учетные записи хранения в других регионах общедоступного облака поддерживаются после установки флага функции AllowPurviewPolicyEnforcement, как описано в следующем разделе. Вновь созданные учетные записи хранения ZRS поддерживаются, если они созданы после установки флага компонента AllowPurviewPolicyEnforcement.

При необходимости вы можете создать учетную запись хранения, следуя этому руководству.

Настройка подписки, в которой находится учетная запись хранения Azure для политик из Microsoft Purview

Этот шаг необходим только в определенных регионах (см. предыдущий раздел). Чтобы разрешить Microsoft Purview управлять политиками для одной или нескольких учетных записей хранения Azure, выполните следующие команды PowerShell в подписке, в которой будет развернута учетная запись хранения Azure. Эти команды PowerShell позволят Microsoft Purview управлять политиками во всех учетных записях хранения Azure в этой подписке.

Если вы выполняете эти команды локально, обязательно запустите PowerShell от имени администратора. Кроме того, можно использовать Cloud Shell Azure в портал Azure: https://shell.azure.com.

# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage

Если в выходных данных последней команды параметр RegistrationState отображается как зарегистрированный, в подписке включены политики доступа. Если выходные данные регистрируются, подождите не менее 10 минут, а затем повторите команду. Не продолжайте работу до тех пор, пока в поле RegistrationState не отобразится значение Зарегистрировано.

Настройка учетной записи Microsoft Purview для политик

Регистрация источника данных в Microsoft Purview

Прежде чем можно будет создать политику в Microsoft Purview для ресурса данных, необходимо зарегистрировать этот ресурс данных в Microsoft Purview Studio. Инструкции, связанные с регистрацией ресурса данных, см. далее в этом руководстве.

Примечание.

Политики Microsoft Purview зависят от пути ARM к ресурсу данных. Если ресурс данных перемещен в новую группу ресурсов или подписку, его необходимо будет зарегистрировать, а затем снова зарегистрировать в Microsoft Purview.

Настройка разрешений для включения управления использованием данных в источнике данных

После регистрации ресурса, но перед созданием политики в Microsoft Purview для этого ресурса необходимо настроить разрешения. Для включения управления использованием данных требуется набор разрешений. Это относится к источникам данных, группам ресурсов или подпискам. Чтобы включить управление использованием данных, необходимо иметь определенные привилегии управления удостоверениями и доступом (IAM) в ресурсе, а также определенные привилегии Microsoft Purview:

  • Необходимо иметь одно из следующих сочетаний ролей IAM в пути Resource Manager ресурса Azure или любой его родительский элемент (т. е. с использованием наследования разрешений IAM):

    • Владелец IAM
    • Участник IAM и администратор доступа пользователей IAM

    Чтобы настроить разрешения управления доступом на основе ролей Azure (RBAC), следуйте этому руководству. На следующем снимке экрана показано, как получить доступ к разделу контроль доступа в портал Azure для ресурса данных, чтобы добавить назначение роли.

    Снимок экрана: раздел в портал Azure для добавления назначения ролей.

    Примечание.

    Роль владельца IAM для ресурса данных может быть унаследована от родительской группы ресурсов, подписки или группы управления подпиской. Проверьте, какие Azure AD пользователи, группы и субъекты-службы удерживают или наследуют роль владельца IAM для ресурса.

  • Кроме того, вам потребуется роль администратора источника данных Microsoft Purview для коллекции или родительской коллекции (если включено наследование). Дополнительные сведения см. в руководстве по управлению назначениями ролей Microsoft Purview.

    На следующем снимок экрана показано, как назначить роль администратора источника данных на корневом уровне коллекции.

    Снимок экрана, на котором показаны выборы для назначения роли администратора источника данных на корневом уровне коллекции.

Настройка разрешений Microsoft Purview для создания, обновления и удаления политик доступа

Чтобы создать, обновить или удалить политики, необходимо получить роль автора политики в Microsoft Purview на уровне корневой коллекции:

  • Роль "Автор политики" может создавать, обновлять и удалять политики DevOps и владельца данных.
  • Роль "Автор политики" может удалять политики самостоятельного доступа.

Дополнительные сведения об управлении назначениями ролей Microsoft Purview см. в статье Создание коллекций и управление ими в Схема данных Microsoft Purview.

Примечание.

Роль автора политики должна быть настроена на уровне корневой коллекции.

Кроме того, для упрощения поиска Azure AD пользователей или групп при создании или обновлении темы политики вы можете получить разрешение "Читатели каталогов" в Azure AD. Это общее разрешение для пользователей в клиенте Azure. Без разрешения читателя каталога автору политики потребуется ввести полное имя пользователя или адрес электронной почты для всех субъектов, включенных в субъект политики данных.

Настройка разрешений Microsoft Purview для публикации политик владельца данных

Политики владельца данных позволяют выполнять проверки и противовесы, если вы назначаете роли автора политики Microsoft Purview и администратора источника данных разным сотрудникам в организации. Прежде чем политика владельца данных вступит в силу, второй пользователь (администратор источника данных) должен проверить ее и явно утвердить, опубликовав ее. Это не относится к DevOps или политикам самостоятельного доступа, так как публикация для них выполняется автоматически при создании или обновлении этих политик.

Чтобы опубликовать политику владельца данных, необходимо получить роль администратора источника данных в Microsoft Purview на уровне корневой коллекции.

Дополнительные сведения об управлении назначениями ролей Microsoft Purview см. в статье Создание коллекций и управление ими в Схема данных Microsoft Purview.

Примечание.

Чтобы опубликовать политики владельца данных, роль администратора источника данных должна быть настроена на уровне корневой коллекции.

Делегирование ответственности за подготовку доступа ролям в Microsoft Purview

После включения ресурса для управления использованием данных любой пользователь Microsoft Purview с ролью автора политики на корневом уровне коллекции может подготовить доступ к источнику данных из Microsoft Purview.

Примечание.

Любой администратор корневой коллекции Microsoft Purview может назначать новых пользователей ролям авторов корневой политики . Любой администратор коллекции может назначить новых пользователей роли администратора источника данных в коллекции. Сведите к минимуму и тщательно изучите пользователей, у которых есть роли администратора коллекции Microsoft Purview, администратора источника данных или автора политики .

Если учетная запись Microsoft Purview с опубликованными политиками удалена, такие политики перестают применяться в течение определенного времени, зависящее от конкретного источника данных. Это изменение может повлиять как на безопасность, так и на доступность доступа к данным. Роли "Участник" и "Владелец" в IAM могут удалять учетные записи Microsoft Purview. Эти разрешения можно проверка, перейдя в раздел Управление доступом (IAM) учетной записи Microsoft Purview и выбрав Назначения ролей. Вы также можете использовать блокировку, чтобы предотвратить удаление учетной записи Microsoft Purview с помощью Resource Manager блокировки.

Регистрация источника данных в Microsoft Purview для управления использованием данных

Прежде чем создавать политики доступа, необходимо зарегистрировать ресурс службы хранилища Azure в Microsoft Purview. Чтобы зарегистрировать ресурс, следуйте инструкциям в разделах Предварительные требования и Регистрация в этом руководстве.

После регистрации источника данных необходимо включить управление использованием данных. Это является предварительным условием для создания политик в источнике данных. Управление использованием данных может повлиять на безопасность данных, так как оно делегирует определенным ролям Microsoft Purview, управляющим доступом к источникам данных. Ознакомьтесь с рекомендациями по обеспечению безопасности, связанными с управлением использованием данных, в этом руководстве: Включение управления использованием данных

Когда для источника данных для параметра Управление использованием данныхзадано значение Включено, он будет выглядеть следующим образом: снимок экрана: снимок экрана, показывающий, как зарегистрировать источник данных для политики с параметром Data use management set to enable

Создать политику

Чтобы создать политику доступа для Azure Data Lake Storage 2-го поколения, выполните следующие действия:

Чтобы создать политики, охватывающие все источники данных в группе ресурсов или подписке Azure, см. этот раздел.

Дальнейшие действия

Следуйте приведенным ниже руководствам, чтобы узнать больше о Microsoft Purview и ваших данных.