Подключение к Azure Data Lake Storage в Microsoft Purview
В этой статье описывается процесс регистрации и управления источником данных Azure Data Lake Storage (ADLS 2-го поколения) в Microsoft Purview, включая инструкции по проверке подлинности и взаимодействию с источником ADLS 2-го поколения.
Поддерживаемые возможности
Извлечение метаданных | Полная проверка | Добавочное сканирование | Сканирование с заданной областью | Классификация | Присвоение подписей | Политика доступа | Lineage | Общий доступ к данным | Интерактивное представление |
---|---|---|---|---|---|---|---|---|---|
Да | Да | Да | Да | Да | Да | Да (предварительная версия) | Ограниченный* | Да | Да |
* Происхождение данных поддерживается, если набор данных используется в качестве источника или приемника в фабрике данных или конвейере Synapse.
При сканировании Azure Data Lake Storage 2-го поколения источника Microsoft Purview поддерживает извлечение технических метаданных, в том числе:
- Учетная запись хранения
- Служба Data Lake Storage 2-го поколения
- Файловая система (контейнер)
- Folders
- Файлы
- Наборы ресурсов
При настройке проверки можно выбрать проверку всех adls 2-го поколения или выборочных папок. Сведения о поддерживаемом формате файлов см. здесь.
Предварительные условия
Учетная запись Azure с активной подпиской. Создайте учетную запись бесплатно.
Активная учетная запись Microsoft Purview.
Чтобы зарегистрировать источник и управлять им на портале управления Microsoft Purview, необходимо быть администратором источника данных и читателем данных. Дополнительные сведения см. на странице разрешений Microsoft Purview .
Для регистрации учетной записи ADLS 2-го поколения необходимо иметь по крайней мере разрешение читателя.
Регистрация
В этом разделе вы сможете зарегистрировать источник данных ADLS 2-го поколения для сканирования и общей папки данных в Purview.
Необходимые условия для регистрации
- Вы должны быть Администратор источника данных и одной из других ролей Purview (например, читатель данных или участник Data Share), чтобы зарегистрировать источник и управлять им на портале управления Microsoft Purview. Дополнительные сведения см. на странице разрешений Microsoft Purview .
Действия по регистрации
Перед настройкой проверки источника данных важно зарегистрировать источник данных в Microsoft Purview.
Перейдите на портал управления Microsoft Purview:
- Перейдите непосредственно к https://web.purview.azure.com учетной записи Microsoft Purview и выберите ее.
- Открытие портал Azure, поиск и выбор учетной записи Microsoft Purview. Нажмите кнопку Портал управления Microsoft Purview .
Перейдите к схеме данных —> источники
Создайте иерархию коллекции с помощью меню Коллекции и назначьте разрешения отдельным вложенным коллекциям при необходимости.
Перейдите к соответствующей коллекции в меню Источники и щелкните значок Зарегистрировать , чтобы зарегистрировать новый источник данных ADLS 2-го поколения.
Выберите источник данных Azure Data Lake Storage 2-го поколения и нажмите кнопку Продолжить.
Укажите подходящее имя для источника данных, выберите соответствующую подписку Azure, имя существующей учетной записи Data Lake Store и коллекцию и нажмите кнопку Применить. Оставьте переключатель Принудительное применение политики данных в отключенной позиции, пока не появится возможность тщательно перейти к этому документу.
Учетная запись хранения ADLS 2-го поколения будет отображаться в выбранной коллекции.
Проверка
Совет
Чтобы устранить неполадки со сканированием, выполните указанные ниже действия.
- Убедитесь, что вы правильно настроили проверку подлинности для сканирования
- Ознакомьтесь с нашей документацией по устранению неполадок сканирования.
Проверка подлинности для сканирования
Сеть Azure может разрешить обмен данными между ресурсами Azure, но если вы настроили брандмауэры, частные конечные точки или виртуальные сети в Azure, вам потребуется выполнить одну из приведенных ниже конфигураций.
Ограничения сети | Тип среды выполнения интеграции | Доступные типы учетных данных |
---|---|---|
Нет частных конечных точек или брандмауэров | Azure IR | Управляемое удостоверение (рекомендуется), субъект-служба или ключ учетной записи |
Брандмауэр включен, но нет частных конечных точек | Azure IR | Управляемое удостоверение |
Включены частные конечные точки | *Локальная среда ir | Субъект-служба, ключ учетной записи |
Важно!
- *Чтобы использовать локальную среду выполнения интеграции, сначала необходимо выбрать подходящую среду выполнения для своего сценария, создать ее и подтвердить параметры сети для Microsoft Purview.
- Если для сканирования файлов Parquet используется среда выполнения интеграции Self-Hosted, необходимо установить на компьютере ir IR 64-разрядную версию JRE 8 (среда выполнения Java) или OpenJDK . Вы можете проверка руководство по установке среды выполнения Java.
- Управляемое удостоверение, назначаемое системой или пользователем
- Ключ учетной записи
- Субъект-служба
Использование управляемого удостоверения, назначаемого системой или пользователем, для сканирования
Существует два типа управляемых удостоверений, которые можно использовать:
Управляемое удостоверение, назначаемое системой (рекомендуется) — как только создается учетная запись Microsoft Purview, в Microsoft Entra клиенте автоматически создается управляемое удостоверение, назначаемое системой (SAMI). В зависимости от типа ресурса для выполнения проверок назначаемого системой управляемого удостоверения Microsoft Purview (SAMI) требуются определенные назначения ролей RBAC.
Управляемое удостоверение, назначаемое пользователем (предварительная версия). Как и в случае с системным управляемым удостоверением, назначаемое пользователем управляемое удостоверение (UAMI) — это ресурс учетных данных, который можно использовать для проверки подлинности Microsoft Purview Microsoft Entra ID. Дополнительные сведения см. в руководстве по управляемому удостоверению, назначаемому пользователем.
Важно предоставить учетной записи Microsoft Purview или управляемому удостоверению, назначаемому пользователем (UAMI), разрешение на сканирование источника данных ADLS 2-го поколения. Вы можете добавить управляемое удостоверение учетной записи Microsoft Purview, назначаемое системой (имя которого совпадает с именем вашей учетной записи Microsoft Purview) или UAMI на уровне подписки, группы ресурсов или ресурса в зависимости от того, на каком уровне требуются разрешения на сканирование.
Примечание.
Чтобы добавить управляемое удостоверение в ресурс Azure, необходимо быть владельцем подписки.
В портал Azure найдите подписку, группу ресурсов или ресурс (например, учетную запись хранения Azure Data Lake Storage 2-го поколения), которые вы хотите разрешить сканировать каталогу.
Выберите контроль доступа (IAM) в области навигации слева, а затем выберите + Добавить -->Добавить назначение ролей.
Задайте для параметра Роль значение Читатель данных BLOB-объектов хранилища и введите имя учетной записи Microsoft Purview или управляемое удостоверение, назначаемое пользователем , в поле Выбор входных данных. Затем нажмите кнопку Сохранить , чтобы предоставить это назначение роли учетной записи Microsoft Purview.
Примечание.
Дополнительные сведения см. в статье Авторизация доступа к blob-объектам и очередям с помощью Microsoft Entra ID
Примечание.
Если для учетной записи хранения включен брандмауэр, при настройке проверки необходимо использовать метод проверки подлинности управляемого удостоверения .
Перейдите в учетную запись хранения ADLS 2-го поколения в портал Azure
Перейдите к разделу Безопасность и сетевые > сети.
Выберите Выбранные сети в разделе Разрешить доступ из
В разделе Исключения выберите Разрешить доверенным службам Майкрософт доступ к этой учетной записи хранения и нажмите кнопку Сохранить.
Создание сканирования
Откройте учетную запись Microsoft Purview и выберите Открыть портал управления Microsoft Purview.
Перейдите к схеме данных -->Sources , чтобы просмотреть иерархию коллекций.
Щелкните значок Создать сканирование под источником данных ADLS 2-го поколения, зарегистрированным ранее.
Выберите среду выполнения интеграции Azure, если источник является общедоступным, среду выполнения интеграции с управляемой виртуальной сетью , если используется управляемая виртуальная сеть, или локальную среду выполнения интеграции, если источник находится в частной виртуальной сети. Дополнительные сведения о том, какую среду выполнения интеграции следует использовать, см. в статье Выбор правильной конфигурации среды выполнения интеграции.
- Управляемое удостоверение, назначаемое системой или пользователем
- Ключ учетной записи
- Субъект-служба
При использовании управляемого удостоверения, назначаемого системой или пользователем
Укажите имя для сканирования, выберите управляемое удостоверение, назначаемое системой или пользователем, в разделе Учетные данные, выберите соответствующую коллекцию для сканирования и выберите Проверить подключение. При успешном подключении нажмите кнопку Продолжить.
Определение области и запуск сканирования
Вы можете область сканирование в определенные папки и вложенные папки, выбрав соответствующие элементы в списке.
Затем выберите набор правил сканирования. Вы можете выбрать системный набор правил по умолчанию, существующие настраиваемые наборы правил или создать новый встроенный набор правил.
При создании нового набора правил проверки выберите типы файлов , которые будут включены в правило сканирования.
Вы можете выбрать правила классификации , которые будут включены в правило сканирования.
Выберите триггер сканирования. Вы можете настроить расписание или запустить проверку один раз.
Просмотрите проверку и выберите Сохранить и запустить.
Просмотр проверок и запусков сканирования
Чтобы просмотреть существующие проверки, выполните приведенные далее действия.
- Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.
- Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
- Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
- Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.
Управление проверками
Чтобы изменить, отменить или удалить сканирование:
Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.
Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
Выберите проверку, которой вы хотите управлять. Далее вы можете:
- Измените сканирование, выбрав Изменить проверку.
- Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
- Удалите сканирование, выбрав Удалить сканирование.
Примечание.
- При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
Общий доступ к данным
Общий доступ к данным Microsoft Purview (предварительная версия) позволяет совместно использовать данные на месте из ADLS 2-го поколения в ADLS 2-го поколения. В этом разделе содержатся сведения о требованиях ADLS 2-го поколения к совместному использованию и получению данных на месте. Пошаговые инструкции по использованию общего доступа к данным см. в статье Предоставление общего доступа к данным и Получение общего доступа.
Учетные записи хранения, поддерживаемые для общего доступа к данным на месте
Для общего доступа к данным на месте поддерживаются следующие учетные записи хранения:
- Регионы: Центральная Канада, Восточная Канада, Южная Часть Соединенного Королевства, Западная Часть Соединенного Королевства, Восточная Австралия, Восточная Япония, Южная Корея и Северная Южная Африка
- Параметры избыточности: LRS, GRS, RA-GRS
- Уровни: Горячий, Холодный
Для предварительной версии используйте только учетные записи хранения без рабочей нагрузки.
Примечание.
Исходная и целевая учетные записи хранения должны находиться в одном регионе. Они не должны находиться в том же регионе, что и учетная запись Microsoft Purview.
Разрешения учетной записи хранения, необходимые для совместного использования данных
Чтобы добавить или обновить ресурс учетной записи хранения в общей папке, вам потребуется одно из следующих разрешений:
- Microsoft.Authorization/roleAssignments/write — это разрешение доступно в роли владелец .
- Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ — это разрешение доступно в роли владельца данных хранилища BLOB-объектов .
Разрешения учетной записи хранения, необходимые для получения общих данных
Чтобы сопоставить ресурс учетной записи хранения в полученной общей папке, вам потребуется одно из следующих разрешений:
- Microsoft.Storage/storageAccounts/write — это разрешение доступно в роли Участник и Владелец .
- Microsoft.Storage/storageAccounts/blobServices/containers/write . Это разрешение доступно в роли Участник, Владелец, Участник данных BLOB-объектов хранилища и Владелец данных BLOB-объектов хранилища .
Обновление общих данных в исходной учетной записи хранения
Обновления, которые вы делаете для общих файлов или данных в общей папке из исходной учетной записи хранения, будут доступны получателю в целевой учетной записи хранения почти в реальном времени. При удалении вложенных папок или файлов в общей папке они исчезают для получателя. Чтобы удалить общую папку, файл или родительские папки или контейнеры, необходимо сначала отозвать доступ ко всем общим папкам из исходной учетной записи хранения.
Доступ к общим данным в целевой учетной записи хранения
Целевая учетная запись хранения позволяет получателю получить доступ к общим данным только для чтения практически в режиме реального времени. Вы можете подключить средства аналитики, такие как рабочая область Synapse и Databricks, к общим данным для выполнения аналитики. Плата за доступ к общим данным взимается с целевой учетной записи хранения.
Ограничение службы
Исходная учетная запись хранения может поддерживать до 20 целевых объектов, а целевая учетная запись хранения — до 100 источников. Если вам нужно увеличить ограничение, обратитесь в службу поддержки.
Политики
В этом ресурсе данных из Microsoft Purview поддерживаются следующие типы политик:
- Политики владельца данных — это набор инструкций политики, которые позволяют предоставлять пользователям и группам доступ к источникам данных.
- Политики самостоятельного доступа — политика, которая позволяет пользователям запрашивать доступ к источникам данных, зарегистрированным в Microsoft Purview.
- Политики защиты — запрещает доступ к данным, помеченным метками конфиденциальности, для всех пользователей, кроме указанных политикой.
Предварительные требования политики доступа к учетным записям службы хранилища Azure
Поддержка регионов
- Поддерживаются все регионы Microsoft Purview .
- Учетные записи хранения в следующих регионах поддерживаются без дополнительной настройки. Однако учетные записи хранилища с избыточностью между зонами (ZRS) не поддерживаются.
- Центральная Австралия
- Восток Австралии
- Юго-восток Австралии
- Южная Бразилия
- Центральная Канада
- Восточная Канада
- Центральная Индия
- Центральная часть США
- Восточная Азия
- Восточная часть США 2
- Восточная часть США
- Центральная Франция
- Центрально-Западная Германия
- Восточная Япония
- Западная Япония
- Центральная Корея
- Центрально-северная часть США
- Северная Европа
- Восточная Норвегия
- Центральная Польша
- Центральный Катар
- Центрально-южная часть США
- Северная часть Южной Африки
- Юго-Восточная Азия
- Южная Индия
- Центральная Швеция
- Северная Швейцария
- Центрально-западная часть США
- Западная Европа
- Западная часть США
- Западная часть США 2
- Западная часть США 3
- Север ОАЭ
- Южная часть Соединенного Королевства
- Западная часть Соединенного Королевства
- Учетные записи хранения в других регионах общедоступного облака поддерживаются после установки флага функции AllowPurviewPolicyEnforcement, как описано в следующем разделе. Вновь созданные учетные записи хранения ZRS поддерживаются, если они созданы после установки флага компонента AllowPurviewPolicyEnforcement.
При необходимости вы можете создать учетную запись хранения, следуя этому руководству.
Настройка подписки, в которой находится учетная запись хранения Azure для политик из Microsoft Purview
Этот шаг необходим только в определенных регионах (см. предыдущий раздел). Чтобы разрешить Microsoft Purview управлять политиками для одной или нескольких учетных записей хранения Azure, выполните следующие команды PowerShell в подписке, в которой будет развернута учетная запись хранения Azure. Эти команды PowerShell позволят Microsoft Purview управлять политиками во всех учетных записях хранения Azure в этой подписке.
Если вы выполняете эти команды локально, обязательно запустите PowerShell от имени администратора. Кроме того, можно использовать Cloud Shell Azure в портал Azure: https://shell.azure.com.
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
Если в выходных данных последней команды параметр RegistrationState отображается как зарегистрированный, в подписке включены политики доступа. Если выходные данные регистрируются, подождите не менее 10 минут, а затем повторите команду. Не продолжайте работу до тех пор, пока в поле RegistrationState не отобразится значение Зарегистрировано.
Настройка учетной записи Microsoft Purview для политик
Регистрация источника данных в Microsoft Purview
Прежде чем можно будет создать политику в Microsoft Purview для ресурса данных, необходимо зарегистрировать этот ресурс данных в Microsoft Purview Studio. Инструкции, связанные с регистрацией ресурса данных, см. далее в этом руководстве.
Примечание.
Политики Microsoft Purview зависят от пути ARM к ресурсу данных. Если ресурс данных перемещен в новую группу ресурсов или подписку, его необходимо будет зарегистрировать, а затем снова зарегистрировать в Microsoft Purview.
Настройка разрешений для включения принудительного применения политики данных в источнике данных
После регистрации ресурса, но перед созданием политики в Microsoft Purview для этого ресурса необходимо настроить разрешения. Для включения принудительного применения политики данных требуется набор разрешений. Это относится к источникам данных, группам ресурсов или подпискам. Чтобы включить принудительное применение политики данных, необходимо иметь определенные права управления удостоверениями и доступом (IAM) в ресурсе, а также определенные привилегии Microsoft Purview:
Необходимо иметь одно из следующих сочетаний ролей IAM в пути Resource Manager ресурса Azure или любой его родительский элемент (т. е. с использованием наследования разрешений IAM):
- Владелец IAM
- Участник IAM и администратор доступа пользователей IAM
Чтобы настроить разрешения управления доступом на основе ролей Azure (RBAC), следуйте этому руководству. На следующем снимке экрана показано, как получить доступ к разделу контроль доступа в портал Azure для ресурса данных, чтобы добавить назначение роли.
Примечание.
Роль владельца IAM для ресурса данных может быть унаследована от родительской группы ресурсов, подписки или группы управления подпиской. Проверьте, какие Microsoft Entra пользователи, группы и субъекты-службы удерживают или наследуют роль владельца IAM для ресурса.
Кроме того, вам потребуется роль администратора источника данных Microsoft Purview для коллекции или родительской коллекции (если включено наследование). Дополнительные сведения см. в руководстве по управлению назначениями ролей Microsoft Purview.
На следующем снимок экрана показано, как назначить роль администратора источника данных на корневом уровне коллекции.
Настройка разрешений Microsoft Purview для создания, обновления и удаления политик доступа
Чтобы создать, обновить или удалить политики, необходимо получить роль автора политики в Microsoft Purview на уровне корневой коллекции:
- Роль "Автор политики" может создавать, обновлять и удалять политики DevOps и владельца данных.
- Роль "Автор политики" может удалять политики самостоятельного доступа.
Дополнительные сведения об управлении назначениями ролей Microsoft Purview см. в статье Создание коллекций и управление ими в Схема данных Microsoft Purview.
Примечание.
Роль автора политики должна быть настроена на уровне корневой коллекции.
Кроме того, для упрощения поиска Microsoft Entra пользователей или групп при создании или обновлении темы политики вы можете получить разрешение читателей каталогов в Microsoft Entra ID. Это общее разрешение для пользователей в клиенте Azure. Без разрешения читателя каталога автору политики потребуется ввести полное имя пользователя или адрес электронной почты для всех субъектов, включенных в субъект политики данных.
Настройка разрешений Microsoft Purview для публикации политик владельца данных
Политики владельца данных позволяют выполнять проверки и противовесы, если вы назначаете роли автора политики Microsoft Purview и администратора источника данных разным сотрудникам в организации. Прежде чем политика владельца данных вступит в силу, второй пользователь (администратор источника данных) должен проверить ее и явно утвердить, опубликовав ее. Это не относится к DevOps или политикам самостоятельного доступа, так как публикация для них выполняется автоматически при создании или обновлении этих политик.
Чтобы опубликовать политику владельца данных, необходимо получить роль администратора источника данных в Microsoft Purview на уровне корневой коллекции.
Дополнительные сведения об управлении назначениями ролей Microsoft Purview см. в статье Создание коллекций и управление ими в Схема данных Microsoft Purview.
Примечание.
Чтобы опубликовать политики владельца данных, роль администратора источника данных должна быть настроена на уровне корневой коллекции.
Делегирование ответственности за подготовку доступа ролям в Microsoft Purview
После включения для ресурса принудительного применения политики данных любой пользователь Microsoft Purview с ролью автора политики на корневом уровне коллекции может подготовить доступ к источнику данных из Microsoft Purview.
Примечание.
Любой администратор корневой коллекции Microsoft Purview может назначать новых пользователей ролям авторов корневой политики . Любой администратор коллекции может назначить новых пользователей роли администратора источника данных в коллекции. Сведите к минимуму и тщательно изучите пользователей, у которых есть роли администратора коллекции Microsoft Purview, администратора источника данных или автора политики .
Если учетная запись Microsoft Purview с опубликованными политиками удалена, такие политики перестают применяться в течение определенного времени, зависящее от конкретного источника данных. Это изменение может повлиять как на безопасность, так и на доступность доступа к данным. Роли "Участник" и "Владелец" в IAM могут удалять учетные записи Microsoft Purview. Эти разрешения можно проверка, перейдя в раздел Управление доступом (IAM) учетной записи Microsoft Purview и выбрав Назначения ролей. Вы также можете использовать блокировку, чтобы предотвратить удаление учетной записи Microsoft Purview с помощью Resource Manager блокировки.
Регистрация источника данных в Microsoft Purview для принудительного применения политики данных
Прежде чем создавать политики доступа, необходимо зарегистрировать ресурс службы хранилища Azure в Microsoft Purview. Чтобы зарегистрировать ресурс, следуйте инструкциям в разделах Предварительные требования и Регистрация в этом руководстве.
После регистрации источника данных необходимо включить принудительное применение политики данных. Это является предварительным условием для создания политик в источнике данных. Принудительное применение политики данных может повлиять на безопасность данных, так как оно делегирует определенным ролям Microsoft Purview, управляющим доступом к источникам данных. Ознакомьтесь с рекомендациями по обеспечению безопасности, связанными с применением политики данных, в этом руководстве: Включение принудительного применения политики данных
Когда для источника данных для параметра Принудительное применение политики данныхзадано значение Включено, он будет выглядеть следующим образом:
Создать политику
Чтобы создать политику доступа для Azure Data Lake Storage 2-го поколения, выполните следующие действия:
Чтобы создать политики, охватывающие все источники данных в группе ресурсов или подписке Azure, см. этот раздел.
Политика защиты
Политики управления доступом (политики защиты) позволяют организациям автоматически защищать конфиденциальные данные в разных источниках данных. Microsoft Purview уже сканирует ресурсы данных и определяет элементы конфиденциальных данных, и эта новая функция позволяет автоматически ограничивать доступ к этим данным с помощью меток конфиденциальности из Защита информации Microsoft Purview.
Следуйте этой документации, чтобы создать политику защиты: Создание политики Защита информации Microsoft Purview.
Дальнейшие действия
Следуйте приведенным ниже руководствам, чтобы узнать больше о Microsoft Purview и ваших данных.