Подключение Фабрика данных Azure и Microsoft Purview

В этом документе описаны действия, необходимые для подключения учетной записи Фабрика данных Azure к учетной записи Microsoft Purview для отслеживания происхождения данных и приема источников данных. В документе также подробно описывается охват действий область и поддерживаемых шаблонов происхождения.

При подключении Фабрика данных Azure к Microsoft Purview каждый раз, когда выполняется поддерживаемое действие Фабрика данных Azure, метаданные об исходных данных действия, выходных данных и действии будут автоматически приниматься в Схема данных Microsoft Purview.

Если источник данных уже сканирован и существует в карте данных, процесс приема добавит сведения о происхождении из Фабрика данных Azure в этот существующий источник. Если источник или выходные данные не существуют в карте данных и поддерживаются Фабрика данных Azure происхождение данных Microsoft Purview автоматически добавит метаданные из Фабрика данных Azure в карту данных в корневой коллекции.

Это отличный способ отслеживать пространство данных, когда пользователи перемещают и преобразуют информацию с помощью Фабрика данных Azure.

Просмотр существующих подключений к Фабрике данных

Несколько фабрик данных Azure могут подключаться к одному microsoft Purview для отправки сведений о происхождении. Текущее ограничение позволяет одновременно подключать до 10 учетных записей фабрики данных из Центра управления Microsoft Purview. Чтобы отобразить список учетных записей Фабрики данных, подключенных к вашей учетной записи Microsoft Purview, выполните следующие действия.

  1. Выберите Управление в области навигации слева.

  2. В разделе Подключения к происхождению выберите Фабрика данных.

  3. Откроется список подключения к фабрике данных.

    Снимок экрана: список подключений к фабрике данных.

  4. Обратите внимание на различные значения состояния подключения:

    • Подключено. Фабрика данных подключена к учетной записи Microsoft Purview.
    • Отключено. Фабрика данных имеет доступ к каталогу, но подключена к другому каталогу. В результате данные о происхождении данных не будут передаваться в каталог автоматически.
    • Не удается: текущий пользователь не имеет доступа к фабрике данных, поэтому состояние подключения неизвестно.

Примечание.

Чтобы просмотреть подключения фабрики данных, вам должна быть назначена следующая роль. Наследование ролей из группы управления не поддерживается. Роль администраторов коллекции в корневой коллекции.

Создание подключения к фабрике данных

Примечание.

Чтобы добавить или удалить подключения фабрики данных, вам должна быть назначена следующая роль. Наследование ролей из группы управления не поддерживается. Роль администраторов коллекции в корневой коллекции.

Кроме того, требуется, чтобы пользователи были владельцем или участником фабрики данных.

В фабрике данных должно быть включено управляемое удостоверение, назначаемое системой.

Выполните следующие действия, чтобы подключить существующую фабрику данных к учетной записи Microsoft Purview. Вы также можете подключить фабрику данных к учетной записи Microsoft Purview из ADF.

  1. Выберите Управление в области навигации слева.

  2. В разделе Подключения к происхождению выберите Фабрика данных.

  3. На странице Подключение к фабрике данных выберите Создать.

  4. Выберите учетную запись фабрики данных в списке и нажмите кнопку ОК. Вы также можете фильтровать по имени подписки, чтобы ограничить список.

    Некоторые экземпляры фабрики данных могут быть отключены, если фабрика данных уже подключена к текущей учетной записи Microsoft Purview или фабрика данных не имеет управляемого удостоверения.

    Если какая-либо из выбранных фабрик данных уже подключена к другой учетной записи Microsoft Purview, появится предупреждающее сообщение. При нажатии кнопки ОК подключение фабрики данных к другой учетной записи Microsoft Purview будет отключено. Другие подтверждения не требуются.

    Снимок экрана: предупреждение об отключении Фабрика данных Azure.

Примечание.

Мы поддерживаем добавление до 10 Фабрика данных Azure учетных записей одновременно. Если вы хотите добавить более 10 учетных записей фабрики данных, сделайте это в нескольких пакетах.

Принцип работы проверки подлинности

Управляемое удостоверение фабрики данных используется для проверки подлинности операций отправки данных из фабрики данных в Microsoft Purview. При подключении фабрики данных к Microsoft Purview в пользовательском интерфейсе она автоматически добавляет назначение ролей.

Предоставьте управляемому удостоверению роль куратора данных фабрики данных в корневой коллекции Microsoft Purview. Дополнительные сведения об управлении доступом в Microsoft Purview и Добавлении ролей и ограничении доступа через коллекции.

Удаление подключений к фабрике данных

Чтобы удалить подключение к фабрике данных, выполните следующие действия.

  1. На странице Подключение к фабрике данных нажмите кнопку Удалить рядом с одним или несколькими подключениями фабрики данных.

  2. Выберите Подтвердить во всплывающем окне, чтобы удалить выбранные подключения фабрики данных.

    Снимок экрана: выбор фабрик данных для удаления подключения.

На портале управления Microsoft Purview можно отслеживать ссылки фабрики данных.

Поддерживаемые действия Фабрика данных Azure

Microsoft Purview фиксирует происхождение данных среды выполнения из следующих Фабрика данных Azure действий:

Важно!

Microsoft Purview удаляет происхождение данных, если источник или назначение использует неподдерживаемую систему хранения данных.

Интеграция фабрики данных и Microsoft Purview поддерживает только подмножество систем данных, поддерживаемых фабрикой данных, как описано в следующих разделах.

поддержка действие Copy

хранение данных. Поддерживается
Хранилище BLOB-объектов Azure Да
Когнитивный поиск Azure Да
Azure Cosmos DB для NoSQL * Да
Azure Cosmos DB для MongoDB * Да
Azure Data Explorer * Да
Azure Data Lake Storage 1-го поколения Да
Azure Data Lake Storage 2-го поколения Да
База данных Azure для MariaDB * Да
База данных Azure для MySQL * Да
База данных Azure для PostgreSQL * Да
Файлы Azure Да
База данных Azure SQL * Да
Управляемый экземпляр SQL Azure * Да
аналитика Azure Synapse * Да
Выделенный пул SQL Azure (ранее — хранилище данных SQL) * Да
Хранилище таблиц Azure Да
Amazon S3 Да
Куст* Да
Oracle* Да
Таблица SAP (при подключении к SAP ECC или SAP S/4HANA) Да
SQL Server * Да
Teradata* Да

* Microsoft Purview в настоящее время не поддерживает запрос или хранимую процедуру для происхождения или сканирования. Происхождение данных ограничено только источниками таблиц и представлений.

Если вы используете локальную Integration Runtime, обратите внимание на минимальную версию с поддержкой происхождения:

  • Любой вариант использования: версии 5.9.7885.3 или более поздней
  • Копирование данных из Oracle: версии 5.10 или более поздней
  • Копирование данных в Azure Synapse Analytics с помощью команды COPY или PolyBase версии 5.10 или более поздней

Ограничения происхождения действий копирования

В настоящее время, если вы используете следующие функции действия копирования, происхождение данных еще не поддерживается:

  • Копирование данных в Azure Data Lake Storage 1-го поколения в двоичном формате.
  • Параметр сжатия для двоичных файлов, файлов с разделителями, Excel, JSON и XML.
  • Параметры исходного раздела для базы данных Azure SQL, Управляемый экземпляр SQL Azure, аналитики Azure Synapse, SQL Server и таблицы SAP.
  • Копирование данных в приемник на основе файлов с параметром max rows per file.
  • Происхождение на уровне столбца в настоящее время не поддерживается действием копирования, если задан ресурс источника или приемника.

Помимо происхождения данных, схема ресурса данных (показанная на вкладке Актив —> Схема) отображается для следующих соединителей:

  • CSV-файлы и Parquet в больших двоичных объектах Azure, Файлы Azure, ADLS 1-го поколения, ADLS 2-го поколения и Amazon S3
  • Azure Data Explorer, база данных Azure SQL, Управляемый экземпляр SQL Azure, Azure Synapse Analytics, SQL Server, Teradata

поддержка Поток данных

хранение данных. Поддерживается
Хранилище BLOB-объектов Azure Да
Azure Cosmos DB для NoSQL * Да
Azure Data Lake Storage 1-го поколения Да
Azure Data Lake Storage 2-го поколения Да
База данных Azure для MySQL * Да
База данных Azure для PostgreSQL * Да
База данных Azure SQL * Да
Управляемый экземпляр SQL Azure * Да
аналитика Azure Synapse * Да
Выделенный пул SQL Azure (ранее — хранилище данных SQL) * Да

* Microsoft Purview в настоящее время не поддерживает запрос или хранимую процедуру для происхождения или сканирования. Происхождение данных ограничено только источниками таблиц и представлений.

Ограничения происхождения потока данных

  • Происхождение потока данных может создавать набор ресурсов на уровне папки без видимости для соответствующих файлов.
  • Происхождение на уровне столбцов в настоящее время не поддерживается, если источник или приемник задан ресурсом.
  • Для активности потока данных Microsoft Purview поддерживает отображение только источника и приемника. Подробные данные о происхождении для преобразования потока данных пока не поддерживаются.

Поддержка пакета служб SSIS

См. поддерживаемые хранилища данных.

Доступ к защищенной учетной записи Microsoft Purview

Если ваша учетная запись Microsoft Purview защищена брандмауэром, узнайте, как разрешить Фабрике данных доступ к защищенной учетной записи Microsoft Purview через частные конечные точки Microsoft Purview.

Перенос происхождения данных фабрики данных в Microsoft Purview

Чтобы получить пошаговое руководство, следуйте инструкциям в руководстве по отправке данных о происхождении данных фабрики данных в Microsoft Purview.

Поддерживаемые шаблоны происхождения

Существует несколько шаблонов происхождения, поддерживаемых Microsoft Purview. Созданные данные происхождения основаны на типе источника и приемника, используемых в действиях фабрики данных. Хотя фабрика данных поддерживает более 80 источников и приемников, Microsoft Purview поддерживает только подмножество, как указано в разделе Поддерживаемые действия Фабрика данных Azure.

Сведения о настройке фабрики данных для отправки данных о происхождении см. в статье Начало работы с данными о происхождении данных.

Ниже приведены некоторые другие способы поиска сведений в представлении происхождения.

  • На вкладке Происхождение наведите указатель мыши на фигуры, чтобы просмотреть дополнительные сведения об активе в подсказке.
  • Выберите узел или ребро, чтобы просмотреть тип ресурса, к которому он принадлежит, или для переключения ресурсов.
  • Столбцы набора данных отображаются в левой части вкладки Происхождение . Дополнительные сведения о происхождении на уровне столбцов см. в разделе Происхождение столбцов набора данных.

Происхождение данных для операций 1:1

Наиболее распространенным шаблоном для записи происхождения данных является перемещение данных из одного входного набора данных в один выходной набор данных с процессом между ними.

Примером этого шаблона может быть следующее:

  • 1 источник/входные данные: Customer (таблица SQL)
  • 1 приемник/вывод: Customer1.csv (BLOB-объект Azure)
  • Процесс 1: CopyCustomerInfo1#Customer1.csv (фабрика данных действие Copy)

Снимок экрана: происхождение данных для операции копирования фабрики данных

Перемещение данных с поддержкой происхождения данных 1:1 и подстановочными знаками

Другим распространенным сценарием записи происхождения является использование подстановочного знака для копирования файлов из одного входного набора данных в один выходной набор данных. Подстановочный знак позволяет действиям копирования соответствовать нескольким файлам для копирования с использованием общей части имени файла. Microsoft Purview записывает данные на уровне файла для каждого отдельного файла, скопированного соответствующим действием копирования.

Примером этого шаблона может быть следующее:

  • Источник и ввод: CustomerCall*.csv (путь к ADLS 2-го поколения)
  • Приемник/вывод: CustomerCall*.csv (файл BLOB-объекта Azure)
  • Процесс 1: CopyGen2ToBlob#CustomerCall.csv (фабрика данных действие Copy)

Снимок экрана: происхождение происхождения для операции копирования

Перемещение данных с происхождением n:1

Действия Поток данных можно использовать для выполнения таких операций с данными, как слияние, присоединение и т. д. Для создания целевого набора данных можно использовать несколько исходных наборов данных. В этом примере Microsoft Purview записывает данные на уровне файлов для отдельных входных файлов в таблицу SQL, которая является частью действия Поток данных.

Примером этого шаблона может быть следующее:

  • 2 источника и входных данных: Customer.csv, Sales.parquet (Путь ADLS 2-го поколения)
  • 1 приемник/вывод: данные компании (Azure SQL таблица)
  • Процесс 1. DataFlowBlobsToSQL (действие фабрики данных Поток данных)

Снимок экрана: происхождение от n до одного A D F Поток данных операции.

Происхождение данных для наборов ресурсов

Набор ресурсов — это логический объект в каталоге, представляющий множество файлов секций в базовом хранилище. Дополнительные сведения см. в разделе Общие сведения о наборах ресурсов. Когда Microsoft Purview записывает данные о происхождении из Фабрика данных Azure, он применяет правила для нормализации отдельных файлов секций и создания единого логического объекта.

В следующем примере набор ресурсов Azure Data Lake 2-го поколения создается из большого двоичного объекта Azure:

  • 1 источник/входные данные: Employee_management.csv (BLOB-объект Azure)
  • 1 приемник/вывод: Employee_management.csv (Azure Data Lake 2-го поколения)
  • Процесс 1: CopyBlobToAdlsGen2_RS (фабрика данных действие Copy)

Снимок экрана: происхождение для набора ресурсов.

Дальнейшие действия

Руководство по отправке данных о происхождении данных фабрики данных в Microsoft Purview

Руководство пользователя по происхождению данных каталога

Ссылка на Data Share Azure для происхождения данных