Поддерживаемые источники данных и типы файлов

В этой статье рассматриваются поддерживаемые в настоящее время источники данных, типы файлов и основные понятия сканирования в Схема данных Microsoft Purview.

Схема данных Microsoft Purview доступных источников данных

В таблице ниже показаны все источники с техническими метаданными, доступными в Microsoft Purview. Выберите источник данных, чтобы узнать больше. В таблице также перечислены дополнительные поддерживаемые возможности для каждого источника данных. Для получения дополнительных сведений можно выбрать эту функцию.

Категория Поддерживаемо хранилище данных Классификация Динамическое представление Линии Присвоение подписей Политика доступа Общий доступ к данным
Azure Несколько источников Да Ограниченная функциональность Нет Зависимость от источника Да Нет
Хранилище BLOB-объектов Azure Да Да Ограниченное* Да Да (предварительная версия) Да
Azure Cosmos DB (API для NoSQL) Да Нет Нет* Да Нет Нет
Azure Data Explorer Да Нет Нет* Да Нет Нет
Фабрика данных Azure Нет Нет Да Нет Нет Нет
Azure Data Lake Storage 1-го поколения Да Нет Ограниченное* Да Нет Нет
Azure Data Lake Storage 2-го поколения Да Да Ограниченное* Да Да (предварительная версия) Да
Azure Data Share Нет Нет Да Нет Нет Нет
База данных Azure для MySQL Да Нет Нет* Да Нет Нет
База данных Azure для PostgreSQL Да Нет Нет* Да Нет Нет
Azure Databricks Нет Нет Да Нет Нет Нет
Каталог Unity Azure Databricks Нет Нет Нет Нет Нет Нет
Выделенный пул SQL Azure (ранее — хранилище данных SQL) Да Нет Нет* Нет Нет Нет
Файлы Azure Да Нет Ограниченное* Да Нет Нет
Машинное обучение Azure Нет Нет Да Нет Нет Нет
База данных Azure SQL Да Да Да (предварительная версия) Да Да Нет
Управляемый экземпляр SQL Azure Да Нет Нет* Да Да (предварительная версия) Нет
аналитика Azure Synapse (рабочая область) Да Нет Да — конвейеры Synapse Да Нет Нет
База данных Amazon RDS Да Нет Нет Нет Нет Нет
Amazon Redshift Нет Нет Нет Нет Нет Нет
Кассандра Нет Нет Да Нет Нет Нет
Db2 Нет Нет Да Нет Нет Нет
Google BigQuery Нет Нет Да Нет Нет Нет
База данных хранилища метаданных Hive Нет Нет Да* Нет Нет Нет
Mongodb Нет Нет Нет Нет Нет Нет
Mysql Нет Нет Да Нет Нет Нет
Oracle Да Нет Да* Нет Нет Нет
Postgresql Нет Нет Да Нет Нет Нет
SAP Business Warehouse Нет Нет Нет Нет Нет Нет
SAP HANA Нет Нет Нет Нет Нет Нет
Снежинка Да Нет Да Нет Нет Нет
Сервер SQL Server. Да Нет Нет* Да Нет Нет
SQL Server в Azure-Arc Да Нет Нет* Нет Да Нет
Teradata Да Нет Да* Нет Нет Нет
File Amazon S3 Да Нет Ограниченное* Да Нет Нет
HDFS Да Нет Нет Нет Нет Нет
Службы и приложения Воздушного потока Нет Нет Да Нет Нет Нет
Эрвин Нет Нет Да Нет Нет Нет
Красавчик Нет Нет Да Нет Нет Нет
Power BI Нет Нет Да Нет Нет Нет
Salesforce Нет Нет Нет Нет Нет Нет
SAP ECC Нет Нет Да* Нет Нет Нет
SAP S/4HANA Нет Нет Да* Нет Нет Нет

* Помимо происхождения данных в ресурсах в источнике данных, также поддерживается происхождение, если набор данных используется в качестве источника или приемника в фабрике данных или конвейере Synapse.

Примечание.

В настоящее время Схема данных Microsoft Purview не может сканировать ресурс с /именем , \или # . Чтобы область проверку и избежать сканирования ресурсов с этими символами в имени ресурса, используйте пример в разделе Регистрация и проверка базы данных Azure SQL.

Важно!

Если вы планируете использовать локальную среду выполнения интеграции, сканирование некоторых источников данных требует дополнительной настройки на локальном компьютере среды выполнения интеграции. Например, JDK, Распространяемый компонент Visual C++ или конкретный драйвер. Сведения о необходимых компонентах см. в каждой статье. Все требования будут перечислены в разделе Предварительные требования .

Сканирование регионов

Ниже приведен список всех регионов источника данных Azure (центра обработки данных), в которых работает сканер Схема данных Microsoft Purview. Если источник данных Azure находится в регионе за пределами этого списка, средство проверки будет выполняться в регионе экземпляра Microsoft Purview.

области Схема данных Microsoft Purview сканера

  • Восток Австралии
  • Юго-восток Австралии
  • Южная Бразилия
  • Центральная Канада
  • Восточная Канада
  • Центральная Индия
  • Северный Китай 3
  • Восточная Азия
  • Восточная часть США
  • Восточная часть США 2
  • Центральная Франция
  • Центрально-Западная Германия
  • Восточная Япония
  • Центральная Корея
  • Центрально-северная часть США
  • Северная Европа
  • Центральный Катар
  • Северная часть Южной Африки
  • Центрально-южная часть США
  • Юго-Восточная Азия
  • Северная Швейцария
  • Север ОАЭ
  • Южная часть Соединенного Королевства
  • USGov Вирджиния
  • Центрально-западная часть США
  • Западная Европа
  • Западная часть США
  • Западная часть США 2
  • Западная часть США 3

Типы файлов, поддерживаемые для сканирования

Следующие типы файлов поддерживаются для сканирования, извлечения схемы и классификации, если применимо:

  • Форматы структурированных файлов, поддерживаемые расширением, включают сканирование, извлечение схемы, а также классификацию на уровне ресурсов и столбцов: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
  • Форматы файлов документов, поддерживаемые расширением, включают сканирование и классификацию на уровне ресурсов: DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPSX, PPT, PPTM, PPTX, XLC, XLSB, XLSM, XLSX, XLT
  • Схема данных Microsoft Purview также поддерживает пользовательские расширения файлов и настраиваемые средства синтаксического анализа.

Примечание.

Известные ограничения:

  • Сканер Схема данных Microsoft Purview поддерживает извлечение схемы только для перечисленных выше структурированных типов файлов.
  • Для типов файлов AVRO, ORC и PARQUET сканер не поддерживает извлечение схемы для файлов, содержащих сложные типы данных (например, MAP, LIST, STRUCT).
  • Сканер поддерживает сканирование сжатых типов PARQUET для извлечения и классификации схемы.
  • Для типов файлов GZIP GZIP должен быть сопоставлен с одним CSV-файлом внутри. На файлы Gzip распространяются системные и пользовательские правила классификации. В настоящее время мы не поддерживаем сканирование GZIP-файла, сопоставленного с несколькими файлами внутри или с файлами любого типа, кроме CSV.
  • Для файлов с разделителями (CSV, PSV, SSV, TSV, TXT):
    • Мы не поддерживаем обнаружение типов данных. Тип данных будет указан как строка для всех столбцов.
    • В качестве разделителей поддерживаются только запятая(','), точка(';') с запятой, вертикальная черта('|') и tab('\t').
    • Файлы с разделителями с менее чем тремя строками не могут быть определены как CSV-файлы, если они используют настраиваемый разделитель. Например, файлы с разделителем ~ и менее трех строк не смогут быть определены как CSV-файлы.
    • Если поле содержит двойные кавычки, двойные кавычки могут отображаться только в начале и конце поля и должны совпадать. Двойные кавычки, которые отображаются в середине поля или отображаются в начале и конце, но не совпадают, будут распознаны как недопустимые данные, и схема не будет проанализирована из файла. Строки, количество столбцов которых отличается от числа строк заголовка, будут рассматриваться как строки ошибок. (число строк ошибок или число строк, выбранных в выборке ) должно быть меньше 0,1.
  • Для файлов Parquet, если вы используете локальную среду выполнения интеграции, необходимо установить на компьютере IR 64-разрядную версию JRE 11 (среда выполнения Java) или OpenJDK . Ознакомьтесь с разделом Среда выполнения Java в нижней части страницы , чтобы ознакомиться с руководством по установке.

Извлечение схемы

В настоящее время максимальное число столбцов, поддерживаемых на вкладке схемы активов, составляет 800 для источников Azure, Power BI и SQL Server.

Вложенные данные

В настоящее время вложенные данные поддерживаются только для содержимого JSON.

Для всех поддерживаемых системой типов файлов, если в столбце есть вложенное содержимое JSON, средство проверки анализирует вложенные данные JSON и отображает их на вкладке схемы ресурса.

Вложенные данные или синтаксический анализ вложенной схемы не поддерживается в SQL. Столбец со вложенными данными будет сообщаться и классифицироваться как есть, а подданные не будут анализироваться.

Выборка данных для классификации

В Схема данных Microsoft Purview терминологии,

  • Проверка L1: извлекает основную информацию и метаданные, такие как имя файла, размер и полное имя.
  • Проверка L2: извлекает схему для структурированных типов файлов и таблиц баз данных
  • Проверка L3: извлекает схему, если применимо, и подвергает выборку файла системным и пользовательским правилам классификации.

Для всех форматов структурированных файлов Схема данных Microsoft Purview сканировать файлы следующим образом:

  • Для структурированных типов файлов он отсортирует первые 128 строк в каждом столбце или первые 1 МБ в зависимости от того, какая из них меньше.
  • Для форматов файлов документов он отытет первые 20 МБ каждого файла.
    • Если размер файла документа превышает 20 МБ, он не подлежит глубокой проверке (при классификации). В этом случае Microsoft Purview записывает только базовые метаданные, такие как имя файла и полное имя.
  • Для табличных источников данных (SQL) он отсортирует первые 128 строк.
  • Для Azure Cosmos DB для NoSQL для схемы будет собрано до 300 отдельных свойств из первых 10 документов в контейнере. Для каждого свойства будут использоваться значения от 128 документов или первые 1 МБ.

Выборка файла набора ресурсов

Папка или группа файлов секционирования обнаруживается как набор ресурсов в Схема данных Microsoft Purview, если он соответствует политике набора системных ресурсов или политике набора ресурсов, определенной клиентом. При обнаружении набора ресурсов средство проверки выполнит выборку каждой папки, которая в нем содержится. Дополнительные сведения о наборах ресурсов см. здесь.

Выборка файлов для наборов ресурсов по типам файлов:

  • Файлы с разделителями (CSV, PSV, SSV, TSV) — 1 из 100 файлов получают выборку (проверка L3) в папке или группе файлов секций, которые считаются набором ресурсов.
  • Типы файлов Data Lake (Parquet, Avro, Orc) — 1 в 18446744073709551615 (длинное максимальное число) файлов (проверка L3) в папке или группе файлов секций, которые считаются набором ресурсов.
  • Другие структурированные типы файлов (JSON, XML, TXT) — 1 из 100 файлов используются для выборки (проверка L3) в папке или группе файлов секционирования, которые считаются набором ресурсов.
  • Объекты SQL и сущности Azure Cosmos DB — каждый файл сканируется L3.
  • Типы файлов документов — каждый файл сканируется L3. Шаблоны набора ресурсов не применяются к этим типам файлов.

Дальнейшие действия