了解资源集
本文可帮助你了解 Purview Microsoft如何使用资源集将数据资产映射到逻辑资源。
重要
此功能仅适用于现有高级资源集客户。 这不适用于 Microsoft Purview 的新客户。
大规模数据处理系统通常将单个表作为多个文件存储在存储中。 在Microsoft Purview 数据目录中,此概念使用资源集表示。 资源集是目录中的单个对象,表示存储中的大量资产。
例如,假设 Spark 群集已将数据帧保存到 Azure Data Lake Storage (ADLS) Gen2 数据源中。 尽管在 Spark 中表看起来像是单个逻辑资源,但在磁盘上可能有数千个 Parquet 文件,其中每个文件都表示数据帧总内容的分区。 IoT 数据和 Web 日志数据具有相同的挑战。 假设你有一个每秒多次输出日志文件的传感器。 从单个传感器获得数十万个日志文件后,不久即可完成。
Microsoft Purview 支持检测 Azure Blob 存储、ADLS Gen1、ADLS Gen2、Azure 文件存储 和 Amazon S3 中的资源集。
Microsoft Purview 在扫描时自动检测资源集。 此功能可查看通过扫描引入的所有数据,并将其与一组定义的模式进行比较。
例如,假设扫描其 URL 为 的 https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet
数据源。 Microsoft Purview 查看路径段,并确定它们是否与任何内置模式匹配。 它具有 GUID、数字、日期格式、本地化代码 ((例如 en-us) 等)的内置模式。 在这种情况下,数字模式与 23 匹配。 Microsoft Purview 假定此文件是名为 https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet
的资源集的一部分。
或者,对于类似 的 https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json
URL,Microsoft Purview 匹配本地化模式和数字模式,生成名为 的资源 https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
集。
使用此策略,Microsoft Purview 会将以下资源映射到同一资源集 https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
:
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Microsoft Purview 有意不尝试将大多数文档文件类型(如 Word、Excel 或 PDF)分类为资源集。 CSV 格式是例外,因为这是一种常见的分区文件格式。
当 Microsoft Purview 检测到它认为属于资源集的资源时,它会从完全扫描切换到示例扫描。 示例扫描仅打开它认为位于资源集中的一部分文件。 对于它打开的每个文件,它使用其架构并运行其分类器。 Microsoft Purview 然后查找打开的资源中的最新资源,并在目录中整个资源集的条目中使用该资源的架构和分类。
Microsoft Purview 可以通过高级资源集功能自定义和进一步丰富 资源集 资产。 高级资源集允许 Microsoft Purview 了解引入的数据的基础分区,并启用 资源集模式规则 的创建,这些规则可自定义 Microsoft Purview 在扫描期间如何对资源集进行分组。
启用高级资源集后,Microsoft Purview 将运行额外的聚合来计算有关资源集资产的以下信息:
- 包含资源集的文件的示例路径。
- 显示构成资源集的文件数的分区计数。
- 构成资源集的所有文件的总大小。
可以在资源集的资产详细信息页上找到这些属性。
默认情况下,高级资源集在所有新的 Microsoft Purview 实例中处于关闭状态。 可以从管理中心的 帐户信息 启用高级资源集。 只有添加到根集合中数据策展人角色的用户才能管理高级资源集设置。
启用高级资源集后,将在所有新引入的资产上进行其他扩充。 引入后,这些扩充最长可能需要 12 小时 才能在资产上可用。 Microsoft Purview 团队建议先等待一小时,然后再扫描新的 Data Lake 数据,然后再切换功能。
重要
启用高级资源集会影响资产和分类见解的刷新率。 启用高级资源集后,资产和分类见解每天只会更新两次。
此外,启用高级资源集时,最长可能需要 12 小时 才能看到架构更新。
Microsoft Purview 支持以下资源集模式。 这些模式可以显示为目录中的名称或文件名的一部分。
模式名称 | 显示名称 | 说明 |
---|---|---|
Guid | {GUID} | RFC 4122 中定义的全局唯一标识符 |
数字 | {N} | 一个或多个数字 |
日期/时间格式 | {Year}{Month}{Day}{N} | 我们支持各种日期/时间格式,但所有格式均以 {Year}[delimiter]{Month}[delimiter]{Day} 或 {N} 系列表示。 |
4ByteHex | {HEX} | 4 位十六进制数字。 |
本地化 | {LOC} | BCP 47 中定义的语言标记,支持 (en_ca和 en-ca) |
模式名称 | 显示名称 | 说明 |
---|---|---|
SparkPath | {SparkPartitions} | Spark 分区文件标识符 |
日期 (yyyy/mm/dd) InPath | {Year}/{Month}/{Day} | 跨多个文件夹的年/月/日模式 |
Microsoft Purview 将一组资产匹配到资源集中时,它会尝试提取最有用的信息,以用作目录中的显示名称。 应用默认命名约定的一些示例:
限定名称: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
显示名称:“spark 输出的名称”
限定名称: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
显示名称:“我的分区数据”
限定名称: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
显示名称:“data”
扫描存储帐户时,Microsoft Purview 使用一组定义的模式来确定一组资产是否为资源集。 在某些情况下,Microsoft Purview 的资源组分组可能无法准确反映数据资产。 这些问题可能包括:
- 错误地将资产标记为资源集
- 将资产放入错误的资源集
- 错误地将资产标记为不是资源集
若要自定义或覆盖 Microsoft Purview 检测哪些资产被分组为资源集的方式以及这些资产在目录中的显示方式,可以在管理中心定义模式规则。 有关分步说明和语法,请参阅 资源集模式规则。
- 默认情况下,仅当启用了高级资源集时,扫描才会删除 资源集资产 。 如果此功能处于关闭状态,则只能手动或通过 API 删除资源集资产。
若要开始使用 Microsoft Purview,请参阅 快速入门:创建 Microsoft Purview 帐户。