你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 存储 Blob 清单是管理和跟踪 Azure Blob 存储帐户中存储的对象的基本工具。 它全面概述了存储资源,使你能够就数据管理和成本优化做出明智的决策。
启用 Blob 清单报告后,将使用清单策略中定义的规则定期扫描存储帐户中的对象。 生成清单报表所需的时间取决于多种因素。 这些因素包括对象数、目录结构、通过规则子类型应用的筛选器、存储帐户上的客户工作负荷、存储资源的可用性等。 在某些情况下,根据这些因素,可能需要几天时间才能完成存储帐户中的所有对象处理。 清单的性能也可能因扫描而有时在扫描期间有所不同。
影响 Blob 清单性能的因素
使用 Blob 清单生成清单报表时,几个关键因素可能会影响其性能。 了解这些因素有助于优化清单流程并实现高效的数据管理。
在启用了分层命名空间的帐户中分布对象
启用了分层命名空间的帐户中的对象的分布可能会显著影响清单性能。 Blob 清单一次扫描一个目录,并在移动到下一个目录之前完成该扫描。 因此,大量目录(尤其是使用稀疏对象分布和深层嵌套)可以增加生成清单报表所需的时间。
为清单规则处理的对象数
基于清单规则扫描的对象总数是处理性能的关键因素。 面向大量对象的规则需要更多的时间和资源来生成清单报表。 如果清单规则包含版本、快照和软删除对象,则要处理的对象数会增加。 当这些子类型大量存在时,它们可以进一步延长生成清单报表所需的处理时间。
清单报表的导出格式
清单报表(CSV 或 Apache Parquet)选择的导出格式可能会影响性能。 尽管 Parquet 已针对快速数据处理进行了优化,但与 CSV 相比,它引入了可能会降低报表生成速度的开销。
大量软删除的对象
软删除的对象(虽然未永久删除)仍包含在清单扫描中。 大量这些对象可以添加到处理时间并降低性能。 通过考虑这些因素,可以增强清单运行的性能,并具有更高效的数据管理体验。
提高 Blob 清单性能的最佳做法
高效管理 Azure Blob 存储对于保持最佳性能和成本效益至关重要。 下面是提高 Azure 存储 Blob 清单性能的一些最佳做法:
避免在启用了分层命名空间的帐户中稀疏帐户
稀疏帐户是包含分布在多个目录中的大量对象。 这些目录可能包含或不包含深度嵌套结构。 稀疏帐户会导致文件与目录比率非常低,这可能会导致库存报表生成效率低,甚至会导致失败。 若要缓解这些效率低下,请确保已启用分层命名空间的存储帐户组织良好,并避免对象分布稀疏。
将 CSV 用于导出格式
生成清单报表时,如果用例不需要快速数据处理,请选择 csv 格式。 Parquet 是一种列式存储文件格式,针对性能进行优化,是用于数据处理的最快格式之一。 但是,parquet 格式可能会增加生成报表所需的时间,因为它的开销比以 csv 格式生成报表的速度慢。 如果需要 parquet 格式来处理报表,则可以利用将 CSV 转换为 parquet 格式的可用开源工具。
使用前缀限定清单规则的范围
使用前缀匹配筛选器为特定数据子集生成清单报表,而不是对整个存储帐户运行清单。
包括前缀:此筛选器面向容器中的一组容器或路径。 此方法有助于缩小库存报表的范围,使该过程更快、更高效。
排除前缀:使用此筛选器从中排除某些特定子集。 此方法还有助于缩小库存报表的范围。 若要了解详细信息,请参阅 规则筛选器
选择相关字段
通过仅选择所需的相关字段来自定义清单报表。 这样做可减少处理和导出的数据量,从而更快地生成报表,并简化分析。 若要详细了解清单架构字段,请参阅 Blob 清单支持的自定义架构字段
子类型包含:已删除的对象、快照和版本
虽然包括这些子类型可以提供更全面的存储帐户视图,但评估它们是否对审核和管理需求至关重要非常重要。 如果它们并不重要,则排除它们有助于提高报表生成过程的性能和效率。 若要标识最近清单运行中删除的对象,请将当前运行的 blob 名称与上一次运行的 blob 名称进行比较。 差异可以提供最近删除的对象的列表。
订阅 Blob 清单事件
通过订阅 Blob 清单事件来随时了解用户诱发的错误。 这种主动方法可帮助你快速解决问题。 若要详细了解如何订阅清单事件,请参阅 订阅 Blob 清单策略已完成事件。
监视容量意外增加
请注意存储帐户容量中的意外峰值,因为它们可能指示 Blob 版本、快照或软删除对象的累积。 监视这些更改有助于在影响性能之前检测和解决潜在问题。 此外,管理这些对象的生命周期可以防止不必要的生成并提高 Blob 清单性能。 若要详细了解 Blob 生命周期管理,请参阅 Azure Blob 存储生命周期管理概述
通过遵循这些最佳做法,可以增强 Blob 清单的性能,确保对 Azure Blob 存储进行高效有效的管理。