你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
大型数据湖可以有数千个数据集,这些数据集具有需要各种处理方法的不同对象类型。 根据其属性,Blob 容器中的单个对象可能需要特定的保留期或到期期、不同的分层转换或使用不同的标签进行标记。 使用 Azure 存储操作,您可以定义任务来扫描数十亿个 blob,针对每一个 blob 根据诸如文件扩展名、命名模式、索引标签、Blob 元数据或系统属性(如创建时间、内容类型和 Blob 存储层)进行检查。 此方法简化了许多重复或一次性用例。 本文介绍了已应用或可应用的存储操作方案。
使用对象标记管理保留期和到期时间
金融服务机构使用 Azure Blob 存储引入客户服务呼叫记录。 这些记录具有 Blob 标记,用于指示交易订单是否已放置或帐户信息已更新。 这些录音的保留要求因呼叫类型而异。 借助 Azure 存储操作,他们现在可以定义一个任务,以便使用 Blob 标记和创建时间的组合来自动管理所引入录制内容的保留期和过期时间。
管理数据集中的数据保护
领先的旅游服务公司使用 Blob 版本控制和快照,但其数据集具有不同的保护需求。 敏感数据需要严格的版本历史记录,而其他人则不需要。 为所有数据集保留广泛的版本和快照历史记录太昂贵。 借助 Azure 存储作,他们现在可以更灵活地使用元数据和标记来管理版本和快照的保留期和生命周期。
基于命名模式和文件类型的成本优化
许多 Azure 存储客户需要根据路径前缀、命名约定或文件类型管理 Blob 的分层、到期和保留。 这些属性可以与 blob 属性(例如大小、创建时间、上次修改时间或访问时间、访问层、版本计数等)结合使用,以便根据需要处理对象。
一次性大规模处理 Blob
除了正在进行的数据管理操作,Azure 存储操作还可用于一次性处理数十亿个对象。 例如,可以定义用于从存档层解除冻结大型数据集的任务,在重启分析管道时重置数据集的一部分标记,为新的或更新的进程初始化 Blob 标记,或者清理冗余和过时的数据集。