你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是 Azure Synapse 数据资源管理器? (预览版)

Azure Synapse 数据资源管理器为客户提供交互式查询体验,用于从日志和遥测数据中找到见解。 为了补充现有的 SQL 和 Apache Spark 分析运行时引擎,数据资源管理器分析运行时已经过优化,可以使用强大的索引技术来自动为遥测数据中常见的自由文本和半结构化数据编制索引,从而实现高效的日志分析。

显示 Azure Synapse 体系结构的示意图。

若要了解更多信息,请参见下列视频:

Azure Synapse 数据资源管理器有哪些独特之处?

  • 轻松引入 - 数据资源管理器提供内置的集成用于实现无代码/少代码、高吞吐量数据引入以及从实时源缓存数据。 可以从 Azure 事件中心、Kafka、Azure Data Lake 之类的源、Fluentd/Fluent Bit 之类的开放源代码代理以及各种云和本地数据源引入数据。

  • 无需复杂的数据建模 - 借助数据资源管理器,无需生成复杂的数据模型,也无需编写复杂的脚本来转换数据即可使用数据。

  • 无需维护索引 - 无需执行维护任务即可优化数据以保持查询性能,并且无需维护索引。 使用数据资源管理器时,所有原始数据立即可供使用,因此你可以针对流数据和永久性数据运行高性能、高并发的查询。 可以使用这些查询生成准实时仪表板和警报,并将运营分析数据连接到数据分析平台的其余部分。

  • 标准化数据分析 - 数据资源管理器通过直观的 Kusto 查询语言 (KQL) 标准化了自助式的大数据分析。KQL 兼备 SQL 的表达性和强大功能,以及 Excel 的简便性。 KQL 经过高度优化,可以利用数据资源管理器的一流文本索引技术探索原始遥测数据和时序数据,实现高效的自由文本和正则表达式搜索,并提供全面的分析功能用于查询跟踪\文本数据和 JSON 半结构化数据(包括数组和嵌套结构)。 KQL 提供高级时序支持用于创建、操作和分析多个时序,并为模型评分提供引擎内部的 Python 执行支持。

  • 成熟的 PB 规模技术 - 数据资源管理器是一个分布式系统,其计算资源和存储可独立缩放,从而可以实现 GB 或 PB 量级的数据分析。

  • 集成 - Azure Synapse Analytics 为数据资源管理器、Apache Spark 和 SQL 引擎之间的数据提供互操作性,使数据工程师、数据科学家和数据分析师能够轻松且安全地访问数据湖中的相同数据并就此展开协作。

何时使用 Azure Synapse 数据资源管理器?

将数据资源管理器用作生成准实时日志分析和 IoT 分析解决方案的数据平台可以:

  • 合并及关联本地、云和第三方数据源中的日志与事件数据。

  • 加速你的 AI Ops 之旅(模式识别、异常情况检测、预测等)。

  • 取代基于基础结构的日志搜索解决方案,以节省成本并提高工作效率。

  • 为 IoT 数据生成 IoT 分析解决方案。

  • 生成 SaaS 分析解决方案,为内部和外部客户提供服务。

数据资源管理器池体系结构

数据资源管理器池通过分隔计算资源和存储资源来实现横向扩展体系结构。 通过此操作,可以独立扩展每个资源,例如,针对同一数据运行多个只读计算。 数据资源管理器池包含一组运行引擎的计算资源,由其负责自动索引编制、压缩、缓存和提供分布式查询。 另外还包含一组运行数据管理服务的计算资源,由其负责后台系统作业,以及托管和排队的数据引入。 所有数据以压缩的分列格式保存在托管的 Blob 存储帐户上。

数据资源管理器池支持丰富的生态系统,可以使用连接器、SDK、REST API 和其他托管功能引入数据。 用户可以通过多种方式使用临时查询、报告、仪表板、警报、REST API 和 SDK 的数据。

数据资源管理器池体系结构

借助众多独特功能,数据资源管理器已成为在 Azure 上进行日志和时序分析的最佳分析引擎。

以下部分重点介绍了其重要独特之处。

自由文本和半结构化数据索引编制可实现准实时的高性能、高并发查询

数据资源管理器可为半结构化数据 (JSON) 和非结构化数据(自由文本)编制索引,因此可以高效地对此类数据运行查询。 默认情况下,在数据引入期间将为每个字段编制索引,并提供使用低级别编码策略的选项,以微调或禁用特定字段的索引编制。 索引范围为单个数据分片。

索引编制的实现方式取决于字段类型,如下所述:

字段类型 索引编制的实现
字符串 引擎为字符串列值生成倒排字词索引。 将分析每个字符串值并将其拆分为规范化字词,另外,将为每个字词记录包含记录序号的逻辑位置有序列表。 最终的字词排序列表及其关联的位置将作为不可变的 B 树存储。
数字
DateTime
TimeSpan
引擎将生成一个基于范围的简单正向索引。 索引将记录数据分片中每个块、一组块和整个列的最小值/最大值。
动态 引入过程将枚举动态值中的所有“原子”元素(例如属性名称、值和数组元素),并将其转发到索引生成器。 动态字段的倒排字词索引与字符串字段相同。

通过这些高效的索引编制功能,数据资源管理器能够准实时地提供数据来实现高性能、高并发查询。 系统会自动优化数据分片以进一步提升性能。

Kusto 查询语言

随着 Azure Monitor Log Analytics、Application Insights、Microsoft Sentinel、Azure 数据资源管理器和其他 Microsoft 产品/服务的快速采用,KQL 的社区也在日益扩大和发展。 该语言是使用易于阅读的语法妥善设计的,支持从简单的单行代码到复杂数据处理查询的平稳过渡。 因此,数据资源管理器可以提供丰富的 Intellisense 支持、一组丰富的语言构造和内置功能,以及 SQL 无法提供的内置聚合、时序和用户分析功能,以快速浏览遥测数据。

后续步骤