你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 流分析的 Azure 数据资源管理器输出
可以将 Azure 数据资源管理器用作以下操作的输出:分析来自任何数据源 (例如网站、应用程序、物联网 (IoT) 设备等)的大量不同数据。 Azure 数据资源管理器是一项快速且高度可缩放的数据探索服务,适用于日志和遥测数据。 它可以帮助你处理现代软件发出的多个数据流,以便收集、存储和分析数据。 此数据用于诊断、监视、报告、机器学习和其他分析功能。
Azure 数据资源管理器支持多个引入方法,包括连接到常见服务 (如事件中心)、使用 SDK 以编程方式引入 (例如 .NET 和 Python),以及出于探索目的直接访问引擎。 Azure 数据资源管理器与分析和建模服务集成,对数据进行其他分析和可视化操作。
有关 Azure 数据资源管理器的详细信息,请参阅“什么是 Azure 数据资源管理器?”文档。
若要详细了解如何使用 Azure 门户创建 Azure 数据资源管理器群集,请参阅快速入门:创建 Azure 数据资源管理器群集和数据库。
注意
Azure 流分析中的 Azure 数据资源管理器不支持输出到 Azure Synapse 数据资源管理器。 若要写入 Azure Synapse 数据资源管理器中的群集,必须在 Azure 流分析作业的 Azure 数据资源管理器输出的“配置”边栏选项卡中指定群集的 URL。
输出配置
下表列出了用于创建 Azure 数据资源管理器输出的属性名称及其说明。
属性名称 | 说明 |
---|---|
输出别名 | 在查询中使用的友好名称,用于将查询输出定向到此数据库。 |
订阅 | 要用于群集的 Azure 订阅。 |
群集 | 用于标识群集的唯一名称。 域名 <region>.kusto.windows.net 将追加到所提供的群集名称。 名称只能包含小写字母和数字。 必须包含 4 到 22 个字符。 |
数据库 | 数据库的名称(将向该数据库发送输出)。 该数据库名称在群集中必须是唯一的。 |
身份验证 | 借助 Microsoft Entra ID 的托管标识,群集可以轻松访问其他受 Microsoft Entra 保护的资源(如 Azure Key Vault)。 标识由 Azure 平台托管,无需预配或轮换任何机密。 当前支持托管标识配置只是为了为群集启用客户管理的密钥。 |
表 | 将写入输出的表名称。 表名称区分大小写。 此表的架构应与字段数量以及作业输出生成的字段类型完全匹配。 |
分区
需要启用分区,并且分区应基于查询中的 PARTITION BY
子句。 启用“继承分区”选项后,该选项将遵循完全可并行化的查询的输入分区。
何时使用 Azure 流分析和 Azure 数据资源管理器
Azure 流分析的特征包括:
- 流处理引擎 - 连续的流式处理实时分析
- 基于作业
- 内存中临时分析和流处理的回溯窗口为 1 毫秒到 7 天
- 从 Azure 事件中心和 Azure IoT 中心引入,延迟为亚秒
Azure 数据资源管理器的特征包括:
- 分析引擎:按需/交互式实时分析
- 将引入的数据流式传输到永久性数据存储,并同时传输查询功能
- 从事件中心、IoT 中心、Azure Blob 存储、Azure Data Lake Storage、Kafka、Logstash、Spark 和 Azure 数据工厂引入数据
- 针对高吞吐量工作负载存在 10 秒到 5 分钟延迟
- 在引入期间,可以使用更新策略来完成简单的数据转换
结合使用 Azure 流分析和 Azure 数据资源管理器,可以显著扩大实时分析的范围。 下面是一些方案:
- 流分析实时识别异常,Azure 数据资源管理器通过交互式探索帮助确定异常发生的方式和原因。
- 流分析将传入的数据流反序列化,以在 Azure 数据资源管理器 (例如,使用自定义反序列化程序或自定义二进制格式引入 Protobuf 格式) 中使用。
- 流分析可以聚合、筛选、扩充和转换传入的数据流,以在数据资源管理器中使用。
其他场景和限制
- Azure 流分析 SQL 查询和 Azure 数据资源管理器表之间的列名称和数据类型名称应匹配。 比较是区分大小写的。
- Azure 数据资源管理器群集中存在但 Azure 流分析中缺少的列将被忽略。 Azure 流分析中缺少的列会引发错误。
- Azure 流分析查询中列的顺序并不重要。 Azure 数据资源管理器表的架构决定了顺序。
- Azure 数据资源管理器具有用于数据引入的聚合 (批处理) 策略,旨在优化引入过程。 默认情况下,该策略配置为 5 分钟、1000 项或 1 GB 数据,因此你可能会遇到延迟。 若要减少延迟,请按照在 Azure 数据资源管理器群集上配置流式引入中的步骤在群集上启用流式引入,然后启用表或数据库。 有关聚合选项,请参阅 IngestionBatching 策略。