高端 BI 性能取决于从 Lakehouse 准备和交付数据的效率。 通过采用体系结构模式、应用语义结构并使用有针对性的优化,可以降低查询复杂性、提高仪表板响应能力和降低计算成本。
下表总结了建议的做法、预期影响、相关文档和相关作项。 此内容适用于在 Lakehouse 中设计、优化和维护分析工作负荷的数据工程师、BI 开发人员和仪表板作者。
数据准备
| 最佳做法 | 影响 | Docs | 行动项 |
|---|---|---|---|
| 采用奖牌体系结构 | 加快将原始数据转换为随时可用的可靠数据产品,以便轻松使用。 | 查看和实施勋章层 | |
| 使用液体聚类分析 | 通过跳过文件和数据来提高查询性能。 | 适用于包含过滤模式的大型表 | |
| 使用托管表 | Azure Databricks 自动控制并优化存储层和查询性能。 | 为数据创建托管表 | |
| 使用预测优化或手动优化表 | 通过优化文件大小和布局、删除旧文件以及更新统计信息,实现更好的查询性能。 | 启用生产表或计划定期优化并在数据更改后分析表 | |
| 在星型架构模式中为数据建模 | 使数据易于查询和使用。 | 设计事实数据表和维度表 | |
| 避免宽数据类型和高基数列 | 优化数据模型大小和内存消耗,并提高查询效率。 | 查看数据类型和基数 | |
| 声明主键和外键(使用 RELY) | 通过消除不必要的联接和聚合来优化查询。 | 定义事实表和维度表中的键 | |
| 使用自动生成的列 | 减少在查询时计算值的需求。 | 识别经常计算的字段 | |
| 使用具体化视图和持久化表 | 通过预先聚合最常见和资源密集型查询的数据来提高性能。 | 为常见查询创建聚合视图 |