可靠性支柱的体系结构原则解决了系统从故障中恢复并继续正常运行的能力。
可靠性原则
防故障设计
在高度分布式环境中,可能会发生中断。 对于平台和各种工作负荷(例如流式处理作业、批处理作业、模型训练和 BI 查询),必须预测故障,并且必须开发可复原的解决方案以提高可靠性。 重点是设计应用程序以快速恢复,并在最佳情况下自动恢复。
管理数据质量
数据质量是从数据中获取准确且有意义的见解的基础。 数据质量有许多维度,其中包括完整性、准确性、有效性和一致性。 必须主动管理以提高最终数据集的质量,使数据成为业务用户的可靠和可信信息。
自动缩放设计
标准 ETL 流程、业务报告和仪表板在内存和计算方面通常具有可预测的资源要求。 但是,新项目、季节性任务或高级方法(例如模型训练(用于流失、预测和维护)会产生资源需求的峰值。 为使组织能够处理所有这些工作负载,它需要一个可缩放的存储和计算平台。 根据需要添加新资源必须简单,并且只应为实际消耗付费。 高峰期结束后,可以释放资源,并相应地降低成本。 这通常称为水平缩放(节点数)和垂直缩放(节点大小)。
测试恢复过程
大多数应用程序和系统的企业级灾难恢复策略需要评估优先级、功能、限制和成本。 可靠的灾难恢复方法定期测试工作负荷如何失败并验证恢复过程。 自动化可用于模拟不同的故障或重新创建过去导致故障的方案。
自动化部署和工作负载
自动化 Lakehouse 的部署和工作负载有助于标准化这些流程,消除人为错误,提高工作效率,并提供更高的可重复性。 这包括使用“配置即代码”来避免配置偏移,使用“基础结构即代码”来自动预配所有必需的 lakehouse 和云服务。
监视系统和工作负荷
湖屋中的工作负载通常集成 Databricks 平台服务和外部云服务来实现特定目标,例如将其用作数据源或目标。 仅当执行链中的每个服务正常运行时,才能成功执行。 在这种情况下,监视、警报和日志记录对于检测和跟踪问题并了解系统行为非常重要。
下一步:可靠性最佳做法
请参阅可靠性最佳做法。