扩展我们对可靠性的理解
- 5 分钟
为了有效设置监测,提高我们的可靠性,我们需要充分了解可能需要测量的事项。 在本单元中,我们希望建议一些可能扩展你对可靠性的理解的可能性。
现在让我们看看可靠性的某些方面:
可用性
关系图中,中央圆圈内有“可靠性”一词,并且与位于各个辐条末端的圆圈相连,其中一个圆圈内加入了“可用性”一词。
当人们谈论可靠性时,他们往往从可用性开始。 系统是“正常运行”还是“宕机”?其他人能否访问您的网站或服务? 他们能否在期待中的时间使用该产品? 从依赖于服务的外部客户和内部用户的角度来看,这一点非常重要。 可用性可能是耗用你时间最多的可靠性方面了。 这是讨论可靠性的好起点,但它只是一个方面。
延迟
延迟是指请求和响应之间的延迟量。 你可能听说过“速度慢好比死机”。用户需要快速的体验,对于让他们等待的站点或服务,他们容易失去耐心。 我们有很好的研究表明,如果网站不满足他们对响应时间的期望,客户可能会去竞争对手。
吞吐量
吞吐量是处理某个事务的速率或网站、应用程序或服务在指定时间段内成功处理的事务数的度量值。 运行管道或批处理系统时,这一点尤其重要。 如果管道或批处理系统处理速度不够快,这不符合我们的预期,并且不被视为可靠。
覆盖率
图中,中间的圆内是单词“可靠性”,并连接到每个辐射端的圆圈。随后将单词“覆盖率”添加到该图中的另一个圆圈。
覆盖率是指实际处理的数据量与预期处理的数据量之间的关系。 同样,我们回到衡量我们满足预期程度的概念,这是判断某个东西是否可靠的组成部分。
正确性
正确性是经常被忽视的可靠性的一个方面。 在数据上运行的过程是否生成了正确的或预期的结果? 这是在监控可靠性方面的重要因素。 无论服务或站点有多快或“始终可用”,如果返回错误的结果,客户眼中并不可靠。 监视结果的正确性是监视可靠性的重要组成部分。
Fidelity
在此上下文中,保真度最好通过一个示例来理解。 假设你访问了视频流网站的主页。 该页面由单独的部分组成:新版本、个性化推荐、观看的前 10 部电影等。 每个部分都可能由单独的后端服务生成。 如果其中一项服务出现故障(例如个性化引擎),则网站访问者不会收到“抱歉此网站已关闭”消息或空白页面。 相反,他们会看到一个主页,该部分已删除或替换为静态内容。 在技术上,我们称之为用户获得了“降级”体验,而不是完整的所需页面。
如果我们要衡量保真度,我们将衡量服务用户收到“降级”体验的频率与完整体验(完全保真度)。 如果任何容错服务能够在出现问题时以降级模式继续运行,这个度量指标就非常有用。
时效性
新鲜度是指信息在客户需要及时性的情况下(例如,提供体育比分或选举结果的服务)是否最新。 如果提供的数据保持最新状态,则这些服务被视为可靠。
持续性
持久性是可靠性的另一个更为特定的方面。 如果您正在运营一个提供存储的服务,您应该知道,客户写入您服务的数据能够在之后被读取是多么重要。 这是持续性预期。
尽管这不是一个详尽的可能性列表,但希望其中有一些是你之前没有考虑过的,并且你在此过程中扩展了对可靠性的理解。 我们将把这一理解纳入下一个单元,我们开始提出一些关键问题,即在可靠性方面需要衡量什么。