你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

隔舱设计模式

Bulkhead 模式是一种可以容忍故障的应用程序设计。在舱壁架构中（也称为基于单元的架构），应用程序的元素被隔离到各自的池中，以确保当某个元素出现故障时，其他元素能够继续正常运行。隔板模式因船体的分区（隔板）得名。如果船体受到破坏，只有受损的分段才会进水，从而可以防止船只下沉。

上下文和问题

基于云的应用程序可能包括多个服务，每个服务都有一个或多个使用者。服务中的负载或故障过多会影响服务的所有使用者。

此外，使用者可能会同时向多个服务发送请求，并为每个请求使用资源。当使用者向错误配置或无响应的服务发送请求时，客户端请求使用的资源可能会长时间不可用。随着对服务的请求继续，这些资源可能会耗尽。例如，客户端的连接池可能已用尽。此时，使用者对其他服务的请求将受到影响。最终，使用者无法将请求发送到任何其他服务，而不仅仅是原始无响应服务。

资源耗尽会影响具有多个使用者的服务。来自一个客户端的许多请求可能会耗尽服务中的可用资源。资源耗尽可能意味着其他消费者无法使用服务，这会导致级联故障效应。

解决方案

根据使用者负载和可用性要求将服务实例分区到不同的组中。此设计有助于隔离故障。即使发生故障，也可以为某些使用者维持服务功能。

使用者还可以对资源进行分区，以确保用于调用一个服务的资源不会影响用于调用另一个服务的资源。例如，可以为每个服务分配调用多个服务的使用者一个连接池。如果某个服务开始失败，则只会影响为该服务分配的连接池。使用者可以继续使用其他服务。

此模式具有以下优点：

隔离使用者和服务，防止发生连锁故障。影响消费者或服务的问题可以隔离在其自己的隔舱中，以防止整个解决方案的失败。
如果发生服务故障，将保留某些功能。应用程序的其他服务和功能将继续工作。
为使用应用程序提供不同的服务质量级别。可以将高优先级使用者池配置为使用高优先级服务。

下图显示了围绕调用单个服务的连接池构建的隔舱。如果服务 A 失败或导致问题，则连接池是隔离的，因此只会影响使用分配给服务 A 的线程池的工作负荷。使用服务 B 和 C 的工作负荷不会受到影响，并且可以在不中断的情况下继续工作。

显示围绕调用单个服务的连接池构建的大容量块的关系图。

下图显示了多个调用单个服务的客户端。每个客户端都分配给单独的服务实例。客户端 1 发出过多的请求并使其实例不堪重负。由于每个服务实例与其他实例隔离，因此其他客户端可以继续调用。

显示多个客户端调用单个服务的示意图。

问题和注意事项

在决定如何实现此模式时，请考虑以下几点：

围绕应用程序的业务和技术要求定义分区。
如果使用战术域驱动设计来设计微服务，则分区边界应与边界上下文保持一致。
将服务或消费者划分为隔舱时，请考虑技术提供的隔离级别，以及在成本、性能和可管理性方面的开销。
若要实现更复杂的故障处理，请考虑将舱壁与重试、断路器和限流模式相结合。
将使用者分区为大容量块时，请考虑使用进程、线程池和信号灯。 resilience4j 和 Polly 等项目提供了用于创建消费者隔舱的框架。
将服务分区为大容量块时，请考虑将它们部署到单独的虚拟机、容器或进程。容器能够以相当低的开销合理平衡资源隔离。
使用异步消息进行通信的服务可以通过不同的队列集进行隔离。每个队列可以有一组专用的实例来处理队列中的消息，或者单一实例组使用算法来出队列并分配处理。
确定隔舱的粒度级。例如，如果要跨分区分配租户，可以将每个租户放入单独的分区或将多个租户放入一个分区中。
监视每个分区的性能和服务级别协议（SLA）。
在 Azure Kubernetes 服务（AKS）或 Azure 容器应用中使用内置平台控制，例如 Azure API 管理速率限制、Azure Cosmos DB 请求单元（RU）隔离和资源限制。不要在应用程序代码中重新创建这些限制和隔离机制。
AI 和推理工作负载通常需要严格的隔离措施，因为在部署层面存在配额和并发限制，例如，隔离每个工作负载或每个租户的 Azure OpenAI 部署。

何时使用此模式

在以下情况下使用此模式：

你想要隔离特定依赖项的资源，以便一个服务中的中断不会影响整个应用程序。
你想要将关键使用者与标准使用者隔离开来。
需要保护应用程序免受级联故障的影响。

在以下情况下，此模式可能不适用：

项目中可能不能接受使用资源效率较低的情况。
添加的复杂性是不必要的。

工作负载设计

评估如何在工作负载设计中应用 Bulkhead 模式，以有效实现 Azure Well-Architected Framework 支柱中涵盖的目标和原则。下表提供有关此模式如何支持每个支柱目标的指南。

支柱	此模式如何支持支柱目标
可靠性设计决策有助于工作负荷在发生故障后复原，并确保它在发生故障后恢复到正常运行状态。	通过组件之间有意且完整的分隔所引入的故障隔离策略试图将故障限制在发生问题的隔板内，以防止其影响到其他隔板。 - RE:02 关键流程 - RE:07 自我保护
安全设计决策有助于确保工作负荷数据和系统的机密性、完整性和可用性。	组件之间的分段有助于将安全事件限制在遭到入侵的隔舱上。 - SE:04 分段
通过缩放、数据和代码的优化，性能效率可帮助工作负荷高效地满足需求。	每个隔舱都可以单独扩展，以有效地满足封装在隔舱中的任务的需求。 - PE:02 容量规划 - PE:05 缩放和分区

如果此模式在某个支柱中引入权衡取舍，请将它们与其他支柱的目标进行对比。

示例

以下 Kubernetes 配置文件创建一个隔离的容器用于运行单个服务，该容器具有自身的 CPU 和内存资源与限制。

apiVersion: v1
kind: Pod
metadata:
  name: drone-management
spec:
  containers:
  - name: drone-management-container
    image: drone-service
    resources:
      requests:
        memory: "64Mi"
        cpu: "250m"
      limits:
        memory: "128Mi"
        cpu: "1"

后续步骤

使用 API 管理速率限制策略控制每个客户端的请求吞吐量。
使用 Azure Functions 并发控制来限制并行执行。
设置容器应用资源限制以控制每个工作负荷的 CPU 和内存。
为每个容器分配 Azure Cosmos DB RU 吞吐量，以便进行可预测的隔离。

反馈

此页面是否有帮助？

Last updated on 2026-03-19