Azure Kubernetes Service (AKS) ノードプールのローリングアップグレードを構成する

ローリングアップグレード戦略では、ノードを一度に 1 つずつ (または一度に数個) アップグレードし、ワークロードの中断を最小限に抑えながら、アップグレードプロセス全体でノードプールを引き続き使用できるようにします。この記事では、サージ設定、ドレインタイムアウト、ソーク時間など、AKS ノードプールのローリングアップグレードを構成する方法について説明します。

開始する前に

コントロールプレーンがターゲットの Kubernetes バージョンに既にアップグレードされていることを確認します。ノードプールをコントロールプレーンより高いバージョンにアップグレードすることはできません。詳細については、「 AKS クラスターコントロールプレーンのアップグレード」を参照してください。
Azure CLI を使っている場合、この記事では Azure CLI バージョン 2.34.1 以降が必要です。 az --version コマンドを使用してバージョンを検索します。インストールまたはアップグレードする必要がある場合は、[Azure CLI のインストール][azure-cli-install] を参照してください。
AKS ノードプールのローリングアップグレードを構成するには、 Microsoft.ContainerService/managedClusters/agentPools/write RBAC ロールのアクセス許可が必要です。

ローリングアップグレードプロセスの概要

ローリングアップグレード中、AKS はノードプール内の各ノードに対して次の操作を実行します。

サージノードの追加: アップグレード中に容量を維持するために、最大サージ (--max-surge) 設定に基づいて新しいバッファーノードを追加します。
ノードのコーディングとドレイン: 実行中のアプリケーションへの影響を最小限に抑えるために、古いノードを一度に1つずつコーディングおよびドレインします。最大サージを使用している場合は、指定されたバッファーノードの数と同じ数のノードが切断され、ドレインされます。
ソーク時間を待機 します (省略可能): アップグレードを続行する前に、構成されたソーク期間を待ってから、新しいノードでワークロードを安定させます。
古いノードの再イメージ化: 古いノードがドレインされると、新しいバージョンを受け取るために再イメージ化されます。再イメージ化されたノードは、アップグレードする次のノードセットのバッファーノードになります。
繰り返し: プロセスは、ノードプール内のすべてのノードがアップグレードされるまで繰り返されます。
サージノードの削除: すべてのノードがアップグレードされると、残りのバッファーノードはすべて削除され、元のノードプールのサイズとバランスが維持されます。

ローリングアップグレードの設定を構成する

ノードサージをカスタマイズする

Important

ノードサージには、アップグレード操作ごとに、要求された最大サージカウントに対するサブスクリプションクォータが必要です。たとえば、クラスターに 5 つのノードプールがあり、そのそれぞれに 4 つのノードが含まれる場合、合計で 20 個のノードがあります。各ノードプールの最大サージ値が 50%の場合、アップグレードを完了するには、10 ノード (2 つの ノード× 5 つの プール) の追加のコンピューティングと IP クォータが必要です。
ノードプールの最大サージ設定は永続的です。以降の Kubernetes アップグレードまたはノードバージョンのアップグレードでは、この設定が使用されます。ノードプールの最大サージ値はいつでも変更できます。運用ノードプールの場合は、最大サージ設定として 33%をお勧めします。
Azure CNI を使用している場合は、Azure CNI の IP 要件を満たすだけの使用可能な IP がサブネット内にあることを検証します。

AKS は、既定で、1 つの追加ノードを使ってサージするようにアップグレードを構成します。最大サージ設定の既定値 1 を使用すると、AKS は、古いバージョン管理されたノードを置き換えるために、既存のアプリケーションのコードオン/ドレインの前に追加のノードを作成することで、ワークロードの中断を最小限に抑えることができます。ノードプールあたりの最大サージ値をカスタマイズできます。最大サージ値を増やすと、アップグレードプロセスは迅速に完了しますが、アップグレードプロセス中により多くの中断が発生する可能性があります。

たとえば、 100% の最大サージ値は、可能な限り最速のアップグレードプロセスを提供しますが、ノードプール内のすべてのノードが同時にドレインされます。テスト環境では、次のようなより高い値を使用できます。運用ノードプールの場合は、 33%の最大サージ設定をお勧めします。

AKS では、最大サージに対して整数値とパーセント値の両方を受け入れます。例えば次が挙げられます。

値の型	Example	Description
整数	`5`	サージする 5 つの追加ノード
百分率	`50%`	プール内の現在のノード数の半分のサージ値

最大サージ率の値には、最小 1% と最大 100%を指定できます。パーセント値は、最も近いノード数に切り上げられます。最大サージ値が、アップグレードが必要なノードの数より大きい場合、アップグレードするノードの数が最大サージ値に使用されます。

最大サージ値を設定する

az aks nodepool addまたは az aks nodepool update コマンドと --max-surge パラメーターを使用して、新規または既存のノードプールの最大サージ値を設定します。例えば次が挙げられます。

# Set max surge for a new node pool
az aks nodepool add \
    --name <node-pool-name> \
    --resource-group <resource-group-name> \
    --cluster-name <cluster-name> \
    --max-surge 33%

# Update max surge for an existing node pool 
az aks nodepool update \
    --name <node-pool-name> \
    --resource-group <resource-group-name> \
    --cluster-name <cluster-name> \
    --max-surge 5

使用できないノードをカスタマイズする

Important

最大使用できない値を設定するには、最大サージを 0 に設定する必要があります。 2 つの値を同時にアクティブにすることはできません。
Max unavailable では、アップグレードプロセス中にサージノードは作成されません。代わりに、AKS は n 個のノード (使用できない最大値) を一度にコードンし、エージェントプール内の他のノードにポッドを退避します。ポッドをスケジュールできない場合は、ワークロードの中断が発生する可能性があります。
ポッドをスケジュールするリソースが少ないため、ポッド中断予算 (PDB) が不満足であるため、最大利用不可の場合、エラーが増える可能性があります。詳細については、「ポッド中断予算のトラブルシューティング」を参照してください。
システムノードプールで最大使用不可を設定することはできません。

AKS では、サージノードを使用しないようにアップグレードを構成し、そのノードを所定の場所にアップグレードすることもできます。使用できない最大値は、既存のノードプールノードから同時に切断およびドレインできるノードの数を決定します。

AKS は、整数値と最大使用不可のパーセンテージ値の両方を受け入れます。例えば次が挙げられます。

値の型	Example	Description
整数	`5`	5 つのノードが既存のノードから切断されている
百分率	`50%`	プール内の現在のノード数の半分は使用できなくなります

使用できない割合の最大値は、最小 1% と最大 100%にすることができます。パーセント値は、最も近いノード数に切り上げられます。

使用できない最大値を設定する

az aks nodepool add パラメーターを指定して、az aks nodepool update、az aks nodepool upgrade、または --max-unavailable コマンドを使用して、新規または既存のノードプールで使用できない最大値を設定します。例えば次が挙げられます。

# Set max unavailable for a new node pool
az aks nodepool add \
    --name <node-pool-name> \
    --resource-group <resource-group-name> \
    --cluster-name <cluster-name> \
    --max-surge 0 \
    --max-unavailable 5

# Update max unavailable for an existing node pool 
az aks nodepool update \
    --name <node-pool-name> \
    --resource-group <resource-group-name> \
    --cluster-name <cluster-name> \
    --max-surge 0 \
    --max-unavailable 5

# Set max unavailable at upgrade time
az aks nodepool upgrade \
    --name <node-pool-name> \
    --resource-group <resource-group-name> \
    --cluster-name <cluster-name> \
    --max-surge 0 \
    --max-unavailable 5

ノードドレインタイムアウトをカスタマイズする

特定のポッドで実行時間の長いワークロードがあり、実行時に別のノードに再スケジュールできない場合があります。たとえば、実行を完了する必要があるメモリ集中型ステートフルワークロードなどです。このような場合は、AKS がアップグレードワークフローで考慮するノードドレインタイムアウトを構成できます。

既定のノードドレインタイムアウト値は 30 分です。ノードドレインタイムアウト値は、最低 5 分、最大 24 時間にすることができます。

ドレインタイムアウト値が経過してもポッドが実行されている場合、アップグレード操作は中断します。後続の PUT 操作では、停止したアップグレードが再開されます。

ヒント

実行時間の長いポッドの場合は、ポッドスペックで terminationGracePeriodSeconds も構成する必要があります。

ノードドレインタイムアウト値を設定する

az aks nodepool add パラメーターを指定した az aks nodepool update または --drain-time-out コマンドを使用して、新規または既存のノードプールのノードドレインタイムアウト (分単位) を設定します。

# Set drain timeout for a new node pool
az aks nodepool add \
    --name <node-pool-name> \
    --resource-group <resource-group-name> \
    --cluster-name <cluster-name> \
    --drain-time-out 100

# Update drain timeout for an existing node pool
az aks nodepool update \
    --name <node-pool-name> \
    --resource-group <resource-group-name> \
    --cluster-name <cluster-name> \
    --drain-time-out 45

ノードのソーク時間をカスタマイズする

ノードをドレインしてから再イメージ化して次のノードに進むまでの間、指定した期間待機を有効にするには、ソーク時間を設定します。このソーク時間により、監視ダッシュボードからアプリケーションの正常性を確認するなど、アップグレードプロセス中に他のタスクを実行する機会が得られます。

既定のノードのソーク時間は 0 分です。ノードのソーク時間の値は、最小 0 分、最大 30 分にすることができます。できるだけ短い時間に浸けることをお勧めします。ノードのソーク時間が長いほど、アップグレードの合計時間が長くなり、問題の検出が遅れます。

ノードのソーク時間の値を設定する

az aks nodepool add フラグを指定して、az aks nodepool update、az aks nodepool upgrade、または --node-soak-duration コマンドを使用して、新規または既存のノードプールのノードソーク時間 (分単位) を設定します。

# Set node soak time for a new node pool
az aks nodepool add \
    --name <node-pool-name> \
    --resource-group <resource-group-name> \
    --cluster-name <cluster-name> \
    --node-soak-duration 10

# Update node soak time for an existing node pool
az aks nodepool update \
    --name <node-pool-name> \
    --resource-group <resource-group-name> \
    --cluster-name <cluster-name> \
    --max-surge 33% \
    --node-soak-duration 5

# Set node soak time when upgrading an existing node pool
az aks nodepool upgrade \
    --name <node-pool-name> \
    --resource-group <resource-group-name> \
    --cluster-name <cluster-name> \
    --max-surge 33% \
    --node-soak-duration 20

AKS ノードのアップグレードイベントを表示する

kubectl get events コマンドを使用してアップグレードイベントを表示し、ローリングアップグレードの進行状況を監視します。

kubectl get events --field-selector reason=Drain,reason=Surge,reason=Upgrade

アップグレードイベント中の出力例:

default  2m1s  Normal  Drain    node/aks-nodepool1-12345678-vmss000001  Draining node: [aks-nodepool1-12345678-vmss000001]
default  9m22s Normal  Surge    node/aks-nodepool1-12345678-vmss000002  Created a surge node [aks-nodepool1-12345678-vmss000002 nodepool1] for agentpool nodepool1
default  1m45s Normal  Upgrade  node/aks-nodepool1-12345678-vmss000001  Soak duration 5m0s after draining node: aks-nodepool1-12345678-vmss000001

運用環境のワークロードに推奨される AKS ノードプールのアップグレード設定

次の表は、運用環境のワークロードに推奨されるノードプールのアップグレード設定の概要を示しています。

Setting	勧告
最大サージ	プロダクションノードプールは 33% に設定
ドレインタイムアウト	実行時間が最も長いポッドの要件に基づいて構成する
ソーク時間	手動検証が必要な場合を除き、短い期間 (0 ~ 5 分) を使用する
ポッド中断予算	ポッドの削除を制御する重要なワークロード用に PDB を構成する
アップグレード順序	非運用ノードプールを最初にアップグレードして新しいバージョンを検証する

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-12-23

次の方法で共有

Azure Kubernetes Service (AKS) ノード プールのローリング アップグレードを構成する