HADR 構成のベストプラクティス (Azure VM 上の SQL Server)

[アーティクル]
07/31/2023

Azure Virtual Machines (VM) 上の SQL Server を使用して高可用性とディザスターリカバリー (HADR) を実現するには、Windows Server フェールオーバークラスターが使用されます。

この記事では、フェールオーバークラスターインスタンス (FCI) と可用性グループの両方について、それらを Azure VM 上の SQL Server と共に使用する場合のクラスター構成のベストプラクティスについて説明します。

詳しくは、このシリーズの他の記事 (チェックリスト、VM のサイズ、ストレージ、セキュリティ、HADR の構成、ベースラインの収集) をご覧ください。

チェックリスト

次のチェックリストを参照して、この記事の残りの部分で詳しく説明されている HADR のベストプラクティスの概要を確認してください。

高可用性とディザスターリカバリー (HADR) 機能 (Always On 可用性グループやフェールオーバークラスターインスタンスなど) は、基盤となる Windows Server フェールオーバークラスターテクノロジに依存しています。クラウド環境への対応を強化するように HADR 設定を変更するためのベストプラクティスを確認してください。

Windows クラスターの場合は、次のベストプラクティスについて検討します。

Azure Load Balancer または分散ネットワーク名 (DNN) に依存しなくても HADR ソリューションにトラフィックをルーティングできるよう、可能な限り SQL Server VM を複数のサブネットにデプロイします。
一時的なネットワーク障害や Azure プラットフォームメンテナンスによって予期しない停止が起こらないよう、クラスターを変更してパラメーターを緩和します。詳細については、ハートビートとしきい値の設定に関する記事を参照してください。 Windows Server 2012 以降の場合は、次の推奨値を使用します。
- SameSubnetDelay: 1 秒
- SameSubnetThreshold: 40 ハートビート
- CrossSubnetDelay: 1 秒
- CrossSubnetThreshold: 40 ハートビート
VM は可用性セットまたは別の可用性ゾーンに配置します。詳細については、「VM の可用性の設定」を参照してください。
クラスターノードごとに 1 つの NIC を使用します。
3 つ以上の奇数の投票を使用するように、クラスターのクォーラム投票を構成します。投票は DR リージョンに割り当てないでください。
リソースの制約による予期しない再起動やフェールオーバーが発生しないように、リソース制限を慎重に監視します。
- OS、ドライバー、SQL Server が最新のビルドになっていることを確認します。
- Azure VM 上での SQL Server のパフォーマンスを最適化します。詳細については、この記事の他のセクションを参照してください。
- リソース制限に達しないように、ワークロードを削減または分散します。
- 制約を回避するために、より制限の高い VM またはディスクに移行します。

SQL Server の可用性グループまたはフェールオーバークラスターインスタンスの場合は、こちらのベストプラクティスを検討してください。

予期しないエラーが頻繁に発生する場合は、この記事の残りの部分で説明されているパフォーマンスのベストプラクティスに従ってください。
SQL Server VM のパフォーマンスを最適化しても予期しないフェールオーバーが解決されない場合は、可用性グループまたフェールオーバークラスターインスタンスの監視を緩和することを検討してください。ただし、そうすることで問題の根底にある原因に対処できない場合があり、障害の可能性を減らすことで症状が表に現れない可能性があります。その場合でも、根底にある根本原因を調査して対処しなければならない場合があります。 Windows Server 2012 以降の場合は、次の推奨値を使用します。
- リースタイムアウト: こちらの式を使用して、リースタイムアウトの最大値を計算します。
  Lease timeout < (2 * SameSubnetThreshold * SameSubnetDelay)。
  40 秒から始めます。先ほど推奨した緩和されている SameSubnetThreshold と SameSubnetDelay の値を使用している場合は、リースタイムアウト値が 80 秒を超えないようにしてください。
- 指定した期間の最大エラー数: この値は 6 に設定します。
仮想ネットワーク名 (VNN) と Azure Load Balancer を使用して HADR ソリューションに接続する場合は、お使いのクラスターが 1 つのサブネットにしかまたがっていない場合でも、接続文字列に MultiSubnetFailover = true を指定します。
- クライアントで MultiSubnetFailover = True がサポートされていない場合は、RegisterAllProvidersIP = 0 および HostRecordTTL = 300 を設定して、クライアント資格情報をより短期間だけキャッシュすることが必要になる可能性があります。ただし、そうすることで、DNS サーバーに対して追加のクエリが発生する場合があります。

分散ネットワーク名 (DNN) を使用して HADR ソリューションに接続する場合は、以下の注意点があります。
- MultiSubnetFailover = True をサポートするクライアントドライバーを使用する必要があります。このパラメーターは接続文字列に含める必要があります。
- 可用性グループの DNN リスナーに接続するときに、接続文字列内の一意の DNN ポートを使用します。
基本の可用性グループのデータベースミラーリング接続文字列を使用して、ロードバランサーまたは DNN の必要性をなくします。
高可用性ソリューションをデプロイする前に VHD のセクターサイズを検証して、I/O の不整合を回避します。詳細については、KB3009974 を参照してください。
SQL Server データベースエンジン、Always On 可用性グループリスナー、またはフェールオーバークラスターインスタンスの正常性プローブが 49,152 から65,536 の間のポート (TCP/IP の既定の動的ポート範囲) を使うように構成されている場合は、各ポートの除外を追加します。このようにすると、他のシステムが同じポートを動的に割り当てるのを防ぐことができます。次の例では、ポート 59999 の除外を作成します。
netsh int ipv4 add excludedportrange tcp startport=59999 numberofports=1 store=persistent

HADR チェックリストを他のベストプラクティスと比べるには、総合的なパフォーマンスのベストプラクティスのチェックリストをご覧ください。

VM 可用性設定

ダウンタイムの影響を軽減するために、次に示す VM の最適な可用性設定を検討してください。

近接配置グループを高速ネットワークと共に使用して、最短の待ち時間を実現します。
仮想マシンのクラスターノードの配置場所を、別々の可用性ゾーン内にしてデータセンターレベルの障害から保護するか、1 つの可用性セット内にして同じデータセンター内で低遅延冗長性を確保します。
可用性セット内の VM では、Premium マネージド OS およびデータディスクを使用します。
各アプリケーション層に対して別々の可用性セットを構成します。

Quorum

2 ノードクラスターはクォーラムリソースなしでも機能しますが、実稼働サポートを受けるにはクォーラムリソースを使用することが必須です。クラスターの検証で、クォーラムリソースを使用していないクラスターが合格することはありません。

技術的には、3 ノードクラスターは、クォーラムリソースがなくても 1 つのノードの損失 (2 ノードまでのダウン) に耐えることができますが、クラスターが 2 ノードまでダウンした後で、さらに別のノードの損失または通信障害が発生した場合は、クラスター化されたリソースがオフラインになり、スプリットブレインシナリオが妨げられるというリスクがあります。クォーラムリソースを構成することで、1 つのノードのみをオンラインにしてクラスターのオンラインを続行できます。

ディスク監視は最も回復性の高いクォーラムオプションですが、Azure VM 上の SQL Server でディスク監視を使用するには、高可用性ソリューションにいくつかの制限を課す Azure 共有ディスクを使用する必要があります。そのため、Azure 共有ディスクを使用してフェールオーバークラスターインスタンスを構成する場合は、ディスク監視を使用します。それ以外の場合は、可能な限りクラウド監視を使用します。

次の表は、Azure VM 上の SQL Server で使用できるクォーラムオプションの一覧です。

	クラウド監視	ディスク監視	ファイル共有監視
サポートされる OS	Windows Server 2016 以降	All	すべて

クラウド監視は、複数のサイト、複数のゾーン、複数のリージョンでのデプロイに最適です。共有ストレージクラスターソリューションを使用している場合を除き、可能な限りクラウド監視を使用してください。
ディスク監視は、最も回復性に優れたクォーラムオプションであり、Azure 共有ディスク (または共有 SCSI、iSCSI、ファイバーチャネル SAN などの共有ディスクソリューション) を使用するすべてのクラスターに最適です。クラスター共有ボリュームをディスク監視として使用することはできません。
ファイル共有監視は、ディスク監視とクラウド監視がオプションとして使用できない場合に適しています。

概要については、クラスタークォーラムの構成に関するページを参照してください。

クォーラム投票

Windows Server フェールオーバークラスターに参加しているノードのクォーラム投票を変更することができます。

ノードの投票設定を変更するときは、これらのガイドラインに従ってください。

クォーラム投票のガイドライン
既定では最初は各ノードで投票は行いません。各ノードでは正当性が明白である場合にのみ投票を行います。
可用性グループのプライマリレプリカをホストするクラスターノード、またはフェールオーバークラスターインスタンスの優先所有者の投票を有効にします。
自動フェールオーバー所有者の投票を有効にします。自動フェールオーバーの結果として、プライマリレプリカまたは FCI をホストする可能性がある各ノードでは投票を行う必要があります。
可用性グループに複数のセカンダリレプリカがある場合は、自動フェールオーバーが設定されているレプリカの投票のみを有効にします。
セカンダリディザスターリカバリーサイトにあるノードの投票を無効にします。プライマリサイトに問題がない場合は、セカンダリサイト内のノードがクラスターをオフラインにするかどうかの判断に影響すべきではありません。
投票数を奇数にし、クォーラム投票が 3 つ以上になるようにします。 2 ノードクラスターで必要に応じて、追加の投票のためにクォーラム監視を追加します。
フェールオーバー後の投票割り当てを再評価します。正常なクォーラムをサポートしていないクラスター構成にフェールオーバーすることは避けてください。

接続性

可用性グループリスナーまたはフェールオーバークラスターインスタンスに接続するためのオンプレミスエクスペリエンスに一致するよう、SQL Server VM を同じ仮想ネットワーク内の複数のサブネットにデプロイします。複数のサブネットを使用すると、トラフィックをリスナーにルーティングするための分散ネットワーク名や Azure Load Balancer への余分な依存関係が不要になります。

HADR ソリューションを簡素化するには、可能な限り、SQL Server VM を複数のサブネットにデプロイします。詳細については、複数サブネットの AG および複数サブネットの FCI に関するページを参照してください。

SQL Server VM が 1 つのサブネット内にある場合は、フェールオーバークラスターインスタンスと可用性グループリスナーの両方に対して、仮想ネットワーク名 (VNN) と Azure Load Balancer、または分散ネットワーク名 (DNN) のいずれかを構成できます。

推奨されている接続オプションは、分散ネットワーク名です (使用可能な場合)。

ロードバランサーのリソースを維持する必要がなくなるため、エンドツーエンドソリューションはより堅牢になります。
ロードバランサーのプローブを排除すると、フェールオーバー時間を最小限に抑えられます。
DNN を使用すると、Azure VM 上の SQL Server を使用するフェールオーバークラスターインスタンスまたは可用性グループリスナーのプロビジョニングと管理が簡単になります。

次の制限が適用されます。

クライアントドライバーで MultiSubnetFailover=True パラメーターがサポートされている必要があります。
DNN 機能は、Windows Server 2016 以降の SQL Server 2016 SP3、SQL Server 2017 CU25、SQL Server 2019 CU8 以降で使用できます。

詳細については、Windows Server フェールオーバークラスターの概要に関するページを参照してください。

接続を構成するには、次の記事を参照してください。

可用性グループ: DNN を構成する、VNN を構成する
フェールオーバークラスターインスタンス: DNN を構成する、VNN を構成する

DNN を使用すると、ほとんどの SQL Server 機能は FCI と可用性グループに対して透過的に機能しますが、特定の機能については、特別な考慮が必要となる場合があります。詳細については、FCI と DNN の相互運用性に関するページと、AG と DNN の相互運用性に関するページを参照してください。

ヒント

1 つのサブネットの HADR ソリューションでも、接続文字列内で MultiSubnetFailover パラメーターを true に設定することで、今後、接続文字列を更新しなくても、複数のサブネットにまたがることができます。

ハートビートとしきい値

クラスターのハートビートとしきい値の設定を、緩和した設定に変更します。既定のハートビートとしきい値のクラスター設定は、高度にチューニングされたオンプレミスネットワーク用に設計され、クラウド環境で待機時間が長くなる可能性は考慮されていません。ハートビートネットワークは UDP 3343 で維持されています。これは従来、TCP よりはるかに信頼性が低く、不完全な会話が発生しやすくなっています。

そのため、Azure VM 高可用性ソリューションで SQL Server のクラスターノードを実行する場合は、より緩和した監視状態にクラスター設定を変更して、ネットワークの待機時間や障害の可能性の増加、Azure メンテナンス、またはリソースのボトルネックの発生による一時的な障害を回避します。

遅延としきい値の設定は、全体的な正常性検出に累積的な影響を与えます。たとえば、復旧を行う前に、2 秒ごとにハートビートを送信するように CrossSubnetDelay を設定し、CrossSubnetThreshold を 10 回のハートビート失敗に設定していると、復旧アクションが実行されるまでにクラスターで可能なネットワーク許容値の合計は 20 秒になります。一般に、ハートビートを頻繁に送信し続ける一方で、しきい値を大きくすることが推奨されています。

一時的な問題に対する許容性を高めながら、正当な停止中に復旧を確実に行うため、遅延としきい値の設定を、次の表に詳しく示す推奨値に緩和してください。

設定	Windows Server 2012 またはそれ以降	Windows Server 2008 R2
SameSubnetDelay	1 秒	2 秒
SameSubnetThreshold	40 ハートビート	10 ハートビート (最大)
CrossSubnetDelay	1 秒	2 秒
CrossSubnetThreshold	40 ハートビート	20 ハートビート (最大)

PowerShell を使用してクラスターパラメーターを変更します。

Windows Server 2012 から 2019
Windows Server 2008/R2

(get-cluster).SameSubnetThreshold = 40
(get-cluster).CrossSubnetThreshold = 40

(get-cluster).SameSubnetThreshold = 10
(get-cluster).CrossSubnetThreshold = 20
(get-cluster).SameSubnetDelay = 2000
(get-cluster).CrossSubnetDelay = 2000

PowerShell を使用して変更を確認します。

get-cluster | fl *subnet*

以下、具体例に沿って説明します。

この変更は即時に行われ、クラスターやリソースを再起動する必要はありません。
同じサブネットの値をクロスサブネットの値より大きくしてはなりません。
SameSubnetThreshold <= CrossSubnetThreshold
SameSubnetDelay <= CrossSubnetDelay

お使いのアプリケーション、ビジネスニーズ、環境に応じて、許容されるダウンタイムの長さおよび是正措置が実行されるまでの期間に基づいて、緩和した値を選択します。既定の Windows Server 2019 の値を超えることができない場合は、可能な限り、それらと一致させることだけでも試みてください。

参照用として、次の表に既定値の詳細を示します。

設定	Windows Server 2019	Windows Server 2016	Windows Server 2008 - 2012 R2
SameSubnetDelay	1 秒	1 秒	1 秒
SameSubnetThreshold	20 ハートビート	10 ハートビート	5 ハートビート
CrossSubnetDelay	1 秒	1 秒	1 秒
CrossSubnetThreshold	20 ハートビート	10 ハートビート	5 ハートビート

詳細については、フェールオーバークラスターネットワークのしきい値の調整に関するページを参照してください。

緩和された監視

推奨どおりにクラスターのハートビートとしきい値の設定をチューニングしても許容度が不十分であり、実際の障害ではなく一時的な問題によるフェールオーバーが引き続き発生する場合は、AG または FCI の監視をより緩く構成できます。一部のシナリオでは、アクティビティのレベルを考慮して、一定の期間、監視を一時的に緩和することが有益な場合があります。たとえば、データベースのバックアップ、インデックスのメンテナンス、DBCC CHECKDB などの IO 集中型のワークロードを実行している場合は、監視を緩和することができます。アクティビティが完了したら、より厳しい値に監視を設定します。

警告

これらの設定を変更すると根本的な問題が隠されてしまう可能性があるため、障害の可能性を低減 (排除ではなく) するための一時的な解決策として利用してください。根本的な問題は引き続き調査して対処する必要があります。

まず、次のパラメーターを既定値から増やして監視を緩和し、必要に応じて調整します。

パラメーター	既定値	緩和された値	説明
正常性チェックタイムアウト	30000	60000	プライマリレプリカまたはノードの正常性を特定します。クラスターリソース DLL `sp_server_diagnostics`は、正常性チェックのタイムアウトしきい値の 3 分の 1 の間隔で結果を返します。 `sp_server_diagnostics`が低速であるか、情報を返さない場合、リソース DLL は正常性チェックのタイムアウトしきい値の間隔が完全に経過するのを待ってから、リソースが無応答であると判断し、自動フェールオーバーを開始します (そのように構成されている場合)。
エラー条件レベル	3	2	自動フェールオーバーをトリガーする条件。エラー条件レベルの範囲は、最も制限が緩いものから (レベル 1)、最も制限の厳しい指定 (レベル 5) まで 5 つあります

Transact-SQL (T-SQL) を使用して、AG と FCI の両方の正常性チェックと失敗の条件を変更します。

可用性グループの場合:

ALTER AVAILABILITY GROUP AG1 SET (HEALTH_CHECK_TIMEOUT =60000);
ALTER AVAILABILITY GROUP AG1 SET (FAILURE_CONDITION_LEVEL = 2);

フェールオーバークラスターインスタンスの場合:

ALTER SERVER CONFIGURATION SET FAILOVER CLUSTER PROPERTY HealthCheckTimeout = 60000;
ALTER SERVER CONFIGURATION SET FAILOVER CLUSTER PROPERTY FailureConditionLevel = 2;

可用性グループの場合のみ、次の推奨パラメーターから始めて、必要に応じて調整します。

パラメーター	既定値	緩和された値	説明
リースのタイムアウト	20000	40000	スプリットブレインを防止します。
セッションのタイムアウト	10000	20000	レプリカ間の通信の問題を確認します。セッションタイムアウト期間は、接続されたレプリカからの ping 応答を可用性レプリカが待機する期間を制御するレプリカプロパティです。この期間を過ぎると、接続に失敗したと見なされます。既定では、レプリカは ping 応答を 10 秒間待機します。このレプリカプロパティは、可用性グループ内の指定したセカンダリレプリカとプライマリレプリカ間の接続のみに適用されます。
指定した期間の最大エラー数	2	6	複数のノード障害の中で、クラスター化されたリソースが無期限に移動されるのを避けるために使用されます。値が小さすぎると、可用性グループが失敗した状態になるおそれがあります。値を大きくすることで、パフォーマンスの問題による短時間の中断を防いでください。値が小さすぎると AG が失敗した状態になるおそれがあるためです。

変更を行う前に、次の点を考慮してください。

タイムアウト値は既定値を下回るほど低くしないでください。
こちらの式を使用して、リースタイムアウトの最大値を計算しますLease timeout < (2 * SameSubnetThreshold * SameSubnetDelay)。
40 秒から始めます。先ほど推奨した緩和されている SameSubnetThreshold と SameSubnetDelay の値を使用している場合は、リースタイムアウト値が 80 秒を超えないようにしてください。
同期コミットレプリカの場合、セッションタイムアウトを大きな値に変更すると、HADR_sync_commit 待機が増える場合があります。

リースのタイムアウト

フェールオーバークラスターマネージャーを使用して、可用性グループのリースタイムアウト設定を変更します。詳細な手順については、SQL Server 可用性グループのリース正常性チェックに関するドキュメントを参照してください。

セッションのタイムアウト

Transact-SQL (T-SQL) を使用して、可用性グループのセッションタイムアウトを変更します。

ALTER AVAILABILITY GROUP AG1
MODIFY REPLICA ON 'INSTANCE01' WITH (SESSION_TIMEOUT = 20);

指定した期間の最大エラー数

フェールオーバークラスターマネージャーを使用して、 [指定した期間の最大エラー数] の値を変更します。

ナビゲーションウィンドウの [役割] を選択します。
[役割] で、クラスター化されたリソースを右クリックし、 [プロパティ] を選択します。
[フェールオーバー] タブを選択し、必要に応じて [指定した期間の最大エラー数] の値を増やします。

リソースの制限

VM またはディスクの制限により、クラスターの正常性に影響を与え、正常性チェックを妨げるリソースのボトルネックが発生するおそれがあります。リソースの制限に関する問題が発生している場合は、以下を検討してください。

OS、ドライバー、SQL Server が最新のビルドになっていることを確認します。
Azure Virtual Machines における SQL Server のパフォーマンスガイドラインの説明に従って、Azure VM 環境の SQL Server を最適化してください
ワークロードを削減または分散して、リソースの制限を超えることなく使用率を削減してください
次のような機会があれば、SQL Server のワークロードを調整します。
- インデックスを追加/最適化する
- 必要に応じて、可能であればフルスキャンで統計を更新する
- Resource Governor (SQL Server 2014 enterprise 以降のみ) などの機能を使用して、バックアップやインデックスのメンテナンスなど、特定のワークロード時のリソース使用率を制限する。
より制限の高い VM またはディスクに移動して、ワークロードの要求を満たす、または超えるようにします。

ネットワーク

Azure Load Balancer または分散ネットワーク名 (DNN) に依存しなくても HADR ソリューションにトラフィックをルーティングできるよう、可能な限り SQL Server VM を複数のサブネットにデプロイします。

サーバー (クラスターノード) ごとに 1 つの NIC を使用します。 Azure ネットワークは物理的な冗長を備えているので、Azure 仮想マシンのゲストクラスターに NIC を追加する必要はありません。クラスター検証レポートには、ノードは 1 つのネットワーク上でのみ到達可能であることを警告するメッセージが表示されます。 Azure 仮想マシンのゲストフェールオーバークラスターでは、この警告を無視できます。

特定の VM の帯域幅の制限は NIC 間で共有され、NIC を追加しても、Azure VM 上の SQL Server の可用性グループパフォーマンスは向上しません。そのため、2 つ目の NIC を追加する必要はありません。

Azure の RFC に準拠していない DHCP サービスにより、特定のフェールオーバークラスター構成の作成に失敗する可能性があります。この失敗は、クラスターネットワーク名に重複する IP アドレス (クラスターノードの 1 つと同じ IP アドレスなど) が割り当てられていることが原因で発生します。これは、Windows フェールオーバークラスター機能に依存する、可用性グループを使用するときに問題になります。

2 ノードクラスターを作成し、オンラインにするシナリオを考えてみましょう。

クラスターがオンラインになると、NODE1 によって、クラスターネットワーク名のために動的に割り当てられた IP アドレスが要求されます。
DHCP サービスでは要求が NODE1 自体からのものであることが認識されるため、DHCP サービスで NODE1 自体の IP アドレス以外の IP アドレスは提供されません。
NODE1 とフェールオーバークラスターのネットワーク名の両方に重複するアドレスが割り当てられていることが Windows によって検出されると、既定のクラスターグループはオンラインになることができません。
既定のクラスターグループは NODE2 に移動されます。 NODE2 によって、NODE1 の IP アドレスはクラスター IP アドレスとして処理され、既定のクラスターグループがオンラインになります。
NODE2 では、NODE1 との接続を確立しようとするときに、NODE1 の IP アドレスがそれ自体に解決されるため、NODE1 宛てのパケットは NODE2 から送信されません。 NODE2 では NODE1 との接続を確立できず、クォーラムが失われ、クラスターがシャットダウンされます。
NODE1 では NODE2 にパケットを送信できますが、NODE2 は応答できません。 NODE1 はクォーラムを失い、クラスターをシャットダウンします。

このシナリオは、クラスターネットワーク名をオンラインにし、IP アドレスを Azure Load Balancer に追加するために、クラスターネットワーク名に未使用の静的 IP アドレスを割り当てることによって回避できます。

SQL Server データベースエンジン、Always On 可用性グループリスナー、フェールオーバークラスターインスタンスの正常性プローブ、データベースミラーリングエンドポイント、クラスターコア IP リソース、またはその他の SQL リソースが 49,152 から 65,536 の間のポート (TCP/IP の既定の動的ポート範囲) を使うように構成されている場合は、各ポートの除外を追加します。これにより、他のシステムプロセスが同じポートを動的に割り当てるのを防ぐことができます。次の例では、ポート 59999 の除外を作成します。

netsh int ipv4 add excludedportrange tcp startport=59999 numberofports=1 store=persistent

ポートが使用されていないときにポート除外を構成することが重要です。そうでないと、コマンドは "ファイルは別のプロセスで使用されているため、このプロセスからアクセスすることはできません" のようなメッセージと共に失敗します。

除外が正しく構成されていることを確認するには、コマンド netsh int ipv4 show excludedportrange tcp を使用します。

可用性グループロールの IP プローブポートでこの除外を設定すると、状態 10048 でイベント ID: 1069 などのイベントが防止されるはずです。このイベントは Windows フェールオーバークラスターイベントで見られることがあり、次のメッセージが表示されます。

Cluster resource '<IP name in AG role>' of type 'IP Address' in cluster role '<AG Name>' failed.
An Event ID: 1069 with status 10048 can be identified from cluster logs with events like:
Resource IP Address 10.0.1.0 called SetResourceStatusEx: checkpoint 5. Old state OnlinePending, new state OnlinePending, AppSpErrorCode 0, Flags 0, nores=false
IP Address <IP Address 10.0.1.0>: IpaOnlineThread: **Listening on probe port 59999** failed with status **10048**
Status [**10048**](/windows/win32/winsock/windows-sockets-error-codes-2) refers to: **This error occurs** if an application attempts to bind a socket to an **IP address/port that has already been used** for an existing socket.

この原因としては、プローブポートとして定義されているものと同じポートが内部プロセスで使用されることが考えられます。プローブポートは Azure Load Balancer からバックエンドプールインスタンスの状態を確認する目的で使用されることを思い出してください。
バックエンドインスタンスからの応答取得を正常性プローブで失敗した場合、正常性プローブが再び成功するまで、そのバックエンドインスタンスに新しい接続は送信されません。

既知の問題

一般的に知られている問題とエラーの解決策を確認します。

リソースの競合 (特に IO) によってフェールオーバーが発生する

VM の I/O または CPU 容量を使い切ると、可用性グループがフェールオーバーする可能性があります。フェールオーバーの直前に発生した競合を特定することは、自動フェールオーバーの原因を突き止める最も信頼性の高い方法です。 Azure Virtual Machines を監視してストレージ IO 使用率メトリックを確認し、VM またはディスクのレベルでの待ち時間を把握します。

Azure VM 全体の IO 枯渇イベントを確認するには、次の手順のようにします。

Azure Portal で [仮想マシン] に移動します ([SQL 仮想マシン] ではありません)。
[監視] の [メトリック] を選んで、[メトリック] ページを開きます。
[ローカル時間] を選択して、関心のある時間の範囲と、タイムゾーン (VM に対するローカルまたは UTC/GMT のいずれか) を指定します。
[メトリックの追加] を選び、次の 2 つのメトリックを追加してグラフを表示します。
- VM のキャッシュされた帯域幅の消費率
- VM のキャッシュされていない帯域幅の消費率

Screenshot of the Metrics page in the Azure portal.

Azure VM の HostEvent によってフェールオーバーが発生する

Azure VM の HostEvent によって可用性グループがフェールオーバーされる可能性があります。 Azure VM の HostEvent によってフェールオーバーが発生したと思われる場合は、Azure Monitor のアクティビティログと Azure VM の Resource Health の概要をチェックできます。

Azure Monitor のアクティビティログは Azure のプラットフォームログであり、サブスクリプションレベルのイベントに関する分析情報を提供します。このアクティビティログには、リソースが変更されたときや仮想マシンが起動されたときなどの情報が含まれます。 Azure portal でアクティビティログを表示したり、PowerShell と Azure CLI を使用してエントリを取得したりすることができます。

Azure Monitor のアクティビティログを調べるには、次の手順のようにします。

Azure portal で仮想マシンに移動します
[仮想マシン] ペインで [アクティビティログ] を選びます
[期間] を選び、可用性グループがフェールオーバーされた期間を選びます。 [適用] を選択します。

プラットフォームによって開始された使用不可状態の根本原因に関する詳細情報が Azure にある場合、その情報は、最初に使用不可になってから最大 72 時間は Azure VM の Resource Health の概要ページに表示されている可能性があります。この情報は、現在、仮想マシンについてのみ利用できます。

Azure portal で仮想マシンに移動します
[正常性] ペインの [リソース正常性] を選びます。

Screenshot of the Resource Health page in the Azure portal.

このページから正常性イベントに基づくアラートを構成することもできます。

クラスターノードがメンバーシップから削除された

Windows クラスターのハートビートとしきい値の設定が環境に対して厳格すぎる場合は、システムイベントログに次のメッセージが頻繁に表示されることがあります。

Error 1135
Cluster node 'Node1' was removed from the active failover cluster membership.
The Cluster service on this node may have stopped. This could also be due to the node having
lost communication with other active nodes in the failover cluster. Run the Validate a
Configuration Wizard to check your network configuration. If the condition persists, check
for hardware or software errors related to the network adapters on this node. Also check for
failures in any other network components to which the node is connected such as hubs, switches, or bridges.

詳細については、「イベント ID 1135 のクラスターの問題のトラブルシューティング」を参照してください。

リースの有効期限が切れた、リースが無効になった

監視が環境に対して厳しすぎる場合、可用性グループまたは FCI の再起動、エラー、またはフェールオーバーが頻繁に発生することがあります。また、可用性グループについて、SQL Server エラーログに次のメッセージが表示される場合があります。

Error 19407: The lease between availability group 'PRODAG' and the Windows Server Failover Cluster has expired.
A connectivity issue occurred between the instance of SQL Server and the Windows Server Failover Cluster.
To determine whether the availability group is failing over correctly, check the corresponding availability group
resource in the Windows Server Failover Cluster

Error 19419: The renewal of the lease between availability group '%.*ls' and the Windows Server Failover Cluster
failed because the existing lease is no longer valid.

[接続タイムアウト]

セッションタイムアウトが可用性グループの環境に対して厳格すぎる場合は、次のメッセージが頻繁に表示されることがあります。

Error 35201: A connection timeout has occurred while attempting to establish a connection to availability
replica 'replicaname' with ID [availability_group_id]. Either a networking or firewall issue exists,
or the endpoint address provided for the replica is not the database mirroring endpoint of the host server instance.

Error 35206
A connection timeout has occurred on a previously established connection to availability
replica 'replicaname' with ID [availability_group_id]. Either a networking or a firewall issue
exists, or the availability replica has transitioned to the resolving role.

グループがフェールオーバーされない

[指定した期間の最大エラー数] の値が小さすぎて、一時的な問題による断続的なエラーが発生している場合、可用性グループが失敗した状態で終了するおそれがあります。この値を増やして、一時的な障害をより多く許容するようにします。

Not failing over group <Resource name>, failoverCount 3, failoverThresholdSetting <Number>, computedFailoverThreshold 2.

イベント 1196 - ネットワーク名リソースで関連付けられた DNS 名の登録が失敗しました

各クラスターノードの NIC 設定を調べて、外部 DNS レコードが存在しないことを確認します
クラスターの A レコードが内部 DNS サーバーに存在することを確認します。ない場合は、クラスターのアクセス制御オブジェクト用の新しい A レコードを手動で DNS サーバーに作成し、[同じ所有者名の DNS レコードの更新を認証されたユーザーに許可する] をオンにします。
IP リソースがオフラインになっているリソースの "クラスター名" を取得し、それを修正します。

イベント 157 - ディスクが予期せず削除されました

これは、AG 環境で記憶域スペースのプロパティ AutomaticClusteringEnabled が True に設定されている場合に発生する可能性があります。それを False に変更します。また、ストレージオプションを使用して検証レポートを実行すると、ディスクのリセットまたは予期しない削除イベントがトリガーされることがあります。ストレージシステムの調整により、ディスクの予期しない削除イベントがトリガーされる可能性もあります。

イベント 1206 - クラスターネットワーク名リソースをオンラインにすることができません

リソースに関連付けられているコンピューターオブジェクトを、ドメインで更新できませんでした。ドメインでの適切なアクセス許可があることを確認します

Windows クラスタリングのエラー

通信用にクラスターサービスポートを開いていない場合、Windows フェールオーバークラスターまたはその接続のセットアップ中に問題が発生することがあります。

Windows Server 2019 を使用していて、Windows クラスター IP が表示されない場合は、分散ネットワーク名が構成されていますが、これは SQL Server 2019 でのみサポートされています。以前のバージョンの SQL Server を使用している場合は、クラスターを削除し、ネットワーク名を使用して再作成することができます。

その他の Windows フェールオーバークラスタリングイベントエラーとその解決方法については、こちらをご覧ください

次のステップ

詳細については、以下をご覧ください。

HADR 構成のベストプラクティス (Azure VM 上の SQL Server)

チェックリスト

VM 可用性設定

Quorum

クォーラム投票

接続性

ハートビートとしきい値

緩和された監視

リソースの制限

ネットワーク

既知の問題

リソースの競合 (特に IO) によってフェールオーバーが発生する

Azure VM の HostEvent によってフェールオーバーが発生する

クラスターノードがメンバーシップから削除された

リースの有効期限が切れた、リースが無効になった

[接続タイムアウト]

グループがフェールオーバーされない

イベント 1196 - ネットワーク名リソースで関連付けられた DNS 名の登録が失敗しました

イベント 157 - ディスクが予期せず削除されました

イベント 1206 - クラスターネットワーク名リソースをオンラインにすることができません

Windows クラスタリングのエラー

次のステップ

フィードバック

フィードバック

その他のリソース

HADR 構成のベスト プラクティス (Azure VM 上の SQL Server)

チェック リスト

VM 可用性設定

Quorum

クォーラム投票

接続性

ハートビートとしきい値

緩和された監視

リソースの制限

ネットワーク

既知の問題

リソースの競合 (特に IO) によってフェールオーバーが発生する

Azure VM の HostEvent によってフェールオーバーが発生する

クラスター ノードがメンバーシップから削除された

リースの有効期限が切れた、リースが無効になった

[接続タイムアウト]

グループがフェールオーバーされない

イベント 1196 - ネットワーク名リソースで関連付けられた DNS 名の登録が失敗しました

イベント 157 - ディスクが予期せず削除されました

イベント 1206 - クラスター ネットワーク名リソースをオンラインにすることができません

Windows クラスタリングのエラー

次のステップ

フィードバック

フィードバック

その他のリソース

HADR 構成のベストプラクティス (Azure VM 上の SQL Server)

チェックリスト

クラスターノードがメンバーシップから削除された

イベント 1206 - クラスターネットワーク名リソースをオンラインにすることができません