Queue Storage のパフォーマンスとスケーラビリティのチェックリスト

2023-06-01

Microsoft は、Queue Storage を使用して高パフォーマンスアプリケーションを開発するための多数の実証済みプラクティスを開発してきました。このチェックリストでは、パフォーマンスを最適化するために開発者が従うことのできる主要なプラクティスを示します。アプリケーションを設計している間、およびプロセス全体を通して、これらのプラクティスに留意してください。

Azure Storage には、容量、トランザクションレート、および帯域幅についてスケーラビリティとパフォーマンスのターゲットがあります。 Azure Storage のスケーラビリティターゲットの詳細については、「Standard Storage アカウントのスケーラビリティとパフォーマンスのターゲット」および「Queue Storage のスケーラビリティとパフォーマンスのターゲット」を参照してください。

チェックリスト

この記事では、パフォーマンスに関する実証済みプラクティスを、Queue Storage アプリケーションの開発中に従うことのできるチェックリストにまとめています。

完了	カテゴリ	設計上の考慮事項
	スケーラビリティターゲット	使用するストレージアカウントの数が最大数以下になるようにアプリケーションを設計できますか?
	スケーラビリティターゲット	容量とトランザクションの制限に近づかないようにしていますか?
	ネットワーク	クライアント側のデバイスは、必要なパフォーマンスを達成するのに十分な高帯域幅と低遅延を備えていますか?
	ネットワーク	クライアント側のデバイスには、高品質のネットワークリンクがありますか?
	ネットワーク	クライアントアプリケーションは、ストレージアカウントと同じリージョンにありますか?
	クライアントへの直接アクセス	Shared Access Signature (SAS) とクロスオリジンリソース共有 (CORS) を使用して、Azure Storage への直接アクセスを有効にしていますか?
	.NET 構成	.NET Framework アプリケーションの場合、十分な数のコンカレント接続を使用するようにクライアントを構成していますか?
	.NET 構成	.NET Framework アプリケーションの場合、十分な数のスレッドを使用するように .NET を構成しましたか?
	Parallelism	クライアントの機能に過剰な負荷を掛けたり、スケーラビリティターゲットに近づいたりしないように、並列処理が適切に制限されていることを確認しましたか?
	ツール	Microsoft が提供する最新バージョンのクライアントライブラリとツールを使用していますか?
	[再試行の回数]	エクスポネンシャルバックオフを使ってエラーとタイムアウトを調整する再試行ポリシーを使用していますか?
	[再試行の回数]	再試行できないエラーに対するアプリケーションの再試行を回避していますか?
	構成	小さな要求のパフォーマンスを上げるために、Nagle アルゴリズムをオフにしていますか?
	メッセージサイズ	キューのパフォーマンスが向上するようにメッセージをコンパクトにしていますか?
	一括取得	1 回の get 操作で複数のメッセージを取得していますか?
	ポーリング頻度	アプリケーションの知覚可能な遅延を減らすために、ポーリング頻度は十分ですか?
	更新メッセージ	エラー発生時にメッセージ全体の再処理が必要になる事態を回避するために、メッセージ更新操作を実行してメッセージ処理中の進捗を格納していますか?
	アーキテクチャ	キューを使用して、クリティカルパスから長期間のワークロードを外し、アプリケーション全体の拡張性を高めて、その後、個別に規模を設定していますか?

スケーラビリティターゲット

アプリケーションがいずれかのスケーラビリティターゲットに近づいたり超過したりすると、トランザクション待機時間や調整が増加することがあります。 Azure Storage によってアプリケーションが調整されると、サービスが 503 (Server Busy) または 500 (Operation Timeout) のエラーコードを返し始めます。スケーラビリティターゲットの制限内にとどまることでこれらのエラーを回避することは、アプリケーションのパフォーマンスを強化するうえで重要な部分です。

Queue Storage のスケーラビリティターゲットの詳細については、Azure Storage のスケーラビリティおよびパフォーマンスのターゲットに関するセクションを参照してください。

ストレージアカウントの最大数

特定のサブスクリプションとリージョンの組み合わせについて許容されるストレージアカウントの最大数に近づいてきた場合に、複数のストレージアカウントを使用したシャード化により、イングレス、エグレス、1 秒あたりの I/O 操作 (IOPS)、または容量を増やすことがあります。このシナリオでは、ワークロードに必要なストレージアカウントの数を減らすために、可能であればストレージアカウントの制限を引き上げることをお勧めします。 Azure サポートに連絡して、ストレージアカウントの制限の引き上げをご依頼ください。

容量とトランザクションのターゲット

アプリケーションが 1 つのストレージアカウントに対するスケーラビリティターゲットに接近している場合は、次の方法のいずれかを検討し、適用します。

キューのスケーラビリティターゲットがアプリケーションにとって十分でない場合は、複数のキューを使用してメッセージを分散させる必要があります。
対象のアプリケーションでスケーラビリティターゲットに対する接近や超過を引き起こしたワークロードを見直します。設計を変更して、必要な帯域幅や処理能力を抑えたり、トランザクションを減らしたりすることができないでしょうか?
アプリケーションがいずれかのスケーラビリティターゲットを超過することがほぼ確実な場合には、複数のストレージアカウントを作成し、それらのアカウントにアプリケーションデータを分けて配置します。このパターンを使用する場合は、後で負荷分散用のストレージアカウントを追加できるようにアプリケーションを設計してください。ストレージアカウント自体では、データ保存、トランザクション実行、データ転送以外の使用に料金が発生することはありません。
アプリケーションが帯域幅ターゲットに近づいてきた場合は、クライアント側でデータを圧縮し、Azure Storage へのデータ送信に必要な帯域幅を削減する方法を検討します。データを圧縮することにより帯域幅の節約とネットワークパフォーマンスの改善が期待できますが、パフォーマンスにマイナスの影響が及ぶ可能性もあります。クライアント側でデータの圧縮と展開の処理要件が増加することにより生じるパフォーマンスへの影響を評価してください。圧縮データを格納すると、標準ツールを使用してデータが見づらくなるため、トラブルシューティングが困難になる場合があることに留意してください。
アプリケーションがスケーラビリティターゲットに近づいている場合は、再試行にエクスポネンシャルバックオフを使用していることを確認してください。この記事に書かれている推奨事項を実践して、スケーラビリティターゲットへの到達を回避することを強くお勧めします。ただし、再試行にエクスポネンシャルバックオフを使用するとアプリケーションの迅速な再試行が妨げられ、調整が悪化する可能性もあります。詳細については、「タイムアウトエラーとサーバービジーエラー」セクションを参照してください。

ネットワーク

アプリケーションの物理ネットワークの制約がパフォーマンスに大きな影響を及ぼすことがあります。以降のセクションでは、ユーザーが遭遇する可能性のあるいくつかの制限について説明します。

クライアントのネットワーク機能

ネットワークリンクの帯域幅と接続品質は、アプリケーションのパフォーマンスに重要な役割を果たします。以降のセクションでは、この点について説明しています。

スループット

帯域幅については、多くの場合にクライアントの処理能力が問題になります。大きい Azure インスタンスは、処理能力の高い NIC を使用します。そのため、1 台のコンピューターのネットワーク制限を引き上げる必要がある場合は、大きなインスタンスを使用するか VM の数を増やすことを検討してください。オンプレミスのアプリケーションから Azure Storage にアクセスする場合にも、同じ規則が当てはまります。クライアントデバイスのネットワーク性能と、Azure Storage の場所へのネットワーク接続を把握し、それらを必要に応じて増強するか、それぞれの性能の範囲内でアプリケーションが稼働するように設計してください。

接続品質

他のネットワーク運用と同様に、エラーやパケット損失が生じるネットワーク状態では、遅延が生じて有効なスループットが損なわれることに留意してください。 Wireshark またはネットワークモニターを使用すると、この問題の診断に役に立つ可能性があります。

場所

分散型環境では、サーバーの近くにクライアントを配置すると、パフォーマンスが最大になります。最小限の遅延で Azure Storage にアクセスするには、同じ Azure リージョン内にクライアントを配置するのが最適です。たとえば、Azure Storage を使用する Azure Web アプリを 1 つ保有している場合は、その両方を単一のリージョン内に配置します (米国西部や東南アジア)。リソースを併置することにより待ち時間が短縮され、コストが低下します。1 つのリージョン内での帯域幅使用は無料であるためです。

Azure 内にホストされていないクライアントアプリケーション (モバイルデバイスアプリやオンプレミスのエンタープライズサービスなど) が Azure Storage にアクセスする場合、それらのクライアントに近いリージョンにストレージアカウントを配置することで待機時間が短くなる可能性があります。クライアントが広範囲に分散されている場合 (一部が北米に、一部がヨーロッパに存在する場合など) は、ストレージアカウントをリージョンごとに 1 つ使用することを検討します。アプリケーションが保存するデータが個々のユーザーに固有であり、ストレージアカウント間でデータをレプリケートする必要がなければ、これは導入しやすい方法です。

SAS と CORS

ユーザーの Web ブラウザーや携帯電話アプリで実行されている JavaScript などのコードが Azure Storage 内のデータにアクセスするのを承認する必要があるとします。 1 つの方法として、プロキシとして動作するサービスアプリケーションを作成することが考えられます。このサービスに対してユーザーのデバイスが認証を行うと、Azure Storage リソースへのアクセスがそのサービスによって承認されるというものです。この方法では、安全でないデバイスにストレージアカウントキーを知らせずに済みます。しかし、この方法では、サービスアプリケーションに大きなオーバーヘッドが生じます。ユーザーのデバイスと Azure Storage との間で転送されるデータがすべてそのサービスアプリケーションを通過することになるためです。

Shared Access Signature (SAS) を使用すると、サービスアプリケーションを Azure Storage のプロキシとして用いることを回避できます。 SAS を使用すれば、ユーザーのデバイスから制限付きアクセストークンを使って、Azure Storage に直接要求を実行できるようになります。たとえば、ユーザーがアプリケーションに写真をアップロードしたい場合に、サービスアプリケーションで SAS を生成してユーザーのデバイスに送信することが考えられます。 Azure Storage リソースへの書き込みアクセス許可を SAS トークンで与えることが可能です。アクセス許可には期間が指定され、その期間を過ぎると SAS トークンの有効期限が切れます。 SAS の詳細については、「Shared Access Signatures (SAS) を使用して Azure Storage リソースへの制限付きアクセスを許可する」を参照してください。

通常、あるドメイン上の Web サイトでホストされているページの JavaScript が、別のドメインに対して特定の操作 (書き込みなど) を実行することは、Web ブラウザーによって許可されません。このポリシーは "同一オリジンポリシー" と呼ばれ、ページ上の悪意のあるスクリプトが別の Web ページ上のデータにアクセスすることを阻止するものです。ただし、クラウドのソリューションを構築するときには、同一オリジンポリシーが制限になることがあります。クロスオリジンリソース共有 (CORS) はブラウザーの機能です。ソースドメインで生成された要求が信頼済みであることをターゲットドメインがブラウザーに伝達できます。

たとえば、Azure で実行されている Web アプリケーションが Azure Storage アカウントにリソースを要求するとします。 Web アプリケーションがソースドメインで、ストレージアカウントがターゲットドメインです。任意の Azure Storage サービスに対して CORS を構成して、ソースドメインからの要求が Azure Storage によって信頼されていることを Web ブラウザーに伝えることができます。 CORS の詳細については、「Azure Storage でのクロスオリジンリソース共有 (CORS) のサポート」を参照してください。

SAS と CORS はどちらも、Web アプリケーションに対する不要な負荷をなくす効果があります。

.NET 構成

このセクションでは、.NET Framework を使用するプロジェクトの場合に、パフォーマンスの大幅な向上を図るために利用できるいくつかの簡単な構成設定を示します。 .NET 以外の言語を使用している場合は、その言語に類似の概念がないか確認してください。

既定の接続数の上限を引き上げる

Note

接続プールは ServicePointManager クラスによって制御されるため、このセクションは .NET Framework を使用するプロジェクトに適用されます。 .NET Core では、接続プールの管理に関して大幅な変更が導入されました。接続プールは HttpClient レベルで行われ、既定ではプールのサイズが制限されません。つまり、HTTP 接続はワークロードを満たすように自動的にスケーリングされます。パフォーマンスの向上を活用するには、可能な場合は最新バージョンの .NET を使用することをお勧めします。

.NET Framework を使用するプロジェクトでは、次のコードを使用して、既定の接続数の上限 (通常、クライアント環境では 2、サーバー環境では 10) を 100 に引き上げることができます。一般的に、この値はアプリケーションが使用するおおよそのスレッド数に設定します。接続数の上限は、接続を開始する前に設定してください。

ServicePointManager.DefaultConnectionLimit = 100; //(Or More)

.NET Framework での接続プールの制限について詳しくは、「.NET Framework での接続プールの制限と .NET 用の新しい Azure SDK」をご覧ください。

他のプログラミング言語については、ドキュメントを参照して接続数の上限の設定方法を確認してください。

スレッドの最小数を増やす

同期呼び出しを非同期タスクと共に使用している場合、スレッドプールのスレッド数を増やしたい場合があります。

ThreadPool.SetMinThreads(100,100); //(Determine the right number for your application)

詳細については、ThreadPool.SetMinThreads メソッドを参照してください。

無制限の並列処理

並列処理はパフォーマンスの観点では非常に有用ですが、無制限の並列処理を使用すると、スレッド数や並列要求数に対して適用される制限がなくなることになるので、注意が必要です。同じストレージアカウント内の複数のパーティションにアクセスする状況や、同じパーティション内の複数の項目にアクセスする状況では、データをアップロードまたはダウンロードするための並列要求の数を制限するようにしてください。並列処理が無制限の場合、アプリケーションはクライアントデバイスの処理能力やストレージアカウントのスケーラビリティターゲットを超過することがあり、その結果、待ち時間や調整時間が長くなります。

クライアントライブラリとツール

パフォーマンスを最大限に引き出すためには必ず、Microsoft から提供される最新のクライアントライブラリとツールを使用してください。 Azure Storage のクライアントライブラリは、さまざまな言語に対応しています。また、Azure Storage は PowerShell と Azure CLI をサポートします。 Microsoft はパフォーマンスに留意してこれらのクライアントライブラリとツールを積極的に開発し、最新のサービスバージョンに遅れることなく対応して、数多くのパフォーマンスの実証済みプラクティスを内部で確実に処理できるように取り組んでいます。詳細については、Azure Storage のリファレンスドキュメントを参照してください。

サービスエラーの処理

サービスが要求を処理できない場合、Azure Storage からエラーが返されます。特定のシナリオで Azure Storage から返される可能性のあるエラーについての知識は、パフォーマンスを最適化するうえで役立ちます。

タイムアウトエラーとサーバービジーエラー

アプリケーションがスケーラビリティの限界に近づくと、アプリケーションに対して Azure Storage による調整が発生することがあります。場合によっては、なんらかの一時的な状態によって、Azure Storage が要求を処理できなくなることもあります。どちらのケースでも、サービスからは 503 (Server Busy) または 500 (Timeout) エラーが返される可能性があります。スループットを高めるためにデータパーティションがサービスによって再調整されている場合にも、これらのエラーが発生することがあります。通常、クライアントアプリケーションは、そうしたエラーを引き起こしている操作を再試行する必要があります。ただし、スケーラビリティターゲットを超過しているためにアプリケーションに Azure Storage による調整が発生している場合や、他のなんらかの理由でサービスが要求を処理できない場合、積極的に再試行を実行すると問題が悪化することがあります。再試行ポリシーにはエクスポネンシャルバックオフを使用することをお勧めします。エクスポネンシャルバックオフは、クライアントライブラリの既定の動作にもなっています。たとえば、アプリケーションが 2 秒後、次に 4 秒後、次に 10 秒後、次に 30 秒後に再試行し、その後再試行を断念することがあります。そうすれば、調整が起こって動作が悪化することなく、サービスに対するアプリケーションの負荷を大幅に軽減できます。

接続エラーは、調整の結果ではなく、一時的な問題と予想されるので、直後に再試行を実行してかまいません。

再試行できないエラー

クライアントライブラリは、再試行できるエラーとできないエラーを認識して再試行を処理します。ただし、Azure Storage REST API を直接呼び出している場合は、再試行すべきではないエラーも一部存在します。たとえば、400 (Bad Request) エラーは、クライアントアプリケーションから送信された要求が想定外の形式であったために処理できなかったことを示しています。この要求を再送信しても、毎回同じ応答が返されることになるので、再試行は無意味です。 Azure Storage REST API を直接呼び出している場合は、どのようなエラーが生じる可能性があるか、また、それらを再試行すべきかどうかを意識するようにしてください。

Azure Storage のエラーコードの詳細については、「状態コードとエラーコード」を参照してください。

Nagle のアルゴリズムの無効化

Nagle のアルゴリズムは、ネットワークパフォーマンスを向上させる方法として、TCP/IP ネットワークで広く使用されています。ただし、すべての環境 (高度な対話形式の環境など) で最適であるとは言えません。 Nagle のアルゴリズムは Azure Table Storage に対する要求のパフォーマンスにマイナスの影響を及ぼすため、可能な場合は無効にしてください。

メッセージサイズ

メッセージサイズが増加すると、キューのパフォーマンスとスケーラビリティが低下します。メッセージには、受信者が必要な情報のみを含めてください。

一括取得

1 回の操作でキューから最大 32 個のメッセージを取得できます。一括取得により、クライアントアプリケーションとのラウンドトリップの数を減らすことができます。これは、モバイルデバイスなどの待ち時間が長い環境では特に有用です。

キューのポーリング間隔

多くのアプリケーションはキューからメッセージをポーリングします。キューは、そのアプリケーションにとって最大のトランザクションソースの 1 つです。ポーリング間隔を適切に選択します。ポーリング頻度が高すぎると、アプリケーションはキューのスケーラビリティターゲットに近づく可能性があります。ただし、200,000 トランザクションあたり 0.01 ドル (執筆時点) で、1 つのプロセッサが 1 か月間 1 秒に 1 回ポーリングする場合、そのコストは 15 セントにも満たないため、通常、コストはポーリング間隔の選択に影響を与える要因ではありません。

最新のコストの情報については、Azure Storage の価格に関するページを参照してください。

メッセージ更新操作の実行

メッセージ更新操作を実行すると、非表示タイムアウトを長くしたり、メッセージの状態情報を更新したりすることができます。ジョブの各ステップが完了するごとに次のキューにジョブを渡すワークフローよりも、このアプローチの方が効率的である場合があります。アプリケーションは、ジョブの各ステップが完了するたびに次のステップのメッセージを再キューイングするのではなく、ジョブ状態をメッセージに保存して、処理を継続することができます。各メッセージ更新操作はスケーラビリティターゲットにカウントされることに留意してください。

アプリケーションのアーキテクチャ

アプリケーションアーキテクチャのスケーラビリティを確保するには、キューを使用します。以下のリストは、キューを使用して、アプリケーションの拡張性を高めるための方法を示しています。

キューを使用して、処理に関する作業のバックログを作成し、アプリケーションのワークロードを平滑化するために利用できます。たとえば、アップロード済み画像のサイズ変更など、プロセッサの負荷が高い作業の要求をキューに残しておくことができます。
キューを使用して、アプリケーションの一部を切り離し、個別に拡張することができます。たとえば、Web フロントエンドがユーザーから得られた調査結果をキューに配置し、将来の解析とストレージに活用できます。必要に応じて、キューデータを処理する worker ロールインスタンスを追加できます。

次の方法で共有