包含計量、警示和資源健康情況的 Standard Load Balancer 診斷

Azure Load Balancer 會公開下列診斷功能:

  • 多維度計量和警示:透過用於標準負載平衡器設定的 Azure 監視器提供新的多維度診斷功能。 您可以監視、管理和疑難排解您的標準負載平衡器資源。

  • 資源健康狀態:負載平衡器的資源健全狀態,可在 [監視器] 下的 [資源健康狀態] 頁面取得。 此自動檢查會通知您目前負載平衡器資源的可用性。

本文會簡要介紹這些功能,以及如何將這些功能使用於標準負載平衡器。

多維度計量

Azure Load Balancer 透過 Azure 入口網站中的 Azure 計量提供多維度計量,並協助您取得負載平衡器資源的即時診斷深入解析。

各種負載平衡器的設定會提供下列計量:

計量 資源類型 描述 建議的彙總
資料路徑可用性 公用和內部負載平衡器 標準負載平衡器會持續運用資料路徑,從區域內到負載平衡器前端,再一路到支援您的 VM 的網路。 只要狀況良好的執行個體持續存在,測量就會依循與您應用程式的負載平衡流量相同的路徑。 已經驗證在使用的資料路徑。 對您的應用程式來說此測量為隱藏狀態,也不會干擾到其他作業。 平均
健康情況探查狀態 公用和內部負載平衡器 標準負載平衡器會使用分散式健全狀態探查服務,可根據組態設定來監視應用程式端點的健康情況。 這個計量會提供負載平衡器集區中每個執行個體端點的彙總檢視,或各端點篩選過的檢視。 您可以看到 Load Balancer 藉由健康情況探查,來設定如何檢視應用程式的健康情況。 平均
SYN (同步) 計數 公用和內部負載平衡器 標準負載平衡器不會終止傳輸控制通訊協定 (TCP) 連線,也不會與 TCP 或 UDP 封包流程互動。 流程及其交握一律是在來源與 VM 執行個體之間進行。 若要針對您的 TCP 通訊協定案例進行進一步疑難排解,您可使用 SYN 封包計數器來了解已進行多少次 TCP 連線嘗試。 此計量會回報已收到的 TCP SYN 封包數。 Sum
來源網路位址轉譯 (SNAT) 連線計數 公用負載平衡器 標準負載平衡器會回報偽裝為公用 IP 位址前端的輸出流程數目。 SNAT 連接埠是可耗盡的資源。 此計量可以指出應用程式有多依賴 SNAT 來處理連出的起始流程。 不論 SNAT 輸出流程成功或失敗,計數器皆會回報。 計數器可用來疑難排解以及了解您的輸出流量健康情況。 Sum
配置的 SNAT 連接埠 公用負載平衡器 標準負載平衡器會回報各後端執行個體所配置的 SNAT 連接埠數目 平均
使用的 SNAT 連接埠 公用負載平衡器 標準負載平衡器會回報各後端執行個體所使用的 SNAT 連接埠數目。 平均
位元組計數 公用和內部負載平衡器 標準負載平衡器會回報每個前端處理的資料。 您可能會注意到,位元組不會在後端執行個體間平均散發。 由於 Azure Load Balancer 演算法以流量為基礎,故此為預期的情況。 Sum
封包計數 公用和內部負載平衡器 標準負載平衡器會回報每個前端處理的封包流程。 Sum

注意

頻寬相關計量 (例如 SYN 封包、位元組計數和封包計數) 不會透過 UDR 擷取任何到內部負載平衡器的流量 (例如來自 NVA 或防火牆)。

最大與最小彙總不適用於 SYN 計數、封包計數、SNAT 連線計數和位元組計數計量。 不建議為資料路徑可用性和健全狀態探查狀態進行計數彙總。 請改用平均值,讓健康情況資料以最佳方式顯示。

在 Azure 入口網站中檢視負載平衡器計量

Azure 入口網站會透過計量頁面,公開負載平衡器的計量。 此頁面可在針對特定資源的負載平衡器資源頁面與 Azure 監視器頁面上使用。

注意

Azure Load Balancer 不會將健全狀態探查傳送至已解除配置的虛擬機器。 解除配置虛擬機器時,負載平衡器會停止報告該執行個體的計量。 無法使用的計量會顯示為入口網站中的虛線,或顯示錯誤訊息,表示無法擷取計量。

檢視您的標準負載平衡器資源的計量:

  1. 移至 [計量] 頁面並執行下列其中一項工作:

    • 在負載平衡器資源頁面上,選取下拉式清單中的 [計量類型]。

    • 在 Azure 監視器頁面上,選取負載平衡器資源。

  2. 設定適當的計量彙總類型。

  3. 選擇性設定必要的篩選和群組。

  4. 選擇性地設定時間範圍和彙總。 時間預設會以 UTC 格式顯示。

注意

解譯某些計量時,時間彙總很重要,因為每分鐘會對資料取樣一次。 如果時間彙總設定為 5 分鐘,且計量彙總類型的 Sum 用於 SNAT 配置之類的計量,則您的圖表將顯示配置於 SNAT 連接埠總數的五倍。

建議:分析計量彙總類型總和與計數時,建議使用大於一分鐘的時間彙總值。

Metric for data path availability for a standard load balancer.

圖:標準負載平衡器資料路徑的可用性計量

透過 API 以程式設計方式擷取多維度計量

如需可供擷取多維度計量定義和值的 API 指導方針,請參閱 Azure 監視 REST API 逐步解說。 您可以藉由新增 [所有計量] 類別的診斷設定,將這些計量寫入至儲存體帳戶。

資料路徑是否已啟用且可以讓我的 Load Balancer 前端使用?

展開

資料路徑可用性計量,會描述區域內通往 VM 所在計算主機資料路徑的健康情況。 此計量是 Azure 基礎結構的健康情況反映。 您可以使用此計量:

  • 監視服務的外部可用性。

  • 調查 NAT 閘道部署所在的平台,並判斷其狀況是否良好。 判斷客體作業系統或應用程式執行個體的狀況是否良好。

  • 找出事件是否與您的服務或基礎資料層相關。 請勿將此計量與探查狀態 (「後端執行個體可用性」) 混淆。

如何取得標準負載平衡器資源的資料路徑可用性:

  1. 確定已選取正確的負載平衡器資源。

  2. 在 [計量] 下拉式清單中,選取 [清單路徑可用性]

  3. 在 [彙總] 下拉式清單中,選取 [平均]

  4. 此外,在前端 IP 位址或前端連接埠上新增篩選,作為必要前端 IP 位址或前端連接埠的維度。 然後依選取的維度將它們分組。

Load balancer frontend probing details.

圖:負載平衡器前端探查詳細資料

計量會由作用中的頻內測量所產生。 區域內的探查服務會產生此測量的流量。 此服務會在您使用公用前端建立部署時啟動,並繼續執行到您移除前端為止。

系統會定期產生符合部署之前端和規則的封包。 封包會在區域中從來源周遊到主機 (後端集區中 VM 的所在位置)。 負載平衡器基礎結構會執行相同的負載平衡和轉譯作業,如同對所有其他流量所做的一樣。 這個探查是在負載平衡端點的頻內。 在探查抵達計算主機 (後端集區中狀況良好 VM 的所在位置) 之後,計算主機會產生對探查服務的回應。 您的 VM 不會看到這個流量。

資料路徑可用性會因為下列原因而失敗:

  • 您的部署在後端集區中沒有剩餘的狀況良好 VM。

  • 已發生基礎結構中斷。

針對診斷目的,您可以使用資料路徑可用性計量來搭配探查狀態

在大部分的情況下,請使用平均彙總。

我的 Load Balancer 的後端執行個體是否會回應探查?

展開

「健康情況探查狀態」計量會描述應用程式部署的健康情況,這個部署是在您設定負載平衡器健康情況探查時由您所設定。 負載平衡器使用健康情況探查的狀態來判斷新流程要傳送到哪裡。 健康情況探查源自 Azure 基礎結構的位址,在 VM 的客體 OS 內可以看到。

如何取得標準負載平衡器資源健全狀態探查狀態:

  1. 選取 [健全狀態探查狀態] 計量與 [平均彙總] 類型。

  2. 在必要的前端 IP 位址或連接埠 (或兩者) 上套用篩選。

健康情況探查會因為下列原因而失敗:

  • 對於未接聽、未回應或使用錯誤通訊協定的連接埠,您可以設定健全狀態探查。 如果您的服務使用伺服器直接回傳或浮動 IP 規則,請驗證服務會接聽 NIC 的 IP 設定的 IP 位址以及使用前端 IP 位址所設定的回送。

  • 您的網路安全性群組、VM 的客體作業系統防火牆或應用程式層篩選都不允許健全狀態探查流量。

在大部分的情況下,請使用平均彙總。

如何查看我的輸出連線統計資料?

展開

「SNAT 連線」計量會描述輸出流程的成功和失敗連線數量。

失敗連線數量大於零,表示 SNAT 連接埠耗盡。 您必須進一步調查,以判斷造成失敗的原因。 SNAT 連接埠耗盡的外在表現就是無法建立輸出流程。 請參閱輸出連線的文章,以了解案例和運作機制,以及了解如何減輕及設計以避免 SNAT 連接埠耗盡。

若要取得 SNAT 連線統計資料:

  1. 選取 [SNAT 連線] 計量類型,並選取 [總和] 作為彙總。

  2. 針對成功和失敗的 SNAT 連線計數 (以不同線條表示) 依 [連線狀態] 進行群組。

Load balancer SNAT connection count.

圖:負載平衡器 SNAT 連線計數

如何檢查我的 SNAT 連接埠使用量和配置?

展開

追蹤使用的 SNAT 連接埠計量會取用多少 SNAT 埠來維護輸出流程。 此計量會指出在網際網路來源與後端 VM 或負載平衡器後方,而且沒有公用 IP 位址的虛擬機器擴展集之間,建立了多少個唯一的流量。 藉由將您所使用的 SNAT 連接埠數目與配置的 SNAT 連接埠計量比較,可以判斷您的服務是否遇到或有耗盡 SNAT 的風險,以及所產生的輸出流量失敗。

如果您的計量指出輸出流量失敗的風險,請參考該文章並採取步驟來減輕這個問題,以確保服務健康狀態。

若要檢視 SNAT 連接埠使用量和配置:

  1. 將圖形的時間彙總設定為 1 分鐘,以確保會顯示所需的資料。

  2. 選取 [使用的 SNAT 連接埠] 和/或 [配置的 SNAT 連接埠] 作為計量類型,以及 [平均] 作為彙總。

    • 根據預設,這些計量是配置給每個後端 VM 或虛擬機器擴展集或由其所使用的 SNAT 連接埠平均數目。 它們會對應至對應於負載平衡器的所有前端公用IP,並透過 TCP 和 UDP 彙總。

    • 如果要檢視配置給負載平衡器或其使用的 SNAT 連接埠總數,請使用計量彙總總和

  3. 篩選至特定的通訊協定類型、一組後端 IP 和/或前端 IP

  4. 若要監視每個後端或前端執行個體的健康情況,請套用分割。

    • 注意:分割僅允許一次顯示單一計量。
  5. 例如,若要針對每部電腦監視 TCP 流量的 SNAT 使用量,請依 [平均] 彙總、依 [後端 IP] 分割,然後依 [通訊協定類型] 篩選。

Average TCP SNAT port allocation and usage for a set of backend VMs.

圖:一組後端 VM 的平均 TCP SNAT 連接埠配置和使用量

TCP SNAT port usage per backend instance.

圖:每個後端執行個體的 TCP SNAT 連接埠使用量

如何查看服務的輸入/輸出連線嘗試?

展開SYN 封包計量會描述 TCP SYN 封包的數量,其包含與特定前端相關聯的已抵達或已傳送封包。 您可以使用此計量來了解服務的 TCP 連線嘗試。

如需更多關於輸出連線的詳細資訊,請參閱使用來源網路位址轉譯 (SNAT) 進行輸出連線

在大部分的情況下,請使用 [總和] 作為彙總。

Load balancer SYN count.

圖:負載平衡器 SYN 計數

如何查看我的網路頻寬耗用?

展開

該位元組和封包計數器計量會描述您的服務在每個前端上所傳送或接收的位元組和封包數量。

在大部分的情況下,請使用 [總和] 作為彙總。

若要取得位元組或封包計數統計資料:

  1. 選取 [位元組計數] 和/或 [封包計數] 計量類型,並選取 [總和] 作為彙總。

  2. 執行下列任一步驟:

    • 對特定前端 IP、前端連接埠、後端 IP、或後端連接埠套用篩選器。

    • 取得負載平衡器資源的整體統計資料 (不使用任何篩選)。

Load balancer byte count.

圖:負載平衡器位元組計數

我要如何診斷我的負載平衡器部署?

展開

透過資料路徑可用性與在單一圖表上探查狀態計量的合併,可讓您找出問題所在並加以解決。 您可以確定 Azure 正常運作,並利用此知識確定地判斷設定或應用程式是根本原因。

您可以透過健全狀態探查計量來了解 Azure 依據您所提供的每一項設定如何檢視您所部署的健康情況。 查看健康情況探查永遠是監視或判斷原因時最好的第一步驟。

您可以更進一步地使用資料路徑可用性計量,以深入了解 Azure 如何檢視負責您特定部署基礎資料平面的健康情況。 當您合併這兩個計量時,就能找出錯誤可能的位置,如此圖中範例所示:

Combining data path availability and health probe status metrics.

圖:結合資料路徑可用性和健全狀態探查狀態計量

此圖表會顯示以下資訊:

  • 裝載 VM 的基礎結構無法使用,而且在圖表的開頭為 0%。 之後,基礎結構的狀況良好,且 VM 可連線,而且後端中有放置一個以上的 VM。 此資訊是由資料路徑可用性的藍色追蹤表示,其後續是 100%。

  • 以紫色追蹤表示的健全狀態探查狀態,在圖表的開頭為 0%。 在綠色圓圈圈起來的位置,其狀態變成狀況良好,此時客戶的部署能夠接受新的流量。

此圖表讓客戶可以自行針對部署進行疑難排解,不必猜測或要求支援找出是否發生其他問題。 由於設定不正確或應用程式失敗導致健康情況探查失敗,所以服務變得無法使用。

設定多維度計量的警示

Azure Standard Load Balancer 針對多維度計量支援可輕鬆設定的警示。 設定特定計量的自訂閾值,以觸發具有不同嚴重性等級的警示,以提升無接觸資源監視的體驗。

設定警示:

  1. 移至負載平衡器的警示頁面

  2. 建立新的警示規則

    1. 設定警示條件 (注意:若要避免雜訊警示,建議您在設定警示時將 [彙總類型] 設定為 [平均]、回溯資料的時間範圍為五分鐘,以及閾值為 95%)

    2. (選用) 新增自動修復的動作群組

    3. 指派會啟用直覺反應的警示嚴重性、名稱和描述

輸入可用性警示

注意

如果您的負載平衡器後端集區是空的,其將不會有任何有效的資料路徑可供測試。 因此,資料路徑可用性計量將無法使用,並且不會觸發資料路徑可用性計量上任何已設定的 Azure 警示。

若要針對輸入可用性發出警示,您可以使用資料路徑可用性和健全狀態探查狀態計量來建立兩個不同的警示。 客戶可能會有不同的案例需要特定的警示邏輯,但下列範例對於大部分設定都很實用。

使用資料路徑可用性時,您可以在特定負載平衡規則變得無法使用時,引發警示。 您可以設定此警示,方法是設定資料路徑可用性的警示條件,並依前端連接埠和前端 IP 位址的所有目前值和未來值,來進行分割。 將警示邏輯設定為小於或等於 0,將在任何負載平衡規則變得沒有回應時,發出此警示。 根據您所需的評估來設定評估的彙總細微性和頻率。

使用健全狀態探查狀態時,您可以在指定的後端執行個體無法回應健全狀態探查達一段顯著時間時發出警示。 設定您的警示條件以使用探查狀態計量,並依後端 IP 位址和後端連接埠,來進行分割。 這確保您可以針對每個個別的後端執行個體,對特定連接埠上的流量提供服務的能力分別警示。 使用 [平均] 彙總類型,並根據您的後端執行個體的探查頻率,以及您認為的狀況良好閾值設定臨界值。

您也可以不要依任何維度分割並使用 [平均] 彙總類型,在後端集區層級上警示。 這可讓您設定警示規則,例如,當我的後端集區成員有 50% 狀況不良時發出警示。

輸出可用性警示

對於輸出可用性,您可以使用「SNAT 連線計數」和「已使用的 SNAT 連接埠」計量,來設定兩個不同的警示。

如果要偵測輸出連線失敗,請使用 SNAT 連線計數來設定警示,並篩選線上狀態 = 失敗。 使用 [總計] 彙總。 然後,您可以將此分割,方法是將後端 IP 位址設定為所有目前及未來的值,以針對發生失敗連線的每個後端執行個體,分別發出警示。 如果您預期會看到某些輸出連線失敗,請將閾值設為大於零或較高的數字。

透過「已使用的 SNAT 連接埠」,您可以在 SNAT 耗盡和輸出連線失敗的更高風險時發出警示。 使用此警示時,請確定您是以後端 IP 位址和通訊協定,來進行分割。 使用 [平均] 匯總。 針對認為不安全的每個執行個體所配置的連接埠數目,將臨界值設定為大於其百分比。 例如,當後端實例使用其配置埠的 75% 時,設定低嚴重性警示。 當其使用 90% 或 100% 的已配置埠時,請設定高嚴重性警示。

資源健康狀態

標準負載平衡器資源的健全狀態會透過 [監視器]>[服務健康狀態] 底下現有的 [資源健康狀態] 公開。 它會每兩分鐘測量資料路徑的可用性加以評估,藉以判斷您的前端負載平衡端點是否可供使用。

資源健康情況狀態 Description
可用的 您的標準負載平衡器資源狀況良好且可使用。
已降級 您的標準負載平衡器有由平台或使用者所起始的事件在影響效能。 資料路徑可用性計量,在至少兩分鐘內回報了小於 90% 但大於 25% 的健康情況。 在此狀態下,您會遭遇中等至嚴重等級的效能問題。 遵循疑難排解 RHC 指南,判斷是否有使用者起始的事件影響您的可用性。
[無法使用] 您的標準負載平衡器資源狀況不良。 資料路徑可用性計量,至少已在兩分鐘前回報了健康情況低於 25% 的情形。 在此狀態下,您會遭遇嚴重的效能問題,或者會失去可用的輸入連線能力。 這有可能是使用者或平台事件導致無法使用的情形。 遵循疑難排解 RHC 指南,判斷是否有使用者起始的事件影響您的可用性。
未知 負載平衡器資源的健全狀態尚未更新,或超過 10 分鐘未接收資料路徑可用性的資訊。 此狀態應該是暫時性的,系統會在收到資料後立即反/映正確的狀態。

如何檢視您的公用標準負載平衡器資源健康情況:

  1. 選取 [監視器]>[服務健康狀態]。

    The service health link on Azure Monitor.

    圖:Azure 監視器上的服務健康狀態連結

  2. 選取 [資源健康狀態],然後確定已選取 [訂閱識別碼] 以及 [資源類型 = 負載平衡器]

    Select resource for health view.

    圖:選取資源以檢視健康情況

  3. 在清單中,選取 [負載平衡器資源],以檢視其過去的健全狀態。

    Resource health status.

    圖:資源健全狀態

資源健全狀態的一般描述可在資源健康情況文件中取得。

資源健康狀態警示

Azure 資源健康狀態警示會在您的負載平衡器資源的健全狀態變更時,以近乎即時的方式通知您。 建議您設定資源健康情況警示,以在負載平衡器資源處於 [已降級][無法使用]狀態時通知您。

當您建立負載平衡器的 Azure 資源健康狀態警示時,Azure 會將資源健康狀態通知傳送至您的 Azure 訂用帳戶。 您可以根據下列項目建立和自訂警示:

  • 受影響的訂用帳戶
  • 受影響的資源群組
  • 受影響的資源類型 (負載平衡器)
  • 特定資源 (您選擇要設定警示的任何負載平衡器資源)
  • 受影響的負載平衡器資源事件狀態
  • 受影響的負載平衡器資源目前狀態
  • 受影響的負載平衡器資源之前狀態
  • 受影響的負載平衡器資源原因類型

您也可以設定應傳送警示的對象:

  • 新動作群組 (可用於未來的警示)
  • 現有的動作群組

如需如何設定這些資源健康狀態警示的詳細資訊,請參閱:

下一步