使用計量監視 Azure Data Explorer 效能、健康情況和使用方式

Azure Data Explorer 計量提供 Azure Data Explorer 叢集資源健康情況和效能的重要指標。 使用本文中詳述的計量,將特定案例中的 Azure Data Explorer 叢集使用量、健康情況和效能監視為獨立計量。 您也可以使用計量作為操作 Azure 儀錶板Azure 警示的基礎。

如需 Azure 計量總管的詳細資訊,請參閱 計量總管。

必要條件

使用計量來監視 Azure Data Explorer 資源

  1. 登入 Azure 入口網站
  2. 在 Azure Data Explorer 叢集的左側窗格中,搜尋計量
  3. 選取 [計量 ] 以開啟 [計量] 窗格,並開始分析您的叢集。 搜尋並選取 Azure 入口網站 中的計量。

在 [計量] 窗格中工作

在 [計量] 窗格中,選取要追蹤的特定計量、選擇如何匯總您的數據,以及建立計量圖表以在儀錶板上檢視。

系統會為您的 Azure Data Explorer 叢集預先選取 [資源] 和 [計量命名空間選擇器]。 下圖中的數字會對應至下列編號清單。 他們會引導您完成設定和檢視計量的不同選項。

[計量] 窗格。

  1. 若要建立計量圖表 ,請選取 [計量名稱] 和每個計量的相關 [匯總 ]。 如需不同計量的詳細資訊,請參閱支援的 Azure Data Explorer 計量
  2. 選取 [新增計量 ] 以查看在相同圖表中繪製的多個計量。
  3. 選取 [+ 新增圖表 ] 以查看一個檢視中的多個圖表。
  4. 使用時間選擇器變更時間範圍 (預設值:過去 24 小時) 。
  5. 針對具有維度的計量,使用 [新增篩選 ] 和 [ 套用分割 ]。
  6. 選取 [釘選到儀錶板 ] 以將圖表組態新增至儀錶板,以便您可以再次檢視它。
  7. 設定 [新增警示規則 ] 以使用設定準則將計量可視化。 新的警示規則將包含來自您圖表的目標資源、計量、分割及篩選維度。 在 警示規則建立窗格中修改這些設定。

支援的 Azure Data Explorer 計量

Azure Data Explorer 計量可讓您深入了解整體效能和使用資源,以及擷取或查詢等特定動作的相關信息。 本文中的計量已依使用類型分組。

計量的類型如下:

如需 Azure 資料總管 Azure 監視器計量的字母順序列表,請參閱支援的 Azure Data Explorer 叢集計量

叢集計量

叢集計量會追蹤叢集的一般健康情況。 例如,資源和擷取使用和回應性。

計量 單位 彙總 計量描述 維度
快取使用率 (已被取代) 百分比 Avg、Max、Min 叢集目前正在使用的已配置快取資源百分比。 快取是根據已定義的快取原則,配置給使用者活動的 SSD 大小。

叢集可維持的狀態為 80% 或更少的平均快取使用率。 如果平均快取使用率高於80%,叢集應為
相應增加 至記憶體優化定價層或
相應放大 至更多實例。 或者,將快取原則調整為快取中較少的天數。 如果快取使用率超過 100%,則快取的數據大小大於叢集上快取的總大小。
此計量已被取代,並僅供回溯相容性使用。 請改用「快取使用率因數」計量。
快取使用率因數 百分比 Avg、Max、Min 叢集中經常性快取專用的磁碟空間百分比。
100% 表示指派給經常性存取數據的磁碟空間會以最佳方式使用。 不需要採取任何動作,而且叢集完全沒問題。
小於 100% 表示指派給經常性存取數據的磁碟空間並未完全利用。
超過 100% 表示叢集的磁碟空間不足以容納經常性數據,如快取原則所定義。 為了確保有足夠的空間可供所有熱數據使用,需要減少經常性數據的數量,或需要相應放大叢集。建議您啟用自動調整。
CPU 百分比 Avg、Max、Min 叢集中的電腦目前正在使用的已配置計算資源百分比。

叢集可維持的平均 CPU 為 80% 或更少。 CPU 的最大值是 100%,這表示沒有任何額外的計算資源可處理資料。
當叢集效能不佳時,請檢查 CPU 的最大值,以判斷是否有封鎖的特定 CPU。
擷取使用率 百分比 Avg、Max、Min 用於從配置的總資源 (在容量原則中) 擷取資料以執行擷取的實際資源百分比。 預設容量原則是投入在擷取不超過 512 個並行擷取作業或 75% 的叢集資源。

叢集可維持的狀態為 80% 或更少的平均擷取使用率。 擷取使用率的最大值是 100%,這表示會使用全部的叢集擷取能力,而且可能產生擷取佇列。
InstanceCount Count 平均 實例計數總計。
保持運作 Count 平均 追蹤叢集的回應性。

完全回應的叢集傳回的值為 1,而已封鎖或已中斷連線的叢集則會傳回 0。
節流命令總數 Count Avg、Max、Min、Sum 叢集中的已節流 (拒絕) 命令數目,因為已達到並行 (平行) 命令的最大允許數目。
分區總數 Count Avg、Max、Min、Sum 叢集中的數據範圍總數。

此計量中的變更可能表示叢集上的大量數據結構變更和高負載,因為合併數據範圍是大量CPU活動。
追蹤程序延遲 毫秒 Avg、Max、Min 下列項目資料庫會同步處理領導者資料庫中的變更。 由於同步處理,數據可用性會有幾秒鐘到幾分鐘的數據延遲。

此計量會測量時間延遲的長度。 時間延隔取決於數個因素,例如:內嵌數據的整體大小和速率、追蹤的資料庫數目、 (合併/重建作業) 在領導者上執行的內部作業速率。

這是叢集層級計量:追蹤者會攔截追蹤所有資料庫的元數據。 此計量代表進程的延遲。

匯出度量

匯出計量會追蹤匯出作業的一般健康情況和效能,例如延遲、結果、記錄數目和使用率。

計量 單位 彙總 計量描述 維度
匯出記錄的連續匯出數目 Count Sum 所有連續匯出作業中導出的記錄數目。 ContinuousExportName
連續匯出最大延遲 Count 最大值 叢集中連續匯出作業報告) 分鐘 (延遲。
連續匯出擱置計數 Count 最大值 擱置的連續匯出作業數目。 這些作業已準備好執行,但在佇列中等候,可能是因為容量不足) 。
連續匯出結果 Count Count 每個連續匯出執行的失敗/成功結果。 ContinuousExportName
匯出使用率 百分比 最大值 使用的導出容量,超過叢集中的總導出容量, (介於 0 到 100) 之間。

擷取計量

擷取計量會追蹤擷取作業的一般健康情況和效能,例如延遲、結果和磁碟區。 若要精簡分析:

  • 將篩選套用至圖表, 以依維度繪製部分數據。 例如,探索特定 Database的擷取。
  • 將分割套用至圖表 ,以依不同元件將數據可視化。 此程式對於分析擷取管線的每個步驟所報告的計量很有用,例如 Blobs received
計量 單位 彙總 計量描述 維度
Batch Blob 計數 Count Avg、Max、Min 完成批次中擷取的數據源數目。 資料庫
批次持續時間 Avg、Max、Min 擷取流程中批處理階段的持續時間。 資料庫
批次大小 位元組 Avg、Max、Min 彙總批次中用於擷取的未壓縮預期資料大小。 資料庫
已處理的批次 Count Sum、Max、Min 完成擷取的批次數目。
Batching Type:密封批次的觸發程式。
如需批處理類型的完整清單,請參閱 批處理類型
資料庫、批處理類型
收到的 Blob Count Sum、Max、Min 元件從輸入資料流接收的 Blob 數目。

使用 套用分割 來分析每個元件。
資料庫、元件類型、元件名稱
已處理的 Blob Count Sum、Max、Min 元件處理的 Blob 數目。

使用 套用分割 來分析每個元件。
資料庫、元件類型、元件名稱
已卸除的 Blob Count Sum、Max、Min 元件永久卸除的 Blob 數目。 針對每個這類 Blob, Ingestion result 會傳送失敗原因的計量。

使用 套用分割 來分析每個元件。
資料庫、元件類型、元件名稱
探索延遲 平均 從數據加入佇列到數據連線探索的時間。 這次不包含在 階段延遲擷取延遲 計量中。

在下列情況下,探索延遲可能會增加:
  • 使用跨區域數據連線時。

  • 在事件中樞數據連線中,如果事件中樞分割區數目不足以用於數據輸出磁碟區。
元件類型、元件名稱
收到的事件 Count Sum、Max、Min 從輸入數據流接收的數據連線所接收的事件數目。 元件類型、元件名稱
已處理的事件 Count Sum、Max、Min 數據連線所處理的事件數目。 元件類型、元件名稱
已捨棄的事件 Count Sum、Max、Min 數據連線永久卸除的事件數目。 針對每個這類事件, Ingestion result 會傳送失敗原因的計量。 元件類型、元件名稱
已處理事件/IoT 中樞的事件 () (已被取代) Count 最大值、最小值、總和 從事件中樞/IoT 中樞 和叢集處理的事件總數。 這些事件可以依狀態分割:已接收、拒絕、已處理。
此計量已被取代,且僅供回溯相容性使用。 請改用「已接收的事件」、「已處理的事件」和「已卸除的事件」計量。
狀態
擷取延遲 Avg、Max、Min 擷取資料時的延遲,從在叢集中收到資料的時間直到準備好進行查詢為止。 擷取延遲期間取決於擷取狀況。
Ingestion Kind:串流擷取或佇列擷取
擷取種類
擷取結果 Count Sum 擷取失敗或成功的來源總數。
Status成功 擷取成功,或失敗的失敗類別。 如需可能失敗類別的完整清單,請參閱 Azure Data Explorer 中的擷取錯誤碼
Failure Status Type:失敗是永久性還是暫時性的。 若要成功擷取,此維度為 None

注意:
  • 事件中樞和 IoT 中樞 擷取事件會預先匯總成一個 Blob,然後視為要擷取的單一來源。 因此,預先匯總的事件會在預先匯總之後顯示為單一擷取結果。

  • 暫時性失敗會在內部重試有限的次數。 每個暫時性失敗都會回報為暫時性擷取結果。 因此,單一擷取可能會導致多個擷取結果。
狀態、失敗狀態類型
擷取量 (以 MB 為單位) Count 最大值、總和 壓縮之前,將數據內嵌至叢集的總大小 (MB) 。 資料庫
佇列長度 Count 平均 元件輸入佇列中的擱置訊息數目。 批處理管理員元件每個 Blob 都有一則訊息。 擷取管理員元件每個批次都有一則訊息。 批次是具有一或多個 Blob 的單一內嵌命令。 元件類型
佇列最舊的訊息 平均 插入元件輸入佇列中最舊訊息的秒數。 元件類型
接收的數據大小位元組 位元組 Avg、Sum 從輸入數據流接收的數據大小。 元件類型、元件名稱
階段延遲 平均 Azure Data Explorer 接受訊息的時間,直到擷取元件收到其內容進行處理為止。

使用 套用篩選 並選取 [元件類型 > StorageEngine ] 以顯示擷取延遲總計。
資料庫、元件類型

串流內嵌計量

串流內嵌計量會追蹤串流擷取數據和要求速率、持續時間和結果。

計量 單位 彙總 計量描述 維度
串流內嵌資料速率 Count RateRequestsPerSecond 擷取至叢集的數據總量。
串流內嵌持續時間 毫秒 Avg、Max、Min 所有串流擷取要求的持續時間總計。
串流內嵌要求率 Count Count、Avg、Max、Min、Sum 串流擷取要求的總數。
串流內嵌結果 Count 平均 依結果類型排序的串流擷取要求總數。 結果

查詢計量

查詢效能計量會追蹤查詢持續時間和並行或節流查詢的總數。

計量 單位 彙總 計量描述 維度
查詢持續時間 毫秒 Avg、Min、Max、Sum 在收到查詢結果之前的總時間, (不包含網路等待時間) 。 QueryStatus
QueryResult Count Count 查詢總數。 QueryStatus
同時查詢的總數 Count Avg、Max、Min、Sum 叢集中平行執行的查詢數目。 此計量是估計叢集負載的好方法。
節流查詢總數 Count Avg、Max、Min、Sum 叢集中) 查詢遭到拒絕的節流 (數目。 要求速率限制原則中定義允許的並行 (平行) 查詢數目上限。

具體化檢視計量

計量 單位 彙總 計量描述 維度
MaterializedViewHealth 1, 0 平均 如果檢視視為狀況良好,則值為 1,否則為 0。 資料庫、MaterializedViewName
MaterializedViewAgeSeconds 平均 age檢視的 是由目前時間所定義,減去檢視所處理的最後一個擷取時間。 計量值是以秒為單位的時間, (值越低,檢視就會是「健康狀態」) 。 資料庫、MaterializedViewName
MaterializedViewResult 1 平均 計量包含維度,指出最後一個 Result 具體化週期的結果 (請參閱 MaterializedViewResult計量 ,以取得可能值的詳細數據) 。 計量值一律等於 1。 資料庫、MaterializedViewName、結果
MaterializedViewRecordsInDelta 記錄計數 平均 源數據表中目前未處理部分的記錄數目。 如需詳細資訊,請參閱 具體化檢視的運作方式 資料庫、MaterializedViewName
MaterializedViewExtentsRebuild 範圍計數 平均 具體化週期中需要更新的範圍數目。 資料庫、MaterializedViewName
MaterializedViewDataLoss 1 最大值 當未處理的源數據接近保留期時,就會引發計量。 表示具體化檢視狀況不良。 資料庫、MaterializedViewName、種類