Azure 監視器中的 Log Analytics 工作區是集中式存放庫,可用來收集、儲存和分析來自 Azure 環境中各種來源的記錄和效能數據。 這些工作區可作為監視資訊的主要數據接收,並支援進階查詢、視覺效果和警示功能,以協助您深入瞭解工作負載的健康情況和效能。
本文假設身為架構設計人員,您瞭解工作負載的完整監視和可觀察性的重要性,並已選擇Log Analytics工作區作為監視策略的一部分。 本文中的指引提供架構建議,這些建議會映射到 Azure 架構框架的 原則 Well-Architected支柱。
技術範圍
此檢閱著重於下列 Azure 資源的相關決策:
- Log Analytics 工作區
可靠性
可靠性支柱的目的是要藉由 建立足夠的復原能力和從失敗中快速復原的能力,來提供持續的功能。
可靠性設計原則 提供高階的設計策略,適用於個別元件、系統流程及整個系統。
工作負載設計檢查清單
根據設計可靠性檢查清單,開始制定您的設計策略。 判斷其與您的商務需求相關性,同時記住應用程式的本質及其元件的重要性。 擴充策略,以視需要包含更多方法。
檢閱 Log Analytics工作區的服務限制: 服務限制一節說明數據收集、數據保留和其他服務層面的限制。 這些限制可協助您設計有效的工作負載可觀察性策略。 請確定您檢閱 Azure 監視器服務限制 ,因為許多函式,例如查詢,都會與 Log Analytics 工作區搭配運作。
規劃工作區復原和復原: Log Analytics 工作區是區域性工作區,且沒有跨區域備援或復寫的內建支援。 可用性區域備援選項有限。 由於這些限制,您應該判斷工作區的可靠性需求,並制定策略以符合這些目標。
您的需求可能規定您的工作區必須能夠復原資料中心失敗或區域性失敗。 或者,他們可能會規定您必須能夠將數據復原到故障轉移區域中的新工作區。
每個案例都需要額外的資源和程式才能成功,因此請仔細考慮如何平衡可靠性目標與成本和複雜性。
選擇正確的部署區域,以符合您的可靠性需求: 部署您的 Log Analytics 工作區和資料收集端點 (DCE), 與發出作業數據的工作負載元件共置。 部署 工作負載 的位置應該會通知您選擇的適當區域,以部署工作區和 DCE。
您可能需要根據工作負載可靠性、成本和效能需求更集中的其他因素,權衡特定 Log Analytics 功能的區域可用性,例如專用叢集。
從重要路徑相依性排除工作區: Log Analytics 工作區可作為可觀察性系統的重要元件,但您不應該將它們包含在 工作負載的重要路徑中。 這些工作區會收集和儲存監視和疑難解答不可或缺的作業數據。 不過,工作負載的核心功能必須與工作區可用性無關。 此架構區隔可確保可觀察性系統中斷不會串聯至工作負載運行時間失敗。
請確定您的可觀察性系統狀況良好: 如同工作負載的任何其他元件,請確定您的監視和記錄系統正常運作。 若要達到可靠的可觀察性,請啟用將健康情況數據訊號傳送給作業小組的功能。 設定 Log Analytics 工作區和相關聯資源特有的健康情況數據訊號。
組態建議
| 建議 | 優點 |
|---|---|
| 若要支援工作區數據的高持久性,請將Log Analytics工作區部署到支援資料復原 的區域 。 | 資料韌性會將您的紀錄資料的複製品跨越可用性區域分散,以提供資料中心故障保護。 |
| 請考慮將工作區連結至相同區域中的 專用叢集 。 | 即使您現在未收集足夠的數據來證明專用叢集的合理性,這種先佔區域選擇仍有助於支持未來的成長。 |
| 將工作區部署在與工作負載實例相同的區域中。 在與 Log Analytics 工作區相同的區域中使用 DCE 。 如果您的工作負載部署在主動-主動設計中,請考慮使用多個工作區和 DCE 分散到工作負載部署所在的區域。 |
將工作區和 DCE 放在與工作負載相同的區域中,可降低其他區域中斷影響的風險。 在多個區域中部署工作區會增加環境的複雜性,但可為分散地理位置的工作負載提供更好的可用性。 |
| 設定記錄多播,以在需要區域失敗期間,將 重要數據傳送至不同區域的多個工作區 。 設定 資料收集規則 (DCR) 和 診斷設定 ,將重要的記錄數據流複製到備份工作區。 儲存 Azure Resource Manager 範本 (ARM 範本),以警示具有替代工作區設定的資源,以啟用快速故障轉移。 |
記錄多播可確保持續存取重要作業數據,以在區域性中斷期間進行疑難解答和事件回應。 當主要監視基礎結構無法使用時,此存取可維持工作負載健全狀況的可見度。 取捨:此設定會產生重複的擷取和保留費用,因此只將其用於重要數據。 |
| 如果您需要在資料中心或區域失敗中保護數據,請設定從工作區 匯出數據 以將資料儲存在替代位置。 使用 Azure 記憶體備援選項,包括異地備援記憶體 (GRS) 和異地區域備援記憶體 (GZRS),以進一步將此數據復寫至其他區域。 數據匯出不會針對影響區域擷取管線的事件提供復原能力。 如果您需要匯出 數據不支持的數據表導出,您可以使用其他匯出數據的方法,包括 Azure Logic Apps 來保護您的數據。 |
記錄作業記錄數據可能無法在匯出狀態中輕易查詢。 不過,它可確保數據在長時間的區域中斷中倖存下來,而且可以長時間存取和保留。 |
| 對於任務關鍵性工作負載,請考慮實作使用多個工作區的同盟工作區模型,以在發生區域失敗時提供高可用性。 若要實作此方法,請遵循 Azure 上任務關鍵性工作負載的健康情況模型化和可檢視性中所述的 指引,瞭解如何在 Azure 上設計高度可靠的應用程式。 |
設計方法包含具有多個 Log Analytics 工作區的同盟工作區模型,可在有多個失敗時提供高可用性,包括 Azure 區域的失敗。 此策略可消除跨區域的輸出成本,而您的工作負載在區域失敗期間仍可運作。 |
| 使用單一責任原則設計 DCR,以簡化 DCR 規則,並將 DCR 中的轉換降到最低,如 數據收集規則建立和管理的最佳做法中所述。 使用規則指派的組合,以達到邏輯目標所需的可觀察性範圍。 |
當您使用以窄焦點為主的 DCR 時,它會將規則設定錯誤的風險降到最低,併產生更廣泛的效果。 它也會將效果限制為只有 DCR 建立的範圍。 在某些案例中,轉換可能強大且必要,但測試及疑難解答關鍵詞查詢語言 (KQL) 工作可能很困難。 |
| 設定 每日上限 設定,以防止擷取失控,同時確保重要的作業數據收集繼續。 設定一般每日擷取磁碟區上方的上限,並在接近容量時建立警示,以在重大數據收集停止之前進行調查。 建立符合疑難解答和事件回應需求 的數據保留原則 。 此方法會保留重要記錄類型,以取得足夠的期間,以支援根本原因分析。 |
每日上限有助於確保中斷和事件期間基本疑難解答數據的連續可用性,避免設定錯誤,以中斷快速事件回應所需的重要記錄收集。 適當的保留原則會維護對有效根本原因分析、趨勢識別和模式辨識所需的歷史作業數據存取權,以支援可靠的工作負載作業,以及更快速的復原平均時間。 |
| 使用 Log Analytics 工作區深入解析 來追蹤擷取磁碟區、擷取的數據與數據上限、沒有回應的記錄來源,以及失敗查詢等數據。 建立 健全狀態警示 ,以在因數據中心或區域性失敗而無法使用工作區時主動通知您。 |
工作區深入解析可協助您確保您可以成功監視工作區的健康情況,並在工作負載健康情況面臨降低風險時主動採取行動。 如同工作負載的所有其他元件,請務必瞭解健康情況計量,並找出一段時間後改善可靠性的趨勢。 |
安全性
安全性支柱的目的是保障工作負載的機密性、完整性和可用性。
安全性設計原則提供高階設計策略,可藉由將方法套用至監視和記錄解決方案周圍的技術設計,以達成這些目標。
工作負載設計檢查清單
根據 安全設計檢閱檢查清單 啟動您的設計策略,找出弱點和控制措施,以改善安全姿態。
檢閱安全性最佳做法: 檢閱 Azure 監視器安全性基準中安全性 的最佳做法,以及 管理 Log Analytics 工作區的存取 權文章。
使用分割作為基石原則來部署工作區: 在網路、數據和存取層級實作分割。 分割有助於確保您的工作區會隔離到適當的程度。 它也有助於保護您的工作區,使其免於儘可能獲得未經授權的存取,同時仍符合可靠性、成本優化、營運卓越和效能效率的商務需求。
請確定您可以稽核工作區讀取和寫入活動和相關聯的身分識別: 攻擊者可以從檢視作業記錄中獲益。 遭入侵的身分識別可能會導致記錄插入式攻擊。 啟用從 Azure 入口網站或透過 API 互動和相關聯使用者執行的作業稽核。
如果您未設定稽核工作區,可能會讓您的組織面臨違反合規性需求的風險。
實作健全的網路控制: 透過網路隔離和防火牆功能,協助保護工作區和記錄的網路存取。 設定不足的網路控制會增加未經授權或惡意存取的風險。
判斷數據類型需要不變性或長期保留: 您的記錄數據應該與生產系統內的工作負載數據相同。 在數據分類實務中包含記錄數據,以確保您根據合規性需求成功儲存機密記錄數據。
透過加密保護待用記錄數據: 單獨分割並不會完全保護記錄數據的機密性。 如果發生未經授權的原始存取,加密待用記錄數據有助於防止不良執行者在工作區外部使用該數據。
透過模糊處理保護機密記錄數據: 就像位於生產系統中的工作負載數據一樣,您必須採取額外措施,以確保機密性會保留給可能刻意或無意出現在作業記錄中的敏感性資訊。 當您使用模糊處理方法時,它可協助您隱藏機密記錄數據,使其不受未經授權的存取。
組態建議
| 建議 | 優點 |
|---|---|
| 當您需要控制加密金鑰時,請使用 客戶管理的金鑰 來保護工作區中的數據和儲存的查詢。 客戶管理的密鑰需要具有足夠數據磁碟區的 專用叢集 ,才能符合成本效益。 將加密密鑰儲存在 Azure Key Vault 中,如果您使用該服務,請考慮特定 Microsoft Sentinel 需求 。 |
客戶管理的金鑰可控制金鑰生命週期,以及在法規或組織需求要求客戶控制加密時撤銷數據的存取權。 |
| 設定 記錄查詢稽核 ,以追蹤哪些使用者正在執行查詢。 使用 Log Analytics工作區深入解析 定期檢閱此數據。 請考慮建立記錄查詢警示規則,以在未經授權的使用者嘗試執行查詢時主動通知您。 |
查詢稽核會記錄工作區中每個查詢執行的詳細數據,並藉由確保未經授權的存取會在發生時立即攔截到您的安全性狀態。 |
| 使用 私人連結 功能,將記錄來源與工作區之間的通訊限制為專用網。 | 私人連結提供網路隔離,並可讓您控制哪些虛擬網路可以存取指定的工作區。 此方法會透過分割進一步增強您的安全性。 |
| 使用 Microsoft Entra 識別碼 ,而不是在可用時用於工作區 API 存取的 API 金鑰 。 使用足夠的範圍Microsoft以專案標識符為基礎的存取,以程序設計方式存取。 | Microsoft Entra ID 驗證會針對程式設計存取提供個別用戶端稽核線索,與 API 查詢 API 的 API 金鑰型存取不同。 |
| 將工作區的 訪問控制模式 設定為 [使用資源或工作區許可權]。 此訪問控制可讓資源擁有者使用 資源內容 來存取其數據,而不獲授與工作區的明確存取權。 針對需要跨多個資源存取一組數據表的使用者,使用 數據表層級角色型訪問控制 (RBAC )。 指派適當的 內建角色 ,根據其職責範圍,將工作區許可權授與訂用帳戶、資源群組或工作區層級的系統管理員。 如需授與工作區中數據存取權的各種選項詳細資訊,請參閱 管理 Log Analytics 工作區 的存取權。 |
適當的訪問控制模式設定可簡化工作區設定,並協助確保使用者無法存取他們不應該的作業數據。 具有數據表許可權的使用者,無論其資源許可權為何,都可以存取數據表中的所有數據。 |
| 使用 數據匯出 將數據傳送至具有 不變性原則 的 Azure 記憶體帳戶,以協助防範數據竄改。 判斷應根據合規性、稽核或安全性需求導出的特定數據類型,並視需要 清除 數據。 |
具有不變性原則的數據導出符合長期保留稽核數據的合規性需求。 Log Analytics 工作區中的數據無法變更,但可以清除。 |
| 使用特定數據源的組態來篩選不應該收集的記錄。 如果只應移除或模糊處理數據中的特定數據行,請使用 轉換 。 如果您有要求未經修改原始數據的標準,您可以使用 KQL 查詢中的 『h』 常值 來模糊化活頁簿中顯示的查詢結果。 |
數據篩選和轉換可協助您確保敏感性資訊保持機密性,並主動遵守需求。 |
成本優化
成本優化著重於偵測支出模式、將投資放在重要領域,以及在其他領域進行優化,以符合組織預算,同時滿足商務需求。
成本優化設計原則提供達成這些商務目標的高階設計策略。 它們也可協助您在與監視和記錄解決方案相關的技術設計中在必要時進行取捨。
工作負載設計檢查清單
以 設計檢閱檢查清單作為基礎開始您的設計策略,以進行投資成本優化。 微調設計,讓工作負載符合為工作負載配置的預算。 您的設計應該使用正確的 Azure 功能、監視投資,以及尋找經過一段時間優化的機會。
執行成本模型化練習: 這些練習可協助您瞭解目前的工作區成本,並預測相對於工作區成長的成本。 分析工作負載中的成長趨勢,並確定您瞭解工作負載擴充的計劃,以正確預測您未來的作業記錄成本。
選擇正確的計費模型: 使用您的成本模型來判斷案例的最佳 計費模型 。 您目前如何使用工作區,以及如何在工作負載演進時使用這些工作區的方式,會決定隨用隨付或承諾層模型最適合您的案例。
請記住,您可以為每個工作區選擇不同的計費模型。 您也可以在特定案例中結合工作區成本,因此您可以在分析和決策中更細微地進行。
只收集正確的記錄數據量: 對資源、數據收集規則組態和自定義應用程式程式代碼記錄執行診斷設定的定期排程分析,以確保您不會收集不必要的記錄數據。
以不同於生產環境的方式處理非生產環境: 檢閱您的非生產環境,以確保診斷設定和保留原則已正確設定。 這些設定和原則通常比生產環境低得多,尤其是針對開發/測試或沙盒環境。
組態建議
| 建議 | 優點 |
|---|---|
| 針對每個Log Analytics工作區通常收集的數據量設定定價層。 如果您收集足夠的數據,請使用 承諾層 認可每日最少收集的數據,以換取較低的費率。 如需承諾層的詳細資訊,以及有關如何判斷適當使用量層級的指引,請參閱 Azure 監視器記錄成本計算和選項。 若要檢視不同定價層使用量的預估成本,請參閱 使用量和估計成本。 |
相較於隨用隨付定價,當您收集足夠的每日數據量以符合最低承諾用量閾值時,承諾用量層級會大幅降低您的成本。 |
| 如果您在單一區域中的工作區之間收集足夠的數據,請將它們連結至 專用叢集 ,並使用 叢集定價來合併其收集的磁碟區。 設定叢集以從多個工作區匯總擷取磁碟區,以達到符合成本效益的定價層。 |
當您在相同區域中有多個工作區時,具有叢集定價的專用叢集可大幅節省成本。 此設定可讓您合併其數據磁碟區,以達到更高的承諾層級,並減少每 GB 擷取成本。 |
| 設定 數據保留和封存。 請考慮讓數據可供記錄查詢使用的特定需求。 設定 封存記錄 ,以保留最多七年的數據,並透過 搜尋作業 或將 一組數據還原 至工作區,偶爾存取數據。 |
數據保留和封存設定可大幅降低長期數據保留超過默認期間的成本,同時在需要時維持對歷程記錄數據的存取。 |
| 針對大量數據串流使用摘要規則,將記憶體成本優化。 摘要規則 可讓您摘要分析、基本或輔助計劃之間的高擷取率串流,提供摘要數據的強大分析、儀錶板和長期報告體驗。 摘要規則可啟用自動化數據摘要功能,大幅降低大量記錄數據的儲存成本,同時透過匯總數據集維護分析見解。 |
摘要規則藉由建立階層式數據架構來提供符合成本效益的長期數據保留,而階層式數據架構會摘要處理高頻率原始數據以進行記憶體優化。 組織可以藉由透過匯總數據集維護詳細的深入解析,同時優化長期數據保留費用,以平衡成本效益與分析需求。 |
| 如果您使用 Microsoft Sentinel 分析安全性記錄,請考慮使用不同的工作區來儲存這些記錄。 請檢 閱Microsoft Sentinel 定價 以瞭解成本影響。 | 個別工作區可藉由將受Microsoft Sentinel 價格限制的安全性記錄與標準Log Analytics定價計費的作記錄分開,協助您控制成本。 |
| 將用於偵錯、疑難解答和稽核的數據表設定為 基本記錄。 | 基本記錄設定為不常查詢的數據表提供較低的擷取成本,其中查詢費用可藉由降低擷取成本來抵消。 |
| 藉由設定 診斷設定 和 DCR 只收集基本作業數據,以擷取正確的數據量。 檢閱每個資源的數據源,以確保您收集數據,以提供監視值,同時避免不必要的數據。 如需設定指引 ,請參閱 Azure 監視器中的成本優化 。 |
擷取正確的數據量可藉由專注於作上有價值的數據,同時消除雜訊來降低成本。 此方法可確保您擷取基本計量,而不需要支付不會導致監視目標的數據。 |
| 定期分析工作區使用量數據,以識別趨勢和異常狀況。 使用 Log Analytics工作區深入解析 定期檢閱工作區中收集的數據量。 使用在 Log Analytics 工作區中分析使用量 的方法進一步分析數據收集,以判斷其他組態是否可以進一步減少您的使用量。 |
一般使用分析可協助您了解各種來源的數據收集、找出可能導致超額成本的異常和向上趨勢,並在您引進新的數據源時主動管理費用。 |
| 建立資料收集過高的警示。 設定 過度使用量的主動式通知。 | 高數據收集警示可讓您解決計費期間結束前的潛在異常狀況,這有助於避免非預期的帳單。 |
| 設定 每日上限 以防止因設定錯誤或濫用而導致失控擷取,如 使用每日上限的時機中所述。 建立警示,以在 達到上限 和 達到百分比時通知您,例如 90% 的容量。 |
每日上限組態可針對非預期的預算超支提供保護,同時讓您有機會在關閉重要數據收集之前調查和解決數據增加的原因。 |
卓越營運
卓越營運主要著重於 開發實務、可觀察性和發佈管理。
營運卓越設計原則 提供高階設計策略,以達成工作負載作業需求的目標。
工作負載設計檢查清單
根據 Operational Excellence 的設計檢閱檢查清單 來開始您的設計策略,以定義與 Log Analytics 工作區相關的可觀察性、測試和部署程式。
針對與工作負載Log Analytics工作區相關的所有函式,使用基礎結構即程式代碼 (IaC): 藉由透過程式代碼,將手動管理及作記錄收集、擷取、儲存、儲存和查詢函式,包括已儲存的查詢和查詢套件,產生的人為錯誤風險降到最低。
此外,也包含報告健康狀態變更的警示,以及將記錄傳送至 IaC 程式代碼中工作區之資源的診斷設定。 將程式代碼包含在其他工作負載相關程式代碼中,以確保您的安全部署作法會維持在工作區的管理。
確定您的工作區狀況良好,且發生問題時會收到通知: 就像工作負載的任何其他元件一樣,您的工作區可能會遇到問題。 這些問題可能會耗用寶貴的時間和資源來診斷和修正,而且可能會讓您的小組不知道生產工作負載的狀態。 主動監視工作區和早期問題緩和措施,可讓作業小組減少疑難解答和修復所花費的時間。
將生產環境與非生產工作負載分開: 請避免不必要的複雜度,因為作業小組會針對生產環境使用不同的工作區,而不是非生產環境所使用的工作區來為作業小組帶來額外的工作。 由於測試活動似乎是生產中的事件,因此來臨數據也可能會導致混淆。
偏好使用內建工具和函式,而不是非Microsoft解決方案: 使用內建工具來擴充監視和記錄系統的功能。 您可能需要放置額外的組態,以支援Log Analytics工作區目前無法使用的復原性或數據主權等需求。 在這些情況下,如果可行,請使用原生 Azure 或 Microsoft 工具,將貴組織必須支援的工具數目降到最低。
將工作區視為靜態而非暫時元件: 如同其他類型的數據存放區,您工作負載的暫時元件中不應該考慮工作區。 Well-Architected Framework 通常會偏向不可變的基礎結構,以及快速且輕鬆地取代工作負載內資源的能力,作為部署的一部分。 但是工作區數據的遺失可能是災難性且無法復原的。
基於這個理由,請將工作區排除在更新期間取代基礎結構的部署套件,而且只會在工作區上執行就地升級。
請確定作業人員已使用 Kusto 查詢語言進行訓練: 訓練員工視需要建立或修改查詢。 如果運算符無法寫入或修改查詢,它可能會讓重大疑難解答或其他函式變慢,因為操作員必須依賴其他小組來執行該工作。
組態建議
| 建議 | 優點 |
|---|---|
| 設計 Log Analytics工作區架構 以符合您的商務需求,包括要建立的工作區數目和放置位置。 如果您的工作負載使用集中式平臺小組供應專案,請確定您已設定所有必要的作業存取權。 |
設計完善的工作區策略可藉由限制作業和安全性數據的分佈、增加潛在問題的可見度、讓模式更容易識別,以及將維護需求降至最低,將工作負載的作業效率最大化。 |
| 使用 IaC 範本部署 Log Analytics 工作區,例如 ARM 範本、 Bicep 或 Terraform。 在版本控制的範本中定義工作區組態和已儲存的查詢。 將環境特定設定的範本參數化,同時維護標準化的基準組態。 |
IaC 範本可消除環境之間的設定漂移,並透過一致且可重複的程式減少部署錯誤。 版本控制可啟用變更追蹤,並協助稽核追蹤合規性需求。 |
| 實作持續整合和持續傳遞 (CI/CD) 管線,以透過 Azure Pipelines 或 GitHub Actions 將 Log Analytics 工作區部署自動化。 整合自動化測試,以在生產環境部署之前驗證工作區設定。 將工作區基礎結構程式代碼與應用程式程式代碼存放庫共置,以套用一致的 安全部署做法。 |
自動化 CI/CD 管線可減少部署時間,同時透過驗證維持一致的品質。 安全部署做法可將人為錯誤的風險降到最低,並在更新期間發生問題時提供復原功能。 |
| 使用 Azure 原則 搭配 Log Analytics 工作區的內建原則來強制執行工作區設定標準。 建立組織特定需求的自定義原則,例如強制診斷設定和命名慣例。 在適當的範圍實作原則指派,以自動將治理規則套用至新的工作區,並偵測設定漂移。 |
原則強制執行可確保所有工作區的一致治理,而不需要手動監督,進而降低作業額外負荷。 藉由偵測設定漂移,自動化合規性檢查可防止安全性和作問題。 透過原則的標準化設定支援可調整的工作區管理,並啟用一致的稽核狀態。 |
| 使用 Log Analytics 工作區深入解析 來追蹤 Log Analytics 工作區的健康情況和效能。 檢閱Log Analytics工作區深入解析定期提供的資訊,以追蹤每個工作區的健康情況和作業。 根據 作業數據表 建立警示規則,以在發生作業問題時主動收到通知。 針對 工作區使用建議的警示 ,以簡化您建立最重要警示規則的方式。 |
Log Analytics 工作區深入解析提供所有工作區的使用量、效能、健康情況、代理程序、查詢和變更記錄的統一檢視。 Log Analytics 工作區深入解析可讓您建立容易瞭解的視覺效果,例如作業小組和項目關係人可用來追蹤工作區健康情況的儀錶板或報表。 |
| 經常重新瀏覽資源、DCR 和應用程式記錄詳細資訊的 Azure 診斷設定,以練習持續改善。 請確定您透過經常檢閱資源設定來優化記錄收集策略。 從作觀點來看,請專注於那些提供資源健康情況狀態實用資訊記錄的記錄,以減少記錄中的雜訊。 |
持續改進做法可協助操作員調查和疑難解答問題,並在發生時處理例行、即興或緊急工作。 這些做法也會藉由專注於作業小組追蹤最重要的活動來減少記錄量。 |
效能效率
效能效率是指即使負載增加,也能通過管理容量來維護用戶體驗。 此策略包括調整資源、識別和優化潛在瓶頸,以及優化尖峰效能。
效能效率設計原則提供針對預期使用量達成這些容量目標的高階設計策略。
工作負載設計檢查清單
請根據效能效率 指標的設計審查清單,開始您的設計策略。 定義以 Log Analytics 工作區關鍵效能指標為基礎的基準。
熟悉 Azure 監視器中記錄數據擷取延遲的基本概念: 將記錄擷取到工作區時,有幾個因素會導致延遲。 Azure 監視器平臺固有許多這些因素。
瞭解因素和一般延遲行為,可協助您在工作負載作業小組中設定適當的期望。
將您的非生產工作負載和生產工作負載分開: 生產特定工作區可減輕非生產系統可能引進的任何額外負荷。 區隔可減少工作區的整體使用量,方法是要求較少的資源來處理記錄數據處理。
選擇正確的部署區域以符合您的效能需求: 部署接近工作負載的Log Analytics工作區和 DCE。 部署工作負載的位置應該會通知您選擇的適當區域,以部署工作區和 DCE。
如果您已將工作負載部署到無法支援記錄數據需求的區域,您可能需要根據可靠性需求,權衡將工作區和 DCE 部署在相同區域中的效能優點。
組態建議
| 建議 | 優點 |
|---|---|
| 設定 記錄查詢稽核 ,並使用 Log Analytics工作區深入解析 來識別緩慢且沒有效率的查詢。 如需如何改善慢速記錄查詢效能的指引,請參閱 優化 Azure 監視器中的記錄查詢 。 |
優化查詢會更快傳回結果,並在後端使用較少的資源,這也會讓依賴這些查詢的程式更有效率。 |
| 針對大型數據集和長期保留數據的複雜分析查詢,使用搜尋作業。 搜尋作業 是針對Log Analytics工作區中任何數據執行的異步查詢,包括長期保留期間的數據。 搜尋作業會在工作區中建立新的分析數據表,讓結果可供進一步查詢使用。 這項功能可讓您將分析工作負載與作業監視區隔,改善系統效能,同時維護完整的數據存取。 |
搜尋作業支援複雜的歷程記錄數據分析,而不會影響即時監視效能。 它們可透過最少的資源衝突啟用專用分析處理,讓安全性小組和分析師在封存數據上執行密集的查詢,同時保留作業監視回應性。 |
| 檢閱 Azure 監視器服務限制 和 Log Analytics 工作區 限制,以瞭解可能會影響效能和工作區設計的限制。 適當地設計以減輕服務限制,這可能需要您使用多個工作區,以避免達到與單一工作區相關聯的限制。 |
瞭解可能會影響工作區效能的限制可協助您適當地設計,以減輕這些限制,並針對其他要素的需求和目標平衡設計決策。 |
| 在一或多個定義的可觀察性範圍內,建立數據源類型特有的 DCR 。 為效能和事件建立個別 DCR,以優化後端處理計算使用量。 |
效能和事件的個別 DCR 有助於減輕後端資源耗盡,並防止過多的計算資源耗用量,而可能導致 Azure 監視器代理程式沒有回應。 |
Azure 原則
Azure 提供一組與 Log Analytics 及其相依性相關的大量內建原則。 您可以透過 Azure 原則稽核上述一些建議。 例如,您可以檢查下列控件是否就緒:
Log Analytics 叢集會使用客戶管理的金鑰加密。
已儲存的查詢會儲存在客戶記憶體帳戶中以進行加密。
Log Analytics 工作區會封鎖非Microsoft以專案為基礎的擷取。
Log Analytics 工作區會封鎖來自公用網路的記錄擷取和查詢。
私人鏈接組態已正確實作,以進行安全存取。
如需全面治理,請檢閱 Log Analytics的 Azure 原則內建定義 ,以及其他可能會影響監視和記錄基礎結構安全性的原則。
Azure Advisor 建議
Azure Advisor 是個人化的雲端顧問,可協助您遵循最佳做法來優化 Azure 部署。
如需詳細資訊,請參閱 Advisor。