共用方式為


監控 Azure OpenAI(經典版)

備註

本文件指的是 Microsoft Foundry(經典版) 入口網站。

🔍 請參閱 Microsoft Foundry(新)文件 以了解新入口網站。

本文說明:

  • 您可以為此服務收集的監視資料類型。
  • 分析資料的方式。

備註

如果你已經熟悉這項服務和/或Azure Monitor,並且只想知道如何分析監控資料,請參考本文末尾的Analyze章節。

當你擁有依賴 Azure 資源的關鍵應用程式和業務流程時,你需要監控並接收系統的警示。 Azure Monitor 服務會收集並彙整系統每個元件的指標與日誌。 Azure Monitor 提供可用性、效能與韌性檢視,並通知你問題。 你可以使用 Azure portal、PowerShell、Azure CLI、REST API 或用戶端函式庫來設定和查看監控資料。

儀表板​​

Azure OpenAI 為每一個 Azure OpenAI 資源提供即用型儀表板。 有兩個主要儀錶板可監視您的資源:

  • Foundry Azure OpenAI 資源檢視中的指標儀表板
  • Azure portal 內的總覽窗格中的儀表板

要access監控儀表板,請登入 Azure portal,然後選擇你Azure OpenAI 資源的概覽窗格。 若要從Azure portal查看 Foundry 指標儀表板,請選擇概覽面板並前往 Microsoft Foundry 入口網站。 在 [工具] 底下,選取計量儀錶板。

顯示 Azure 入口網站中 Azure OpenAI 資源的開箱即用儀表板的截圖。

儀表板分為四個類別:HTTP 要求權杖型使用量PTU 使用率以及微調

Azure Monitor 中的資料收集與路由

Azure OpenAI 收集與其他 Azure 資源相同的監控資料。 你可以設定 Azure Monitor 來產生活動日誌、資源日誌、虛擬機器日誌和平台指標的資料。 欲了解更多資訊,請參閱來自Azure資源的監測資料

平台指標和 Azure Monitor 活動日誌會自動收集並儲存。 此資料可透過使用診斷設定路由傳送至其他位置。 Azure Monitor 的資源日誌不會被收集和儲存,除非你建立診斷設定,然後將日誌導向到一個或多個地點。

在建立診斷設定時,您可以指定要收集的記錄類別。 如需有關如何使用 Azure Portal、Azure CLI 或 PowerShell 建立診斷設定的更多資訊,請參閱 在 Azure 中建立診斷設定以收集平台記錄和度量

請記住,使用診斷設定和將資料傳送到 Azure Monitor 日誌會產生其他相關成本。 欲了解更多資訊,請參閱Azure監控日誌成本計算與選項

下列各節說明您可以收集的計量和記錄。

資源類型

Azure 利用資源類型與 ID 的概念來識別訂閱中的所有內容。 資源類型也是 Azure 中每個資源 ID 的一部分。 例如,虛擬機器的一種資源類型是 Microsoft.Compute/virtualMachines。 關於服務及其相關資源類型,請參見 Resource providers

Azure Monitor 類似地將核心監控資料組織為基於資源類型的指標與日誌,也稱為 namespaces。 不同的計量和記錄適用於不同的資源類型。 您的服務可能會與多個資源類型相關聯。

欲了解更多關於 Azure OpenAI 資源類型的資訊,請參見 Azure OpenAI 監控資料參考

資料儲存

For Azure Monitor:

  • 指標資料會儲存在 Azure Monitor 指標資料庫中。
  • 日誌資料會儲存在 Azure Monitor 的日誌儲存庫中。 Log Analytics 是 Azure portal 中的一個工具,可以查詢這個儲存庫。
  • Azure 活動日誌是一個獨立的儲存庫,並在 Azure portal 中有自己的介面。

你可以選擇性地將指標和活動日誌資料導向到 Azure Monitor 的日誌儲存庫。 然後,可以使用 Log Analytics 來查詢資料,並將其與其他記錄資料相互關聯。

許多服務可以使用診斷設定,將指標和日誌資料傳送到 Azure Monitor 以外的其他 storage 位置。 例如,Azure Storage、託管的合作夥伴系統,以及非Azure合作夥伴系統,透過Event Hubs。

欲了解 Azure Monitor 如何儲存資料的詳細資訊,請參見 Azure Monitor 資料平台

Azure Monitor 平台指標

Azure Monitor 為大多數服務提供平台指標。 這些計量包括:

  • 針對每個命名空間個別定義。
  • 儲存在 Azure Monitor 時間序列指標資料庫中。
  • 輕量且能支援近即時警示。
  • 用來追蹤資源效能的長期變化。

Collection: Azure Monitor 自動收集平台指標。 不需要組態。

Routing: 你也可以將一些平台指標路由到 Azure Monitor Logs / Log Analytics,這樣就能和其他日誌資料一起查詢。 檢查每個指標的 DS export 設定,看看是否可以用診斷設定將指標導向 Azure 監控日誌/日誌分析。

Azure Monitor 中可用於所有資源之可收集的指標清單,請參見 Azure Monitor 支援的指標

Azure OpenAI 與部分 Foundry Tools 有共通點。 關於 Azure OpenAI 可用指標清單,請參見 Azure OpenAI 監控資料參考

Azure Monitor 資源日誌

資源日誌提供關於 Azure 資源執行操作的洞察。 日誌會自動產生,但你必須將它們路由到 Azure Monitor 日誌才能儲存或查詢。 按類別組織記錄。 指定的命名空間可能會有多個資源記錄類別。

收集:您必須先建立「診斷設定」,並將記錄路由傳送至一個或多個位置,才會開始收集和儲存資源記錄。 在建立診斷設定時,您可以指定要收集的記錄類別。 有多種方法可以建立和維護診斷設定,包括 Azure portal、程式化,以及透過 Azure Policy。

Routing: 建議的預設做法是將資源日誌路由到 Azure 監控日誌,這樣你就能用其他日誌資料查詢它們。 其他地點如 Azure Storage、Azure Event Hubs 以及部分 Microsoft 監控合作夥伴也可用。 欲了解更多資訊,請參閱 Azure資源日誌資源日誌目的地

關於收集、儲存及路由資源日誌的詳細資訊,請參閱 Azure Monitor 中的 Diagnostics 設定

如需 Azure Monitor 中所有可用資源日誌類別的清單,請參見 Azure Monitor 中的 Supported resource logs。

Azure Monitor 中的所有資源日誌都有相同的標頭欄位,後面是服務專屬欄位。 常見的結構規範在 Azure 監控資源日誌架構中有說明。

關於可用的資源日誌類別、其相關的日誌分析表,以及 Azure OpenAI 的日誌結構,請參見 Azure OpenAI 監控資料參考

Azure 活動日誌

活動日誌包含訂閱層級事件,追蹤每個 Azure 資源的操作,從該資源外部觀察;例如建立新資源或啟動虛擬機器。

Collection:活動日誌事件會自動產生並收集到獨立儲存區,供在 Azure portal 查看。

Routing: 你可以將活動日誌資料傳送到 Azure 監控日誌,這樣你就能和其他日誌資料一起分析。 其他地點如 Azure Storage、Azure Event Hubs 以及部分 Microsoft 監控合作夥伴也可用。 欲了解更多如何路由活動日誌的資訊,請參閱 Azure活動日誌概覽

分析監視資料

有許多工具可用來分析監視資料。

Azure Monitor 工具

Azure Monitor 支援以下基本工具:

支援更複雜視覺效果的工具包括:

  • Dashboards,讓你能將不同類型的資料合併到Azure portal中的單一窗格。
  • Workbooks,可自訂的報告,可以在Azure portal中建立。 活頁簿可以包含文字、計量及記錄查詢。
  • Grafana,一款在營運儀表板上表現出色的開放平台工具。 你可以用 Grafana 建立包含多個來源資料的儀表板,除了 Azure Monitor。
  • Power BI,一項商業分析服務,提供跨多種資料來源的互動式視覺化。 你可以設定 Power BI 自動從 Azure Monitor 匯入日誌資料,利用這些視覺化效果。

設定診斷設定

所有指標都可以藉由 Azure Monitor 中的診斷設定 進行匯出。 要用 Azure Monitor Log Analytics 查詢分析日誌和指標資料,你需要為 Azure OpenAI 資源和 Log Analytics 工作區設定診斷設定。

&截圖顯示如何在 Azure 入口網站中開啟 Azure OpenAI 資源的診斷設定頁面。

在你設定診斷設定後,你可以在 Log Analytics 工作空間中處理 Azure OpenAI 資源的指標和日誌資料。

Azure Monitor 出口工具

你可以透過以下方法將 Azure Monitor 的資料輸出到其他工具:

要開始使用 Azure Monitor REST API,請參閱 Azure monitoring REST API walkthrough

Kusto 查詢

你可以使用 Kusto 查詢語言(KQL)分析 Azure Monitor Logs / Log Analytics 儲存中的監控資料。

這很重要

當您從入口網站的服務功能表中選取 [記錄] 時,Log Analytics 會隨即開啟,並將查詢範圍設定為目前的服務。 此範圍表示記錄查詢只會包含該資源類型的資料。 如果你想執行包含其他Azure服務資料的查詢,請從 Azure Monitor 選單中選擇 Logs。 詳情請參閱 Azure Monitor Log Analytics 中的日誌查詢範圍和時間範圍

關於任何服務常見查詢的清單,請參閱 Log Analytics 查詢介面

部署 Azure OpenAI 模型後,你可以使用 Foundry 中的 playground 環境發送一些完成呼叫。

你在 Completions playgroundChat completions playground輸入的任何文字,都會為你的 Azure OpenAI 資源產生指標和日誌資料。 在你資源的 Log Analytics 工作空間中,你可以使用 Kusto 查詢語言查詢監控資料。

這很重要

Azure OpenAI 資源頁面上的 Open query 選項會瀏覽到Azure Resource Graph,但本文未說明此功能。 下列查詢使用適用於 Log Analytics 的查詢環境。 請務必按照設定診斷設定中的步驟準備 Log Analytics 工作區。

  1. 在你的 Azure OpenAI 資源頁面中,從左側窗格的 Monitoring 中選取 Logs

  2. 選擇你在 Log Analytics 工作空間中為 Azure OpenAI 資源設定診斷的工作空間。

  3. 從 [Log Analytics 工作區] 頁面,左側窗格的 [概觀] 中,選取 [記錄]

    Azure portal預設會顯示一個Queries視窗,內含範例查詢與建議。 您可以關閉此視窗。

在下列範例中,將 Kusto 查詢輸入 [查詢] 視窗頂端的編輯區域,然後選取 [執行]。 查詢結果會顯示在查詢文字下方。

以下 Kusto 查詢對於初步分析資源的 Azure Diagnostics(AzureDiagnostics)資料非常有用:

AzureDiagnostics
| take 100
| project TimeGenerated, _ResourceId, Category, OperationName, DurationMs, ResultSignature, properties_s

此查詢會傳回 100 個項目的範例,並顯示記錄中可用資料行的子集。 在查詢結果中,您可以選取資料表名稱旁的箭號,以檢視所有可用的資料行和相關聯的資料類型。

截圖,顯示 Log Analytics 對 Azure OpenAI 資源Azure Diagnostics資料的查詢結果。

要查看所有可用的資料欄位,您可以從查詢中移除範圍參數行 | project ...

AzureDiagnostics
| take 100

要檢視資源的Azure指標(AzureMetrics)資料,請執行以下查詢:

AzureMetrics
| take 100
| project TimeGenerated, MetricName, Total, Count, Maximum, Minimum, Average, TimeGrain, UnitName

查詢會回傳 100 個條目範例,並顯示 Azure Metrics 資料中可用欄位的子集:

顯示 Azure OpenAI 資源的 Azure Metrics 資料查詢結果的 Log Analytics 截圖。

備註

當你在 OpenAI 資源的 Azure 選單中選擇 Monitoring>Logs時,Log Analytics 會開啟,查詢範圍設為目前資源。 可見的記錄查詢只包含來自該特定資源的資料。 若要查詢包含其他資源資料或其他Azure服務資料,請從Azure portalAzure Monitor選單中選擇Logs。 欲了解更多資訊,請參閱Azure 監控日誌分析中的查詢範圍與時間範圍的詳細資訊。

警示

Azure Monitor 警示會在偵測到特定狀況時主動通知你。 警示可讓您在客戶發現系統發生問題前,就先及早識別和解決問題。 欲了解更多資訊,請參閱 Azure 監控警報

Azure 資源有許多常見的警報來源。 關於Azure資源常見警示範例,請參見 Sample log alert queriesAzure 監控基線警示(AMBA)網站提供一種半自動化方法,以實施重要的平台指標警示、儀表板及指引。 該網站適用於持續擴展的 Azure 服務子集,包括所有屬於 Azure 登陸區(ALZ)的服務。

通用警報架構標準化了 Azure Monitor 警報通知的使用方式。 欲了解更多資訊,請參閱 Common Alert schema

警示類型

你可以在 Azure Monitor 資料平台上對任何指標或日誌資料來源發出警示。 警示有許多不同的類型,具體取決於您監視的服務以及所收集的監視資料。 不同類型的警示各有優缺點。 欲了解更多資訊,請參閱 選擇正確的監控警示類型

以下清單描述您可以建立的 Azure Monitor 警示類型:

  • Metric alerts 定期評估資源指標。 指標可以是平台指標、自訂指標、Azure Monitor 的日誌轉換成指標,或是 Application Insights 指標。 計量警示還可以套用多個條件和動態閾值。
  • Log alerts 允許使用者使用日誌分析查詢,在預定頻率下評估資源日誌。
  • 活動日誌警示 當發生符合定義條件的新活動日誌事件時會觸發。 Resource Health 警示與 Service Health 警示是活動記錄警示,用於報告您的服務與資源健康狀況。

部分Azure服務也支援智慧偵測警示Prometheus 警示推薦警示規則

對某些服務,你可以透過對同一 Azure 區域內多個同類型資源套用相同的指標警示規則來大規模監控。 系統會針對每個受監視的資源傳送個別通知。 關於支援的Azure服務與雲端,請參見 以單一警示規則監控多資源

設定警示

每個組織的警示需求都會有所不同,而且可能會隨著時間而變更。 一般而言,所有警示都應該可採取動作,如果發生警示,則會有特定的預期回應。 如果警示不需要立即回應,則可以在報告中擷取條件,而不是警示。 某些使用案例可能需要出現特定錯誤狀況時隨時發出警示。 在其他情況下,您可能需要針對指定時間期間內超過特定閥值的錯誤警示。

低於某個門檻的錯誤通常可以透過定期分析 Azure Monitor 日誌中的資料來評估。 當您分析一段時間的記錄資料時,可能會發現特定條件不會在預期的時間段內發生。 您可以使用警示來追蹤此條件。 有時候記錄檔中沒有事件與錯誤一樣重要。

根據你使用 Azure OpenAI 開發的應用程式類型,Azure Monitor Application Insights 可能在應用層提供更多監控優勢。

Azure OpenAI 警示規則

你可以針對 Azure OpenAI 監控資料參考中列出的任何指標、日誌條目或活動日誌條目設定警報。

顧問建議

對於某些服務,如果在資源作業期間發生重大狀況或迫在眉睫的變更,入口網站中的服務 概觀 頁面上會顯示警示。 您可以在左側功能表中的 監視 底下的 Advisor 建議 中找到警報的更多資訊和建議修正。 在正常作業期間,不會顯示 Advisor 建議。

欲了解更多Azure Advisor資訊,請參閱 Azure Advisor overview