共用方式為


監視 Azure OpenAI

備註

本文件指的是 Microsoft Foundry(經典版) 入口網站。

🔍 請參閱 Microsoft Foundry(新)文件 以了解新入口網站。

本文說明:

  • 您可以為此服務收集的監視資料類型。
  • 分析資料的方式。

備註

如果您已經熟悉此服務和/或 Azure 監視器,只想知道如何分析監視資料,請參閱本文靠近結尾的分析一節。

當您有依賴 Azure 資源的重要應用程式和商務流程時,就需要監視並取得系統的警示。 Azure 監視器服務會從您系統的每個元件收集及彙總計量和記錄。 Azure 監視器讓您能夠檢視可用性、效能及復原能力,並在發生問題時通知您。 您可以使用 Azure 入口網站、PowerShell、Azure CLI、REST API 或用戶端程式庫來設定及檢視監視資料。

儀表板

Azure OpenAI 會針對每個 Azure OpenAI 資源提供立即可用的儀表板。 有兩個主要儀錶板可監視您的資源:

  • Foundry Azure OpenAI 資源檢視中的指標儀表板
  • Azure 入口網站中的概觀窗格內的儀表板

若要存取監視儀錶板,請登入 Azure 入口網站 ,然後選取其中一個 Azure OpenAI 資源的概觀窗格。 若要從 Azure 入口網站查看 Foundry 指標儀表板,請選擇概覽窗格, 然後前往 Microsoft Foundry 入口網站。 在 [工具] 底下,選取計量儀錶板。

顯示 Azure 入口網站中 Azure OpenAI 資源立即可用儀表板的螢幕擷取畫面。

儀表板分為四個類別:HTTP 要求權杖型使用量PTU 使用率以及微調

Azure 監視器中的資料收集和路由

Azure OpenAI 會收集與其他 Azure 資源相同的監視資料種類。 您可以設定 Azure 監視器,以在活動記錄、資源記錄、虛擬機器記錄和平台計量中產生資料。 如需詳細資訊,請參閱從 Azure 資源監視資料

平台計量和 Azure 監視器活動記錄會自動收集並儲存。 此資料可透過使用診斷設定路由傳送至其他位置。 您必須先建立診斷設定,並將記錄路由傳送至一個或多個位置,Azure 監視器才會開始收集和儲存資源記錄。

在建立診斷設定時,您可以指定要收集的記錄類別。 如需使用 Azure 入口網站、Azure CLI 或 PowerShell 建立診斷設定的詳細資料,請參閱建立診斷設定以收集 Azure 中的平台記錄和計量

請記住,使用診斷設定並將資料傳送至 Azure 監視器記錄有與其相關聯的其他成本。 如需更多資訊,請參閱 Azure 監視器記錄成本計算和選項

下列各節說明您可以收集的計量和記錄。

資源類型

Azure 會使用資源類型和識別碼的概念來識別訂用帳戶中的所有內容。 資源類型也是 Azure 中所執行每個資源的資源識別碼組成部分。 例如,虛擬機器的一種資源類型是 Microsoft.Compute/virtualMachines。 如需服務及其相關聯資源類型的清單,請參閱 資源提供者

Azure 監視器同樣會依據資源類型將核心監視資料組織成計量和記錄,也稱為命名空間。 不同的計量和記錄適用於不同的資源類型。 您的服務可能會與多個資源類型相關聯。

如需 Azure OpenAI 資源類型的詳細資訊,請參閱 Azure OpenAI 監視資料參考

數據記憶體

針對 Azure 監視器:

  • 計量資料會儲存在 Azure 監視器計量資料庫中。
  • 記錄資料會儲存在 Azure 監視器記錄存放區中。 Log Analytics 是 Azure 平台上一個可查詢此存放區的工具。
  • Azure 活動記錄是個單獨存放區,其介面位於 Azure 入口網站。

您可選擇性地將計量和活動記錄資料路由傳送至 Azure 監視器記錄存放區。 然後,可以使用 Log Analytics 來查詢資料,並將其與其他記錄資料相互關聯。

許多服務可以使用診斷設定,將計量和記錄資料傳送至 Azure 監視器以外的其他儲存位置。 範例包括使用 Event Hubs 的 Azure 儲存體、託管的合作夥伴系統和非 Azure 合作夥伴系統

如需進一步了解 Azure 監視器如何儲存資料,請參閱 Azure 監視器資料平台

Azure 監視器平台指標

Azure 監視器為大多數服務提供平台計量。 這些計量包括:

  • 針對每個命名空間個別定義。
  • 儲存在 Azure 監視器時間序列計量資料庫中。
  • 輕量且能支援近即時警示。
  • 用來追蹤資源效能的長期變化。

收集:Azure 監視器會自動收集平台計量。 不需要組態。

路由: 您也可以將某些平台度量路由到 Azure 監控日誌/Log Analytics,以便可以與其他日誌數據一起查詢它們。 檢查每個指標的 DS 匯出 設定,以確定您是否可以使用診斷設定將該指標傳送至 Azure Monitor Logs / Log Analytics。

如需 Azure 監視器中所有資源可收集的計量完整清單,請參閱 Azure 監視器中所支援的計量

Azure OpenAI 與 Foundry Tools 的子集有共通點。 如需 Azure OpenAI 可用計量的清單,請參閱 Azure OpenAI 監視資料參考

Azure 監視器資源記錄

資源記錄提供對 Azure 資源所完成作業的深入解析。 系統會自動產生記錄,但您必須將其路由傳送至 Azure 監視器記錄,才能儲存或查詢這些記錄。 按類別組織記錄。 指定的命名空間可能會有多個資源記錄類別。

收集:您必須先建立「診斷設定」,並將記錄路由傳送至一個或多個位置,才會開始收集和儲存資源記錄。 在建立診斷設定時,您可以指定要收集的記錄類別。 有多種方式可以建立和維護診斷設定,包括透過 Azure 入口網站、程式設計方式,以及 Azure 原則。

路由: 建議的預設值是將資源日誌路由到 Azure Monitor 日誌,以便與其他日誌數據一起查詢。 您也可以使用其他位置,例如 Azure 儲存體、Azure 事件中樞及特定 Microsoft 監視合作夥伴。 如需詳細資訊,請參閱 Azure 資源記錄 和資源 記錄目的地

如需收集、儲存和路由資源記錄的詳細資訊,請參閱 Azure 監視器中的診斷設定

如需 Azure 監視器中所有可用資源記錄類別的清單,請參閱 Azure 監視器中支援的資源記錄

Azure 監視器中的所有資源記錄都有相同的標頭欄位,後面接著服務特定的欄位。 通用架構概述於 Azure 監視器資源記錄架構中。

如需可用的資源記錄類別、其相關聯的 Log Analytics 資料表,以及 Azure OpenAI 的結構描述,請參閱 Azure OpenAI 監視資料參考 (機器翻譯)。

Azure 活動記錄

活動記錄包括訂用帳戶層級的事件,這些事件用於追蹤每個 Azure 資源的操作情況,這些情況是從該資源的外部可見的;例如,建立新資源或啟動虛擬機器。

收集:活動記錄事件會自動產生並收集至個別存放區中,以便使用者在 Azure 入口網站中檢視。

路由:您可以將活動記錄資料傳送至 Azure 監視器記錄,以便與其他記錄資料一起分析。 您也可以使用其他位置,例如 Azure 儲存體、Azure 事件中樞及特定 Microsoft 監視合作夥伴。 如需如何路由活動記錄的詳細資訊,請參閱 Azure 活動記錄的概觀

分析監視資料

有許多工具可用來分析監視資料。

Azure 監視器工具

Azure 監視器支援下列基本工具:

支援更複雜視覺效果的工具包括:

  • 儀表板可讓您在 Azure 入口中將不同類型的資料合併到同一窗格中。
  • 活頁簿 是您可以在 Azure 入口網站中建立的可自訂的報表。 活頁簿可以包含文字、計量及記錄查詢。
  • Grafana,一款在營運儀表板方面表現出色的開放平台工具。 您可以使用 Grafana 來建立儀表板,納入 Azure 監視器以外多個來源的資料。
  • Power BI 是一項商務分析服務,可在各種數據源之間提供互動式視覺效果。 您可以將Power BI 設定為從 Azure 監視器自動匯入記錄數據,以利用這些視覺效果。

設定診斷設定

所有計量都可以使用 Azure 監視器中的診斷設定匯出。 若要使用 Azure 監視器 Log Analytics 查詢來分析記錄和計量資料,您必須設定 Azure OpenAI 資源和 Log Analytics 工作區的診斷設定。

顯示如何在 Azure 入口網站中開啟 Azure OpenAI 資源的診斷設定頁面螢幕擷取畫面。

設定診斷設定之後,您可以在 Log Analytics 工作區中使用 Azure OpenAI 資源的計量和記錄資料。

Azure 監視器匯出工具

您可以使用下列方法將資料從 Azure 監視器中提取至其他工具:

若要開始使用適用於 Azure 監視器的 REST API,請參閱 Azure 監視 REST API 逐步解說

Kusto 查詢

您可以使用 Kusto 查詢語言 (KQL) 分析 Azure 監視器記錄/Log Analytics 存放區中的監視資料。

這很重要

當您從入口網站的服務功能表中選取 [記錄] 時,Log Analytics 會隨即開啟,並將查詢範圍設定為目前的服務。 此範圍表示記錄查詢只會包含該資源類型的資料。 如果您想要執行包含其他 Azure 服務資料的查詢,請從 [Azure 監視器] 功能表中選取 [記錄]。 如需詳細資訊,請參閱 Azure 監視器 Log Analytics 中的記錄查詢範圍和時間範圍

如需任何服務的常見查詢清單,請參閱 Log Analytics查詢介面

部署 Azure OpenAI 模型後,你可以透過 Foundryplayground 環境發送一些完成呼叫。

您在 [完成遊樂場] 中輸入的任何文字,或 [聊天完成遊樂場] 為您的 Azure OpenAI 資源產生計量和記錄資料。 Log Analytics 工作區中的資源,您可以使用 [Kusto] 查詢語言來查詢監視資料。

這很重要

本文未對 Azure OpenAI 資源頁面上瀏覽至 Azure Resource Graph 的 [開啟查詢] 選項進行介紹。 下列查詢使用適用於 Log Analytics 的查詢環境。 請務必按照設定診斷設定中的步驟準備 Log Analytics 工作區。

  1. 從 Azure OpenAI 資源頁面的 [監視] 下,從左窗格選取 [記錄]

  2. 選擇為 Azure OpenAI 資源設定診斷的 Log Analytics 工作區。

  3. 從 [Log Analytics 工作區] 頁面,左側窗格的 [概觀] 中,選取 [記錄]

    根據預設,Azure 入口網站顯示樣本查詢和建議的 [查詢] 視窗。 您可以關閉此視窗。

在下列範例中,將 Kusto 查詢輸入 [查詢] 視窗頂端的編輯區域,然後選取 [執行]。 查詢結果會顯示在查詢文字下方。

下列 Kusto 查詢對於 Azure 診斷 (AzureDiagnostics) 資料的初始分析很有用:

AzureDiagnostics
| take 100
| project TimeGenerated, _ResourceId, Category, OperationName, DurationMs, ResultSignature, properties_s

此查詢會傳回 100 個項目的範例,並顯示記錄中可用資料行的子集。 在查詢結果中,您可以選取資料表名稱旁的箭號,以檢視所有可用的資料行和相關聯的資料類型。

顯示 Azure OpenAI 資源相關 Azure 診斷資料的 Log Analytics 查詢結果螢幕擷取畫面。

若要查看所有可用的資料行,您可以從查詢中移除範圍參數行 | project ...

AzureDiagnostics
| take 100

若要檢查資源的 Azure 計量 (AzureMetrics) 資料,請執行下列查詢:

AzureMetrics
| take 100
| project TimeGenerated, MetricName, Total, Count, Maximum, Minimum, Average, TimeGrain, UnitName

此查詢會傳回 100 個項目的範例,並顯示 Azure 計量資料可用資料行的子集:

顯示 Azure OpenAI 資源相關 Azure 計量的 Log Analytics 查詢結果螢幕擷取畫面。

備註

當您在資源的 Azure OpenAI 功能表中選取 [監視]>[記錄] 時,Log Analytics 隨即開啟,並將查詢範圍設定為目前資源。 可見的記錄查詢只包含來自該特定資源的資料。 若要執行包含其他資源資料或其他 Azure 服務資料的查詢,請從 [Azure 監視器] 功能表中選取 [記錄]。 如需詳細資訊,請參閱 Azure 監視器 Log Analytics 中的記錄查詢領域和時間範圍

警報

在監視資料中發現特定狀況時,Azure 監視器警示會主動通知您。 警示可讓您在客戶發現系統發生問題前,就先及早識別和解決問題。 如需詳細資訊,請參閱 Azure 監視器警示

Azure 資源的常見警示有許多來源。 若要查看 Azure 資源的常見警示範例,請參閱記錄警示查詢範例Azure 監視器基準警示 (AMBA) (英文) 網站提供了半自動化方法供您實作重要的平台計量警示、儀表板和指導方針。 此網站適用於持續擴充的 Azure 服務子集,包括屬於 Azure 登陸區域 (ALZ) 的所有服務。

常見的警示結構描述會將 Azure 監視器警示通知的使用量標準化。 如需詳細資訊,請參閱 常見警示架構

警示類型

您可以針對在 Azure 監視器資料平台中的任何計量或記錄資料來源發出警示。 警示有許多不同的類型,具體取決於您監視的服務以及所收集的監視資料。 不同類型的警示各有優缺點。 如需詳細資訊,請參閱 選擇正確的監視警示類型

下列清單介紹可建立的 Azure 監視器警示類型:

  • 指標警示 會定期評估資源指標。 這些計量可以是平台計量、自訂計量、Azure 監視器轉換成計量的記錄,或 Application Insights 計量。 計量警示還可以套用多個條件和動態閾值。
  • 記錄警示 可讓使用者使用日誌分析查詢,依照事先定義的頻率評估資源記錄。
  • 當發生符合已定義條件的新活動記錄事件時,就會觸發活動記錄警示。 資源健康狀態警示和服務健康情況警示是報告服務和資源健康狀態的活動記錄警示。

某些 Azure 服務也支援智慧偵測警示Prometheus 警示建議的警示規則

對於某些服務,若要進行大規模監控,您可以將同一計量警示規則套用至相同 Azure 區域中存在的多個同類型資源。 系統會針對每個受監視的資源傳送個別通知。 如需支援的 Azure 服務和雲端,請參閱 使用一個警示規則監視多個資源

設定警示

每個組織的警示需求都會有所不同,而且可能會隨著時間而變更。 一般而言,所有警示都應該可採取動作,如果發生警示,則會有特定的預期回應。 如果警示不需要立即回應,則可以在報告中擷取條件,而不是警示。 某些使用案例可能需要出現特定錯誤狀況時隨時發出警示。 在其他情況下,您可能需要針對指定時間期間內超過特定閥值的錯誤警示。

低於特定臨界值的錯誤,通常可透過定期分析 Azure 監視器記錄中的資料來評估。 當您分析一段時間的記錄資料時,可能會發現特定條件不會在預期的時間段內發生。 您可以使用警示來追蹤此條件。 有時候記錄檔中沒有事件與錯誤一樣重要。

根據您要使用 Azure OpenAI 開發的應用程式類型而定,Azure 監視器 Application Insights 可能會在應用層提供更多的監視優點。

Azure OpenAI 警示規則

您可以針對 Azure OpenAI 監視資料參考中列出的任何計量、記錄項目或活動記錄項目設定警示。

顧問建議

對於某些服務,如果在資源作業期間發生重大狀況或迫在眉睫的變更,入口網站中的服務 概觀 頁面上會顯示警示。 您可以在左側功能表中的 監視 底下的 Advisor 建議 中找到警報的更多資訊和建議修正。 在正常作業期間,不會顯示 Advisor 建議。

如需 Azure Advisor 的詳細資訊,請參閱 Azure Advisor 概觀