本文提供在整個生命週期中管理 AI 工作負載的指引。 組織建立結構化作業程式、實作適當的部署控管,以及維護完整的監視做法時,可達成一致的 AI 效能。
管理 AI 作業
作業架構提供管理複雜 AI 項目的結構。 這些架構可確保開發小組之間的一致性,並減少傳遞週期變慢的錯誤。 您必須建立明確的作業程式,以達成可靠的 AI 工作負載管理。 方法如下:
建立卓越 AI 中心以取得策略指引。 卓越 AI 中心為整個組織的 AI 部署提供策略性監督和技術指引。 此群組可確保 AI 方法符合商務目標和技術需求。 使用 您的卓越 AI 中心 來評估哪些管理方法符合貴組織的需求,並建立支援治理和創新的部署標準。
為您的工作負載類型選取正確的作業架構。 不同的 AI 工作負載需要不同的作方法,以影響小組程式和工具決策。 此選項決定您的開發方法和技術堆疊整合。 針對傳統機器學習工作流程使用 MLOps 架構,以及將 GenAIOps 用於產生式 AI 工作負載。
將所有小組的開發工具標準化。 一致的工具可消除小組環境之間的相容性問題,並減少開發人員的學習曲線。 此方法可防止整合問題並加速開發週期。 定義和標準化 SDK 和 API 的使用,以在開發小組之間保持一致性。 如需詳細資訊,請參閱 選擇正確的 SDK 以支援您的使用案例
建立用於實驗的專用沙盒環境。 沙箱環境允許安全測試,而不會影響生產系統,並提供小組自由來測試新的方法。 這些環境可防止實驗性程式代碼影響穩定的工作負載。 在 AI 開發生命週期中,使用與開發、測試和生產環境相異的沙箱環境。 維護開發、測試和生產環境之間的一致性,以避免在環境之間升級期間發生重大變更。
盡可能簡化作業。 新功能可讓您更輕鬆地自定義和部署代理程式和微調的模型,而不需要特殊專業知識。 傳統的微調需要專家數據科學家來策劃數據集並建置工作特定的管線,以建立作業複雜性。 在 Microsoft 365 中使用 Copilot Tuning (預覽) 來微調內部工作的模型,而不需要專業知識。
管理 AI 部署
AI 部署管理定義誰可以部署 AI 資源並控管這些端點。 結構化方法可確保組織以治理需求平衡開發速度。 您必須建立明確的部署授權單位,才能實現一致的 AI 資源管理。 方法如下:
在已定義的治理範圍內,授予工作負載團隊部署權限。 工作負載小組能在不等待中央審批流程的情況下控制 AI 資源部署,從而加速開發。 此自主權可降低瓶頸,並讓商務需求快速回應,同時維持組織標準。 使用 Azure 原則 ,以一致的方式跨工作負載環境強制執行治理,並建立可解決治理差距的 AI 原則。 針對 Azure AI Foundry,為每個業務單位部署實例,並在業務單位內針對每個使用案例使用 Azure AI Foundry 專案,而不是跨業務單位建立集中式共享資源。
針對這兩種管理方法定義明確的 AI 部署原則。 AI 原則提供防護措施,可防止設定漂移和安全性缺口,同時確保符合組織標準。 這些原則可降低未經授權的 AI 資源使用風險。 建立 AI 原則以強制執行內容篩選設定,並防止使用不允許的模型,然後將這些原則清楚地傳達給所有小組。 定期進行稽核,以確保合規性。
建立持續整合和傳遞管線以進行部署。 自動化管線可減少手動錯誤,並確保跨環境進行一致的部署,同時提供可重複的程式,以提早攔截問題。 這些管線在整個開發過程中都會維護質量標準。 建立數據管線,涵蓋程式碼品質檢查、單元和整合測試,以及測試流程。 包含生產部署步驟,以及手動核准流程以推進版本發行。 維持模型與用戶端介面之間的分隔,以確保獨立的元件更新。
管理 AI 模型
AI 模型管理牽涉到治理結構、持續監視和效能維護一段時間。 此程式可協助組織讓模型符合道德標準、追蹤模型效能,並確保 AI 系統保持有效且符合商務目標。 您必須建立完整的模型管理程式,以達到可靠的 AI 效能。 方法如下:
定義效能追蹤的 AI 測量基準。 測量基準可確保 AI 模型符合商務目標和道德標準。 這些基準提供客觀標準來評估整個組織內的模組效能及 AI 負責任合規性。 建立與負責任 AI 準則相關的 KPI,例如公平性、透明度和精確度,然後將這些 KPI 對應至特定的 AI 工作負載。
快速找出效能問題的根本原因。 瞭解 AI 互動的每個階段,有助於隔離問題並有效率地實作更正動作,防止跨系統串連失敗。 例如,判斷聊天機器人錯誤是否源自提示編寫或模型上下文理解。 使用 Azure 監視器和 Application Insights 等內建工具,主動識別效能瓶頸和異常狀況。
根據效能準則重新定型 AI 模型。 模型因數據變更而降級,且需要重新定型以維持相關性。 定期重新定型可確保 AI 系統隨時掌握商務需求和數據模式。 根據模型效能指標或業務需求排定重新訓練的時間,讓 AI 系統保持相關。 評估初始定型成本,以評估最佳重新定型頻率,因為重新定型的成本可能很高。 維護模型的版本控制,並確保執行不佳版本的回退機制。
建立具有品質關卡的模型推進流程。 品質閘道可確保只有經驗證的模型到達生產環境。 這些程式可防止效能不佳的模型影響商務營運,並維持一致的質量標準。 使用效能準則,將定型、微調和重新定型的模型提升至較高環境。 定義每個應用程式唯一的效能準則,並建立包含測試和驗證步驟的清楚升級工作流程。
追蹤模型淘汰排程,以防止服務中斷。 模型淘汰追蹤會在廠商支持結束時防止效能問題。 錯過停用日期的組織會遇到非預期的服務降低或相容性問題。 監視預先定型模型的淘汰日期,以在廠商淘汰服務時維護功能。 例如,在模型被廢棄之前先更新生成式 AI 模型,以維持系統功能。 使用 Azure AI Foundry 入口網站 來檢視所有部署的模型淘汰日期。
管理 AI 成本
AI 成本管理可確保組織控制費用,同時維護計算機、記憶體和令牌使用量的效能。 組織需要結構化的成本監督和優化策略,以防止預算超支並最大化資源效率。 您必須建立完整的成本管理程式,以達成可預測的 AI 支出。 方法如下:
針對每個 Azure AI 服務實作成本管理最佳做法。 不同的 Azure AI 服務具有獨特的定價模型和優化功能,會影響總擁有成本。 瞭解服務特定的成本結構可協助組織為其工作負載選取最符合成本效益的選項。 例如,請遵循 Azure AI Foundry 的成本管理指引,將每個服務類型的費用優化。
監視使用模式,以將帳單效率最大化。 瞭解成本斷點可防止不必要的費用,並協助組織優化資源配置。 追蹤使用模式會顯示調整模型和架構的機會,以提升成本效益。 監視每分鐘令牌(TPM)和每分鐘的要求(RPM),以瞭解使用模式,然後根據這些模式調整模型和架構。 針對映像產生或每小時微調等服務使用固定價格閾值,以避免產生非預期的費用。 請考慮承諾型計費模型,以取得一致的使用模式,以降低整體成本。
建立自動化成本監視和警示。 自動化警示透過提前通知小組非預期的費用,防止預算超支,使這些費用不會影響項目預算。 這些警示可啟用主動式成本管理,並協助組織維護 AI 計劃的財務控制。 在 Azure 成本管理中設定預算警示,以根據預先定義的閾值追蹤支出,並建立符合商務目標的預算策略。 建立多個閾值的警示,以提供成本增加的早期警告。
管理 AI 數據
AI 數據管理可確保整個 AI 生命週期的精確度、完整性和合規性。 組織需要結構化的數據控管和品質控制程式,以維護可靠的 AI 效能。 您必須建立完整的數據管理做法,以達到一致的 AI 結果。 方法如下:
建立和維護黃金數據集,以進行一致的驗證。 黃金數據集提供標準化的基準檢驗,以測試不同環境和版本的 AI 模型。 這些權威數據集可確保一致的評估準則,並協助偵測一段時間的效能降低。 開發代表生產數據模式的黃金數據集,並使用這些數據集在所有 AI 工作負載進行一般測試和驗證。 定期更新黃金數據集,以反映目前的商務需求和數據模式。
實作具有完整性控件的安全數據管線。 數據管線完整性可防止損毀,並確保可靠的 AI 模型效能。 安全管線可保護敏感性資訊,並透過前置處理和記憶體維護數據收集的數據品質。 建置自定義數據管線,其中包含每個階段的驗證檢查,並實作安全性控制,以保護整個管線程序的數據。 使用自動化測試來驗證數據品質與一致性,再將數據饋送至 AI 模型。
監視數據敏感度分類並回應變更。 數據敏感度分類會因為商務需求和法規更新而變更。 組織必須追蹤這些變更並據以更新 AI 系統,以維護合規性和安全性。 開發程式,以識別數據敏感度何時變更並實作程式,以移除或取代下游 AI 系統中的敏感數據。 使用 Microsoft Defender for Cloud 和 Microsoft Purview 來標記和管理在您的組織中敏感資料。 發生敏感度變更時,請識別所有使用受影響數據的 AI 模型,並使用排除重新分類敏感性信息的數據集重新定型模型。
管理 AI 商務持續性
商務持續性管理可保護 AI 系統免於中斷,並確保事件發生時快速復原。 組織需要多區域策略和測試的復原程式,才能維護 AI 服務可用性。 有效的持續性規劃可防止影響商務作業的延伸中斷。 您必須建立完整的商務持續性程式,以達到可靠的 AI 系統復原能力。 方法如下:
在所有 AI 元件上實作持續監視。 AI 工作負載會隨著時間而變更,因為數據演進、模型更新或使用者行為的變化。 持續監視會提早偵測這些變更,並防止影響業務成果的效能降低。 監視 AI 部署、 AI 模型和 AI 數據 ,以確保工作負載與已建立的 KPI 保持一致。 定期進行稽核,以根據定義的負責任 AI 準則和計量評估 AI 系統。
跨多個區域部署 AI 系統以取得高可用性。 多區域部署可防止單一失敗點,並確保 AI 服務在區域性中斷期間仍可存取。 此方法提供地理備援,可防範基礎結構失敗和自然災害。 跨多個 Azure 區域部署產生式和傳統 AI 系統,並針對已定型和微調的模型實作必要的備援,以避免在中斷期間重新定型。 使用 Azure Front Door 或 Azure 流量管理員 自動路由傳送區域之間的流量。
定期測試災害復原計劃,以驗證有效性。 定期測試可識別復原程式的差距,並確保小組可以在實際事件期間有效地還原 AI 系統。 這些測試會驗證所有元件在復原后都能正常運作,並協助組織精簡其回應程式。 針對所有 AI 元件的數據還原程式和驗證程式,執行災害復原計劃的每季測試。 根據每個測試週期所學到的課程記錄測試結果和更新復原程式。
為所有 AI 系統元件實作版本控制。 版本控制系統會追蹤變更,並在復原案例期間快速還原先前的設定。 此方法提供修改的稽核線索,並確保小組能夠有效率地識別和還原有問題的變更。 使用 Git 來管理所有 AI 工作負載之模型、數據管線和系統設定的變更。 實作自動化稽核,追蹤模型和系統變更,讓小組能夠快速識別並還原影響效能的非計劃性變更。
建立 AI 資產的自動化備份策略。 自動備份可確保重要的 AI 元件在不需要手動介入的情況下保持保護。 這些策略可防止數據遺失,並減少系統在事件發生后需要還原時的復原時間。 使用 Azure 備份 或具有異地備援選項的 Azure 記憶體 ,建立定型模型、數據集和組態檔的自動備份排程。 將備份儲存在與主要部署不同的區域中,以確保區域中斷期間的可用性。
記錄具體責任的文件復原程序。 清晰的文件可確保團隊可以在高壓力情況下一致地執行復原程序。 記載的程式可減少復原時間,並防止小組在沒有建立指導方針的情況下運作時發生的錯誤。 建立 Runbook,針對不同的失敗案例定義逐步復原程式,並將特定角色和責任指派給每個復原工作的小組成員。 定期更新檔,以反映 AI 架構和復原程式的變更。