在 Azure Databricks 上建置、部署並管理機器學習應用程式。 這個整合平台統一了從資料準備到生產監控的整個機器學習生命週期。
想找生成式 AI 和 AI 代理程式嗎? 請參考Build AI agents on Azure Databricks。
開始
試試快速入門、準備資料,或建立低程式碼模型。
| Guide | Description |
|---|---|
| 開始:在 Databricks 上建立你的第一個機器學習模型 | 用 scikit-learn 建立一個簡單的端對端分類模型。 |
| AutoML | 使用自動化功能工程和超參數微調,使用最少的程式代碼自動建置高品質的模型。 |
| 機器學習與深度學習載入資料 | 載入並準備機器學習與深度學習工作流程所需的資料。 |
| 訓練推薦模型 | 訓練一個採用雙塔或 DLRM 架構的推薦模型。 |
定型傳統機器學習模型
使用自動化工具和共同作業開發環境建立機器學習模型。
| Feature | Description |
|---|---|
| 適用於 ML 的 Databricks Runtime | 預先設定叢集,包含 scikit-learn、XGBoost、MLflow 及其他機器學習函式庫,並支援深度學習框架。 |
| MLflow 追蹤 | 追蹤實驗、比較模型效能,以及管理完整的模型開發生命週期。 |
| 特徵工程 | 使用自動化的數據管線和功能探索來建立、管理及提供功能。 |
| Databricks 工作簿 | 針對 ML 工作流程支援 Python、R、Scala 和 SQL 的共同作業開發環境。 |
訓練深度學習模型
使用託管運算與內建框架來開發深度學習模型。
| Feature | Description |
|---|---|
| 分散式訓練 | 使用 Ray、TorchDistributor 和 DeepSpeed 的分散式深度學習範例。 |
| AI 執行時間 | 用於自訂深度學習訓練與推論工作負載的無伺服器 GPU 運算。 |
| DL 最佳實務 | 提供框架選擇、資料載入、分散式擴展及深度學習模型生命週期管理的指引。 |
| PyTorch | 使用 PyTorch 的單一節點和分散式訓練。 |
部署和提供模型服務
使用可調整的端點、即時推斷和企業級監視,將模型部署至生產環境。
| Feature | Description |
|---|---|
| 模特兒服務 | 使用自動調整和 GPU 支援,將自定義模型和 LLM 部署為可調整的 REST 端點。 |
| 人工智慧網關 | 管理並監控 Azure Databricks 上所提供的模型存取權限,並具備使用追蹤、有效載荷記錄及安全控管功能。 |
| 外部模型 | 結合托管於 Databricks 外部的第三方模型,並實現統一的治理和監控。 |
| 基礎模型 API | 存取和查詢 Databricks 所裝載的最新開放模型。 |
監視及控管ML系統
確保模型品質、數據完整性和合規性,以及完整的監視和治理工具。
| Feature | Description |
|---|---|
| Unity 目錄 | 使用統一訪問控制、譜系追蹤和探索來管理數據、特徵、模型和函式。 |
| 資料分析 | 使用自動化警示和根本原因分析來監視數據品質、模型效能和預測漂移。 |
| 異常偵測 | 在目錄層級監視資料新鮮度和完整性。 |
| MLflow 用於模型 | 追蹤實驗、管理 Unity Catalog 中的模型、部署及評估機器學習模型,涵蓋整個開發生命週期。 |
生產化ML工作流程
使用自動化工作流程、CI/CD 整合和準備投入生產的管線來擴展機器學習作業規模。
| Feature | Description |
|---|---|
| Unity 目錄中的 模型 | 使用 Unity 目錄中的模型登錄進行集中式治理,以及管理模型生命週期,包括部署。 |
| Lakeflow 職位 | 建置自動化工作流程和生產環境就緒的 ETL 管線,以進行 ML 數據處理。 |
| Databricks 上的Ray | 使用分散式運算調整 ML 工作負載,以進行大規模模型定型和推斷。 |
| MLOps 工作流程 | 使用自動化定型、測試和部署管線來實作端對端MLOps。 |