Databricks 上的 AI 和機器學習
本文說明 Mosaic AI (先前稱為 Databricks 機器學習) 提供的可協助您建置 AI 和 ML 系統的工具。 此圖顯示 Databricks 平台上的各種產品如何協助您實作端對端工作流程,以建置和部署 AI 和 ML 系統
Databricks 上的生成式 AI
Mosaic AI 會統一 AI 生命週期,從資料收集和準備,到模型開發和 LLMOps,再到服務與監視。 下列功能經過特別最佳化,以利開發生成式 AI 應用程式:
- Unity Catalog,用於資料、功能、模型和函式的治理、探索、版本設定和存取控制。
- 用於模型開發追蹤的 MLflow 。
- Mosaic AI 模型服務,用於部署 LLM。 您可以特別設定用於存取產生式 AI 模型的模型服務端點:
- 使用基礎模型 API 的最新開放式 LLM。
- 託管於 Databricks 外部的第三方模型。 請參閱 Mosaic AI 模型服務中的外部模型。
- Mosaic AI 向量搜尋提供可查詢的向量資料庫用於儲存內嵌向量,並可設定為自動與您的知識庫同步。
- Lakehouse 監視,用於搭配推斷資料表使用自動酬載記錄來進行資料監視和追蹤模型預測品質與漂移。
- AI 遊樂場,用於從 Databricks 工作區測試生成式 AI 模型。 您可以提示、比較和調整設定,例如系統提示和推斷參數。
- Mosaic AI 模型訓練 (先前稱為基礎模型訓練),用於使用您自己的資料自訂基礎模型,以最佳化其針對特定應用程式的效能。
- Mosaic AI 代理程式架構,用於建置和部署生產品質的代理程式,例如擷取擴增生成 (RAG) 應用程式。
- Mosaic AI 代理程式評估,用於評估生成式 AI 應用程式的品質、成本和延遲,包括 RAG 應用程式和鏈結。
什麼是生成式 AI?
生成式 AI 是一種人工智慧,著重於電腦使用模型來建立影像、文字、程式碼和綜合資料等內容的能力。
生成式 AI 應用程式是以生成式 AI 模型:大型語言模型 (LLM) 和基礎模型為基礎建置的。
- LLM 是深度學習模型,可取用和訓練大量資料集,在語言處理工作中有絕倫的表現。 它們會根據其訓練資料建立模擬自然語言的新文字組合。
- 產生 AI 模型或基礎模型是預先定型的大型 ML 模型 ,目的是要針對更特定的語言理解和產生工作進行微調。 這些模型被用來辨別輸入資料內的模式。
在這些模型完成其學習程序之後,它們會在出現提示時一同產生統計上可能的輸出,並可用來完成各種工作,包括:
- 根據現有影像來產生影像,或使用一個影像的樣式來修改或建立新的影像。
- 語音工作,例如轉譯、翻譯、問答產生,以及文字意圖或意義的解譯。
重要
雖然許多 LLM 或其他生成式 AI 模型都有保護措施,但它們仍會產生有害或不正確的資訊。
生成式 AI 具有下列設計模式:
- 提示工程:製作專業提示以引導 LLM 行為
- 擷取擴增生成 (RAG):結合 LLM 與外部知識擷取
- 微調:將預先訓練的 LLM 調整為特定網域資料集
- 預訓練:從頭開始訓練 LLM
Databricks 上的機器學習
使用 Mosaic AI 時,單一平台會服務 ML 開發和部署的每個步驟,從未經處理資料到用於儲存服務模型的每個要求和回覆的推斷資料表。 資料科學家、資料工程師、ML 工程師和 DevOps 可以使用同一組工具和單一事實來源來執行其工作。
Mosaic AI 會統一資料圖層和 ML 平台。 所有資料資產和成品,例如模型和函式,都可以在單一目錄中探索及控管。 針對資料和模型使用單一平台,因此可以追蹤從未經處理資料到生產模型的譜系。 內建資料和模型監視會將品質計量儲存至同樣儲存在平台中的資料表,讓您更輕鬆地識別模型效能問題的根本原因。 如需關於 Databricks 如何支援完整 ML 生命週期和 MLOps 的詳細資訊,請參閱 Azure Databricks 上的 MLOps 工作流程和 MLOps Stacks:將開發程序建模為程序碼。
資料智慧平台的一些重要元件包括:
工作 | 元件 |
---|---|
控管和管理資料、功能、模型和函式。 此外,探索、版本設定和譜系。 | Unity Catalog |
追蹤資料變更、資料品質及模型預測品質 | Lakehouse 監視、推斷資料表 |
功能開發和管理 | 特徵工程與服務。 |
定型模型 | 馬賽克 AutoML、 Databricks 筆記本 |
追蹤模型開發 | MLflow 追蹤 |
服務自訂模型 | Mosaic AI 模型服務。 |
建置自動化工作流程和生產就緒的 ETL 管線 | Databricks 工作 |
Git 整合 | Databricks Git 資料夾 |
Databricks 上的深度學習
設定深度學習應用程式的基礎結構可能很困難。 適用於機器學習的 Databricks Runtime 會利用內建相容版本的最常見深度學習程式庫 (例如 TensorFlow、PyTorch 和 Keras) 的叢集為您解決此問題。
Databricks Runtime ML 叢集也支援具有驅動程式和支援程式庫的預先設定 GPU。 它也支援 Ray 之類的程式庫,以平行處理用於調整 ML 工作流程和 ML 應用程式的計算處理。
Databricks Runtime ML 叢集也支援具有驅動程式和支援程式庫的預先設定 GPU。 Mosaic AI 模型服務可讓您針對沒有額外組態的深度學習模型建立可調整的 GPU 端點。
針對機器學習應用程式,Databricks 建議使用執行適用於機器學習的 Databricks Runtime 的叢集。 請參閱使用 Databricks Runtime ML 建立叢集。
若要開始使用 Databricks 上的深度學習,請參閱:
下一步
若要開始使用,請參閱:
如需有關 Databricks Mosaic AI 的建議 MLOps 工作流程,請參閱:
若要了解重要的 Databricks Mosaic AI 功能,請參閱: