Databricks 上的 AI 和 機器學習

本文說明 Azure Databricks 提供的工具可協助您建置及監視 AI 和 ML 工作流程。 此圖顯示這些元件如何一起運作,以協助您實作模型開發和部署程式。

機器學習圖表:Databricks 上的模型開發和部署

為什麼要使用 Databricks 進行機器學習和深度學習?

使用 Azure Databricks,您可以在單一平臺上實作完整的 ML 生命週期,並在整個 ML 管線進行端對端治理。 Azure Databricks 包含下列支援 ML 工作流程的內建工具:

Databricks 上的深度學習

設定深度學習應用程式的基礎結構可能很困難。

適用於 機器學習 的 Databricks Runtime 會為您負責,而叢集具有 TensorFlow、PyTorch 和 Keras 等最常見深度學習連結庫內建相容版本的叢集,以及支援 Petastorm、Hyperopt 和 Horovod 等連結庫。 Databricks Runtime ML 叢集也包含驅動程式和支持連結庫的預先設定 GPU 支援。 它也支援 Ray 之類的連結庫,以平行處理用於調整 ML 工作流程和 AI 應用程式的計算處理。

Databricks Runtime ML 叢集也包含驅動程式和支持連結庫的預先設定 GPU 支援。 Databricks 模型服務 可讓您針對沒有額外設定的深度學習模型建立可調整的 GPU 端點。

針對機器學習應用程式,Databricks 建議針對 機器學習 使用執行 Databricks Runtime 的叢集。 請參閱 使用 Databricks Runtime ML 建立叢集。

若要開始使用 Databricks 上的深度學習,請參閱:

Databricks 上的大型語言模型 (LLM) 和產生的 AI

適用於 機器學習 的 Databricks Runtime 包含 Hugging Face TransformersLangChain 等連結庫,可讓您將現有的預先定型模型或其他開放原始碼連結庫整合到工作流程中。 Databricks MLflow 整合可讓您輕鬆地使用 MLflow 追蹤服務搭配轉換器管線、模型和處理元件。 此外,您可以在 Azure Databricks 工作流程中整合 OpenAI 模型或解決方案,例如 John Snow Labs

使用 Azure Databricks,您可以針對特定工作自定義數據上的 LLM。 透過支援 開放原始碼 工具,例如 Hugging Face 和 DeepSpeed,您可以有效率地取得基礎 LLM,並使用您自己的數據來定型它,以改善特定網域和工作負載的精確度。 然後,您可以在您的 Generative AI 應用程式中運用自訂 LLM。

此外,Databricks 提供 基礎模型 API外部模型 ,可讓您從服務端點存取和查詢最先進的開放模型。 開發人員可以使用基礎模型 API 快速且輕鬆地建置利用高質量產生 AI 模型的應用程式,而不需要維護自己的模型部署。

針對 SQL 使用者,Databricks 提供 AI 函式,讓 SQL 數據分析師可以直接在其數據管線和工作流程記憶體取 LLM 模型,包括從 OpenAI 存取。 請參閱 Azure Databricks 上的 AI Functions。

適用於 機器學習 的 Databricks Runtime

適用於 機器學習 的 Databricks Runtime (Databricks Runtime ML) 會自動建立具有預先建置機器學習和深度學習基礎結構的叢集,包括最常見的 ML 和 DL 連結庫。 如需每個 Databricks Runtime ML 版本中的連結庫完整清單,請參閱 版本資訊

若要存取 Unity 目錄中的機器學習工作流程數據,叢集的存取模式必須是單一使用者(已指派)。 共用叢集與適用於 機器學習 的 Databricks Runtime 不相容。 此外,TableACLs 叢集或設定為 truespark.databricks.pyspark.enableProcessIsolation config叢集不支援 Databricks Runtime ML。

使用 Databricks Runtime ML 建立叢集

當您 建立叢集時,請從 [Databricks 運行時間版本] 下拉功能表中選取 Databricks Runtime ML 版本 。 CPU 和已啟用 GPU 的 ML 執行時間都可供使用。

選取 Databricks Runtime ML

如果您 從筆記本的下拉功能表中選取叢集,Databricks Runtime 版本會出現在叢集名稱右側:

檢視 Databricks Runtime ML 版本

如果您選取已啟用 GPU 的 ML 執行時間,系統會提示您選取相容的驅動程式類型和背景工作角色類型。 不相容的實例類型會在下拉功能表中呈現灰色。 已啟用 GPU 的實體類型列在 GPU 加速標籤 底下。

注意

若要存取 Unity 目錄中的機器學習工作流程數據, 叢集的存取模式 必須是單一使用者(已指派)。 共用叢集與適用於 機器學習 的 Databricks Runtime 不相容。

Databricks Runtime ML 中包含的連結庫

Databricks Runtime ML 包含各種不同的熱門 ML 連結庫。 每個版本都會更新連結庫,以包含新功能和修正程式。

Databricks 已將支持的連結庫子集指定為最上層連結庫。 針對這些連結庫,Databricks 提供更快的更新頻率,並隨著每個運行時間版本更新至最新的套件版本(禁止相依性衝突)。 Databricks 也提供最上層連結庫的進階支援、測試和內嵌優化。

如需最上層和其他提供連結庫的完整清單,請參閱 Databricks Runtime ML 的版本資訊

下一步

若要開始使用,請參閱:

如需 Databricks 機器學習 的建議 MLOps 工作流程,請參閱:

若要瞭解重要的 Databricks 機器學習 功能,請參閱: