Databricks 功能存放區

此頁面是當您搭配 Unity Catalog 使用 Databricks 功能存放區時可用的功能總覽。

Databricks 功能存放區提供 AI 和 ML 模型中使用的功能的中央登錄。 功能數據表和模型會在 Unity 目錄中註冊,提供內建的治理、譜系,以及跨工作區功能共用和探索。 使用 Databricks,整個模型定型工作流程都會在單一平台上進行,包括:

  • 擷取原始數據、建立特徵數據表、定型模型,以及執行批次推斷的數據管線。
  • 只需單擊即可使用且提供毫秒級延遲的模型及功能服務端點。
  • 資料和模型監測。

當你使用 Databricks 功能庫的功能來訓練模型時,模型會自動追蹤到訓練中使用的功能譜系。 在推論時,模型會自動查詢最新的特徵值。 Databricks 功能庫也提供即時應用的隨需特徵計算,負責所有特徵計算任務。 這消除了訓練/服務偏差,確保推理時使用的特徵計算與模型訓練期間使用的特徵計算相同。 它也大幅簡化了用戶端程式碼,因為所有功能查詢與計算皆由 Databricks 功能庫處理。

備註

本頁介紹了適用於啟用 Unity 目錄的工作區的 Databricks 功能商店。 如果你的工作區沒有啟用 Unity Catalog,請參考Workspace 功能存儲(已被淘汰)。

概念概觀

關於 Databricks 功能商店的運作方式及術語詞彙表,請參閱 功能商店總覽與詞彙表

功能開發

特徵 / 功能 Description
特徵表 建立和使用特性表。

探索和分享功能

特徵 / 功能 Description
探索 Unity 目錄中的功能 使用「目錄總管」和「功能」UI探索和管理功能表格。
在 Unity Catalog 中使用標籤來搭配功能資料表和功能 使用簡單的索引鍵值組來分類和管理您的功能表和功能。

在訓練工作流程中使用特性

特徵 / 功能 Description
具備特徵表的列車模型 使用特徵來訓練模型。
時間點功能聯結 使用時間點正確性來建立訓練資料集,以反映記錄標籤觀察時的特徵值。
Python API Python API 參考文件

服務特點

特徵 / 功能 Description
Databricks 線上功能存放區 將特徵資料提供給線上應用程式和即時機器學習模型。 由 Databricks Lakebase 提供支援。
具有自動功能查詢的模型服務 自動從線上商店查詢功能值。
功能服務端點 將功能提供給 Databricks 外部的模型和應用程式。
隨選特徵計算 計算推斷時的特徵值。

特徵治理和來源追溯

特徵 / 功能 Description
功能治理和譜系 使用 Unity 目錄來控制功能表的存取,並檢視功能表、模型或函式的譜系。

Tutorials

教程 Description
入門的筆記本範例 基本筆記本。 示範如何建立特徵資料表、使用它來定型模型,以及使用自動特徵查閱來執行批次評分。 也顯示功能工程 UI,以搜尋功能並檢視譜系。
計程車範例筆記本。 顯示建立特徵、更新特徵,以及將其用於模型訓練和批次推論的過程。
範例:部署和查詢功能服務端點 教學課程和範例筆記本,示範如何部署和查詢功能服務端點。
範例:使用具有結構化 RAG 應用程式的功能 教學課程示範如何使用 Databricks 線上資料表和特徵服務端點來支援擷取增強生成(RAG)應用程式。

需求

要使用 Databricks 功能儲存庫,您的工作區必須啟用 Unity Catalog。 如果你的工作區沒有啟用 Unity Catalog,請參考Workspace 功能存儲(已被淘汰)。

支援的資料類型

Databricks 功能商店與舊有的工作區功能商店支援以下 PySpark 資料類型

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] 在 Unity Catalog 的所有特性工程版本以及工作區特性存放區 v0.3.5 或更高版本中,BinaryTypeDecimalTypeMapType 均獲得支援。 [2] 特徵工程 v0.6.0 或更新版本支援 StructType

上述資料類型支援機器學習應用程式中常見的特徵類型。 例如:

  • 您可以將密集向量、張量和內嵌儲存為 ArrayType
  • 您可以將疏鬆向量、張量和內嵌儲存為 MapType
  • 您可以將文字儲存為 StringType

發佈至線上存放區時,ArrayTypeMapType 特徵會以 JSON 格式儲存。

特性存儲庫的介面顯示有關功能數據類型的元數據。

複雜資料類型範例

其他相關資訊

如需最佳做法的詳細資訊,請下載特徵商店的完整指南