將 AI/ML 網域驅動特徵工程的資料網格運作
資料網格可協助組織從集中式資料湖或資料倉儲移至以四個原則加上底線的分析資料網域驅動分析資料:網域擁有權、資料即產品、自助資料平臺和同盟計算治理。 資料網格 提供分散式資料擁有權的優點,以及改善的資料品質和治理,可加速組織的業務和時間價值。
資料網格實作
典型的資料網格實作包括具有建置資料管線之資料工程師的網域小組。 小組會維護作業和分析資料存放區,例如 Data Lake、資料倉儲或 Data Lakehouse。 他們會將管線發行為其他網域小組或資料科學小組所要取用 的資料產品 。 其他小組會使用中央資料控管平臺來取用資料產品,如下圖所示。
資料網格清楚說明資料產品如何針對商業智慧提供轉換和匯總的資料集。 但對於組織應該採用的建置 AI/ML 模型的方法並不明確。 也沒有如何建構其資料科學小組、AI/ML 模型治理,以及如何在領域小組之間共用 AI/ML 模型或功能的指導。
下一節概述一些組織可用來在資料網格內開發 AI/ML 功能的策略。 您會看到領域驅動特徵工程或特徵網格的策略提案。
資料網格的 AI/ML 策略
其中一個常見的策略是讓組織採用資料科學小組作為資料取用者。 這些小組會根據使用案例,在資料網格中存取各種網域資料產品。 他們會執行資料探索和特徵工程,以開發和建置 AI/ML 模型。 在某些情況下,網域小組也會使用其資料和其他小組的資料產品來擴充和衍生新功能,來開發自己的 AI/ML 模型。
特徵工程 是模型建置的核心,通常很複雜,而且需要領域專業知識。 上述策略可能相當耗時,因為資料科學小組需要接著分析各種資料產品。 他們可能沒有完整的領域知識來建置高品質功能。 缺乏領域知識可能會導致領域小組之間重複的功能工程工作。 此外,AI/ML 模型可重現性等問題,因為小組之間的功能集不一致。 當發行新版本的資料產品時,資料科學或領域小組必須持續重新整理功能。
另一個策略是讓領域小組以開放式類神經網路交換 (ONNX) 等格式發行 AI/ML 模型,但這些結果是黑箱,而且跨網域合併 AI/模型或功能會很困難。
是否有辦法將跨領域和資料科學小組建置的 AI/ML 模型分散,以解決挑戰? 建議的網域驅動特徵工程或特徵網格策略是一個選項。
領域驅動特徵工程或特徵網格
領域驅動特徵工程或特徵網格策略提供在資料網格設定中建置 AI/ML 模型的分散式方法。 下圖顯示策略及其如何解決資料網格的四個主要原則。
網域小組的網域擁有權功能工程
在此策略中,組織會將資料科學家與網域小組中的資料工程師配對,以在資料湖中對清理和轉換的資料執行資料探索。 工程會產生功能存放區中的功能。 功能存放區是一種資料存放庫,可提供定型和推斷的功能,並協助追蹤功能版本、中繼資料和統計資料。 這項功能可讓網域小組中的資料科學家與領域專家密切合作,並讓功能在網域中的資料變更時保持重新整理。
資料即產品:功能集
網域小組所產生的功能稱為網域或本機功能,會發佈至資料控管平臺中的資料目錄作為功能集。 資料科學小組或其他網域小組可以取用這些功能集來建置 AI/ML 模型。 在 AI/ML 模型開發期間,資料科學或領域小組可以結合領域功能來產生新功能,稱為共用或全域功能。 這些共用功能會發佈回功能集目錄以供取用。
自助資料平臺和同盟計算治理:功能標準化和品質
此策略可能會導致針對功能工程管線採用不同的技術堆疊,以及網域小組之間的功能定義不一致。 自助資料平臺原則可確保網域小組使用通用基礎結構和工具來建置特徵工程管線,並強制執行存取控制。 同盟計算治理原則可透過全球標準化確保功能集的互通性,並檢查特徵品質。
使用領域驅動特徵工程或特徵網格策略,可為組織提供分散式 AI/ML 模型建置方法,以協助縮短開發 AI/ML 模型的時間。 此策略可協助跨網域小組保持功能一致。 它可避免重複工作,並產生更精確的 AI/ML 模型高品質功能,進而提升業務的價值。
Azure 中的資料網格實作
本文說明在資料網格中運作 AI/ML 的概念,但未涵蓋建置這些策略的工具或架構。 Azure 具有功能存放區供應專案 ,例如 Azure Databricks 功能存放區,以及來自 LinkedIn 的 Feathr 。 您可以開發 Microsoft Purview 自訂連接器來管理和管理功能存放區。