網狀架構中的自動化 ML (預覽)
自動化 機器學習 (AutoML) 可讓用戶藉由自動化模型開發程式中最耗時且複雜的部分,來建置和部署機器學習模型。 傳統上,建置機器學習模型需要數據科學、模型選取、超參數微調和評估方面的專業知識,此程式可能會耗用大量資源且容易發生試驗和錯誤。 AutoML 可藉由自動選取最佳演算法、微調超參數,以及根據輸入數據和所需結果產生優化模型,來簡化此作業。
在 Microsoft Fabric 中,AutoML 與平臺的數據生態系統緊密整合,讓使用者可以直接在其 Lakehouse 上建置、定型和部署模型,進而變得更強大。 透過 AutoML,技術和非技術使用者都可以快速建立預測模型,讓更廣泛的對象能夠存取機器學習。 從預測需求到偵測異常並優化商務作業,Fabric 中的 AutoML 可加速從原始數據到可採取動作的深入解析的路徑,讓使用者以最少的努力和最大影響運用 AI。
重要
此功能處於預覽。
AutoML 的運作方式為何?
FLAML (快速和輕量型 AutoML) 在 Fabric 中提供 AutoML 功能,讓使用者能夠在平臺的數據生態系統中順暢地建置、優化和部署機器學習模型。
FLAML 是一個開放原始碼的 AutoML 連結庫,其設計目的是藉由專注於效率、最小化計算成本,以及動態調整超參數來快速提供精確的模型。 在幕後,FLAML 會使用資源感知搜尋策略,將模型選取和優化自動化,平衡探索和惡意探索,以找出最佳模型,而不需要詳盡的試用和錯誤。 其自適性搜尋空間和輕量型演算法非常適合大型數據集和受限環境,以確保可調整且快速的效能。 此與 Fabric 的整合可讓技術和非技術使用者存取機器學習服務,加速從原始數據到可採取動作的深入解析路徑。
機器學習工作
Fabric 中的 AutoML 支援各種不同的機器學習工作,包括分類、回歸和預測,使其適用於各種數據驅動應用程式。
二元分類
二元分類是一種受監督的機器學習工作,其目標是將數據點分類為兩個不同的類別之一。 其牽涉到在標記數據上定型模型,其中每個實例都會指派給兩個可能類別的其中一個,而模型會學習預測新、看不見的數據的正確類別。 範例包含:
- 垃圾郵件偵測:將電子郵件分類為垃圾郵件或非垃圾郵件。
- 詐騙偵測: 將財務交易標示為詐騙或合法交易。
- 疾病篩查: 預測患者是否有疾病(陽性)或否(負面)。
多元分類
表格式數據的多重類別分類牽涉到根據該數據集的功能,將數個可能標籤之一指派給結構化數據的每個數據列。 以下是一些與真實世界表格式數據集相關的範例:
- 客戶分割: 根據人口統計、購買和行為數據,將客戶分類為「高價值」、「中值」或「低價值」等區段。
- 貸款風險評估: 使用收入、信用分數和就業狀況等申請人數據,預測貸款申請的風險水準為「低」、「中」或「高」。
- 產品類別預測: 根據價格、品牌和產品規格等屬性,指派適當的產品類別,例如「電子」、「服裝」或「傢俱」。
- 疾病診斷: 根據臨床計量和測試結果,識別患者可能擁有的疾病類型,例如“糖尿病類型 1”、“糖尿病類型 2”或“妊娠糖尿病”。
這些範例強調多類別分類如何在各種產業中支持決策,其中結果可以採用數個互斥類別之一。
迴歸
回歸是一種機器學習,用來根據其他相關數據預測數位。 當我們想要根據可能影響特定值的不同因素來估計特定值,例如價格、溫度或時間時,會很有説明。 以下是一些範例案例:
- 使用方形、房間數目和位置等資訊來預測房價。
- 根據行銷支出、季節性和過去的銷售趨勢來估計每月銷售量。
預測
預測是一種機器學習技術,用來根據歷史數據預測未來值。 在過去的趨勢和模式可以通知接下來可能發生的情況,它特別適用於規劃和決策。 預測需要以時間為基礎的數據,也稱為 時間序列數據,並分析季節性、趨勢和週期等模式,以進行精確的預測。 以下是一些範例案例:
- 銷售預測: 根據過去的銷售、季節性和市場趨勢預測未來的銷售數據。
- 庫存預測: 使用先前的購買數據和季節性週期來判斷產品的未來需求。
預測可協助組織做出明智的決策,無論是確保有足夠的庫存、規劃資源,還是準備市場變更。
定型和測試數據集
建立 定型和測試數據集 是建置機器學習模型的重要步驟。 定 型數據集 可用來教導模型,讓它能夠學習已標記數據的模式,而 測試數據集 則會評估模型在新、看不見的數據上的表現,以協助檢查其精確度和一般性。 以這種方式分割數據可確保模型不只是記住,而且可以一般化為其他數據。
在 Fabric 中,AutoML 工具會將數據自動分割成定型集和測試集,根據特定工作的最佳做法自定義分割,例如分類、回歸或預測,來簡化此程式。
功能工程
特徵工程是將原始數據轉換成有意義的特徵的程式,可改善機器學習模型的效能。 這是一個重要步驟,因為正確的功能可協助模型了解數據中的重要模式和關聯性,進而產生更好的預測。 例如,在日期數據集中,建立「是假日」等特徵,可能會顯示改善預測模型的趨勢。
在 Fabric 中 auto_featurize
,使用者可以利用此功能將此程式的各個部分自動化。
auto_featurize
分析數據,並建議或產生相關功能,例如匯總、類別編碼或轉換,以增強模型的預測能力。 此功能可節省時間,並讓具有不同體驗層級的用戶能夠觸手可及的功能工程,讓他們能夠建置更精確且健全的模型。