二級貝氏點機器
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
建立貝氏點機器二元分類模型
模組概觀
本文說明如何在機器學習 Studio (傳統) 中使用二級貝氏機率分類點機器模組,以建立未定型的二元分類模型。
此課程模組中的演算法會使用貝氏方法來進行線性分類,稱為「貝氏機率分類點機器」。 此演算法會藉由選擇一個「平均」分類器(貝氏機率分類點),有效率地估計線性分類器理論上最佳的貝氏平均值 (的泛用效能) 。 由於貝氏點機器是一種貝氏分類模型,並不會因為定型資料而過度配度。
如需詳細資訊,請參閱 Microsoft 機器學習 blog 上的 Chris Bishop 文章:採用不確定性-概率推斷。
如何設定 Two-Class 貝氏機率分類點電腦
在機器學習 Studio (傳統) 中,將 [二級貝氏機率分類點機器] 模組新增至您的實驗。 您可以在 [機器學習、初始化模型、分類] 下找到此模組。
針對 [定型反復專案 數目],輸入一個數位來指定訊息傳遞演算法反覆運算定型資料的頻率。 一般而言,反覆次數應該設為 5-100 範圍中的值。
反覆定型次數愈多,預測愈精確,但定型會愈慢。
對於大部分資料集而言,預設值 30 次反覆定型已足夠讓演算法做出精確的預測。 有時,使用較少次的反覆運算也能做出精確的預測。 在特徵高度相關的資料集上,較多次反覆定型可能較有益。
如果您想要在定型和預測中,將常數特徵或偏差加入至每個實例,請選取 [ 包含偏差] 選項。
當資料尚未包含常數特徵時,則有必要包含偏差。
選取 [ 允許類別特徵中的未知值] 選項,以建立未知值的群組。
如果您取消選取此選項,則模型只會接受訓練資料中包含的值。
如果您選取此選項並允許未知的值,則模型可能較不精確地得知已知值,但可為新的 (未知的) 值提供更好的預測。
加入「 定型模型 」模組的實例和定型資料。
連線兩個類別貝氏機率分類點機器模組的定型資料和輸出至「定型模型」模組,然後選擇 [標籤] 資料行。
執行實驗。
結果
定型完成之後,以滑鼠右鍵按一下 [ 定型模型 ] 模組的輸出以查看結果:
若要查看模型參數的摘要,以及從定型學到的功能加權,請選取 [ 視覺化]。
若要儲存模型以供稍後使用,請以滑鼠右鍵按一下 定型模型的輸出,然後選取 [ 另存為定型的模型]。
若要進行預測,請使用定型的模型作為 計分模型 模組的輸入。
未定型的模型也可以傳遞至 交叉驗證模型 ,以根據加上標籤的資料集進行交叉驗證。
範例
若要查看如何在機器學習中使用 Two-Class 貝氏機率分類點機器,請參閱 Azure AI 資源庫中的下列範例實驗:
- 比較二元分類器:此範例示範如何使用多個雙類別分類器。
技術說明
本節包含有關此演算法的執行詳細資料和常見問題。
本文 (PDF) :貝氏機率分類點機器、Herbert、Graepe 和 Campbell這份檔提供原始研究和基礎理論的詳細資料。
不過,此實作為以數種方式改善原始演算法:
採用期望傳播訊息傳遞演算法。 如需詳細資訊,請參閱 近似貝氏推斷的演算法系列。
不需要參數掃描。
這個方法不需要將資料正規化。
這些改進使得貝氏點機器分類模型更健全、更易於使用,不必再浪費許多時間來調整參數。
模組參數
名稱 | 範圍 | 類型 | 預設 | 描述 |
---|---|---|---|---|
反覆定型的次數 | >=1 | 整數 | 30 | 指定用於定型的反覆次數 |
包含偏差 | 任意 | 布林值 | True | 指出是否應該將常數特徵或偏差加入至每個執行個體 |
類別特徵中允許未知值 | 任意 | 布林值 | True | 如果為 True,則會為每個類別資料行建立額外層級。 測試資料集內若有任何層級是定型資料集內所有沒有的,則會對應到此額外層級。 |
輸出
名稱 | 類型 | 描述 |
---|---|---|
未定型的模型 | ILearner 介面 | 未定型的二元分類模型 |