Microsoft 羅吉斯迴歸演算法
Microsoft 羅吉斯迴歸演算法是 Microsoft 類神經網路演算法的一種變化,其中 HIDDEN_NODE_RATIO 參數會設定為 0。此設定將建立不包含隱藏層的類神經網路模型,因此它相當於羅吉斯迴歸。
假設可預測資料行只包含兩個狀態,但您仍然想要執行迴歸分析,使輸入資料行與可預測資料行將包含特定狀態的機率相關。下列圖表說明如果您指定 1 和 0 給可預測資料行的狀態時將得到的結果,請計算資料行將包含特定狀態的機率,並對輸入屬性執行線性迴歸。
x 軸包含輸入資料行的值。y 軸包含可預測資料行成為一個狀態或另一個狀態的機率。其問題在於,即使 0 和 1 是資料行的最大值和最小值,但線性迴歸並不限制資料行介於 0 和 1 之間。解決此問題的方式之一是執行羅吉斯迴歸。羅吉斯迴歸分析不建立直線,而是建立「S」形曲線來包含最大和最小條件約束。例如,下列圖表說明您如果對先前範例所使用的相同資料執行羅吉斯迴歸會達到的結果。
請注意,曲線絕不能高於 1 或低於 0。您可以使用羅吉斯迴歸來描述哪些輸入資料行在決定可預測資料行的狀態時很重要。
使用演算法
使用 Microsoft 類神經網路檢視器來瀏覽線性迴歸採礦模型。
羅吉斯迴歸模型必須包含一個索引鍵資料行、一或多個輸入資料行,以及一或多個可預測資料行。
Microsoft 羅吉斯迴歸演算法支援特定輸入資料行內容類型、可預測資料行內容類型和模型旗標,這些都會在下表中列出。
輸入資料行內容類型 |
Continuous、Cyclical、Discrete、Discretized、Key、Table 和 Ordered |
可預測資料行內容類型 |
Continuous、Cyclical、Discrete、Discretized 和 Ordered |
模型旗標 |
MODEL_EXISTENCE_ONLY 和 NOT NULL |
所有 Microsoft 演算法都支援一個常用函數集。不過,Microsoft 羅吉斯迴歸演算法支援下表所列出的其他函數。
|
如需所有 Microsoft 演算法常用的函數清單,請參閱<資料採礦演算法>。如需有關如何使用這些函數的詳細資訊,請參閱<資料採礦延伸模組 (DMX) 函數參考>。
使用 Microsoft 羅吉斯迴歸演算法的模型不支援鑽研或資料採礦維度,因為採礦模型中的節點結構不一定會直接對應至基礎資料。
Microsoft 羅吉斯迴歸演算法支援數個會影響所產生之採礦模型的效能和精確度的參數。下表描述每一個參數。
參數 | 描述 |
---|---|
HOLDOUT_PERCENTAGE |
指定用於計算鑑效組錯誤之培訓資料內的案例百分比HOLDOUT_PERCENTAGE 在培訓採礦模型時是作為停止準則的一部份。 預設值為 30。 |
HOLDOUT_SEED |
在隨機決定鑑效組資料時,指定用來植入虛擬隨機產生器的數字。如果 HOLDOUT_SEED 是設定為 0,則此演算法會依據採礦模型的名稱產生種子,以保證在重新處理期間模型內容保持不變。 預設值為 0。 |
MAXIMUM_INPUT_ATTRIBUTES |
定義在叫用功能選項之前,演算法可以處理輸入屬性的數目。將此值設定為 0 來關閉功能選項。 預設值為 255。 |
MAXIMUM_OUTPUT_ATTRIBUTES |
定義在叫用功能選項之前,演算法可以處理輸出屬性的數目。將此值設定為 0 來關閉功能選項。 預設值為 255。 |
MAXIMUM_STATES |
指定演算法所支援屬性狀態的最大數目。如果屬性擁有的狀態數目大於狀態的最大數目,演算法會使用屬性最常用的狀態,並忽略其餘的狀態。 預設值為 100。 |
SAMPLE_SIZE |
指定用來培訓模型的案例數目。此演算法提供者會使用此數字或不包括在鑑效組百分比 (由 HOLDOUT_PERCENTAGE 參數指定) 中的總案例數的百分比,以較小者為準。 換句話說,如果 HOLDOUT_PERCENTAGE 是設定為 30,則演算法將使用此參數的值,或等於總案例數 70% 的值,以較小者為準。 預設值為 10000。 |
請參閱
概念
資料採礦演算法
資料採礦的功能選擇
使用資料採礦工具
以 Microsoft 類神經網路檢視器檢視採礦模型