共用方式為


Microsoft線性回歸演算法技術參考

Microsoft線性回歸演算法是一種特殊版本的Microsoft判定樹演算法,針對連續屬性配對進行優化。 本主題說明演算法的實作、說明如何自定義演算法的行為,並提供查詢模型之其他信息的連結。

線性回歸演算法的實作

Microsoft判定樹演算法可用於許多工作:線性回歸、分類或關聯分析。 為了為了線性回歸目的實作此演算法,演算法的參數會受到控制,以限制樹狀結構的成長,並將模型中的所有數據保留在單一節點中。 換句話說,雖然線性回歸是以決策樹為基礎,但這棵樹只包含單一根節點,沒有任何分支:所有數據都位於根節點中。

為了達成此目的,演算法的 MINIMUM_LEAF_CASES 參數會設定為大於或等於演算法用來定型採礦模型的案例總數。 以這種方式設定參數時,演算法永遠不會建立分割,因此會執行線性回歸。

代表回歸線的方程式採用 y = ax + b 的一般形式,稱為回歸方程式。 變數 Y 代表輸出變數、X 代表輸入變數,而 a 和 b 是可調整的係數。 您可以藉由查詢已完成的採礦模型來擷取回歸公式的係數、攔截和其他資訊。 如需詳細資訊,請參閱 線性回歸模型查詢範例

評分方法和特性選取

所有 Analysis Services 數據採礦演算法都會自動使用特徵選取來改善分析和減少處理負載。 線性回歸中用於特徵選取的方法是趣味性分數,因為模型只支持連續型數據欄。 如需參考,下表顯示線性回歸演算法和判定樹演算法的功能選取差異。

演算法 分析方法 評論
線性迴歸 趣味評分 違約。

判定樹演算法提供的其他特徵選取方法僅適用於離散變數,因此不適用於線性回歸模型。
決策樹 趣味評分

香農的熵

貝葉斯與 K2 先驗

貝氏迪里希萊特,均勻先驗(預設值)
如果有任何數據行包含非二進位連續值,則會針對所有數據行使用有趣的分數,以確保一致性。 否則,會使用預設或指定的方法。

控制判定樹模型特徵選取的演算法參數是MAXIMUM_INPUT_ATTRIBUTES和MAXIMUM_OUTPUT。

自定義線性回歸演算法

Microsoft線性回歸演算法支持影響所產生採礦模型行為、效能和精確度的參數。 您也可以在採礦模型數據行或採礦結構數據行上設定模型旗標,以控制數據的處理方式。

設定演算法參數

下表列出Microsoft線性回歸演算法所提供的參數。

參數 說明
最大輸入屬性 定義演算法在叫用特徵選取之前可以處理的輸入屬性數目。 將此值設定為 0 以關閉特徵選取。

預設值為 255。
MAXIMUM_OUTPUT_ATTRIBUTES 定義演算法在叫用特徵選取之前可以處理的輸出屬性數目。 將此值設定為 0 以關閉特徵選取。

預設值為 255。
FORCE_REGRESSOR 強制演算法使用指示的數據行做為回歸輸入變數,而不論演算法計算的數據行的重要性為何。

模型旗標

Microsoft線性回歸演算法支援下列模型旗標。 當您建立採礦結構或採礦模型時,您可以定義模型旗標,以指定在分析期間處理每個數據行中的值的方式。 如需詳細資訊,請參閱模型旗標(數據採礦)。

模型旗標 說明
不可為空 表示欄位不能包含 Null。 如果 Analysis Services 在模型定型期間遇到 Null,將會產生錯誤。

適用於採礦結構欄位。
回歸器 表示數據行包含應該在分析期間視為潛在獨立變數的連續數值。

注意:將欄標示為回歸變數,無法確保該欄會在最終模型中作為回歸變數。

適用於採礦模型數據行。

線性回歸模型中的自變量

線性回歸模型是以Microsoft判定樹演算法為基礎。 不過,即使您未使用Microsoft線性回歸演算法,任何判定樹模型都可以包含代表連續屬性上回歸的樹狀結構或節點。

您不需要指定連續欄位代表回歸變數。 Microsoft判定樹演算法會將數據集分割成具有有意義模式的區域,即使您未在數據行上設定 REGRESSOR 旗標也一樣。 差異在於,當您設定模型旗標時,演算法會嘗試尋找形式為 a*C1 + b*C2 + ... 這樣的回歸方程式,以符合樹狀結構節點中的模式。 計算殘差的總和,如果偏差太大,則會強制在樹狀結構中分割。

例如,如果您要使用 Income 做為屬性來預測客戶購買行為,並在數據行上設定 REGRESSOR 模型旗標,演算法會先嘗試使用標準回歸公式來符合 收入 值。 如果偏差太大,則會放棄回歸公式,而且樹狀結構會分割在其他屬性上。 然後,決策樹演算法會在分割後嘗試為每個分支的收入擬合一個回歸模型。

您可以使用 FORCED_REGRESSOR 參數來保證演算法會使用特定的回歸變數。 此參數可以搭配Microsoft判定樹和Microsoft線性回歸演算法使用。

需求

線性回歸模型必須包含索引鍵數據行、輸入數據行,以及至少一個可預測的數據行。

輸入和預測欄位

Microsoft線性回歸演算法支援下表所列的特定輸入數據行和可預測數據行。 如需在採礦模型中使用內容類型的意義詳細資訊,請參閱內容類型(數據採礦)。

資料行 內容類型
輸入屬性 連續、迴圈、關鍵、數據表和有序
可預測屬性 連續、迴圈和已排序

備註

Cyclical 支援和 Ordered 內容類型,但演算法會將它們視為離散值,而且不會執行特殊處理。

另請參閱

Microsoft線性回歸演算法
線性回歸模型查詢範例
線性回歸模型的採礦模型內容 (Analysis Services - 數據採礦)