共用方式為


模型指標(資料挖掘)

您可以使用 SQL Server Analysis Services 中的模型旗標,為案例數據表中定義之數據的數據採礦演算法提供其他資訊。 演算法可以使用這項資訊來建立更精確的數據採礦模型。

某些模型旗標是在採礦結構的層級定義,而其他則在採礦模型欄的層級定義。 例如, NOT NULL 模型旗標會與採礦結構數據行搭配使用。 您可以根據您用來建立模型的演算法,在採礦模型數據行上定義其他模型旗標。

備註

除了 Analysis Services 預先定義的模型旗標之外,第三方外掛程式可能還有其他模型旗標。

模型旗標清單

下列清單描述 Analysis Services 中支援的模型旗標。 如需特定演算法所支援模型旗標的相關信息,請參閱用來建立模型的演算法技術參考主題。

NOT NULL
表示屬性數據行的值絕對不能包含 Null 值。 如果 Analysis Services 在模型定型程式期間遇到這個屬性數據行的 Null 值,就會產生錯誤。

MODEL_EXISTENCE_ONLY
表示資料列會被視為有兩種狀態: MissingExisting。 如果值為 NULL,則會將其視為Missing。 MODEL_EXISTENCE_ONLY旗標會套用至可預測的屬性,而且大部分演算法都支援。

實際上,將 MODEL_EXISTENCE_ONLY 旗標設定為 True 變更值的表示法,因此只有兩種狀態: MissingExisting。 所有非遺漏狀態都會合併成單 Existing 一值。

此模型旗標的一般用法是用於具有隱含意義的屬性的 NULL 狀態。其中,NOT NULL 狀態的明確值可能不如該欄位是否具有任何值的事實來得重要。 例如,[DateContractSigned] 資料行可能為 NULL 當從未簽署合約,或 NOT NULL 當合約已簽署時。 因此,如果模型的目的是預測合約是否會簽署,您可以使用 MODEL_EXISTENCE_ONLY 旗標來忽略案例中的 NOT NULL 確切日期值,並只區分合約為 MissingExisting的案例。

備註

Missing 是演算法所使用的特殊狀態,與數據行中的文字值「遺漏」不同。 如需詳細資訊,請參閱遺漏值(Analysis Services - 數據採礦)。

REGRESSOR
表示該欄位在處理期間作為回歸變量的候選者。 此旗標定義於採礦模型數據行上,而且只能套用至具有連續數值數據類型的數據行。 如需使用此旗標的詳細資訊,請參閱本主題中的<REGRESSOR 模型旗標的使用>一節。

檢視和變更模型旗標

您可以在數據採礦設計師中檢視與採礦結構數據行或模型數據行相關聯的模型旗標,方法是檢視結構或模型的屬性。

若要判斷哪些模型旗標已套用至目前的採礦結構,您可以對資料採礦架構資料列集建立查詢,該查詢只傳回結構欄的模型旗標,方法是使用如下所示的查詢:

SELECT COLUMN_NAME, MODELING_FLAG  
FROM $system.DMSCHEMA_MINING_STRUCTURE_COLUMNS  
WHERE STRUCTURE_NAME = '<structure name>'  

您可以使用數據採礦設計師和編輯相關聯數據行的屬性,來新增或變更模型中所使用的模型旗標。 這類變更需要重新處理結構或模型。

您可以使用 DMX,或使用 AMO 或 XMLA 腳本,在新的採礦結構或採礦模型中指定模型旗標。 不過,您無法使用 DMX 來變更現有採礦模型和結構中使用的模型旗標。 您必須使用語法 ALTER MINING STRUCTURE....ADD MINING MODEL來建立新的採礦模型。

REGRESSOR 模型標誌的用途

當您在資料行上設定 REGRESSOR 模型旗標時,您會向演算法指出數據行包含潛在回歸變數。 模型中使用的實際回歸變數是由演算法所決定。 如果潛在的回歸變量無法反映可預測屬性,則可以捨棄。

當您使用數據採礦精靈建置模型時,所有連續輸入數據行都會標示為可能的回歸輸入變數。 因此,即使您未在數據行上明確設定 REGRESSOR 旗標,該數據行仍可做為模型中的回歸輸入變數。

您可以針對資料探勘模型的架構資料列集執行查詢,以判斷實際用於已處理模型的回歸變數,如下列範例所示:

SELECT COLUMN_NAME, MODELING_FLAG  
FROM $system.DMSCHEMA_MINING_COLUMNS  
WHERE MODEL_NAME = '<model name>'  

注意 如果您修改採礦模型,並將數據行的內容類型從連續變更為離散,則必須手動變更採礦數據行上的旗標,然後重新處理模型。

線性回歸模型中的自變量

線性回歸模型是以Microsoft判定樹演算法為基礎。 即使您不使用Microsoft線性回歸演算法,任何判定樹模型都可以包含代表連續屬性上回歸的樹狀結構或節點。

因此,在這些模型中,您不需要指定連續變數代表回歸變數。 Microsoft判定樹演算法會將數據集分割成具有有意義模式的區域,即使您未在數據行上設定 REGRESSOR 旗標也一樣。 差異在於,當您設定模型旗標時,演算法會嘗試尋找下列形式的回歸方程式,以符合樹狀節點中的模式。

a*C1 + b*C2 + ...

然後,計算殘差之和,如果偏差太大,將會在樹狀結構中強制進行分割。

例如,如果您要使用 Income 做為屬性來預測客戶購買行為,並在數據行上設定 REGRESSOR 模型旗標,演算法會先嘗試使用標準回歸公式來符合 收入 值。 如果偏差太大,則會放棄回歸公式,而且樹狀結構會分割在其他屬性上。 然後,決策樹演算法會嘗試在分割後為每個分支擬合一個收入回歸模型。

您可以使用 FORCE_REGRESSOR 參數來確保演算法會使用特定的回歸器。 此參數可以搭配判定樹演算法和線性回歸演算法使用。

使用下列連結深入瞭解如何使用模型旗標。

任務 主題
使用數據採礦設計工具編輯模型旗標 檢視或變更模型旗標 (資料採礦)
指定演算法的提示,以推薦可能的回歸變數 指定要在模型中作為回歸變數的欄位
請參閱特定演算法支援的模型旗標(在每個演算法參考主題的模型旗標一節中) 資料採礦演算法 (Analysis Services - 數據採礦)
了解更多關於採礦結構欄位及其屬性設定 採礦結構欄位
瞭解可在模型層級套用的採礦模型數據行和模型旗標 採礦模型數據行
請參閱在 DMX 語句中使用模型旗標的語法 模型旗標 (DMX)
瞭解遺漏的值,以及如何使用它們 遺漏值(分析服務 - 數據挖掘)
瞭解如何管理模型和結構,以及設定使用屬性 移動數據採礦物件