採礦結構定義了用於建置採礦模型的數據:它指定了源數據檢視、數據行的數目和類型,以及選擇性分割為訓練集和測試集。 單一採礦結構可以支援多個共用相同網域的採礦模型。 下圖說明數據採礦結構與數據源及其組成數據採礦模型的關聯性。
圖表中的採礦結構是以包含多個數據表或檢視的數據源為基礎,並聯結在 CustomerID 字段上。 一個數據表包含客戶的相關信息,例如地理區域、年齡、收入和性別,而相關的巢狀數據表則包含多個有關每位客戶的其他資訊列,例如客戶購買的產品。 此圖表顯示多個模型可以建置在一個採礦結構上,而且模型可以使用與 結構不同的數據行。
模型 1 利用 CustomerID、Income、Age、Region 並對 Region 的數據進行篩選。
模型 2 使用客戶ID、收入、年齡、地區等資料,並根據年齡篩選資料。
模型 3 使用 CustomerID、Age、Gender 和巢狀數據表,沒有篩選條件。
由於模型針對輸入使用不同的數據行,而且因為其中兩個模型會藉由套用篩選來限制模型中使用的數據,所以即使模型是以相同的數據為基礎,模型也可能有非常不同的結果。 請注意,所有模型中都需要 CustomerID 數據行,因為它是唯一可作為案例索引鍵使用的數據行。
本節說明數據採礦結構的基本架構:如何定義採礦結構、如何使用數據填入數據,以及如何使用它來建立模型。 如需有關如何管理或匯出現有資料採礦結構的更多資訊,請參閱 管理資料採礦方案和物件。
定義採礦結構
設定資料採礦結構包含下列步驟:
定義數據源。
選取要包含在 結構中的數據行(並非所有數據行都必須新增至模型),並定義索引鍵。
定義 結構的索引鍵,包括適用於最佳數據表的索引鍵。
指定源數據是否應該分隔成定型集和測試集。 這個步驟是選擇性的。
處理結構。
下列各節將詳細說明這些步驟。
採礦結構的數據源
當您定義採礦結構時,可以使用現有數據源檢視中可用的數據行。 數據源檢視是一個共享物件,可讓您結合多個數據源,並將其作為單一來源使用。 用戶端應用程式看不到原始數據源,而且您可以使用數據源檢視的屬性來修改數據類型、建立匯總或別名數據行。
如果您從同一個礦業結構中建置多個礦業模型,這些模型可以使用此結構中的不同欄位。 例如,您可以建立單一結構,然後從中建立不同的判定樹和群集模型,並使用不同的數據行和預測不同的屬性來建立每個模型。
此外,每個模型都可以以不同方式使用結構中的欄位。 例如,您的數據源檢視可能包含 [收入] 欄,您可以針對不同的模型用不同的方式分組。
數據採礦結構會以源 數據系結 的形式儲存數據源及其中的數據行定義。 如需數據源系結的詳細資訊,請參閱數據源和系結(SSAS 多維度)。 不過,請注意,您也可以使用 DMX CREATE MINING STRUCTURE (DMX) 語句來建立數據採礦結構,而不將其系結至特定數據源。
採礦結構欄位
採礦結構的建置組塊是採礦結構數據行,其描述數據源包含的數據。 這些數據行包含數據類型、內容類型,以及數據散發方式等資訊。 採礦結構不包含數據行如何用於特定採礦模型的資訊,或關於用來建置模型的演算法類型;這項資訊定義於採礦模型本身。
採礦結構也可以包含巢狀數據表。 巢狀數據表代表案例實體與其相關屬性之間的一對多關聯性。 例如,如果描述客戶的資訊位於一個數據表中,而客戶的購買專案則位於另一個數據表中,您可以使用巢狀數據表將資訊合併成單一案例。 客戶識別碼是實體,購買行為是相關屬性。 如需何時使用巢狀數據表的詳細資訊,請參閱巢狀數據表(Analysis Services - 數據採礦)。
若要在 SQL Server Data Tools 中建立數據採礦模型(SSDT),您必須先建立數據採礦結構。 數據採礦精靈會逐步引導您完成建立採礦結構、選擇數據,以及新增採礦模型的程式。
如果您使用數據採礦延伸模組建立採礦模型(DMX),您可以指定模型和其中的數據行,而且 DMX 會自動建立必要的採礦結構。 如需詳細資訊,請參閱 CREATE MINING MODEL (DMX) 。
如需詳細資訊,請參閱 採礦結構數據行。
將數據分割成定型集和測試集
當您定義採礦結構的數據時,您也可以指定部分數據用於定型,有些則用於測試。 因此,在建立數據採礦結構之前,不再需要分隔您的數據。 相反地,當您建立模型時,您可以指定要保留特定百分比的數據進行測試,以及用於定型的其餘部分,或者您可以指定特定數目的案例做為測試數據集。 訓練和測試數據集的相關信息會連同採礦結構一起快取,因此,相同的測試集可以用於所有基於該結構的模型。
如需詳細資訊,請參閱 定型和測試數據集。
啟用穿透
即使您不打算在特定採礦模型中使用該欄,也可以將欄加入採礦結構。 例如,如果您想要在叢集模型中擷取客戶的電子郵件位址,而不需要在分析程序期間使用電子郵件位址,這非常有用。 若要在分析和預測階段忽略數據行,您可以將它新增至 結構,但未指定數據行的使用方式,或將使用量旗標設定為 [忽略]。 如果採礦模型上已啟用鑽研,而且您擁有適當的許可權,則以這種方式標幟的數據仍可用於查詢中。 例如,您可以檢閱所有客戶分析所產生的叢集,然後使用鑽研查詢來取得特定叢集中客戶的名稱和電子郵件位址,即使這些數據行未用來建置模型也一樣。
如需詳細資訊,請參閱鑽研查詢(數據採礦)。
處理採礦結構
採礦結構只是中繼資料容器,直到完成處理為止。 當您處理採礦結構時,Analysis Services 會建立一個快取,以儲存有關數據的統計數據、如何離散化任何連續屬性的資訊,以及採礦模型稍後使用的其他資訊。 採礦模型本身不會儲存此摘要資訊,而是參考在處理採礦結構時已快取的資訊。 因此,您不需要在每次將新模型新增至現有結構時重新處理結構;您可以只處理模型。
如果快取非常大,或您想要移除詳細數據,您可以選擇在處理之後捨棄此快取。 如果您不想要快取資料,您可以將採礦結構的 屬性變更 CacheMode 為 ClearAfterProcessing。 在處理任何模型之後,這將銷毀快取。 將 CacheMode 屬性設定為 ClearAfterProcessing 將停用資料探勘模型的鑽取功能。
不過,刪除快取之後,您將無法將新的模型新增至採礦結構。 如果您將新的採礦模型新增至 結構,或變更現有模型的屬性,您必須先重新處理採礦結構。 如需詳細資訊,請參閱處理需求和考慮(數據採礦)。
檢視採礦結構
您無法使用檢視者來瀏覽採礦結構中的數據。 不過,在 SQL Server Data Tools (SSDT)中,您可以使用數據採礦設計師的 [ 採礦結構 ] 索引卷標來檢視結構數據行及其定義。 如需詳細資訊,請參閱 數據採礦設計工具。
如果您想要檢閱採礦結構中的數據,您可以使用數據採礦延伸模組 (DMX) 建立查詢。 例如,語句 SELECT * FROM <structure>.CASES 會傳回採礦結構中的所有數據。 若要擷取這項資訊,必須已處理採礦結構,而且必須快取處理的結果。
語句 SELECT * FROM <model>.CASES 會傳回相同的數據行,但僅適用於該特定模型中的案例。 如需詳細資訊,請參閱 SELECT FROM <結構>。CASES 和 SELECT FROM <模型>。CASES(DMX)。
搭配採礦結構使用數據採礦模型
數據採礦模型會將採礦模型演算法套用至採礦結構所代表的數據。 採礦模型是屬於特定採礦結構的物件,而模型會繼承採礦結構所定義之屬性的所有值。 此模型可以使用採礦結構包含的所有數據行或數據行子集。 您可以將多個結構欄位的副本新增至一個架構。 您也可以將多個結構欄位新增到模型中,然後為模型中的每個結構欄位指派不同的名稱或別名。 如需有關設定結構欄的別名的詳細資訊,請參閱 為模型欄位建立別名 和 資料採礦模型屬性。
如需數據採礦模型架構的詳細資訊,請參閱採礦模型(Analysis Services - 數據採礦)。
相關工作
使用提供她的連結,深入瞭解如何定義、管理和使用採礦結構。
| 任務 | 連結 |
|---|---|
| 使用關係型數據挖掘結構 |
建立新的關係型採礦結構 將巢狀數據表新增至採礦結構 |
| 使用基於OLAP立方體的採礦結構 |
建立新的OLAP採礦結構 篩選來源 Cube 用於採礦結構 |
| 使用採礦結構中的欄位 |
將欄位新增至採礦結構 從採礦結構中移除列 |
| 變更或查詢採礦結構屬性和數據 | 變更採礦結構的屬性 |
| 使用基礎數據源並更新源數據 |
編輯用於採礦結構的數據源檢視 處理採礦結構 |
另請參閱
資料庫物件 (Analysis Services - 多維度數據)
採礦模型 (Analysis Services - 資料採礦)