大部分的數據採礦模型都是以關係型數據源為基礎。 建立關係型數據採礦模型的優點是您可以組合臨機作數據,並定型和更新模型,而不需要建立 Cube 的複雜性。
關係型採礦結構可以從不同的來源繪製數據。 原始數據可以儲存在數據表、檔案或關係資料庫系統中,只要數據可以定義為數據源檢視的一部分。 例如,如果您的數據位於 Excel、SQL Server 數據倉儲或 SQL Server 報表資料庫,或是透過 OLE DB 或 ODBC 提供者存取的外部來源,則應該使用關係型採礦結構。
本主題提供如何使用數據採礦精靈建立關係型採礦結構的概觀。
需求
首先,您必須有現有的數據源。 如果數據源設計工具尚未存在,您可以使用資料源設計工具來設定數據源。 如需詳細資訊,請參閱建立數據源(SSAS 多維度)。
接下來,使用 [數據源檢視精靈] 將所需的數據組合成單一數據源檢視。 如需如何使用數據源檢視來選取、轉換、篩選或管理數據的詳細資訊,請參閱 多維度模型中的數據源檢視。
程式概觀
以滑鼠右鍵按兩下 [方案總管] 中的 [ 採礦結構] 節點,然後選取 [ 新增採礦結構],以啟動 [數據採礦精靈]。 精靈會引導您完成下列步驟,以建立新關係型採礦模型的結構:
選取 [定義方法:您在這裡選取數據源類型],然後選擇 [從關係資料庫或數據倉儲]。
建立數據採礦結構:判斷您要只建置結構,還是使用採礦模型建置結構。
您也可以為初始模型選擇適當的演算法。 如需哪些演算法最適合特定工作的指引,請參閱數據採礦演算法(Analysis Services - 數據採礦)。
選取 [數據源檢視]:選擇要用於定型模型的數據源檢視。 數據源檢視也可以包含用於測試或不相關的數據。 您可以挑選並選擇結構與模型中實際使用的資料。 您也可以稍後將篩選套用至數據。
指定數據表類型:選取包含用於分析案例的數據表。 對於某些數據集,特別是用於建置購物籃模型的數據集,您可能也會包含相關數據表,以做為巢狀數據表。
針對每個數據表,您必須指定鍵值,讓演算法知道如何識別唯一的紀錄,以及如果您已加入嵌套數據表,則包括相關的紀錄。
如需詳細資訊,請參閱 採礦結構數據行。
指定訓練數據:在此頁面上,您需選擇 案例數據表,該表包含最重要的分析數據。
對於某些數據集,特別是用於建置購物籃模型的數據集,您可能也會包含相關的數據表。 該巢狀表中的值會作為與主表中單一行(或案例)相關的多個值來處理。
指定資料列內容和資料類型:針對您在 結構中使用的每個數據行,您必須同時選擇 資料類型 和 內容類型。
精靈會自動偵測可能的數據類型,但您不需要使用精靈建議的數據類型。 例如,即使您的數據包含數位,它們也可能代表類別數據。 您指定為索引鍵的數據行會自動為該特定模型類型指派正確的數據類型。 如需詳細資訊,請參閱採礦模型數據行和數據類型(數據採礦)。
您為模型中使用的每一個數據行選擇 的內容類型 會告知演算法應該如何處理數據。
例如,您可能會決定離散化數位,而不是使用連續值。 您也可以要求演算法自動偵測資料列的最佳內容類型。 如需詳細資訊,請參閱內容類型(數據採礦)。
建立測試集:在此頁面上,您可以告訴精靈應該保留多少數據以供測試模型使用。 如果您的數據支持多個模型,最好建立一個保留數據集,讓所有模型都可以在相同的數據上進行測試。
如需詳細資訊,請參閱測試和驗證(數據採礦)。
完成精靈:在此頁面上,您會為新的採礦結構和相關聯的採礦模型提供名稱,並儲存結構和模型。
您也可以根據模型類型來設定一些重要的選項。 例如,您可以在結構上啟用深入分析。
此時,採礦結構和其模型只是元數據;您必須處理這兩者以取得結果。
如何選擇關係型數據
關聯式挖掘結構可以根據任何透過 OLE DB 數據來源所提供的數據來建立。 如果源數據包含在多個數據表內,您可以使用數據源檢視來組合您需要一個位置的數據表和數據行。
例如,如果數據表包含任何一對多關聯性,則每個想要分析的客戶都有多個購買記錄,您可以新增這兩個數據表,然後使用一個數據表做為案例數據表,將關聯性多端的數據連結為巢狀數據表。
採礦結構中的數據來自現有數據來源視圖中的任何元素。 您可以在資料來源檢視中根據需求修改資料,加入在基礎關係型資料中可能不存在的關聯或衍生欄位。 您也可以在數據源檢視內建立具名計算或匯總。 如果您無法控制數據源中的數據排列,或是想要針對數據採礦模型試驗不同的數據匯總,這些功能就非常實用。
您不需要使用所有可用的數據;您可以選擇要在採礦結構中包含哪些資料行。 根據該結構的所有模型都可以使用這些數據行,或者您可以將特定 Ignore 數據行標示為特定模型。 您可以讓資料探勘模型的使用者從探勘模型的結果深入分析,以查看探勘模型本身未包含的其他探勘結構欄位。
如何指定內容類型和數據類型
數據類型與您在 SQL Server 或其他應用程式介面中指定的數據類型幾乎相同:日期和時間、不同大小的數目、布爾值、文字和其他離散數據。
不過,內容類型對於數據採礦很重要,而且會影響分析的結果。 內容類型會告知演算法應該如何處理數據:數字應該以連續尺度處理,還是進行分組? 有多少潛在值? 每個值是否相異? 如果值是索引鍵,其類型為哪一種索引鍵 - 它是否表示日期/時間值、序列或某種其他類型的索引鍵?
請注意,數據類型的選擇可以限制您選擇的內容類型。 例如,您無法將非數值的值離散化。 如果您看不到您想要的內容類型,您可以按兩下 [ 上一步 ] 傳回資料類型頁面,然後嘗試不同的資料類型。
您不需要過於擔心弄錯內容類型。 只要採礦結構中數據集支援新的內容類型,建立新的模型並變更模型內的內容類型就很容易。 使用不同的內容類型來建立多個模型也非常常見,無論是作為實驗,還是滿足不同演算法的需求。
例如,如果您的數據包含收入數據行,您可以在使用Microsoft判定樹演算法時建立兩個不同的模型,並將數據行設定為連續數位或離散範圍。 不過,如果您使用 Microsoft 樸素貝氏演算法新增模型,您將被迫只將欄位變更為離散化值,因為該演算法不支援連續數值。
為何及如何將數據分割為訓練集和測試集
在精靈向導結尾附近,您必須決定是否將數據分成訓練集和測試集。 布建隨機取樣部分數據以進行測試的功能非常方便,因為它可確保一組一致的測試數據可用於與新採礦結構相關聯的所有採礦模型搭配使用。
警告
請注意,此選項不適用於所有模型類型。 例如,如果您建立預測模型,將無法使用保留數據集,因為時間序列演算法要求數據中不能有任何間隙。 如需支援保留數據集的模型類型清單,請參閱 訓練與測試數據集。
您可以指定要用於測試的數據百分比來創建此保留數據集。 所有剩餘的資料都會用於訓練。 您可以選擇性地設定用於測試的案例數目上限,或設定要用於開始隨機選取程式的種子值。
鑒效組測試集的定義會與採礦結構一起儲存,因此每當您根據 結構建立新的模型時,測試數據集將可用於評估模型的精確度。 如果您刪除挖掘結構的快取,用於訓練的案例資訊以及用於測試的案例資訊也會被刪除。
為何及如何啟用穿透
幾乎在向導的結束階段,您可以選擇啟用 鑽取。 很容易錯過這個選項,但這是一個重要的選項。 鑽取功能使您可以透過查詢採礦模型來查看採礦結構中的原始資料。
為什麼這很有用? 假設您正在檢視叢集模型的結果,並想要查看已放入特定叢集的客戶。 您可以使用向下鑽取來檢視詳細資訊,例如連絡資訊。
警告
若要使用鑽研,您必須在建立採礦結構時啟用它。 您可以稍後在模型上設定 屬性,以在模型上啟用鑽研,但採礦結構需要在開頭設定這個選項。 如需詳細資訊,請參閱鑽研查詢(數據採礦)。
另請參閱
數據採礦設計工具
數據採礦精靈 (Analysis Services - 數據採礦)
採礦模型屬性
採礦結構和結構欄位的屬性
採礦結構任務和操作指南