共用方式為


探索叢集模型 (基本數據採礦教學課程)

Microsoft叢集演算法會將案例分組為包含類似特性的叢集。 這些群組適用於探索數據、識別數據中的異常,以及建立預測。

Microsoft叢集查看器提供下列索引標籤,用於探索叢集採礦模型:

叢集圖表分頁

[叢集圖表] 索引卷標會顯示採礦模型中的所有叢集。 叢集之間的線條代表「接近性」,並且會根據叢集的相似程度來著色。 每個叢集的實際色彩代表變數的頻率和叢集中的狀態。

在 [叢集圖表] 標籤中探索模型

  1. 使用 [採礦模型查看器] 索引卷標頂端的 [採礦模型] 列表,切換至TM_Clustering模型。

  2. 在 [ 查看器] 列表中,選取 [Microsoft叢集查看器]。

  3. 在 [ 底紋變數 ] 方塊中,選取 [ 自行車購買者]。

    默認變數為 Population,但您可以將此變更為模型中的任何屬性,以探索哪些叢集包含具有所需屬性的成員。

  4. 在 [狀態] 方塊中選取 1,以探索購買自行車的情況。

    密度圖例描述陰影變數和狀態中所選取屬性狀態組的密度。 在此範例中,它會告訴我們,具有最深底紋的叢集具有自行車購買者的最高百分比。

  5. 將滑鼠懸停在具有最深陰影的叢集上。

    工具提示會顯示具有屬性 Bike Buyer = 1 的案例比例。

  6. 選取具有最高密度的叢集,以滑鼠右鍵按兩下叢集,選取 [重新命名叢集 ],然後輸入 Bike Buyers High 以供稍後識別。 按一下 [確定]

  7. 尋找具有最輕底紋的叢集 (和最低密度)。 以滑鼠右鍵按兩下叢集,選取 [ 重新命名叢集 ],然後輸入 Bike Buyers Low。 按一下 [確定]

  8. 單擊 [Bike Buyers High ] 叢集,並將其拖曳至窗格的區域,讓您清楚檢視其與其他叢集的連線。

    當您選取一個叢集時,連接此叢集與其他叢集的線條會被突顯,讓您可以輕鬆地查看這個叢集的所有關聯。 未選取叢集時,您可以透過線條的深淺來判斷圖表中所有叢集之間的關係強度。 如果底紋是淺色或不存在,則叢集並不十分類似。

  9. 使用網路左側的滑桿,篩選出較弱的連結,並尋找具有最接近關聯性的叢集。 Adventure Works Cycles 行銷部門在決定傳遞目標郵件的最佳方法時,可能會想要將類似的叢集結合在一起。

叢集配置檔索引標籤

叢集配置檔 標籤提供 TM_Clustering 模型的整體檢視。 [ 叢集配置檔] 索引標籤包含模型中每個叢集的數據行。 第一個數據行會列出與至少一個叢集相關聯的屬性。 查看器的其餘部分包含每個叢集之屬性狀態的分佈。 離散變數的分佈顯示為彩色橫條,方圖橫條 清單中顯示的最大橫條數目。 連續屬性會以菱形圖顯示,代表每個叢集中的平均值和標準偏差。

在 [叢集設定] 索引標籤中探索模型

  1. 直方圖長條 設為 5

    在我們的模型中,5 是任何一個變數的最大狀態數目。

  2. 如果 採礦圖例 阻擋了 屬性設定檔 的顯示,請將其移開。

  3. 選取 [Bike Buyers High] 資料行,並將它拖曳到 [人口] 資料行的右邊。

  4. 選取 [自行車購買者低] 列,並將它拖曳到 [自行車購買者高] 列的右邊。

  5. 點擊 [自行車購買者高] 欄。

    變數 資料行會按照該叢集的重要性順序進行排序。 滾動欄位並檢閱高級購車者叢集的特性。 例如,他們更有可能擁有短程的通勤。

  6. 按兩下 [Bike Buyers High] 資料行中的 [年齡] 資料格。

    [採礦圖例] 會顯示更詳細的檢視,您可以看到這些客戶的年齡範圍以及平均年齡。

  7. 以滑鼠右鍵按一次 Bike Buyers Low 欄,然後選取 隱藏欄

叢集特性標籤

使用 [ 叢集特性 ] 索引標籤,您可以更詳細地檢查組成叢集的特性。 您可以一次探索一個叢集,而不是比較所有叢集的特性(如 [叢集配置檔] 索引標籤。 例如,如果您從 [叢集] 列表中選取 [Bike Buyers High],您可以看到此叢集中客戶的特性。 雖然顯示與叢集配置檔查看器不同,但結果相同。

備註

除非您設定 holdoutseed 的初始值,否則每次處理模型時,結果都會有所不同。 如需詳細資訊,請參閱 HoldoutSeed 元素

叢集辨識標籤

使用 [ 叢集辨識] 索引卷標,您可以探索區分一個叢集與另一個叢集的特性。 選取兩個叢集之後,一個來自 叢集 1 清單,另一個來自叢集 2 清單,查看器會計算叢集之間的差異,並顯示最能區分叢集的屬性清單。

在 [叢集辨識] 標籤中探索模型

  1. 叢集 1 方塊中,選取 高級自行車購買者

  2. 群組 2 方塊中,選取 低購買率自行車買家

  3. 按兩下 [變數 ] 以依字母順序排序。

    Bike Buyers LowBike Buyers High 叢集中的客戶之間的一些更實質性差異包括年齡、汽車擁有權、兒童數目和區域。

請參閱下列主題以探索其他採礦模型。

課程中的下一個工作

探索朴素貝葉斯模型(基本資料探勘教學課程)

課程中之前的任務

探索判定樹模型 (基本數據採礦教學課程)

另請參閱

使用Microsoft叢集查看器流覽模型
叢集辨識索引標籤 (採礦模型查看器)
叢集設定檔索引標籤 (採礦模型檢視器)
叢集特性索引標籤 (採礦模型查看器)
叢集圖表索引標籤 (採礦模型查看器)