共用方式為


流覽叢集模型

當您使用 [瀏覽] 開啟叢集模型時,模型會顯示在互動式查看器中,類似於 Analysis Services 中的叢集查看器。 查看器可協助您探索已建立的叢集,並瞭解叢集特性。 您也可以將個別片段與其他片段或整體母體進行比較和對比。

探索模型

[ 流覽 ] 視窗包含下列工具,可協助您瞭解叢集模型,並探索基礎數據群組的屬性:

若要實驗叢集模型,您可以在範例數據活頁簿的 [訓練] 索引標籤上使用範例數據,並使用 叢集精靈(適用於 Excel 的數據採礦增益集) 和所有預設值來建置叢集模型。

叢集圖表

[ 叢集圖表] 索引卷標會顯示採礦模型中的所有叢集。 您可以在這裡查看數據集中找到多少個不同的群組,以及它們彼此之間的距離。

探索叢集圖表
  1. 按兩下圖表中的 [叢集 1]。

    注意連接所有叢集的灰色線條如何變化,以使指向選取叢集的線條被高亮顯示為明亮的藍色。

    叢集圖表簡介

    將一個叢集連接到另一個叢集的線條強度代表叢集相似度的強度。 如果底紋是淺色或不存在,則叢集並不十分類似。 當線條變暗時,它表示兩個叢集之間的相似性較強。

  2. 按兩下並拖曳叢集圖表左側的滑桿,以調整查看器顯示多少行。

    當您將滑桿向下拖曳時,只會顯示叢集之間的最強連結。 這可協助您專注於相關的群組。

  3. 請注意 [叢集圖表] 視窗右上角的 [底紋變數] 控件。

    根據預設,它會設定為 Population。 這表示較深的群集具有更大的支持。

  4. 將游標懸停在任何叢集上。

    工具提示顯示,其中包含該叢集的人口。

  5. 現在,按兩下 [ 底紋變數 ] 下拉式清單,然後選擇 [年齡 ] 變數。 如此一來,[ 狀態 ] 文本框中會出現值清單。

    用來作為此模型輸入的 Age 數據行包含連續數值,但基於群集的目的,演算法一律會離散化數位。 您可以在這裡看到演算法所建立的量化或群組,例如「非常低(<=27)」和「非常高(>=63)」。

  6. 從 [ 狀態 ] 下拉式清單中,選取 [非常高] ,並查看圖表如何變更。

    藉由變更底紋變數,您可以看到哪些叢集包含更多此目標年齡群組,以及哪些叢集包含此年齡群組中的極少數客戶。

    修改叢集圖表以顯示年齡

    核心陰影越深,目標屬性及其值分佈的集中程度越高。

  7. 找出當陰影變數設為年齡 65 時最暗的叢集。

    將滑鼠停留在叢集上。

    工具提示中顯示的值現在會告知您此叢集中年齡超過 65 歲的客戶群體。

  8. 以滑鼠右鍵按兩下叢集,然後選取 [ 重新命名叢集]。 輸入描述性的新名稱,例如 超過 65。 新的名稱會與模型一起儲存到伺服器,並可用於識別其他叢集檢視中的叢集。

回到頂端

叢集配置檔

[ 叢集配置檔] 索引標籤可讓您一目了然地比較所有叢集的組成。 當您熟悉模型時,這是一個很好的起點。 如果您已探索特定叢集,並決定需要尋找相關的叢集,此檢視稍後也很有用。

叢集輪廓 還提供了一個很好的概覽,讓您了解各個叢集之間的不同之處。 因此,您可能會發現使用這個檢視為每個叢集提供描述性名稱會很方便。

探索叢集配置檔
  1. 按兩下 [職業] 資料列中的 [職業] 儲存格,以查看 [職業] 的所有值清單。

  2. 現在,將游標移至叢集配置檔中的職業上方。

    工具提示會顯示該叢集中的職業分佈。

    在工具提示或圖例中檢視詳細值

    請注意,在某些叢集中(例如圖形中的一個),職業清單不完整,而某些職業則會取代為標籤 [其他]。

    這是根據設計,因為很難分辨直方圖中許多小條之間的差異。 根據預設,只有最高重要性的橫條會被保留,其餘的橫條會被分組到灰色的其他分類中。

    若要變更任何直方圖中可見的橫條數目,請使用 [ 直方圖橫條] 選項。

  3. 請注意, Age 數據行看起來與其他數據行不同。 點擊圖表中用來代表年齡的菱形。

    Age 原本只包含連續數字的數據行。 群集演算法需要離散值,因此它會根據值的分佈,將 Age 數據行中的數值分組為有限的年齡群組。

  4. 在叢集設定檔中按一下其中一個菱形圖表。

    只有在源數據使用連續數值時,才會顯示這些菱形圖。 菱形圖提供一些有用的描述性統計數據,包括每個叢集中該值的平均值和標準偏差:

    • 菱形圖中的線條代表 屬性的值範圍。 這些值也會顯示在 [配置檔] 圖表左側的 [狀態] 資料行中。

    • 菱形的中心位於節點的平均位置。

    • 菱形的寬度代表該節點屬性的變異數。 因此,較薄的菱形表示節點可以建立更精確的預測。

  5. 若要在圖形中提供更多空間,請以滑鼠右鍵按下您不需要立即檢視的叢集,然後選取 [ 隱藏數據行]。 這不會從模型中刪除它,只是暫時隱藏欄位。

    要查看您已隱藏的叢集,您可以點擊並拖曳欄位邊緣,或從清單中選擇群集名稱 更多的叢集

  6. 向下卷動屬性清單,直到您找到 Bike Buyer,然後尋找具有 [是] 值最高百分比的叢集。

    以滑鼠右鍵按下您要重新命名之叢集的數據行標題,選取 [重新命名叢集],然後輸入 Bike Buyers

    新的叢集名稱會保存在所有檢視和伺服器上,直到您重新處理模型為止。

    重新命名叢集,讓圖表更容易使用重新命名

秘訣

  • 按一下欄位標題,以該叢集的重要性順序排列屬性。

  • 拖曳數據行以在查看器中重新排序它們。

  • 點擊概況圖表中的任何數據格,以檢視 採礦圖例中的詳細統計數據。

  • 以滑鼠右鍵按下任何儲存格,然後選取 「逐層深入模型資料行」,將基礎數據匯出到 Excel 的新工作表。

  • 以滑鼠右鍵按一下叢集的欄標題,然後選取 鑽研以結構化數據,以取得未包含於模型中的叢集成員的詳細資訊。

    例如,如果您正在分析客戶,您可能會將聯繫人資訊保留在基礎數據中(採礦結構),但不包含在模型中,因為它不適用於分析。 不過,將客戶指派給叢集之後,您可以使用穿透功能來檢視詳細數據。

回到頂端

叢集特性

[叢集特性] 檢視可讓您真正探索單一叢集,以找出哪一個屬性最強地描述此數據群組的特性。

探索叢集特性
  1. 叢集 列表中選取 超過 65 叢集。

    選取叢集之後,您可以詳細查看組成該特定叢集的特性。

    叢集所包含的屬性會列在 [變數 ] 資料行中,而列出的屬性狀態會列在 [ ] 資料行中。

    屬性狀態會依重要性順序列出,並伴隨其在這個叢集中的機率,以 [機率 ] 數據行中的彩色列表示。

    群集模型的特性叢集模型特性

  2. 按兩下 [ 變數] 資料行,依屬性排序。

    藉由變更排序變數,您可以更輕鬆地查看變數的值,例如收入或汽車擁有權如何分散在群組中。

  3. 按兩下 [複製到Excel]。

    新的工作表會新增至活頁簿,其中包含所選取叢集的特性。

  4. 現在,從清單中選擇不同的叢集 ,Bike Buyers

  5. 按兩下 [複製到Excel]。

    請注意,新的叢集特性圖表會新增在其自己的工作表上。 您可以將它移至與其他配置檔相同的工作表,以便比較它們,您將在下一個步驟中執行此動作。

秘訣

  • 請注意,超過 65 個叢集中客戶的主要特性是,他們不會購買您的產品! 如果您想要知道為什麼如此,您可以瀏覽叢集並比較群組,或者您可以使用擅長探索原因和結果的演算法來建立相關模型,例如判定樹模型或貝氏機率分類模型。

  • 如果您想要取得此叢集的完整屬性和機率清單(或所有叢集),您可以建立查詢。 如需叢集模型查詢的範例,請參閱 叢集模型查詢範例

回到頂端

叢集辨識

您可以使用 [ 叢集辨識 ] 索引卷標來比較兩個叢集之間的屬性,或是叢集與數據集中所有其他案例之間的屬性。

為了突顯此查看器的功能,我們將其與 Excel 中您根據 叢集特性 檢視所建立的並排表格進行比較。

探索叢集辨識
  1. 使用 [叢集 1 ] 和 [ 叢集 2 ] 列表來選取要比較的叢集。

    • 針對叢集 1,選擇超過 65。

    • 針對 [叢集 2],選取 [自行車購買者]。

    比較看起來應該類似下圖。

    比較模型中的叢集

    請注意,叢集辨識 檢視器在幕後運作中會將複雜的查詢傳送至資料探勘伺服器,以擷取區分這兩個群組時最重要的屬性,使您能更輕鬆地比較兩組客戶。

  2. 按兩下其中一個 [偏好... ] 資料行。

    屬性和值清單右邊的列會顯示哪些特徵或值是選取叢集的特性。

  3. 現在比較 Excel 中的清單。

    關聯模型的相依網路圖

    由於用來在查看器中建置影像的基礎統計數據會儲存至 Excel 做為數據表,因此您可以篩選和排序,並檢視實際機率值。

    除了使用 Excel 之外,建議您嘗試 Visio 的叢集查看器,這也可讓您不僅檢視數據點,還能廣泛修改及增強圖形。 如需詳細資訊,請參閱叢集圖表逐步解說(數據採礦附加元件)。

秘訣

取得客戶群組的一些見解之後,請嘗試使用 What-If 案例(適用於 Excel 的數據表分析工具)目標搜尋案例(適用於 Excel 的數據表分析工具) 工具,來探索模型中可能變更以影響結果的因素。

另請參閱

在 Excel 中瀏覽模型 (SQL Server 資料探勘增益集)
叢集精靈(適用於 Excel 的資料探勘外掛程式)