資料採礦演算法 (Analysis Services - 資料採礦)
適用于:SQL Server 2019 和更早版本的 Analysis Services Azure Analysis Services Fabric/Power BI Premium
重要
資料採礦自 SQL Server 2017 Analysis Services 起退場,現在的 SQL Server 2022 Analysis Services 已不再繼續提供。 已退場和不再繼續提供之功能的文件不予更新。 若要深入了解,請參閱 Analysis Services 回溯相容性。
資料採礦中的「演算法」(或機器學習服務) 是一組可從資料建立模型的啟發學習法和計算。 若要建立模型,演算法首先會分析您提供的資料,尋找特定模式和趨勢類型。 此演算法會使用此分析的結果進行反覆運算,以尋找建立採礦模型的最佳參數。 然後這些參數會套用到整個資料集以擷取可付諸行動的模式與詳細的統計資料。
演算法從資料建立的採礦模型可以有各種形式,包括:
一組叢集,描述資料集的案例如何相關。
決策樹,預測結果並描述不同準則如何影響該結果。
預測銷售的數學模型。
一組規則,描述交易中的產品及購買產品的機率如何群組在一起。
SQL Server資料採礦中提供的演算法是衍生資料模式的最熱門、研究完善的方法。 若要採用一個範例,K-means 叢集是其中一個最舊的叢集演算法,而且可在許多不同的工具中使用,而且有許多不同的實作和選項。 不過,SQL Server資料採礦中使用的 K-means 叢集特定實作是由 Microsoft Research 所開發,然後針對SQL Server Analysis Services的效能進行優化。 所有的 Microsoft 資料採礦演算法可以使用提供的 API 廣泛地自訂,而且為完整可程式化。 您也可以使用 Integration Services 中的資料採礦元件,將模型建立、定型和重新定型自動化。
您也可以使用符合 OLE DB for Data Mining 規格的協力廠商演算法,或開發可註冊為服務,然後用於 SQL Server 資料採礦架構中的自訂演算法。
選擇正確的演算法
選擇特定分析工作最適用的演算法並不容易。 您可以使用不同的演算法來執行相同的業務工作,每一個演算法會產生不同的結果,且部分演算法還會產生一種以上的結果類型。 例如,使用 Microsoft 決策樹演算法時,不僅可以用來預測,也可以減少資料集內的資料行數目,因為決策樹可識別不影響最終採礦模型的資料行。
依類型選擇演算法
SQL Server資料採礦包含下列演算法類型:
分類演算法 會根據資料集內的其他屬性,預測一或多個離散變數。
迴歸演算法 :會根據資料集內的其他屬性,預測一或多個連續數值變數,例如利潤或損失。
分割演算法 :會將項目的資料劃分為具有相似屬性的群組或叢集。
關聯分析演算法 會尋找資料集內不同屬性之間的相互關聯。 這種演算法最常應用在建立關聯規則,這些規則可以用在購物籃分析。
時序分析演算法 :會對資料中的時序或事件進行摘要,例如網站中的一系列點擊,或在機器維護之前的一系列記錄事件。
不過,沒有任何理由限制您在方案中只能使用一種演算法。 有經驗的分析師有時會使用一種演算法來決定最有效的輸入 (亦即變數),然後套用不同演算法,以根據該資料預測特定結果。 SQL Server資料採礦可讓您在單一採礦結構上建置多個模型,因此在單一資料採礦解決方案中,您可以使用群集演算法、決策樹模型和貝氏機率分類模型來取得資料的不同檢視。 您也可以在一個方案內使用多種演算法來執行個別的工作:例如,您可以使用迴歸來取得財務預測,以及使用類神經網路演算法來執行影響預測之因素的分析。
依工作選擇演算法
為了協助您選取搭配特定工作所使用的演算法,下表提供每種演算法傳統上使用的工作類型建議。
工作範例 | 適用的 Microsoft 演算法 |
---|---|
預測離散屬性: 將潛在買家清單中的客戶標幟為較佳或較差的潛在客戶。 計算伺服器在未來 6 個月內失敗的機率。 分類病人結果並探索相關因素。 |
Microsoft 決策樹演算法 Microsoft 貝氏機率分類演算法 Microsoft 叢集演算法 Microsoft 類神經網路演算法 |
預測連續屬性: 預測下一個年度的銷售。 根據過去歷史和季節性趨勢來預測網站訪客。 根據人口統計產生風險分數。 |
Microsoft 決策樹演算法 Microsoft 時間序列演算法 Microsoft 線性迴歸演算法 |
預測順序: 執行公司網站的點選流分析。 分析導致伺服器失敗的因素。 擷取及分析看診期間的活動順序,制定出以一般活動為主的最佳作法。 |
Microsoft 時序叢集演算法 |
在交易中尋找通用項目的群組: 使用購物籃分析來決定產品位置。 向客戶建議其他可購買的產品。 分析參加某事件之訪客的調查資料,以找出相互關聯的活動或攤位,並規劃未來的活動。 |
Microsoft Association Algorithm Microsoft 決策樹演算法 |
尋找相似項目的群組: 根據人口統計和行為等屬性,建立病患風險評估群組。 依瀏覽及購買模式來分析使用者。 識別具有類似使用特性的伺服器。 |
Microsoft 叢集演算法 Microsoft 時序叢集演算法 |
相關內容
下一節提供SQL Server資料採礦中每個資料採礦演算法的學習資源連結:
基本演算法描述:說明演算法的運作方式,並概述演算法可能很有用的可能商務案例。
技術參考:提供演算法實作的技術詳細資料,並視需要提供學術參考。 列出您可以設定的參數,用於控制演算法的行為,並自訂模型中的結果。 描述資料需求,並盡可能提供效能提示。
模型內容:說明資訊如何在每種類型的資料採礦模型中結構化,並說明如何解譯儲存在每個節點中的資訊。
資料採礦查詢:提供多個查詢,您可以搭配每個模型類型使用。 例如,可讓您深入了解模型中模式的內容查詢,以及可協助您根據這些模式建立預測的預測查詢。
相關工作
主題 | 描述 |
---|---|
確定資料採礦模型所使用的演算法。 | 查詢用於建立採礦模型的參數 |
建立自訂外掛程式演算法 | 外掛程式演算法 |
使用演算法特定的檢視器瀏覽模型 | 資料採礦模型檢視器 |
檢視使用一般資料表格式的模型內容 | 使用 Microsoft 一般內容樹狀檢視器瀏覽模型 |
了解如何設定資料及使用演算法來建立模型 | 採礦結構 (Analysis Services - 資料採礦) 採礦模型 (Analysis Services - 資料採礦) |
另請參閱
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應