資料採礦概念
資料採礦經常被描述為*「從大型資料庫中擷取有效、確實且可付諸行動之資訊的過程」*。換句話說,資料採礦可以衍生/呈現存在於資料中的模式和趨勢。這些模式和趨勢可收集在一起,並定義為採礦模型。採礦模型可套用至特定商務狀況,例如:
- 預測銷售。
- 以特定客戶為目標的郵寄活動。
- 判斷哪些產品可能同時銷售。
- 尋找客戶將產品加入購物車的順序。
有一個重要概念,即建立採礦模型是較大型程序的一部份,它包括從定義該模型要解決的基本問題到部署該模型到工作環境中的一切細節。可以使用下列 6 個基本步驟來定義這個程序:
- 定義問題
- 準備資料
- 瀏覽資料
- 建立模型
- 瀏覽及驗證模型
- 部署及更新模型
下列圖表描述此程序中每一個步驟之間的關聯性,和 Microsoft SQL Server 2005 中您可用來完成每一個步驟的技巧。
雖然在圖表中說明的程序是循環的,但每一個步驟不一定會直接導致下一個步驟。建立資料採礦模型是一個動態與反覆的程序。在瀏覽資料之後,您可能會發現資料不夠用來建立適當的採礦模型,因此您必須尋找更多的資料。您可以建立數個模型,然後您就會瞭解,它們並不回答您在定義問題時所提出的問題,因此您必須重新定義問題。在部署模型之後,您必須更新模型,因為有更多的資料可用。因此,您一定要瞭解建立資料採礦模型只是一個程序,必要時,您需要重複該程序中的每一個步驟許多次,才能建立理想的模型。
SQL Server 2005 提供一個用來建立和使用資料採礦模型的整合式環境,稱為 Business Intelligence Development Studio。此環境包含資料採礦演算法和工具,讓您輕鬆建立各種專案的完整方案。如需有關使用 BI Development Studio 的詳細資訊,請參閱<開發 Analysis Services 方案和專案>。
如需有關如何將 SQL Server 工具套用至本主題前面列出之商務狀況的詳細資訊,請參閱<資料採礦教學課程>。
定義問題
資料採礦程序中的第一個步驟 (在下列圖表中以反白顯示) 是要明確定義商務問題。
此步驟包括分析商務需求、定義問題的範圍、定義評估模型的度量單位,以及定義資料採礦專案的最後目標。這些工作翻譯成下列問題:
- 您尋找的目標是什麼?
- 您要預測的資料集屬性是什麼?
- 您要尋找哪些關聯性類型?
- 您要從資料採礦模型建立預測,或只尋找感興趣的模式和關聯性?
- 資料如何散發?
- 資料行之間如何相關,或是如果有多個資料表,資料表之間如何相關?
若要回答這些問題,您必須進行一項資料可用性研究,來調查商務使用者對於可用資料的需求。如果資料不支援使用者的需求,您必須重新定義專案。
準備資料
資料採礦程序中的第個二步驟 (在下列圖表中以反白顯示) 是要合併及清理在定義問題步驟中所識別的資料。
Microsoft SQL Server 2005 Integration Services (SSIS) 包含您要完成此步驟所需的一切工具,包括轉換成自動化資料清理和合併。
資料可能散佈於公司各處並以不同格式儲存,也可能會不一致,例如有缺陷或遺漏的項目。例如,資料可能會顯示某客戶購買產品,但該客戶實際上尚未出生,或該客戶定期購物的商店竟然距離她的家 2,000 英里。在您開始建立模型之前,必須先修正這些問題。通常,您使用很大的資料集,而無法識破每一筆交易的破綻。因此,您必須使用一些自動化的形式,例如在 Integration Services 中,瀏覽資料並找出不一致之處。
瀏覽資料
資料採礦程序中的第三個步驟 (在下列圖表中以反白顯示) 是要瀏覽已準備好的資料。
當您建立模型時,您必須瞭解資料才能做出適當的決策。瀏覽技巧包括計算最小值和最大值、計算平均差和標準差,以及查看資料的散發。瀏覽資料之後,您可以決定資料集是否包含有缺陷的資料,然後想出修正問題的策略。
BI Development Studio 中的資料來源檢視設計師包含數個可讓您瀏覽資料的工具。
建立模型
資料採礦程序中的第四個步驟 (在下列圖表中以反白顯示) 是建立採礦模型。
在建立模型之前,您必須將已準備好的資料隨機分成個別的培訓和測試資料集。您使用培訓資料集來建立模型,並建立預測查詢,使用測試資料集來測試模型的精確度。您可以在 Integration Services 中使用百分比取樣轉換來分割資料集。
您要使用從瀏覽資料步驟所獲得的知識,來協助定義和建立採礦模型。模型通常包含輸入資料行、識別資料行和可預測資料行。然後您可以使用資料採礦延伸模組 (DMX) 語言,或 BI Development Studio 中的資料採礦精靈,在新模型中定義這些資料行。如需有關如何使用 DMX 的詳細資訊,請參閱<資料採礦延伸模組 (DMX) 參考>。如需有關如何使用資料採礦精靈的詳細資訊,請參閱<資料採礦精靈>。
定義採礦模型的結構之後,您要處理它,並以描述此模型的模式來擴展空白結構。這就是所謂的培訓模型。可透過數學演算法傳遞原始資料來尋找模式。SQL Server 2005 針對您可建立的每一種類型的模型都包含不同的演算法。您可以使用參數來調整每一個演算法。
採礦模型是由資料採礦結構物件、資料採礦模型物件和資料採礦演算法所定義。
詳細資訊:採礦結構 (Analysis Services)、 資料採礦演算法
Microsoft SQL Server 2005 Analysis Services (SSAS) 包括下列演算法:
- Microsoft 決策樹演算法
- Microsoft 群集演算法
- Microsoft 貝氏機率分類演算法
- Microsoft 關聯分析演算法
- Microsoft 時序群集演算法
- Microsoft 時間序列演算法
- Microsoft 類神經網路演算法 (SSAS)
- Microsoft 羅吉斯迴歸演算法
- Microsoft 線性迴歸演算法
瀏覽及驗證模型
資料採礦程序中的第五個步驟 (在下列圖表中以反白顯示) 是瀏覽您所建立的模型並測試其效能。
您並不想沒有先測試模型的執行效能就將模型部署到實際環境。同時,您可能建立了數個模型,而必須決定哪一個模型執行效能最佳。如果您在建立模型步驟中所建立的模型沒有一個有好的執行效能,您可能必須要回到程序的上一個步驟,重新定義問題或重新調查原始資料集內的資料。
您可以在 BI Development Studio 中使用資料採礦設計師的檢視器,來瀏覽演算法所探索的趨勢和模式。您也可以使用設計師中的工具 (例如增益圖和分類矩陣),來測試模型建立預測的效能。這些工具需要測試您在模型建立步驟中從原始資料集分隔的資料。
詳細資訊:檢視資料採礦模型、驗證資料採礦模型、增益圖、分類矩陣
部署及更新模型
資料採礦程序中的最後一個步驟 (在下列圖表中以反白顯示) 是將執行效能最好的模型部署到實際環境。
當採礦模型存在於實際環境之後,您可以執行許多工作,視您自己的需要而定。以下是您可以執行的一些工作:
- 使用模型來建立預測,然後做出商務決策。SQL Server 會提供您可用來建立預測查詢的 DMX 語言,並會提供預測查詢產生器來協助您建立查詢。
- 直接將資料採礦功能內嵌於應用程式中。您可以包括分析管理物件 (AMO) 或含有一組物件的組件,讓應用程式用來建立、改變、處理以及刪除採礦結構和採礦模型。另外,您可以將 XML for Analysis (XMLA) 訊息直接傳送到 Analysis Services 的執行個體。
- 使用 Integration Services 來建立封裝,其中會使用採礦模型,有智慧地將內送資料分成多個資料表。例如,若資料庫因為潛在客戶而不斷更新,您可以同時使用採礦模型與 Integration Services,將內送資料分成可能購買產品的客戶和可能不購買產品的客戶。
- 建立可讓使用者直接查詢現有之採礦模型的報表。
更新模型是部署策略的一部份。由於進入組織的資料越來越多,您必須重新處理模型,來改進其效能。
詳細資訊:在 Analysis Services 中進行處理、建立 DMX 預測查詢、資料採礦延伸模組 (DMX) 參考、Analysis Services Administration Programming (SSAS)