特徵選取模組
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
本文說明機器學習 Studio (傳統) 中可用於特徵選取的模組。
在機器學習中,特徵選取是很重要的工具。 機器學習 Studio (傳統) 提供多種方法來執行功能選取。 根據您擁有的資料類型以及套用的統計技術需求,選擇特徵選取方法。
本文將說明:
機器學習 Studio (傳統) 中的每個特徵選取模組都會使用資料集做為輸入。 然後,模組會將知名的統計方法套用至提供做為輸入的資料行。 輸出是一組計量,可協助您識別具有最佳資訊值的資料行。
關於特徵選取
在機器學習和統計資料中, 特徵選取 是指選取一組相關、實用的功能以用於建立分析模型的程式。 特徵選取有助於將資料欄位縮小為最有價值的輸入。 縮小資料的欄位有助於降低雜訊並改善定型效能。
通常,功能是透過功能工程的程式從原始資料建立。 例如,在將資訊轉換成與問題相關的日、月或類別(例如假日與工作日)相關的單位之前,時間戳記本身可能無法用於模型化。
機器學習服務的新使用者可能會想要包含所有可用的資料。 它們可能會預期演算法將會發現使用更多資料的相關問題。 不過,特徵選取通常可以改善您的模型,並防止常見的問題:
- 資料包含重複或不相關的功能,其提供的資訊與目前選取的功能不同。
- 資料包含不相關的功能,在任何內容中都不提供任何有用的資訊。 包含不相關的欄位不僅會增加定型資料所需的時間,也會導致不良的結果。
- 使用某些演算法時,在定型資料中有重複的資訊可能會導致稱為 multicollinearity的現象。 在 multicollinearity 中,有兩個高度相關的變數可能會導致其他變數的計算變得更不精確。
提示
機器學習 Studio (傳統) 中的某些機器學習演算法,也會在定型過程中使用特徵選取或維度縮減。 當您使用這些學習模組時,您可以略過特徵選取程序,讓運算法決定最佳的輸入。
在實驗中使用特徵選取
當您流覽資料並開發新模型時,通常會執行特徵選取。 當您使用特徵選取時,請記住下列秘訣:
- 測試時,請將功能選取專案新增至您的實驗,以產生分數,以通知您要使用哪些資料行。
- 當您讓模型時,從實驗中移除特徵選取。
- 定期執行特徵選取,以確保資料和最佳功能都未變更。
特徵選取與特徵設計不同,其重點在於從現有的資料建立新功能。
資源
- 如需有關您可以在資料科學程式中設計功能或選取最佳功能之不同方式的討論,請參閱 資料科學中的功能設計。
- 如需在資料科學程式中選取特徵的逐步解說,請參閱 從您的資料中篩選功能-特徵選取。
機器學習 Studio (傳統) 中的特徵選取方法
機器學習 Studio (傳統) 提供下列功能選擇模組。
以篩選為基礎的特徵選取
當您使用 [以 篩選器為基礎的特徵選取 ] 模組時,您可以從知名的特徵選取方法中選擇。 此模組會輸出特徵選取統計資料和已篩選的資料集。
篩選器選取方法的選擇有部分取決於您具有何種輸入資料。
方法 | 支援的特徵輸入 | 支援的標籤 |
---|---|---|
皮耳森相關 | 僅限數值和邏輯資料行 | 單一數值或邏輯資料行 |
相互資訊計分 | 所有資料類型 | 任何資料類型的單一資料行 |
肯德爾相關係數 | 僅限數值和邏輯資料行 | 單一數值或邏輯資料行 資料行應該具有可排名的值 |
史皮爾曼相關係數 | 僅限數值和邏輯資料行 | 單一數值或邏輯資料行 |
卡方統計量 | 所有資料類型 | 任何資料類型的單一資料行 |
費雪計分 | 僅限數值和邏輯資料行 | 單一數值或邏輯資料行 字串資料行的分數指派為0 |
以計數為基礎的特徵選取 | 所有資料類型 | 不需要標籤資料行 |
Fisher 線性判別分析
線性判別分析是一種受監督的學習技術,可讓您用來將數值變數與單一類別目標進行分類。 此方法可識別最適合分組的特徵或參數組合,對特徵選取很有用。
您可以使用 [ 費雪線性判別分析 ] 模組來產生一組要審核的分數,也可以使用模組所產生的取代資料集進行定型。
排列功能重要性
使用 排列功能重要性 模組來模擬資料集上任何功能集的效果。 此模組會根據功能值的隨機跳過來計算模型的效能分數。
當值變更時,模組傳回的分數代表定型模型的精確度可能變更。 您可以使用分數來判斷個別變數對模型的影響。
結合特徵選取的機器學習演算法
機器學習 Studio 中的某些機器學習演算法 (傳統) 在定型期間優化特徵選取。 它們也可能會提供可協助選取特徵的參數。 如果您使用的方法具有自己的啟發式選擇功能,通常最好依賴該啟發學習法,而不是 preselecting 功能。
這些演算法和特徵選取方法會在內部使用:
用於分類和回歸的促進式決策樹模型
在這些模組中,會在內部建立功能摘要。 任何樹狀結構分割都不會使用權數為0的功能。 當您將最佳的定型模型視覺化時,可以查看每個樹狀結構。 如果任何樹狀結構中從未使用過某項功能,則此功能可能是移除的候選項。 若要優化選取,使用參數清除也是個不錯的主意。
羅吉斯回歸模型和線性模型
多元和二元羅吉斯回歸的模組支援 L1 和 L2 正規化。 正規化是一種在定型期間新增條件約束的方法,以手動方式指定學習模型的層面。 正規化通常是用來避免過度學習。 機器學習 Studio (傳統) 支援線性分類演算法中權數向量的 L1 或 L2 規範正規化:
- 如果目標是讓模型盡可能稀疏,L1 正規化就很有用。
- L2 正則化可防止加權向量中的任何單一座標量級成長太多。 如果目標是要讓模型具有少量的整體權數,這會很有用。
- L1-正規化羅吉斯回歸會更積極地將權數0指派給功能。 它很適合用來識別可以移除的功能。
技術說明
所有支援數值和邏輯資料行的特徵選取模組和分析方法,也支援日期時間和時間範圍資料行。 這些資料行會視為簡單的數值資料行,其中每個值等於刻度的數目。
相關工作
下列模組不在 [ 特徵選取 ] 類別中,但您可以使用它們來進行相關工作。 這些模組可協助您減少資料的維度或尋找相互關聯:
如果您有包含許多資料行的資料集,請使用「 主體元件分析 」模組來偵測包含有關原始資料之最多資訊的資料行。
此模組是在 [ 資料轉換 ] 類別中的 [ 調整並減少] 下。
以計數為基礎的特徵化是一種新的技術,可讓您使用大型資料集來判斷有用的功能。 您可以使用這些模組來分析資料集,以找出最佳功能、儲存一組要用於新資料的功能,或更新現有的功能集。
使用此模組可針對輸入資料集中的每一組可能的變數計算一組皮耳森相互關聯係數。 皮耳森相互關聯係數也稱為皮耳森的 R test,它是測量兩個變數之間的線性關聯性的統計值。
此模組位於 統計函數 類別中。
模組清單
[ 特徵選取 ] 類別包含下列模組:
- 以篩選為基礎的特徵選取:識別資料集內具有最大預測能力的功能。
- 費雪線性判別分析:識別功能變數的線性組合,這些變數可以將資料最妥善地分組至不同的類別。
- 排列功能重要性:針對定型的模型和測試資料集計算功能變數的排列功能重要性分數。