裁剪值
本文說明 Azure 機器學習 設計工具的元件。
使用 Clip Values 元件,以平均值、常數或其他替代值,識別並選擇性地取代高於或低於指定臨界值的數據值。
您可以將元件連接到具有您要裁剪之數字的數據集、選擇要使用的數據行,然後設定臨界值或值範圍,以及取代方法。 元件可以只輸出結果,或附加至原始數據集的已變更值。
如何設定剪輯值
開始之前,請先識別您想要裁剪的數據行,以及要使用的方法。 建議您先在小型數據子集上測試任何裁剪方法。
元件會將相同的準則和取代方法套用至 您在選取範圍中包含的所有數據 行。 因此,請務必排除您不想變更的數據行。
如果您需要將裁剪方法或不同的準則套用至某些數據行,則必須針對每組類似的數據行使用一個新的剪輯值實例。
將 剪輯值 元件新增至管線,並將它連接到您想要修改的數據集。 您可以在 [調整和縮減] 類別的 [資料轉換] 下找到此元件。
在 [資料行清單] 中,使用 [資料行選取器] 來選擇要 套用剪輯值 的數據行。
針對 [ 設定閾值],從下拉式清單中選擇下列其中一個選項。 這些選項會決定如何為可接受的值和必須裁剪的值設定上限和下限。
ClipPeaks:當您依尖峰裁剪值時,您只會指定上限。 大於該界限值的值會被取代。
ClipSubpeaks:當您依子標題裁剪值時,您只指定下限。 會取代小於該界限值的值。
ClipPeaksAndSubpeaks:當您依尖峰和子標題裁剪值時,可以同時指定上限和下限。 超出該範圍的值會被取代。 不符合界限值的值不會變更。
根據您在上一個步驟中的選取範圍,您可以設定下列臨界值:
- 較低的閾值:只有在您選擇 ClipSubPeaks 時才顯示
- 上限臨界值:只有在您選擇 ClipPeaks 時才顯示
- 閾值:只有在您選擇 ClipPeaksAndSubPeaks 時才顯示
針對每個臨界值類型,選擇 [常數] 或 [百分位數]。
如果您選取 [ 常數],請在文字框中輸入最大值或最小值。 例如,假設您知道 999 的值是當做佔位元值使用。 您可以針對上限閾值選擇 [常數 ],然後在 [常數值] 中 輸入 999 以達到上限閾值。
如果您選擇 [百分位數],請將數據行值限製為百分位數範圍。
例如,假設您想要只保留 10-80 百分位數範圍內的值,並取代所有其他值。 您可以選擇 Percentile,然後針對較低的閾值輸入百分位數值 10,併為上限閾值輸入百分位數值 80。
如需如何使用百分位數範圍的一些範例,請參閱百分位數一節。
定義替代值。
與您指定的界限完全相符的數位會被視為在允許的值範圍內,因此不會被取代。 落在指定範圍以外的所有數字都會取代為替代值。
- 替代尖峰值:定義值,以取代大於指定臨界值的所有數據行值。
- 替代子標題的值:定義要用來取代小於指定臨界值的所有數據行值。
- 如果您使用 ClipPeaksAndSubpeaks 選項,您可以針對上層和下層裁剪的值指定個別的取代值。
支援下列取代值:
臨界值:將裁剪的值取代為指定的臨界值。
Mean:以數據行值平均值取代裁剪的值。 平均值會在裁剪值之前計算。
中位數:以數據行值的中位數取代裁剪的值。 在裁剪值之前,會先計算中位數。
遺漏。 將裁剪的值取代為遺漏的 (空白) 值。
新增指標數據行:如果您想要產生新的數據行,指出指定的裁剪作業是否套用至該數據列中的數據,請選取此選項。 當您測試一組新的裁剪和替代值時,此選項很有用。
覆寫旗標:指出您想要如何產生新的值。 根據預設, Clip Values 會建構新的數據行,並將尖峰值裁剪至所需的臨界值。 新的值會覆寫原始數據行。
若要保留原始數據行,並新增含有裁剪值的新數據行,請取消選取此選項。
提交管線。
以滑鼠右鍵按兩下 [剪輯值] 元件,然後選取 [可視化] 或選取元件,然後切換至右側面板中的 [輸出] 索引卷標,按兩下 [連接埠輸出] 中的直方圖圖示,以檢閱值,並確定裁剪作業符合您的預期。
使用百分位數裁剪的範例
若要瞭解百分位數裁剪的運作方式,請考慮具有10個數據列的數據集,其中每個值各有一個實例1-10。
如果您使用百分位數作為上限臨界值,在第 90 個百分位數的值上,數據集中所有值的 90% 必須小於該值。
如果您使用百分位數作為較低的臨界值,在第 10 個百分位數的值上,數據集中所有值的 10% 必須小於該值。
針對 [ 設定臨界值],選擇 ClipPeaksAndSubPeaks。
針對 [ 上限閾值],選擇 [ 百分位數],然後針對 [百分位數] 輸入 90。
針對 [ 上層替代值],選擇 [ 遺漏值]。
針對 [ 較低的閾值],選擇 [ 百分位數],然後針對 [百分位數] 數位輸入 10。
針對 [較低的替代值],選擇 [ 遺漏值]。
取消選取 [覆寫旗標] 選項,然後選取 [新增指標數據行] 選項。
現在,嘗試使用 60 作為上限百分位數臨界值和 30 作為較低的百分位數臨界值相同的管線,並使用臨界值作為取代值。 下表比較這兩個結果:
將 取代為遺漏;上限臨界值 = 90;較低的閾值 = 20
以臨界值取代 ;百分位數上限 = 60;較低的百分位數 = 40
原始數據 | 將取代為遺漏 | 以臨界值取代 |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3、FALSE 4、FALSE 5、FALSE 6、FALSE 7、FALSE 8、FALSE 9、FALSE TRUE |
4、TRUE 4、TRUE 4、TRUE 4、TRUE 5、FALSE 6、FALSE 7,TRUE 7,TRUE 7,TRUE 7,TRUE |