剪輯值

本文描述 Azure Machine Learning 設計工具的元件。

使用裁剪值元件,來識別高於或低於指定閾值的資料值,然後選擇性地將其取代為平均值、常數或其他替代值。

您可以將元件連線到您要裁剪其數字的資料集、選擇要使用的資料行,然後設定閾值或值範圍,以及取代方法。 元件只可以只輸出結果,或輸出附加至原始資料集的變更值。

如何設定裁剪值

開始之前,請先識別您想要裁剪的資料行,以及要使用的方法。 建議您首先對小型資料子集測試任何裁剪方法。

元件會將相同的準則和取代方法套用至您在選取時包含的所有資料行。 因此,請務必排除您不想要變更的資料行。

如果您需要將裁剪方法或不同準則套用至某些資料行,則必須針對每一組類似的資料行使用新的裁剪值執行個體。

  1. 裁剪值元件新增至您的管線,並將其連線至您想要修改的資料集。 您可以在 [資料轉換] 下方的 [擴充和縮減] 類別中找到此元件。

  2. 在 [資料行清單] 中,使用資料行選取器來選擇將套用 [裁剪值] 的資料行。

  3. 針對 [閾值集],從下拉式清單中選擇下列其中一個選項。 這些選項會決定您如何設定可接受值的上限和下限,以及必須裁剪的值。

    • ClipPeaks:當您依尖峰來裁剪值時,只會指定上限。 值若大於該界限值,會將其取代。

    • ClipSubpeaks:當您次依尖峰來裁剪值時,只會指定下限。 值若小於該界限值,會將其取代。

    • ClipPeaksAndSubpeaks:當您依尖峰和次尖峰來裁剪值時,可以同時指定上限和下限。 值若超出該範圍,會將其取代。 值若符合界限值,不會變更。

  4. 根據您在上一個步驟中所做的選取,您可以設定下列閾值:

    • 閾值下限:只在您選擇 ClipSubPeaks 時才會顯示
    • 閾值上限:只在您選擇 ClipPeaks 時才會顯示
    • 閾值:只在您選擇 ClipPeaksAndSubPeaks 時才會顯示

    針對每個閾值類型,選擇 [常數] 或 [百分位數]。

  5. 如果您選取 [常數],請在文字方塊中輸入最大值或最小值。 例如,假設您知道值 999 是用作預留位置值。 您可以針對閾值上限選擇 [常數],然後在 [閾值上限的常數值] 中輸入 999。

  6. 如果您選擇 [百分位數],則會將資料行的值限制為百分位數範圍。

    例如,假設您只想保留 10-80 百分位數範圍中的值,並取代所有其他值。 您將選擇 [百分位數],然後針對 [閾值下限的百分位數值] 輸入 10,然後針對 [閾值上限的百分位數值] 輸入 80。

    如需如何使用百分位數範圍的一些範例,請參閱百分位數一節。

  7. 定義替代值。

    完全符合所指定界限的數字會被視為在允許的值範圍內,因此不會將其取代。 落在指定範圍外的所有數字都會以替代值取代。

    • 替代尖峰的值:定義值來取代大於指定閾值的所有資料行值。
    • 替代次尖峰的值:定義值來用作替代值,以替代小於指定閾值的所有資料行值。
    • 如果您使用 ClipPeaksAndSubpeaks 選項,則可以針對裁剪值上限和下限指定不同的取代值。

    支援下列取代值:

    • 閾值:將裁剪的值取代為指定的閾值。

    • 平均值:將裁剪的值取代為資料行值的平均值。 平均值是在裁剪值之前進行計算。

    • 中間值:將裁剪的值取代為資料行值的中間值。 中間值是在裁剪值之前進行計算。

    • 遺漏. 將裁剪的值取代為遺漏 (空白) 值。

  8. 新增指標資料行:如果您想要產生新的資料行,告訴您指定的裁剪作業是否套用到該資料列中的資料,請選取此選項。 當您測試一組新的裁剪和替代值時,這個選項很有用。

  9. 覆寫旗標:指出您要如何產生新值。 根據預設,裁剪值會建立新的資料行,其中尖峰值會裁剪為所需的閾值。 新值會覆寫原始資料行。

    若要保留原始資料行並新增具有裁剪值的新資料行,請取消選取此選項。

  10. 提交管線。

    以滑鼠右鍵按一下[裁剪值] 元件,並選取 [視覺化] 或選取元件,然後切換至右窗格中的 [輸出] 索引標籤、按一下 [連接埠輸出] 中的長條圖圖示,來檢閱值並確定裁剪作業符合您的期望。

使用百分位數進行裁剪的範例

為了瞭解如何依百分位數來裁剪,假設資料集有 10 個資料列,每一個值 1-10 各有一個執行個體。

  • 如果您使用百分位數做為臨界值上限,並決定值為第 90 個百分位數,則資料集的所有值中,90% 必須小於該值。

  • 如果您使用百分位數做為臨界值下限,並決定值為第 10 個百分位數,則資料集的所有值中,10% 必須小於該值。

  1. 在 [臨界值設定] 中,選擇 [ClipPeaksAndSubPeaks]

  2. 針對 [閾值上限],選擇 [百分位數],而針對 [百分位數],則輸入 90。

  3. 針對 [替代值上限],選擇 [遺漏值]。

  4. 在 [臨界值下限] 中選擇 [百分位數],在 [百分位數] 中輸入 10。

  5. 針對 [替代值下限],選擇 [遺漏值]。

  6. 取消選取 [覆寫旗標] 選項,並選取 [新增指標資料行] 選項。

現在,使用 60 作為百分位數閾值上限和 30 作為百分位數閾值下限,嘗試相同的管線,並使用閾值作為取代值。 下表比較這兩個結果:

  1. 取代為遺漏;閾值上限 = 90;閾值下限 = 20

  2. 取代為閾值;百分位數上限 = 60;百分位數下限 = 40

原始資料 取代遺漏 取代臨界值
1

2

3

4

5

6

7

8

9

10
TRUE

true

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

true
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

後續步驟

請參閱 Azure Machine Learning 可用的元件集