選取資料集中的資料行元件

本文描述 Azure Machine Learning 設計工具中的一個元件。

使用此元件來選擇要在下游作業中使用的資料行子集。 該元件不會實際移除來源資料集的資料行;而是會建立資料行的子集,就像是資料庫的檢視投影

當您需要限制下游作業可用的資料行,或如果您想要藉由移除不必要的資料行來縮減資料集的大小時,此元件會很有用。

資料集中的資料行會以與原始資料中相同的順序輸出,即使您以不同順序指定也是一樣。

如何使用

此元件沒有任何參數。 您可以使用資料行選取器來選擇要包含或排除的資料行。

依名稱選擇資料行

元件中有多個選項可用於依名稱選擇資料行:

  • 篩選和搜尋

    按一下 [依名稱] 選項。

    如果您已連接已填入的資料集,則應該會出現可用的資料行清單。 如果沒有出現任何資料行,您可能需要執行上游元件以檢視資料行清單。

    若要篩選清單,請在搜尋方塊中輸入。 例如,如果您在搜尋方塊中輸入字母 w,該清單會經過篩選,以顯示包含字母 w 的資料行名稱。

    選取資料行,然後按一下向右箭號按鈕,將選取的資料行移至右窗格中的清單。

    • 若要選取連續的資料行名稱範圍,請按 Shift+按一下
    • 若要將個別資料行新增至選取範圍,請按 Ctrl+按一下

    按一下核取記號按鈕以儲存並關閉。

  • 使用名稱結合其他規則

    按一下 [使用規則] 選項。

    選擇規則,例如顯示特定資料類型的資料行。

    然後,按一下該類型個別資料行的名稱,將它們新增至選取範圍清單。

  • 輸入或貼上以逗號分隔的資料行名稱清單

    如果您的資料集很廣泛,使用索引或產生的名稱清單,而不是個別選取資料行,可能會比較容易。 假設您已預先準備好清單:

    1. 按一下 [使用規則] 選項。
    2. 選取 [無資料行],選取 [包含],然後在有紅色驚嘆號的文字方塊內按一下。
    3. 貼上或輸入先前已驗證的資料行名稱的逗號分隔清單。 如果有任何資料行的名稱無效,您就無法儲存元件,因此請務必事先檢查名稱。

    您也可以使用此方法來指定使用其索引值的資料行清單。

依類型選擇

如果您使用 [使用規則] 選項,就可以對資料行選取範圍套用多個條件。 例如,您可能只需要取得數值資料類型的特徵資料行。

[開始於] 選項會決定您的起點,而且對於了解結果來說很重要。

  • 如果您選取 [所有資料行] 選項,則會將所有資料行新增至清單中。 然後,您必須使用 [排除] 選項來移除符合特定條件的資料行。

    例如,您可能會從所有資料行開始,然後依名稱或依類型來移除資料行。

  • 如果您選取 [無資料行] 選項,資料行的清單就會從空白開始。 然後,您可以指定要將資料行新增至清單的條件。

    如果您套用多個規則,則每個條件都是加法。 例如,假設您一開始沒有任何資料行,那麼請新增規則來取得所有數值資料行。 在汽車價格資料集中,其產生 16 個資料行。 那麼,您可以按一下 + 符號以新增條件,並選取 [包含所有特徵]。 產生的資料集會包含所有數值資料行,再加上所有特徵資料行,包括一些字串特徵資料行。

依資料行索引選擇

資料行索引指的是原始資料集內的資料行順序。

  • 資料行會循序從 1 開始編號。
  • 若要取得資料行的範圍,請使用連字號。
  • 不允許開放端的指定 (例如 1--3)。
  • 不允許重複的索引值 (或資料行名稱),而且可能會導致錯誤。

例如,假設您的資料集至少有八個資料行,您可以貼上下列任何範例,以傳回多個非連續的資料行:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

最後一個範例不會產生錯誤;但是,它會傳回資料行 4 的單一執行個體。

變更資料行的順序

[允許重複項目並保留選取範圍中的資料行順序] 選項會以空白清單開始,並新增您依名稱或索引指定的資料行。 不同於其他選項 (其一律會以資料行的「自然順序」傳回),此選項會以您指定或列出資料行的順序來輸出資料行。

例如,在具有 Col1、Col2、Col3 和 Col4 資料行的資料集中,您可以藉由指定下列其中一個清單來反轉資料行的順序,並去除資料行 2:

  • Col4, Col3, Col1
  • 4,3,1

後續步驟

請參閱 Azure Machine Learning 可用的元件集