共用方式為


選取數據集元件中的數據行

本文說明 Azure 機器學習 設計工具中的元件。

使用此元件來選擇要用於下游作業的數據行子集。 元件不會從來源數據集實際移除數據行;相反地,它會建立數據行的子集,就像資料庫 檢視投影一樣。

當您需要限制下游作業可用的數據行,或想要移除不需要的數據行來減少數據集大小時,此元件很有用。

即使以不同的順序指定數據,數據集中的數據行會以與原始數據相同的順序輸出。

使用方式

此元件沒有參數。 您可以使用資料行選取器來選擇要包含或排除的數據行。

依名稱選擇數據行

元件中有多個選項可供依名稱選擇資料列:

  • 篩選和搜尋

    按兩下 [ BY NAME] 選項。

    如果您已連接已填入的數據集,應該會出現可用的數據行清單。 如果沒有出現任何數據行,您可能需要執行上游元件來檢視數據行清單。

    若要篩選清單,請在搜尋方塊中輸入 。 例如,如果您在搜尋方塊中輸入字母 w ,則會篩選清單以顯示包含字母 w的數據行名稱。

    選取數據行,然後按下向右箭號按鈕,將選取的數據行移至右側窗格中的清單。

    • 若要選取連續的數據行名稱範圍,請按 Shift + 按一下
    • 若要將個別數據行新增至選取範圍,請按 Ctrl + 按一下

    按下複選標記按鈕以儲存並關閉。

  • 與其他規則搭配使用名稱

    按兩下 [ WITH RULES] 選項。

    選擇規則,例如顯示特定數據類型的數據行。

    然後,依名稱按兩下該類型的個別資料列,以將它們新增至選取清單。

  • 輸入或貼上以逗號分隔的數據行名稱清單

    如果您的數據集很寬,可能比較容易使用索引或產生的名稱清單,而不是個別選取數據行。 假設您已事先備妥清單:

    1. 按兩下 [ WITH RULES] 選項。
    2. 選取 [無數據行],選取 [包含],然後按兩下具有紅色驚嘆號的文字框內。
    3. 貼上或輸入先前已驗證數據行名稱的逗號分隔清單。 如果有任何數據行名稱無效,則無法儲存元件,因此請務必事先檢查名稱。

    您也可以使用此方法,使用其索引值來指定資料行清單。

依類型選擇

如果您使用 WITH RULES 選項,您可以在資料行選取範圍上套用多個條件。 例如,您可能只需要取得數值數據類型的功能數據行。

BEGIN WITH 選項會決定您的起點,對於了解結果很重要。

  • 如果您選取[ 所有資料行] 選項,所有資料行都會新增至清單。 然後,您必須使用 [ 排除] 選項來 移除 符合特定條件的數據行。

    例如,您可能從所有數據行開始,然後依名稱或依類型移除數據行。

  • 如果您選取 [ NO COLUMNS] 選項,則數據行清單會以空白開始。 然後,您可以指定條件以 將資料行新增 至清單。

    如果您套用多個規則,則每個條件都會加 。 例如,假設您從沒有數據行開始,然後新增規則以取得所有數值數據行。 在汽車價格數據集中,這會產生16個數據行。 然後,按下 + 符號以新增條件,然後選取 [ 包含所有功能]。 產生的數據集包含所有數值數據行,以及所有特徵數據行,包括一些字串特徵數據行。

依數據行索引選擇

數據行索引是指原始數據集內數據行的順序。

  • 數據行的編號順序從 1 開始。
  • 若要取得數據行的範圍,請使用連字元。
  • 不允許或 -31-開放式規格。
  • 不允許重複的索引值(或數據行名稱),而且可能會導致錯誤。

例如,假設您的數據集至少有八個數據行,您可以貼上下列任何範例來傳回多個非連續數據行:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

最後一個範例不會產生錯誤;不過,它會傳回數據行 4的單一實例。

變更數據行的順序

[允許重複和保留選取範圍中的數據行順序] 選項會以空白清單開頭,並新增您依名稱或索引指定的數據行。 與其他一律以「自然順序」傳回數據行的選項不同,此選項會以您命名或列出它們的順序輸出數據行。

例如,在具有 Col1、Col2、Col3 和 Col4 資料行的數據集中,您可以藉由指定下列其中一個清單來反轉數據行的順序,並省略數據行 2:

  • Col4, Col3, Col1
  • 4,3,1

下一步

請參閱 Azure 機器學習 可用的元件集。