轉換為資料集

本文描述如何使用 Azure Machine Learning 設計工具中的「轉換為資料集」元件,將管線的任何資料轉換為設計工具的內部格式。

在大部分情況下,都不需要轉換。 在資料上執行任何作業時,Azure Machine Learning 會隱含地將資料轉換成其原生資料集格式。

如果您在一組資料上執行某種正規化或清除,而且想要確保所做的變更可用於其他管線,我們建議將資料儲存為資料集格式。

注意

「轉換為資料集」只會變更資料格式。 它不會將新的資料複本儲存在工作區。 若要儲存資料集,請按兩下輸出連接埠,選取 [另存為資料集],並輸入新名稱。

如何使用「轉換為資料集」

建議在使用「轉換為資料集」之前,使用 「編輯中繼資料」元件來準備資料集。 您可以新增或變更資料行名稱、調整資料類型,以及視需要進行其他變更。

  1. 將「轉換為資料集」元件新增至您的管線。 您可以在設計工具中的資料轉換類別中找到此元件。

  2. 連線到輸出資料集的任何元件。

    只要資料是 tabular,即可將其轉換成資料集。 這包括透過 [匯入資料] 載入的資料、透過 [手動輸入資料] 建立的資料,或透過 [套用轉換] 轉換的資料集。

  3. 在 [動作] 下拉式清單中,指出您是否想要在儲存資料集之前,對資料進行任何清除:

    • None:依原樣使用資料。

    • SetMissingValue:將指定值設為資料集中的遺漏值。 預設預留位置是問號字元 (?),但您可以使用 [自訂遺漏值] 選項來輸入不同的值。 例如,如果您針對 [自訂遺漏值] 輸入 Taxi,則資料集中的所有 Taxi 執行個體將會變更為遺漏值。

    • ReplaceValues:使用此選項以指定要以任何其他精確值取代的單一精確值。 您可以藉由設定 Replace 方法來取代遺漏值或自訂值:

      • Missing:選擇此選項以取代輸入資料集中的遺漏值。 針對 [新值],輸入要用來取代遺漏值的值。
      • Custom:選擇此選項以取代輸入資料集中的自訂值。 針對 [自訂值],輸入您想要尋找的值。 例如,如果您的資料包含用來做為遺漏值之預留位置的字串 obs,請輸入 obs。 針對 [新值],請輸入要用來取代原始字串的新值。

    請注意,ReplaceValues 作業僅適用於完全相符的值。 例如,下列字串不會受到影響:obs.obsolete

  4. 提交管線。

結果

  • 若要使用新名稱儲存產生的資料集,請在元件右側面板中的 [輸出] 索引標籤下,選取登錄資料集圖示。

技術說明

  • 任何採用資料集做為輸入的元件也可以取得 CSV 檔案或 TSV 檔案中的資料。 在執行任何元件程式碼之前,會先前置處理輸入。 前置處理相當於在輸入中執行「轉換為資料集」元件。

  • 您無法從 SVMLight 格式轉換為資料集。

  • 指定自訂取代作業時,會將搜尋和取代作業套用至完整值。 不允許有部分相符。 例如,您可以使用 -1 或 33 來取代 3,但您無法取代兩位數中的 3,例如 35。

  • 在自訂取代作業中,如果您使用的任何取代字元不符合資料行的目前資料類型,則取代會失敗而無任何訊息。

後續步驟

請參閱 Azure Machine Learning 可用的元件集