編輯中繼資料元件

本文描述 Azure Machine Learning 設計工具中包含的元件。

您可以使用「編輯中繼資料」元件來變更與資料集內資料行相關聯的中繼資料。 在使用「編輯中繼資料」元件之後,資料集的值和資料類型將會變更。

常見的中繼資料變更可能包括:

  • 將布林值或數值資料行視為類別值。

  • 指出哪些資料行包含類別標籤或是要分類或預測的值。

  • 將資料行標示為特徵。

  • 將日期/時間值變更為數值,或是相反。

  • 重新命名資料行。

如果需要修改資料行的定義 (通常是為了符合下游元件的需求),您可以隨時使用「編輯中繼資料」。 例如,某些元件只適用於特定的資料類型,或需要資料行上的旗標,例如 IsFeatureIsCategorical

執行完必要的作業之後,您可以將中繼資料重設為原始狀態。

設定編輯中繼資料

  1. 在 Azure Machine Learning 設計工具中,將編輯中繼資料元件新增至您的管線,並連接您想要更新的資料集。 您可以在 [資料轉換] 類別中找到此元件。

  2. 按一下元件右側面版中的 [編輯資料行],並選擇要處理的資料行或一組資料行。 您可以依名稱或索引個別選擇資料行,也可以依類型選擇資料行群組。

  3. 若要為所選資料行指派不同的資料類型,請選取 [資料類型] 選項。 針對特定作業,您可能需要變更資料類型。 例如,如果您的來源資料集有數字視為文字處理,則您必須先將這些資料變更為數值資料類型,然後再使用數學運算。

    • 支援的資料類型包括字串整數雙精確度整數布林值DateTime

    • 若選取多個資料行,您必須將中繼資料變更套用至所有選取的資料行。 例如,假設您選取兩個或三個數值資料行。 您可以將這些資料行全部變更為字串資料類型,並在單一作業中重新命名。 不過,您無法將一個資料行變更為字串資料類型,並將另一個資料行從浮點數變更為整數。

    • 如果您未指定新的資料類型,則資料行的中繼資料不變。

    • 資料行類型和值會在您執行「編輯中繼資料」作業之後變更。 此外,您隨時都可以使用「編輯中繼資料」來重設資料行資料類型,以復原為原始資料類型。

    注意

    DateTime 格式遵循 Python 內建的日期時間格式
    若您變更 DateTime 類型任何類型的數字,請將 [DateTime 格式] 欄位保留空白。 目前無法指定目標資料格式。

  4. 請選取 [類別] 選項,以指定所選資料行中應視為類別的值。

    例如,您可能有一個包含數字 0、1 和 2 的資料行,但已知這些數字實際上表示「吸菸者」、「非吸菸者」和「未知」。在此情況下,藉由將資料行標記為類別,您就可以確保這些值只會用來分組資料,而不會列入數值計算中。

  5. 若想變更 Azure Machine Learning 在模型中使用資料的方式,請使用 [欄位] 選項。

    • 特徵:使用此選項,將資料行標記為僅在特徵資料行上運作元件中的特徵。 根據預設,所有資料行一開始會視為特徵來處理。

    • 標籤:使用此選項來標記標籤,也就是可預測的屬性或目標變數。 許多元件都需要資料集內僅有一個標籤資料行。

      在許多情況下,Azure Machine Learning 可以推斷出包含類別標籤的資料行。 藉由設定此中繼資料,您便可以確保正確識別資料行。 設定此選項並不會變更資料值, 只會變更部分機器學習演算法處理資料的方式。

    提示

    您有不屬於這些類別的資料嗎? 例如,您的資料集可能會包含一些值,例如無法做為變數的唯一識別碼。 在模型中使用這類識別碼時,可能會造成問題。

    幸運的是,Azure Machine Learning 會保留您的所有資料,因此您不需要從資料集中刪除這類資料行。 當您需要對某些特殊的一組資料行執行作業時,只要使用選取資料集中的資料行元件,即可暫時移除所有其他資料行。 完成後,您便可以使用新增資料行元件,將資料行合併回資料集。

  6. 使用下列選項可清除先前的選取項目,並將中繼資料還原為預設值。

    • 清除特徵:使用此選項以清除特徵旗標。

      所有資料行一開始都會視為特徵處理。 針對執行數學運算的元件,您可能需要使用此選項,以避免系統將數值資料行視為變數。

    • 清除標籤:使用此選項以移除特定資料行的標籤中繼資料。

    • 清除分數:使用此選項以移除特定資料行的分數中繼資料。

      目前您無法在 Azure Machine Learning 中明確將資料行標示為分數。 不過,某些作業會導致資料行在內部被標示為分數。 此外,自訂 R 元件可能會輸出分數值。

  7. 針對新的資料行名稱,請為所選資料行輸入新的名稱。

    • 資料行名稱只能使用 UTF-8 編碼所支援的字元。 不允許空字串、Null 或完全由空格組成的名稱。

    • 若要重新命名多個資料行,您可以依資料行索引順序,以逗號分隔清單來輸入名稱。

    • 所有選取的資料行都必須重新命名。 您無法省略或略過資料行。

  8. 提交管線。

後續步驟

請參閱 Azure Machine Learning 可用的元件集