共用方式為


編輯元數據元件

本文說明 Azure 機器學習 設計工具中包含的元件。

使用 [編輯元數據] 元件來變更與數據集中的數據行相關聯的元數據。 使用編輯元數據元件之後,數據集的值和數據類型將會變更。

一般元數據變更可能包括:

  • 將布爾值或數值數據行視為類別值。

  • 指出哪個數據行包含 類別 標籤,或包含您想要分類或預測的值。

  • 將數據行標示為特徵。

  • 將日期/時間值變更為數值,反之亦然。

  • 重新命名數據行。

您可以隨時使用編輯元數據來修改數據行的定義,通常符合下游元件的需求。 例如,某些元件僅適用於特定資料類型,或需要資料行上的旗標,例如 IsFeatureIsCategorical

執行必要作業之後,您可以將元數據重設為其原始狀態。

設定編輯元數據

  1. 在 Azure 機器學習 設計工具中,將 [編輯元數據] 元件新增至管線,並連接您要更新的數據集。 您可以在 [資料轉換] 類別中找到元件。

  2. 按兩下元件右面板中的 [ 編輯資料行 ],然後選擇要使用的數據行或資料行集。 您可以依名稱或索引個別選擇資料行,也可以依類型選擇一組數據行。

  3. 如果您需要將不同的數據類型指派給選取的數據行,請選取 [數據類型] 選項。 您可能需要變更特定作業的數據類型。 例如,如果您的來源數據集已將數字當做文字處理,您必須先將其變更為數值數據類型,才能使用數學運算。

    • 支持的數據類型為 String、IntegerDoubleBooleanDateTime

    • 如果您選取多個數據行,則必須將元數據變更套用至 所有 選取的數據行。 例如,假設您選擇兩或三個數值數據行。 您可以將它們全部變更為字串資料類型,並在一個作業中重新命名。 不過,您無法將一個數據行變更為字串數據類型,而將另一個數據行從 float 變更為整數。

    • 如果您未指定新的資料類型,則數據行元數據不會變更。

    • 執行編輯元數據作業之後,數據行類型和值將會變更。 您可以使用編輯元數據來重設數據行數據類型,隨時復原原始數據類型。

    注意

    DateTime 格式遵循 Python 內建的 datetime 格式
    如果您將任何類型的數字變更為 DateTime 類型,請將 DateTime 格式欄位保留空白。 目前無法指定目標數據格式。

  4. 選取 [ 類別 ] 選項,以指定所選取資料行中的值應視為類別。

    例如,您可能有包含數位 0、1 和 2 的數據行,但知道數字實際上表示「吸煙者」、「非吸煙者」和「未知」。在此情況下,藉由將數據行標示為類別,您可以確定值只用來將數據分組,而不是數值計算。

  5. 如果您想要變更 Azure 機器學習 在模型中使用資料的方式,請使用 [字段] 選項。

    • 功能:使用此選項,將數據行標示為只在功能數據行上運作之元件中的功能。 根據預設,所有數據行一開始都會被視為特徵。

    • 標籤標:使用此選項可標記標籤標,也稱為可預測屬性或目標變數。 許多元件要求數據集中只有一個標籤資料行存在。

      在許多情況下,Azure 機器學習 可以推斷數據行包含類別標籤。 藉由設定此元數據,您可以確定資料行已正確識別。 設定此選項並不會變更數據值。 它只會變更某些機器學習演算法處理數據的方式。

    提示

    您是否有不符合這些類別的數據? 例如,您的數據集可能包含值,例如不作為變數使用的唯一標識碼。 有時候這類標識碼會在模型中使用時造成問題。

    幸運的是,Azure 機器學習 會保留所有數據,因此您不需要從數據集中刪除這類數據行。 當您需要對一組特殊數據行執行作業時,只要使用 [選取數據集 中的數據行] 元件暫時移除所有其他數據行即可。 稍後您可以使用 [新增資料行] 元件,將數據行合併回數據集

  6. 使用下列選項來清除先前的選取專案,並將元數據還原至預設值。

    • 清除功能:使用此選項移除功能旗標。

      所有數據行一開始都會被視為特徵。 針對執行數學運算的元件,您可能需要使用這個選項,以防止數值數據行被視為變數。

    • 清除標籤:使用此選項可從指定的數據行移除 標籤 數據。

    • 清除分數:使用此選項可從指定的數據行移除 分數 元數據。

      您目前無法在 Azure 機器學習 中明確將數據行標示為分數。 不過,某些作業會導致數據行在內部標示為分數。 此外,自定義 R 元件可能會輸出分數值。

  7. 針對 [ 新增數據行名稱],輸入所選數據行或數據行的新名稱。

    • 數據行名稱只能使用UTF-8編碼所支援的字元。 不允許包含完全空格的空字串、Null 或名稱。

    • 若要重新命名多個數據行,請依數據行索引的順序輸入名稱做為逗號分隔清單。

    • 所有選取的數據行都必須重新命名。 您無法省略或略過數據行。

  8. 提交管線。

下一步

請參閱 Azure 機器學習 可用的元件集。