編輯元數據元件
本文說明 Azure 機器學習 設計工具中包含的元件。
使用 [編輯元數據] 元件來變更與數據集中的數據行相關聯的元數據。 使用編輯元數據元件之後,數據集的值和數據類型將會變更。
一般元數據變更可能包括:
將布爾值或數值數據行視為類別值。
指出哪個數據行包含 類別 標籤,或包含您想要分類或預測的值。
將數據行標示為特徵。
將日期/時間值變更為數值,反之亦然。
重新命名數據行。
您可以隨時使用編輯元數據來修改數據行的定義,通常符合下游元件的需求。 例如,某些元件僅適用於特定資料類型,或需要資料行上的旗標,例如 IsFeature
或 IsCategorical
。
執行必要作業之後,您可以將元數據重設為其原始狀態。
設定編輯元數據
在 Azure 機器學習 設計工具中,將 [編輯元數據] 元件新增至管線,並連接您要更新的數據集。 您可以在 [資料轉換] 類別中找到元件。
按兩下元件右面板中的 [ 編輯資料行 ],然後選擇要使用的數據行或資料行集。 您可以依名稱或索引個別選擇資料行,也可以依類型選擇一組數據行。
如果您需要將不同的數據類型指派給選取的數據行,請選取 [數據類型] 選項。 您可能需要變更特定作業的數據類型。 例如,如果您的來源數據集已將數字當做文字處理,您必須先將其變更為數值數據類型,才能使用數學運算。
支持的數據類型為 String、Integer、Double、Boolean 和 DateTime。
如果您選取多個數據行,則必須將元數據變更套用至 所有 選取的數據行。 例如,假設您選擇兩或三個數值數據行。 您可以將它們全部變更為字串資料類型,並在一個作業中重新命名。 不過,您無法將一個數據行變更為字串數據類型,而將另一個數據行從 float 變更為整數。
如果您未指定新的資料類型,則數據行元數據不會變更。
執行編輯元數據作業之後,數據行類型和值將會變更。 您可以使用編輯元數據來重設數據行數據類型,隨時復原原始數據類型。
注意
DateTime 格式遵循 Python 內建的 datetime 格式。
如果您將任何類型的數字變更為 DateTime 類型,請將 DateTime 格式欄位保留空白。 目前無法指定目標數據格式。選取 [ 類別 ] 選項,以指定所選取資料行中的值應視為類別。
例如,您可能有包含數位 0、1 和 2 的數據行,但知道數字實際上表示「吸煙者」、「非吸煙者」和「未知」。在此情況下,藉由將數據行標示為類別,您可以確定值只用來將數據分組,而不是數值計算。
如果您想要變更 Azure 機器學習 在模型中使用資料的方式,請使用 [字段] 選項。
功能:使用此選項,將數據行標示為只在功能數據行上運作之元件中的功能。 根據預設,所有數據行一開始都會被視為特徵。
標籤標:使用此選項可標記標籤標,也稱為可預測屬性或目標變數。 許多元件要求數據集中只有一個標籤資料行存在。
在許多情況下,Azure 機器學習 可以推斷數據行包含類別標籤。 藉由設定此元數據,您可以確定資料行已正確識別。 設定此選項並不會變更數據值。 它只會變更某些機器學習演算法處理數據的方式。
提示
您是否有不符合這些類別的數據? 例如,您的數據集可能包含值,例如不作為變數使用的唯一標識碼。 有時候這類標識碼會在模型中使用時造成問題。
幸運的是,Azure 機器學習 會保留所有數據,因此您不需要從數據集中刪除這類數據行。 當您需要對一組特殊數據行執行作業時,只要使用 [選取數據集 中的數據行] 元件暫時移除所有其他數據行即可。 稍後您可以使用 [新增資料行] 元件,將數據行合併回數據集。
使用下列選項來清除先前的選取專案,並將元數據還原至預設值。
清除功能:使用此選項移除功能旗標。
所有數據行一開始都會被視為特徵。 針對執行數學運算的元件,您可能需要使用這個選項,以防止數值數據行被視為變數。
清除標籤:使用此選項可從指定的數據行移除 標籤 數據。
清除分數:使用此選項可從指定的數據行移除 分數 元數據。
您目前無法在 Azure 機器學習 中明確將數據行標示為分數。 不過,某些作業會導致數據行在內部標示為分數。 此外,自定義 R 元件可能會輸出分數值。
針對 [ 新增數據行名稱],輸入所選數據行或數據行的新名稱。
數據行名稱只能使用UTF-8編碼所支援的字元。 不允許包含完全空格的空字串、Null 或名稱。
若要重新命名多個數據行,請依數據行索引的順序輸入名稱做為逗號分隔清單。
所有選取的數據行都必須重新命名。 您無法省略或略過數據行。
提交管線。