轉換為指標值
本文說明 Azure 機器學習 設計工具的元件。
使用 Azure 機器學習 設計工具中的 [轉換成指標值] 元件,將包含類別值的數據行轉換成一系列二進位指標數據行。
[ 轉換成指標值 ] 作業可讓您將類別數據轉換成以二進位或多個值表示的指標值。 此程式是分類模型常用的其中一個數據前置處理步驟。
此元件也會輸出轉換的定義,用來轉換成指標值。 您可以使用套用 轉換元件,在具有相同架構的其他數據集上重複使用此轉換 。
如何設定轉換為指標值
尋找 [ 轉換成指標值 ],並將其拖曳至管線草稿。 您可以在 [資料轉換] 類別下找到此元件。
注意
您可以在 [轉換成索引器值] 元件之前使用 [編輯元數據] 元件,將目標數據行標示為類別。
將 [ 轉換為指標值 ] 元件連接到包含您要轉換之數據行的數據集。
選取 [編輯資料行 ] 以選擇一或多個類別數據行。
如果您想要只輸出新的布林資料列,請選取 [覆寫類別數據行] 選項。 根據預設,這個選項為關閉狀態。
提示
如果您選擇覆寫的選項,則不會實際刪除或修改源數據行。 相反地,新數據行會在輸出數據集中產生並呈現,而且源數據行仍可在工作區中使用。 如果您需要查看原始數據,您可以隨時使用 [加入 數據行] 元件,將源數據行新增回去。
提交管線。
結果
假設您有分數的數據行,指出伺服器是否有高、中或低失敗機率。
伺服器識別碼 | 失敗分數 |
---|---|
10301 | 低 |
10302 | 中 |
10303 | 高 |
當您將 Convert 套用至指標值時,設計工具會將單一標籤資料行轉換成包含布林值的多個資料列:
伺服器識別碼 | 失敗分數 - 低 | 失敗分數 - 中 | 失敗分數 - 高 |
---|---|---|---|
10301 | 1 | 0 | 0 |
10302 | 0 | 1 | 0 |
10303 | 0 | 0 | 1 |
轉換的運作方式如下:
在描述風險的 [ 失敗分數 ] 數據行中,只有三個可能的值(高、中和低),而且沒有遺漏的值。 因此,只建立三個新的數據行。
新的指標數據列會根據源數據行的數據列標題和值來命名,使用下列模式: <源數據行>- <資料值>。
只有一個指標數據行中有1個,而所有其他指標數據行中應該有0個,因為每部伺服器只能有一個風險評等。
您現在可以使用這三個指標數據行作為機器學習模型中的功能。
元件會傳回兩個輸出:
- 結果數據集:具有已轉換指標值數據行的數據集。 未選取清除的數據行也會「通過」。
- 指標值轉換:用於轉換成指標值的數據轉換,可儲存在工作區中,稍後再套用至新數據。
將儲存的指標值作業套用至新數據
如果您需要經常重複指標值作業,您可以將資料操作步驟儲存為 轉換 ,以使用相同的數據集重複使用。 如果您必須經常重新匯入,然後清除具有相同架構的數據,這會很有用。
將 [ 套用轉換 ] 元件新增至管線。
新增您想要清除的數據集,並將數據集聯機到右側輸入埠。
展開設計工具左側窗格中的 [資料轉換] 群組。 找出已儲存的轉換,並將其拖曳至管線。
將儲存的轉換連接到套用轉換的左側輸入埠。
當您套用已儲存的轉換時,無法選取要轉換的數據行。 這是因為轉換已定義並自動套用至原始作業中指定的數據類型。
提交管線。
技術注意事項
本節包含常見問題的實作詳細數據、秘訣和解答。
使用提示
只有標示為類別的數據行可以轉換成指標數據行。 如果您看到下列錯誤,可能是您選取的其中一個資料行不是類別:
錯誤 0056:名稱 <資料行名稱> 的數據行不在允許的類別中。
根據預設,大部分的字串數據行會當做字串功能來處理,因此您必須使用 [編輯元數據] 明確地將它們標示為類別。
您可以轉換成指標資料行的數據行數目沒有限制。 不過,因為每個值的數據行都可以產生多個指標數據行,因此您可能想要一次只轉換並檢閱幾個數據行。
如果數據行包含遺漏值,則會針對遺漏的類別建立個別的指標數據行,且名稱如下: <源數據行> - 遺漏
如果您轉換成指標值的數據行包含數位,它們必須標示為類別,就像任何其他特徵數據行一樣。 完成此動作之後,數位會被視為離散值。 例如,如果您的數值數據行具有從 25 到 30 的 MPG 值,則會為每個離散值建立新的指標數據行:
Make 高速公路 mpg -25 公路 mpg -26 高速公路 mpg -27 高速公路 mpg -28 高速公路 mpg -29 高速公路 mpg -30 Contoso Cars 0 0 0 0 0 1 若要避免將太多維度新增至數據集。 建議您先檢查數據行中的值數目,並適當地量化數據。