Share via


將資料匯入 Azure Machine Learning 設計工具中

在本文中,您將了解如何在設計工具中匯入自己的資料,以建立自訂解決方案。 有兩種方式可將資料匯入設計工具中:

  • Azure Machine Learning 資料集 - 在 Azure Machine Learning 中註冊資料集,以啟用可協助管理資料的進階功能。
  • 匯入資料元件 - 使用匯入資料元件來直接從線上資料來源存取資料。

重要

如果您看不到這份文件中提及的圖形元素,例如工作室或設計工具中的按鈕,可能是您沒有工作區的正確權限層級。 請洽詢您的 Azure 訂用帳戶管理員,以確認您已獲得授與正確的存取層級。 如需詳細資訊,請參閱管理使用者和角色

使用 Azure Machine Learning 資料集

建議使用資料集將資料匯入設計工具中。 當註冊資料集時,可充分利用版本設定與追蹤資料監視等進階資料功能。

註冊資料集

您可使用 SDK 以程式設計方式註冊現有的資料集,或在 Azure Machine Learning Studio 中以視覺化方式註冊現有的資料集。

您也可以將任何設計工具元件的輸出註冊為資料集。

  1. 選取用來輸出所要註冊資料的元件。

  2. 在 [屬性] 窗格中,選取 [輸出 + 紀錄]>[註冊資料集]

    Screenshot showing how to navigate to the Register Dataset option

如果元件輸出資料採用表格格式,您必須選擇將輸出註冊為檔案資料集表格式資料集

  • 檔案資料集會將元件的輸出資料夾註冊為檔案資料集。 輸出資料夾包含設計工具在內部使用的資料檔案和中繼檔案。 如果您想要繼續在設計工具中使用已註冊的資料集,請選取此選項。

  • 表格式資料集只會將元件的輸出資料檔案註冊為表格式資料集。 這種格式可供其他工具使用,例如自動化機器學習或 Python SDK。 如果您打算在設計工具以外的地方使用已註冊的資料集,請選取此選項。

使用資料集

已註冊的資料集可在元件選擇區的 [資料集] 下找到。 若要使用資料集,請將其拖放到管線畫布上。 然後,將資料集的輸出連接埠連線到畫布中的其他元件。

如果您註冊的是檔案資料集,該資料集的輸出埠類型則為 AnyDirectory。 如果您註的是表格式資料集,該資料集的輸出埠類型則為 DataFrameDirectory。 請注意,如果您將資料集的輸出埠連接到設計工具中的其他元件,則必須對齊資料集和元件的連接埠類型。

Screenshot showing location of saved datasets in the designer palette

注意

設計工具支援資料集版本設定。 在資料集元件的屬性面板中,指定資料集的版本。

限制

  • 目前在設計工具中,您只能將表格式資料集視覺化。 如果您在設計工具外註冊檔案資料集,則無法在設計工具畫布中將它視覺化。
  • 目前,設計工具僅支援儲存在 Azure blob 儲存體中的預覽輸出。 您可以在元件右面板的 [參數] 索引標籤下的 [輸出設定] 檢查並變更輸出資料存放區。
  • 如果您的資料儲存在虛擬網路 (VNet) 而您想要預覽,您需要啟用資料存放區的工作區受控識別。
    1. 前往相關的資料存放區,並點擊 [更新驗證]Update Credentials
    2. 選取 [是] 以啟用工作區受控識別。 Enable Workspace Managed Identity

使用匯入資料元件匯入資料

雖然建議使用資料集匯入資料,但您也可以使用匯入資料元件。 匯入資料元件會略過在 Azure Machine Learning 中的資料集註冊作業,並直接從資料存放區或 HTTP URL 匯入資料。

如需如何使用匯入資料元件的詳細資訊,請參閱匯入資料參考頁面

注意

如果資料集有太多資料行,可能會下列錯誤:「因為大小限制而導致失敗」。 若要避免這種情況,請在資料集介面中註冊資料集

支援的來源

本節會列出設計工具支援的資料來源。 資料會從資料存放區或表格式資料集進入設計工具。

資料存放區來源

如需支援的資料存放區來源清單,請參閱存取 Azure 儲存體服務中的資料

表格式資料集來源

設計工具支援從下列來源建立的表格式資料集:

  • 符號分隔檔案
  • JSON 檔案
  • Parquet 檔案
  • SQL 查詢

資料類型

設計工具可在內部辨識下列資料類型:

  • String
  • 整數
  • Decimal
  • Boolean
  • Date

設計工具使用內部資料類型以在元件之間傳遞資料。 您可使用轉換為資料集元件,以明確地將資料轉換為「資料表」格式。 接受內部格式以外格式的任何元件會在將資料傳遞至下一個元件之前,以無訊息方式轉換資料。

資料條件約束

設計工具中模組受限於計算目標的大小。 針對較大資料集,您應該使用較大的 Azure Machine Learning 計算資源。 如需 Azure Machine Learning 計算的詳細資訊,請參閱 Azure Machine Learning 中的計算目標是什麼?

存取虛擬網路中的資料

如果您的工作區位於虛擬網路中,您必須執行其他設定步驟以在設計工具中將資料視覺化。 如需如何在虛擬網路中使用資料存放區和資料集的詳細資訊,請參閱在 Azure 虛擬網路中使用 Azure Machine Learning 工作室

下一步

利用教學課程:使用設計工具預測汽車價格瞭解設計工具的基本概念。