Share via


將工作室 (傳統) 資料集遷移至 Azure Machine Learning

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源 (工作區與 Web 服務方案)。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 實驗與 Web 服務。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

在本文中,您將了解如何將工作室 (傳統) 資料集遷移至 Azure Machine Learning。 如需從工作室 (傳統) 移轉的詳細資訊,請參閱移轉概觀文章

有三個選項可供您將資料集遷移至 Azure Machine Learning。 請閱讀每一節,以判斷哪一個選項最適合您的案例。

資料在哪裡? 移轉選項
在工作室 (傳統) 中 選項 1:從工作室 (傳統) 下載資料集,並將其上傳至 Azure Machine Learning
雲端儲存空間 選項 2:從雲端來源註冊資料集

選項 3:使用「匯入資料」模組從雲端來源取得資料

注意

Azure Machine Learning 也支援使用程式碼優先工作流程來建立和管理資料集。

必要條件

從工作室 (傳統) 下載資料集

若要將工作室 (傳統) 資料集遷移至 Azure Machine Learning,最簡單的方式是下載資料集,再於 Azure Machine Learning 中進行註冊。 這會為資料集建立新的複本,並將其上傳至 Azure Machine Learning 資料存放區。

您可以直接下載下列工作室 (傳統) 資料集類型。

  • 純文字 (.txt)
  • 逗號分隔值 (CSV),具有標頭 (.csv) 或不具標頭 (.nh.csv)
  • 定位鍵分隔值 (TSV),具有標頭 (.tsv) 或不具標頭 (.nh.tsv)
  • Excel 檔案
  • Zip 檔案 (.zip)

若要直接下載資料集:

  1. 移至您的工作室 (傳統) 工作區 (https://studio.azureml.net)。

  2. 在左側導覽列,選取 [資料集] 索引標籤。

  3. 選取您要下載的資料集。

  4. 在底部的動作列中,選取 [下載]

    AScreenshot showing how to download a dataset in Studio (classic).

針對下列資料類型,您必須使用 [轉換為 CSV] 模組來下載資料集。

  • SVMLight 資料 (.svmlight)
  • 屬性關聯檔案格式 (ARFF) 資料 (.arff)
  • R 物件或工作區檔案 (.RData)
  • 資料集類型 (.data)。 資料集類型是工作室 (傳統) 內部的模組輸出資料類型。

若要將資料集轉換為 CSV 並下載結果:

  1. 移至您的工作室 (傳統) 工作區 (https://studio.azureml.net)。

  2. 建立新實驗。

  3. 將您想要下載的資料集拖放到畫布上。

  4. 新增 [轉換為 CSV] 模組。

  5. 將 [轉換為 CSV] 輸入埠連線到資料集的輸出埠。

  6. 執行實驗。

  7. 以滑鼠右鍵按一下 [轉換為 CSV] 模組。

  8. 選取 [結果資料集]>[下載]

    Screenshot showing how to setup a convert to CSV pipeline.

將資料集上傳至 Azure Machine Learning

下載資料檔案後,您可以將其註冊為 Azure Machine Learning 中的資料資產:

  1. 瀏覽至 Azure Machine Learning 工作室

  2. 在左側導覽的 [資產] 下,選取 [資料]。 在 [資料資產] 索引標籤上,選取 [建立]Screenshot highlights Create in the Data assets tab.

  3. 命名資料資產並選擇性提供描述。 接著,在下拉式清單的 [資料集類型] 區段中,選取 [類型] 下的 [表格式] 選項。

    注意

    您也可以上傳 ZIP 檔案作為資料資產。 若要上傳 ZIP 檔案,請在下拉式清單的 [資料集類型] 區段中,為 [類型] 選取 [檔案]。 Screenshot shows data asset source choices.

  4. 如果是資料來源,請選取 [從本機檔案] 選項以上傳資料集。

  5. 如果是檔案選取項目,請先選擇資料要儲存在 Azure 的位置。 請選取 Azure Machine Learning 資料存放區。 如需資料存放區的詳細資訊,請參閱連線到儲存體服務。 接著,上傳您先前下載的資料集。

  6. 請遵循步驟,設定資料資產的資料剖析設定和結構描述。

  7. 執行至 [檢閱] 步驟後,請按一下最後一頁上的 [建立]

從雲端來源匯入資料

如果您的資料已在雲端儲存體服務中,而您想要將資料保存在其原生位置。 您可以使用下列其中一個選項:

擷取方法 描述
註冊 Azure Machine Learning 資料集 從本機和線上資料來源 (Blob、ADLS Gen1、ADLS Gen2、檔案共用、SQL DB) 擷取資料。

建立資料來源的參考,這會在執行階段慢慢地進行評估。 如果您重複存取此資料集,並想要啟用進階的資料功能 (例如資料版本設定和監視),請使用此選項。
匯入資料模組 從線上資料來源 (Blob、ADLS Gen1、ADLS Gen2、檔案共用、SQL DB) 擷取資料。

資料集只會匯入到目前的設計工具管線執行。

注意

工作室 (傳統) 使用者應該注意,Azure Machine Learning 未原生支援下列雲端來源:

  • Hive 查詢
  • Azure 資料表
  • Azure Cosmos DB
  • 內部部署 SQL Database

建議使用者使用 Azure Data Factory 將其資料遷移至支援的儲存體服務。

註冊 Azure Machine Learning 資料集

使用下列步驟,從雲端服務向 Azure Machine Learning 註冊資料集:

  1. 建立資料存放區,以將雲端儲存體服務連結至 Azure Machine Learning 工作區。

  2. 註冊資料集。 如果您要遷移工作室 (傳統) 資料集,請選取 [表格式] 資料集設定。

在 Azure Machine Learning 中註冊資料集之後,便可在設計工具中使用:

  1. 建立新的設計工具管線草稿。
  2. 在左側的模組選擇區中,展開 [資料集] 區段。
  3. 將已註冊的資料集拖曳到畫布上。

使用匯入資料模組

使用下列步驟可將資料直接匯入到設計工具管線中:

  1. 建立資料存放區,以將雲端儲存體服務連結至 Azure Machine Learning 工作區。

建立資料存放區之後,便可在設計工具中使用匯入資料模組以從中擷取資料:

  1. 建立新的設計工具管線草稿。
  2. 在左側的模組選擇區中,尋找 [匯入資料] 模組,並將其拖曳至畫布。
  3. 選取 [匯入資料] 模組,並使用右面板中的設定來設定資料來源。

下一步

在本文中,您已了解如何將工作室 (傳統) 資料集遷移至 Azure Machine Learning。 下一步是重建工作室 (傳統) 定型管線

請參閱工作室 (傳統) 移轉系列中的其他文章:

  1. 移轉概觀
  2. 遷移資料集
  3. 重建工作室 (傳統) 定型管線
  4. 重建工作室 (傳統) Web 服務
  5. 將 Azure Machine Learning Web 服務與用戶端應用程式整合
  6. 移轉執行 R 指令碼