將工作室 (傳統) 資料集遷移至 Azure Machine Learning
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源 (工作區與 Web 服務方案)。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 實驗與 Web 服務。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
在本文中,您將了解如何將工作室 (傳統) 資料集遷移至 Azure Machine Learning。 如需從工作室 (傳統) 移轉的詳細資訊,請參閱移轉概觀文章。
有三個選項可供您將資料集遷移至 Azure Machine Learning。 請閱讀每一節,以判斷哪一個選項最適合您的案例。
資料在哪裡? | 移轉選項 |
---|---|
在工作室 (傳統) 中 | 選項 1:從工作室 (傳統) 下載資料集,並將其上傳至 Azure Machine Learning。 |
雲端儲存空間 | 選項 2:從雲端來源註冊資料集。 選項 3:使用「匯入資料」模組從雲端來源取得資料。 |
注意
Azure Machine Learning 也支援使用程式碼優先工作流程來建立和管理資料集。
必要條件
從工作室 (傳統) 下載資料集
若要將工作室 (傳統) 資料集遷移至 Azure Machine Learning,最簡單的方式是下載資料集,再於 Azure Machine Learning 中進行註冊。 這會為資料集建立新的複本,並將其上傳至 Azure Machine Learning 資料存放區。
您可以直接下載下列工作室 (傳統) 資料集類型。
- 純文字 (.txt)
- 逗號分隔值 (CSV),具有標頭 (.csv) 或不具標頭 (.nh.csv)
- 定位鍵分隔值 (TSV),具有標頭 (.tsv) 或不具標頭 (.nh.tsv)
- Excel 檔案
- Zip 檔案 (.zip)
若要直接下載資料集:
移至您的工作室 (傳統) 工作區 (https://studio.azureml.net)。
在左側導覽列,選取 [資料集] 索引標籤。
選取您要下載的資料集。
在底部的動作列中,選取 [下載]。
針對下列資料類型,您必須使用 [轉換為 CSV] 模組來下載資料集。
- SVMLight 資料 (.svmlight)
- 屬性關聯檔案格式 (ARFF) 資料 (.arff)
- R 物件或工作區檔案 (.RData)
- 資料集類型 (.data)。 資料集類型是工作室 (傳統) 內部的模組輸出資料類型。
若要將資料集轉換為 CSV 並下載結果:
移至您的工作室 (傳統) 工作區 (https://studio.azureml.net)。
建立新實驗。
將您想要下載的資料集拖放到畫布上。
新增 [轉換為 CSV] 模組。
將 [轉換為 CSV] 輸入埠連線到資料集的輸出埠。
執行實驗。
以滑鼠右鍵按一下 [轉換為 CSV] 模組。
選取 [結果資料集]>[下載]。
將資料集上傳至 Azure Machine Learning
下載資料檔案後,您可以將其註冊為 Azure Machine Learning 中的資料資產:
在左側導覽的 [資產] 下,選取 [資料]。 在 [資料資產] 索引標籤上,選取 [建立]
命名資料資產並選擇性提供描述。 接著,在下拉式清單的 [資料集類型] 區段中,選取 [類型] 下的 [表格式] 選項。
注意
您也可以上傳 ZIP 檔案作為資料資產。 若要上傳 ZIP 檔案,請在下拉式清單的 [資料集類型] 區段中,為 [類型] 選取 [檔案]。
如果是資料來源,請選取 [從本機檔案] 選項以上傳資料集。
如果是檔案選取項目,請先選擇資料要儲存在 Azure 的位置。 請選取 Azure Machine Learning 資料存放區。 如需資料存放區的詳細資訊,請參閱連線到儲存體服務。 接著,上傳您先前下載的資料集。
請遵循步驟,設定資料資產的資料剖析設定和結構描述。
執行至 [檢閱] 步驟後,請按一下最後一頁上的 [建立]
從雲端來源匯入資料
如果您的資料已在雲端儲存體服務中,而您想要將資料保存在其原生位置。 您可以使用下列其中一個選項:
擷取方法 | 描述 |
---|---|
註冊 Azure Machine Learning 資料集 | 從本機和線上資料來源 (Blob、ADLS Gen1、ADLS Gen2、檔案共用、SQL DB) 擷取資料。 建立資料來源的參考,這會在執行階段慢慢地進行評估。 如果您重複存取此資料集,並想要啟用進階的資料功能 (例如資料版本設定和監視),請使用此選項。 |
匯入資料模組 | 從線上資料來源 (Blob、ADLS Gen1、ADLS Gen2、檔案共用、SQL DB) 擷取資料。 資料集只會匯入到目前的設計工具管線執行。 |
注意
工作室 (傳統) 使用者應該注意,Azure Machine Learning 未原生支援下列雲端來源:
- Hive 查詢
- Azure 資料表
- Azure Cosmos DB
- 內部部署 SQL Database
建議使用者使用 Azure Data Factory 將其資料遷移至支援的儲存體服務。
註冊 Azure Machine Learning 資料集
使用下列步驟,從雲端服務向 Azure Machine Learning 註冊資料集:
在 Azure Machine Learning 中註冊資料集之後,便可在設計工具中使用:
- 建立新的設計工具管線草稿。
- 在左側的模組選擇區中,展開 [資料集] 區段。
- 將已註冊的資料集拖曳到畫布上。
使用匯入資料模組
使用下列步驟可將資料直接匯入到設計工具管線中:
- 建立資料存放區,以將雲端儲存體服務連結至 Azure Machine Learning 工作區。
建立資料存放區之後,便可在設計工具中使用匯入資料模組以從中擷取資料:
- 建立新的設計工具管線草稿。
- 在左側的模組選擇區中,尋找 [匯入資料] 模組,並將其拖曳至畫布。
- 選取 [匯入資料] 模組,並使用右面板中的設定來設定資料來源。
下一步
在本文中,您已了解如何將工作室 (傳統) 資料集遷移至 Azure Machine Learning。 下一步是重建工作室 (傳統) 定型管線。
請參閱工作室 (傳統) 移轉系列中的其他文章: