Azure Machine Learning v1 中的資料
Azure Machine Learning 可讓您輕鬆連線至雲端上的資料。 基礎儲存體服務上有一個抽象層,可讓您安全存取和使用資料,而不需要為儲存體類型特別撰寫程式碼。 Azure Machine Learning 還提供下列資料功能:
- 與 Pandas 和 Spark 資料框架的互通性
- 資料譜系的版本設定和追蹤
- 資料標記
- 資料漂移監視
資料工作流程
若要使用雲端式儲存體解決方案中的資料,我們建議使用此資料傳遞工作流程。 此工作流程假設您在 Azure 雲端式儲存體服務中有 Azure 儲存體帳戶和資料。
建立 Azure Machine Learning 資料存放區,以將連線資訊儲存到 Azure 儲存體
從該資料存放區,建立 Azure Machine Learning 資料集,以指向基礎儲存體中的特定檔案
若要在機器學習實驗中使用該資料集,您可以
將資料集掛接至實驗的計算目標,以進行模型定型
OR
直接在 Azure Machine Learning 的解決方案中使用資料集,例如自動化機器學習 (自動化 ML) 實驗執行、機器學習管線,或 Azure Machine Learning 設計工具。
為模型輸出資料集建立資料集監視器,以偵測資料漂移
如果偵測到資料漂移,請更新輸入資料集,並隨之重新定型模型
此螢幕擷取畫面顯示建議的工作流程:
使用資料存放區連線至儲存體
Azure Machine Learning 資料存放區將您的資料儲存體連線資訊安全保留在 Azure 上,因此您不需要將該資訊放到指令碼中。 如需連線到基礎儲存體服務中儲存體帳戶和資料存取的詳細資訊,請造訪註冊並建立資料存放區。
這些支援的 Azure 雲端式儲存體服務可以註冊為資料存放區:
- Azure Blob 容器
- Azure 檔案共用
- Azure Data Lake
- Azure Data Lake Gen2
- Azure SQL Database
- 適用於 PostgreSQL 的 Azure 資料庫
- Databricks 檔案系統
- 適用於 MySQL 的 Azure 資料庫
提示
您可以使用認證型驗證建立資料存放區,以存取儲存體服務,例如服務主體或共用存取簽章 (SAS) 權杖。 具有工作區讀者存取權的使用者可以存取這些認證。
如果不放心,請造訪建立使用身分識別型資料存取的資料存放區,以取得連線至儲存體服務的詳細資訊。
使用資料集來參考儲存體中的資料
Azure Machine Learning 資料集不是資料的複本。 建立資料集時會建立其儲存體服務中資料的參考,及其中繼資料的複本。
因為資料集會延遲評估,且資料留在現有位置,所以
- 不會產生額外的儲存體成本。
- 沒有意外變更原始資料來源的風險
- 改善 ML 工作流程效能速度
若要與儲存體中的資料互動,請建立資料集,將資料封裝為機器學習工作可取用的物件。 將資料集註冊到工作區,讓不同實驗共用和重複使用,免除資料擷取的複雜性。
您可以透過資料存放區,從本機檔案、公用 URL、Azure 開放資料集或 Azure 儲存體服務建立資料集。
資料集有以下兩種不同的類型:
FileDataset 參考資料存放區或公用 URL 中的單一或多個檔案。 如果資料已清理而隨時可用於定型實驗,則您可以下載或裝載檔案 (由 FileDataset 參考) 至計算目標
TabularDataset 剖析提供的檔案或檔案清單,以表格式格式呈現資料。 您可以將 TabularDataset 載入 Pandas 或 Spark 資料框架,以進一步操作和清理。 如需可據以建立 TabularDataset 的完整資料格式清單,請造訪 TabularDatasetFactory 類別
這些資源提供有關資料集功能的詳細資訊:
使用資料
資料集透過與 Azure Machine Learning 功能緊密整合,可讓您完成機器學習工作。
使用資料標記專案來標記資料
在機器學習專案中標記大量資料可能會令人頭疼。 涉及電腦視覺元件 (例如影像分類或物體偵測) 的專案,通常都需要數千個影像和對應的標籤。
Azure Machine Learning 提供集中的位置,可在其中建立、管理及監視標籤專案。 為專案加上標籤有助於讓資料、標籤和小組成員協調一致,從而讓您更有效率地管理加上標籤工作。 目前支援的工作涉及影像分類 (多標籤或多類別),以及使用週框方塊來進行的物體識別。
建立影像標記專案或文字標記專案,並輸出資料集供用於機器學習實驗。
監視發生資料漂移的模型效能
在機器學習的背景下,資料漂移涉及模型輸入資料有所變化,導致模型效能降低。 這是模型正確性隨著時間而降低的主要原因,因此資料漂移監視有助於偵測模型效能問題。
如需詳細資訊,請造訪建立資料集監視器,以深入了解如何偵測和警示資料集內的新資料有無資料漂移。