共用方式為


Azure Machine Learning v1 中的資料

適用於:Azure CLI ml 延伸模組 v1

適用於:Python SDK azureml v1

Azure Machine Learning 可讓您輕鬆連線至雲端上的資料。 基礎儲存體服務上有一個抽象層,可讓您安全存取和使用資料,而不需要為儲存體類型特別撰寫程式碼。 Azure Machine Learning 還提供下列資料功能:

  • 與 Pandas 和 Spark 資料框架的互通性
  • 資料譜系的版本設定和追蹤
  • 資料標記
  • 資料漂移監視

資料工作流程

若要使用雲端式儲存體解決方案中的資料,我們建議使用此資料傳遞工作流程。 此工作流程假設您在 Azure 雲端式儲存體服務中有 Azure 儲存體帳戶和資料。

  1. 建立 Azure Machine Learning 資料存放區,以將連線資訊儲存到 Azure 儲存體

  2. 從該資料存放區,建立 Azure Machine Learning 資料集,以指向基礎儲存體中的特定檔案

  3. 若要在機器學習實驗中使用該資料集,您可以

    • 將資料集掛接至實驗的計算目標,以進行模型定型

      OR

    • 直接在 Azure Machine Learning 的解決方案中使用資料集,例如自動化機器學習 (自動化 ML) 實驗執行、機器學習管線,或 Azure Machine Learning 設計工具

  4. 為模型輸出資料集建立資料集監視器,以偵測資料漂移

  5. 如果偵測到資料漂移,請更新輸入資料集,並隨之重新定型模型

此螢幕擷取畫面顯示建議的工作流程:

顯示 Azure 儲存體服務的螢幕擷取畫面,其會流入資料存放區,然後流入資料集。

使用資料存放區連線至儲存體

Azure Machine Learning 資料存放區將您的資料儲存體連線資訊安全保留在 Azure 上,因此您不需要將該資訊放到指令碼中。 如需連線到基礎儲存體服務中儲存體帳戶和資料存取的詳細資訊,請造訪註冊並建立資料存放區

這些支援的 Azure 雲端式儲存體服務可以註冊為資料存放區:

  • Azure Blob 容器
  • Azure 檔案共用
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL Database
  • 適用於 PostgreSQL 的 Azure 資料庫
  • Databricks 檔案系統
  • 適用於 MySQL 的 Azure 資料庫

提示

您可以使用認證型驗證建立資料存放區,以存取儲存體服務,例如服務主體或共用存取簽章 (SAS) 權杖。 具有工作區讀者存取權的使用者可以存取這些認證。

如果不放心,請造訪建立使用身分識別型資料存取的資料存放區,以取得連線至儲存體服務的詳細資訊。

使用資料集來參考儲存體中的資料

Azure Machine Learning 資料集不是資料的複本。 建立資料集時會建立其儲存體服務中資料的參考,及其中繼資料的複本。

因為資料集會延遲評估,且資料留在現有位置,所以

  • 不會產生額外的儲存體成本。
  • 沒有意外變更原始資料來源的風險
  • 改善 ML 工作流程效能速度

若要與儲存體中的資料互動,請建立資料集,將資料封裝為機器學習工作可取用的物件。 將資料集註冊到工作區,讓不同實驗共用和重複使用,免除資料擷取的複雜性。

您可以透過資料存放區,從本機檔案、公用 URL、Azure 開放資料集或 Azure 儲存體服務建立資料集。

資料集有以下兩種不同的類型:

  • FileDataset 參考資料存放區或公用 URL 中的單一或多個檔案。 如果資料已清理而隨時可用於定型實驗,則您可以下載或裝載檔案 (由 FileDataset 參考) 至計算目標

  • TabularDataset 剖析提供的檔案或檔案清單,以表格式格式呈現資料。 您可以將 TabularDataset 載入 Pandas 或 Spark 資料框架,以進一步操作和清理。 如需可據以建立 TabularDataset 的完整資料格式清單,請造訪 TabularDatasetFactory 類別

這些資源提供有關資料集功能的詳細資訊:

使用資料

資料集透過與 Azure Machine Learning 功能緊密整合,可讓您完成機器學習工作。

使用資料標記專案來標記資料

在機器學習專案中標記大量資料可能會令人頭疼。 涉及電腦視覺元件 (例如影像分類或物體偵測) 的專案,通常都需要數千個影像和對應的標籤。

Azure Machine Learning 提供集中的位置,可在其中建立、管理及監視標籤專案。 為專案加上標籤有助於讓資料、標籤和小組成員協調一致,從而讓您更有效率地管理加上標籤工作。 目前支援的工作涉及影像分類 (多標籤或多類別),以及使用週框方塊來進行的物體識別。

建立影像標記專案文字標記專案,並輸出資料集供用於機器學習實驗。

監視發生資料漂移的模型效能

在機器學習的背景下,資料漂移涉及模型輸入資料有所變化,導致模型效能降低。 這是模型正確性隨著時間而降低的主要原因,因此資料漂移監視有助於偵測模型效能問題。

如需詳細資訊,請造訪建立資料集監視器,以深入了解如何偵測和警示資料集內的新資料有無資料漂移。

下一步