分享方式:


建立資料存放區

適用於:Azure CLI ml 延伸模組 v2 (目前)Python SDK azure-ai-ml v2 (目前)

在本文中,您會了解如何透過 Azure Machine Learning 資料存放區連線至 Azure 資料儲存體服務。

必要條件

注意

Machine Learning 資料存放區不會建立基礎儲存體帳戶資源。 相反地,它們會連結現有的儲存體帳戶以供 Machine Learning 使用。 不需要 Machine Learning 資料存放區。 如果您有基礎資料的存取權,您可以直接使用儲存體 URI。

建立 Azure Blob 資料存放區

from azure.ai.ml.entities import AzureBlobDatastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureBlobDatastore(
    name="",
    description="",
    account_name="",
    container_name=""
)

ml_client.create_or_update(store)

建立 Azure Data Lake Storage Gen2 資料存放區

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

建立 Azure 檔案儲存體資料存放區

from azure.ai.ml.entities import AzureFileDatastore
from azure.ai.ml.entities import AccountKeyConfiguration
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureFileDatastore(
    name="file_example",
    description="Datastore pointing to an Azure File Share.",
    account_name="mytestfilestore",
    file_share_name="my-share",
    credentials=AccountKeyConfiguration(
        account_key= "XXXxxxXXXxXXXXxxXXXXXxXXXXXxXxxXxXXXxXXXxXXxxxXXxxXXXxXxXXXxxXxxXXXXxxxxxXXxxxxxxXXXxXXX"
    ),
)

ml_client.create_or_update(store)

建立 Azure Data Lake Storage Gen1 資料存放區

from azure.ai.ml.entities import AzureDataLakeGen1Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureDataLakeGen1Datastore(
    name="",
    store_name="",
    description="",
)

ml_client.create_or_update(store)

建立 OneLake (Microsoft Fabric) 資料存放區 (預覽)

本節說明建立 OneLake 資料存放區的各種選項。 OneLake 資料存放區是 Microsoft Fabric 的一部分。 目前,Machine Learning 支援連線到 [檔案] 資料夾中的 Microsoft Fabric 湖存放庫成品,其中包含資料夾或檔案和 Amazon S3 捷徑。 如需湖存放庫的詳細資訊,請參閱什麼是 Microsoft Fabric 中的湖存放庫?

建立 OneLake 資料存放區需要您 Microsoft Fabric 執行個體的下列資訊:

  • 端點
  • 工作區 GUID
  • 成品 GUID

下列螢幕擷取畫面說明從 Microsoft Fabric 執行個體擷取這些必要資訊資源。

顯示如何在 Microsoft Fabric UI 中按一下以進入 Microsoft Fabric 工作區成品的成品屬性的螢幕擷取畫面。

接著,您會從 [屬性] 頁面的 [URL] 和 [ABFS 路徑] 頁面中找到 [端點]、[工作區 GUID] 和 [成品 GUID]:

  • URL 格式:https://{your_one_lake_endpoint}/{your_one_lake_workspace_guid}/{your_one_lake_artifact_guid}/Files
  • ABFS 路徑格式:abfss://{your_one_lake_workspace_guid}@{your_one_lake_endpoint}/{your_one_lake_artifact_guid}/Files

顯示 Microsoft Fabric UI 中 OneLake 成品 URL 和 ABFS 路徑的螢幕擷取畫面。

建立 OneLake 資料存放區

from azure.ai.ml.entities import OneLakeDatastore, OneLakeArtifact
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = OneLakeDatastore(
    name="onelake_example_id",
    description="Datastore pointing to an Microsoft fabric artifact.",
    one_lake_workspace_name="XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX", #{your_one_lake_workspace_guid}
    endpoint="msit-onelake.dfs.fabric.microsoft.com" #{your_one_lake_endpoint}
    artifact = OneLakeArtifact(
        name="XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX/Files", #{your_one_lake_artifact_guid}/Files
        type="lake_house"
    )
)

ml_client.create_or_update(store)

下一步