Vytváření úložišť dat

PLATÍ PRO:Rozšíření Azure CLI ml v2 (aktuální)Python SDK azure-ai-ml v2 (aktuální)

V tomto článku se dozvíte, jak se připojit ke službám úložiště dat Azure pomocí úložišť dat Azure Machine Learning.

Požadavky

Návod

Ukázky kódu sady Python SDK v tomto článku používají MLClient.from_config(), což vyžaduje soubor config.json v aktuálním adresáři nebo nadřazeném adresáři. Stáhněte si tento soubor z portálu Azure: přejděte do svého pracovního prostoru a pak vyberte Přehled>Stáhnout config.json. Alternativně můžete vytvořit MLClient ručně:

ml_client = MLClient(
    credential=DefaultAzureCredential(),
    subscription_id="<your-subscription-id>",
    resource_group_name="<your-resource-group>",
    workspace_name="<your-workspace-name>",
)

Poznámka:

Úložiště dat Machine Learning nevytvářejí prostředky podkladového účtu úložiště. Místo toho propojí existující účet úložiště pro použití služby Machine Learning. Každý typ úložiště dat (Azure Blob, ADLS Gen2, Azure Files, OneLake) se vytvoří nezávisle. Pořadí oddílů v tomto článku nepředstavuje požadovanou posloupnost kroků.

Vytvoření úložiště dat objektů blob v Azure

from azure.ai.ml.entities import AzureBlobDatastore
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureBlobDatastore(
    name="",
    description="",
    account_name="",
    container_name=""
)

ml_client.create_or_update(store)

Vytvoření úložiště dat Azure Data Lake Storage Gen2

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

Vytvoření úložiště dat Azure Files

from azure.ai.ml.entities import AzureFileDatastore
from azure.ai.ml.entities import AccountKeyConfiguration
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureFileDatastore(
    name="file_example",
    description="Datastore pointing to an Azure File Share.",
    account_name="mytestfilestore",
    file_share_name="my-share",
    credentials=AccountKeyConfiguration(
        account_key= "aaaaaaaa-0b0b-1c1c-2d2d-333333333333"
    ),
)

ml_client.create_or_update(store)

Vytvoření úložiště dat Azure Data Lake Storage Gen1

Důležité

Azure Data Lake Storage Gen1 se 29. února 2024 vyřadil z důchodu. Nemůžete vytvářet nové účty Gen1 a stávající prostředky Gen1 už nejsou přístupné. Následující obsah je k dispozici pouze pro referenci. Pro nové úložiště dat místo toho použijte Azure Data Lake Storage Gen2 . Další informace o migraci existujících dat najdete v tématu Migrace služby Azure Data Lake Storage z Gen1 na Gen2.

from azure.ai.ml.entities import AzureDataLakeGen1Datastore
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = AzureDataLakeGen1Datastore(
    name="",
    store_name="",
    description="",
)

ml_client.create_or_update(store)

Vytvoření úložiště dat OneLake (Microsoft Fabric) (Preview)

Tato část popisuje různé možnosti vytvoření úložiště dat OneLake. Úložiště dat OneLake je součástí Microsoft Fabric. V tuto chvíli strojové učení podporuje připojení k artefaktům Microsoft Fabric Lakehouse ve složce Soubory, které zahrnují složky, soubory a zástupce Amazon S3. Další informace o lakehouses naleznete v tématu Co je lakehouse v Microsoft Fabric?.

Vytvoření úložiště dat OneLake vyžaduje následující informace z vaší instance Microsoft Fabric:

  • Koncový bod
  • GUID pracovního prostoru
  • Identifikátor GUID artefaktu

Následující snímky obrazovky popisují, jak načíst požadované informace z vaší instance Microsoft Fabric.

Snímek obrazovky, který ukazuje, jak kliknout na vlastnosti artefaktu pracovního prostoru Microsoft Fabric v uživatelském rozhraní Microsoft Fabric

Koncový bod, "GUID pracovního prostoru" a "GUID artefaktu" najdete ve "URL" a "ABFS cestě" na stránce "Vlastnosti".

  • Formát adresy URL: https://{your_one_lake_endpoint}/{your_one_lake_workspace_guid}/{your_one_lake_artifact_guid}/Soubory
  • Formát cesty ABFS: abfss://{your_one_lake_workspace_guid}@{your_one_lake_endpoint}/{your_one_lake_artifact_guid}/Soubory

Snímek obrazovky znázorňující cestu URL a ABFS artefaktu OneLake v uživatelském rozhraní Microsoft Fabric

Vytvoření úložiště dat OneLake

from azure.ai.ml.entities import OneLakeDatastore, OneLakeArtifact
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

store = OneLakeDatastore(
    name="onelake_example_id",
    description="Datastore pointing to a Microsoft fabric artifact.",
    one_lake_workspace_name="bbbbbbbb-7777-8888-9999-cccccccccccc", #{your_one_lake_workspace_guid}
    endpoint="msit-onelake.dfs.fabric.microsoft.com", #{your_one_lake_endpoint}
    artifact=OneLakeArtifact(
        name="cccccccc-8888-9999-0000-dddddddddddd/Files", #{your_one_lake_artifact_guid}/Files
        type="lake_house"
    )
)

ml_client.create_or_update(store)

Další kroky