Creación de almacenes de datos

SE APLICA A:Extensión ML de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)

En este artículo, aprenderá a conectarse a los servicios de almacenamiento de datos de Azure con almacenes de datos de Azure Machine Learning.

Requisitos previos

Nota

Los almacenes de datos de Azure Machine Learning no crean los recursos de las cuentas de almacenamiento subyacentes. En su lugar, vinculan una cuenta de almacenamiento existente para el uso de Azure Machine Learning. Esto no necesita almacenes de datos de Azure Machine Learning. Si tiene acceso a los datos subyacentes, puede usar directamente URI de almacenamiento.

Creación de un almacén de datos de Azure Blob

from azure.ai.ml.entities import AzureBlobDatastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureBlobDatastore(
    name="",
    description="",
    account_name="",
    container_name=""
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Data Lake Gen2

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Files

from azure.ai.ml.entities import AzureFileDatastore
from azure.ai.ml.entities import AccountKeyConfiguration
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureFileDatastore(
    name="file_example",
    description="Datastore pointing to an Azure File Share.",
    account_name="mytestfilestore",
    file_share_name="my-share",
    credentials=AccountKeyConfiguration(
        account_key= "XXXxxxXXXxXXXXxxXXXXXxXXXXXxXxxXxXXXxXXXxXXxxxXXxxXXXxXxXXXxxXxxXXXXxxxxxXXxxxxxxXXXxXXX"
    ),
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Data Lake Gen1

from azure.ai.ml.entities import AzureDataLakeGen1Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureDataLakeGen1Datastore(
    name="",
    store_name="",
    description="",
)

ml_client.create_or_update(store)

Creación de un almacén de datos de OneLake (Microsoft Fabric) (versión preliminar)

En esta sección se describen varias opciones para crear un almacén de datos de OneLake. El almacén de datos OneLake forma parte de Microsoft Fabric. En este momento, Azure Machine Learning admite la conexión a artefactos de lago de datos de Microsoft Fabric que incluyen carpetas o archivos y accesos directos de Amazon S3. Para más información sobre el lago de datos, consulte ¿Qué es un almacén de lago de datos en Microsoft Fabric?

La creación de un almacén de datos de OneLake requiere

  • Punto de conexión
  • Un nombre o identificador único del área de trabajo de Fabric
  • Un nombre o identificador único del artefacto

Información de la instancia de Microsoft Fabric Estas tres capturas de pantalla muestran cómo recuperar estos recursos de información necesarios de la instancia de Microsoft Fabric:

Nombre del área de trabajo de OneLake

En la instancia de Microsoft Fabric, puede encontrar la información del área de trabajo como se muestra en esta captura de pantalla. Puede usar un valor de identificador único GUID o un "nombre descriptivo" para crear un almacén de datos OneLake de Azure Machine Learning.

Screenshot that shows Fabric Workspace details in Microsoft Fabric UI.

Punto de conexión de OneLake

En esta captura de pantalla se puede encontrar la información del punto de conexión como se muestra en la instancia de Microsoft Fabric.

Screenshot that shows Fabric endpoint details in Microsoft Fabric UI.

Nombre del artefacto de OneLake

En esta captura de pantalla se muestra cómo puede encontrar la información del artefacto en la instancia de Microsoft Fabric. En la captura de pantalla también se muestra cómo usar un valor de identificador único GUID o un "nombre descriptivo" para crear un almacén de datos de OneLake de Azure Machine Learning:

Screenshot showing how to get Fabric LH artifact details in Microsoft Fabric UI.

Creación de un almacén de datos de OneLake

from azure.ai.ml.entities import OneLakeDatastore, OneLakeArtifact
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = OneLakeDatastore(
    name="onelake_example_id",
    description="Datastore pointing to an Microsoft fabric artifact.",
    one_lake_workspace_name="AzureML_Sample_OneLakeWS",
    endpoint="msit-onelake.dfs.fabric.microsoft.com"
    artifact = OneLakeArtifact(
        name="AzML_Sample_LH",
        type="lake_house"
    )
)

ml_client.create_or_update(store)

Pasos siguientes