Compartir vía


Creación de almacenes de datos

SE APLICA A:Extensión ML de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)

En este artículo, aprenderá a conectarse a los servicios de almacenamiento de datos de Azure con almacenes de datos de Azure Machine Learning.

Requisitos previos

Nota:

Los almacenes de datos de Machine Learning no crear los recursos de la cuenta de almacenamiento subyacentes. En su lugar, vinculan una cuenta de almacenamiento de existente para el uso de Machine Learning. Los almacenes de datos de Machine Learning no son necesarios. Si tiene acceso a los datos subyacentes, puede usar directamente URI de almacenamiento.

Creación de un almacén de datos de Azure Blob

from azure.ai.ml.entities import AzureBlobDatastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureBlobDatastore(
    name="",
    description="",
    account_name="",
    container_name=""
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Data Lake Storage Gen2

from azure.ai.ml.entities import AzureDataLakeGen2Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureDataLakeGen2Datastore(
    name="",
    description="",
    account_name="",
    filesystem=""
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Files

from azure.ai.ml.entities import AzureFileDatastore
from azure.ai.ml.entities import AccountKeyConfiguration
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureFileDatastore(
    name="file_example",
    description="Datastore pointing to an Azure File Share.",
    account_name="mytestfilestore",
    file_share_name="my-share",
    credentials=AccountKeyConfiguration(
        account_key= "XXXxxxXXXxXXXXxxXXXXXxXXXXXxXxxXxXXXxXXXxXXxxxXXxxXXXxXxXXXxxXxxXXXXxxxxxXXxxxxxxXXXxXXX"
    ),
)

ml_client.create_or_update(store)

Creación de un almacén de datos de Azure Data Lake Storage Gen1

from azure.ai.ml.entities import AzureDataLakeGen1Datastore
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = AzureDataLakeGen1Datastore(
    name="",
    store_name="",
    description="",
)

ml_client.create_or_update(store)

Creación de un almacén de datos de OneLake (Microsoft Fabric) (versión preliminar)

En esta sección se describen varias opciones para crear un almacén de datos de OneLake. El almacén de datos OneLake forma parte de Microsoft Fabric. En este momento, Machine Learning admite la conexión a artefactos de lakehouse de Microsoft Fabric en la carpeta "Archivos" que incluyen carpetas o archivos y accesos directos de Amazon S3. Para obtener más información sobre lakehouses, consulte ¿Qué es un lago en Microsoft Fabric?.

La creación del almacén de datos OneLake requiere la siguiente información de la instancia de Microsoft Fabric:

  • Punto de conexión
  • GUID del área de trabajo
  • GUID de artefacto

En las capturas de pantalla siguientes se describe la recuperación de estos recursos de información necesarios de la instancia de Microsoft Fabric.

Captura de pantalla que muestra cómo hacer clic en las propiedades de artefacto del artefacto del área de trabajo de Microsoft Fabric en la interfaz de usuario de Microsoft Fabric.

A continuación, encontrará "Punto de conexión", "GUID del área de trabajo" y "GUID de artefacto" en "URL" y "Ruta de acceso de ABFS" desde la página "Propiedades":

  • Formato de dirección URL: https://{your_one_lake_endpoint}/{your_one_lake_workspace_guid}/{your_one_lake_artifact_guid}/Files
  • Formato de ruta de acceso de ABFS: abfss://{your_one_lake_workspace_guid}@{your_one_lake_endpoint}/{your_one_lake_artifact_guid}/Files

Captura de pantalla que muestra la dirección URL y la ruta de acceso de ABFS de un artefacto OneLake en la interfaz de usuario de Microsoft Fabric.

Creación de un almacén de datos de OneLake

from azure.ai.ml.entities import OneLakeDatastore, OneLakeArtifact
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

store = OneLakeDatastore(
    name="onelake_example_id",
    description="Datastore pointing to an Microsoft fabric artifact.",
    one_lake_workspace_name="XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX", #{your_one_lake_workspace_guid}
    endpoint="msit-onelake.dfs.fabric.microsoft.com" #{your_one_lake_endpoint}
    artifact = OneLakeArtifact(
        name="XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX/Files", #{your_one_lake_artifact_guid}/Files
        type="lake_house"
    )
)

ml_client.create_or_update(store)

Pasos siguientes