Importar recursos de datos (versión preliminar)

Artículo
04/19/2024

SE APLICA A:Extensión ML de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)

En este artículo, obtendrá información sobre cómo importar datos a la plataforma de Azure Machine Learning desde orígenes externos. Una importación de datos correcta crea y registra automáticamente un recurso de datos de Azure Machine Learning con el nombre proporcionado durante la importación. Un activo de datos de Azure Machine Learning se parece a un marcador del explorador web (favoritos). No es necesario recordar rutas de acceso de almacenamiento largas (URI) que apunten a los datos usados con más frecuencia. En su lugar, puede crear un recurso de datos y luego acceder a este si le asigna un nombre descriptivo.

Una importación de datos crea una caché de los datos de origen, junto con los metadatos, para obtener acceso a datos más rápido y de forma más confiable en los trabajos de entrenamiento de Azure Machine Learning. La caché de datos evita restricciones de red y conexión. Los datos almacenados en caché se versionan para admitir la reproducibilidad. Esto proporciona funcionalidades de control de versiones para los datos importados desde orígenes de SQL Server. Además, los datos en caché proporcionan linaje de datos para las tareas de auditoría. Una importación de datos usa ADF (canalizaciones de Azure Data Factory) en segundo plano, lo que significa que los usuarios pueden evitar interacciones complejas con ADF. En segundo plano, Azure Machine Learning también controla la administración del tamaño del grupo de recursos de proceso de ADF, el aprovisionamiento de recursos de proceso y la anulación para optimizar la transferencia de datos mediante la determinación de la paralelización adecuada.

Los datos transferidos se particionan y almacenan de forma segura como archivos de Parquet en Azure Storage. Esto permite un procesamiento más rápido durante el entrenamiento. Los costos de proceso de ADF solo implican el tiempo usado para las transferencias de datos. Los costos de almacenamiento solo implican el tiempo necesario para almacenar en caché los datos, ya que los datos almacenados en caché son una copia de los datos importados desde un origen externo. Azure Storage hospeda ese origen externo.

La característica de almacenamiento en caché implica costos iniciales de proceso y almacenamiento. Sin embargo, prácticamente se paga solo y puede ahorrar dinero, ya que reduce los costes de proceso de entrenamiento periódicos en comparación con las conexiones directas a los datos de origen externos durante el entrenamiento. Almacena en caché los datos como archivos de Parquet, lo que hace que el entrenamiento del trabajo sea más rápido y confiable con respecto a los tiempos de espera de conexión para conjuntos de datos más grandes. Esto provoca menos repeticiones y menos errores de entrenamiento.

Puede importar datos de Amazon S3, Azure SQL y Snowflake.

Importante

Esta característica actualmente está en su versión preliminar pública. Esta versión preliminar se ofrece sin un Acuerdo de Nivel de Servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas.

Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

Requisitos previos

Para crear y trabajar con recursos de datos, necesita lo siguiente:

Suscripción a Azure. Si no tiene una suscripción de Azure, cree una cuenta gratuita antes de empezar. Pruebe la versión gratuita o de pago de Azure Machine Learning.
Un área de trabajo de Azure Machine Learning. Creación de recursos para el área de trabajo.
La CLI o SDK de Azure Machine Learning instalada.
Conexiones del área de trabajo creadas

Nota

Para una importación correcta de datos, compruebe que ha instalado el paquete Azure-ai-ml más reciente (versión 1.5.0 o posterior) para el SDK y la extensión ml (versión 2.15.1 o posterior).

Si tiene un paquete de SDK o una extensión de CLI más antiguos, elimine el antiguo e instale el nuevo con el código que se muestra en la sección de pestañas. Siga las instrucciones del SDK y la CLI, como se muestra aquí:

Versiones de código

az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)

pip uninstall azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.5.0 or later)

Importación desde una base de datos externa como un recurso de datos de mltable

Nota

Las bases de datos externas pueden tener formatos Snowflake, Azure SQL, etc.

Estos ejemplos de código pueden importar datos de bases de datos externas. La connection que controla la acción de importación determina los metadatos del origen de datos de la base de datos externa. En este ejemplo, el código importa datos de un recurso de Snowflake. La conexión apunta a un origen de Snowflake. Con una pequeña modificación, la conexión puede apuntar a un origen de base de datos de Azure SQL y a un origen de base de datos de Azure SQL. El recurso importado type de un origen de base de datos externa es mltable.

Creación de un archivo YAML<file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# Datastore: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: mltable
name: <name>
source:
  type: database
  query: <query>
  connection: <connection>
path: <path>

Luego, ejecute este comando en la CLI:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import Database
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=Database(connection="<connection>", query="<query>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Nota

En el ejemplo que se muestra aquí se describe el proceso de una base de datos de Snowflake. Sin embargo, este proceso abarca otros formatos de base de datos externos, como Azure SQL, etc.

Vaya al Estudio de Azure Machine Learning.
En Recursos en el panel de navegación izquierdo, seleccione Datos. A continuación, seleccione la pestaña Importación de datos. A continuación, seleccione Crear, como se muestra en esta captura de pantalla:
En la pantalla Origen de datos, seleccione Snowflake y, a continuación, seleccione Siguiente, como se muestra en esta captura de pantalla:
En la pantalla Tipo de datos, rellene los valores. El valor Tipo tiene como valor predeterminado Tabla (mltable). A continuación, seleccione Siguiente, como se muestra en esta captura de pantalla:
En la pantalla Crear importación de datos, rellene los valores y seleccione Siguiente, como se muestra en esta captura de pantalla:
Rellene los valores en la pantalla Elegir un almacén de datos para la salida y seleccione Siguiente, como se muestra en esta captura de pantalla. El almacén de datos administrados del área de trabajo está seleccionado de manera predeterminada. El sistema asigna automáticamente la ruta de acceso al elegir el almacén de datos administrados. Si selecciona Almacén de datos administrados del área de trabajo, aparecerá la lista desplegable Valor de eliminación automática. Ofrece un período de tiempo de eliminación de datos de 30 días de manera predeterminada y cómo administrar los recursos de datos importados explica cómo cambiar este valor.

Nota

Para elegir su propio almacén de datos, seleccione Otros almacenes de datos. En ese caso, debe seleccionar la ruta de acceso para la ubicación de la caché de datos.

Puede agregar una programación. Seleccione Agregar programación como se muestra en esta captura de pantalla:

Se abre un nuevo panel, donde puede definir una programación de Periodicidad o una programación Cron. En esta captura de pantalla se muestra el panel de una programación de Periodicidad:

Name: identificador único de la programación dentro del área de trabajo.
Descripción: la descripción de la programación.
Desencadenador: el patrón de periodicidad de la programación, que incluye las siguientes propiedades.
- Zona horaria: el cálculo de la hora del desencadenador se basa en esta zona horaria; hora universal coordinada (UTC) de manera predeterminada.
- Recurrence o Cron expression: seleccione Periodicidad para especificar el patrón periódico. En Periodicidad, puede especificar la frecuencia de periodicidad: por minutos, horas, días, semanas o meses.
- Inicio: la programación se activa primero en esta fecha. De manera predeterminada, la fecha de creación de esta programación.
- Fin: la programación quedará inactiva después de esta fecha. De manera predeterminada, es NONE, lo que significa que la programación siempre estará activa hasta que la deshabilite manualmente.
- Etiquetas: las etiquetas de programación seleccionadas.

Nota

Inicio especifica la fecha y hora de inicio con la zona horaria de la programación. Si el inicio se omite, la hora de inicio es igual a la hora de creación de la programación. En el caso de una hora de inicio en el pasado, el primer trabajo se ejecuta en el siguiente tiempo de ejecución calculado.

En la captura de pantalla siguiente se muestra la última pantalla de este proceso. Revise sus opciones y seleccione Crear. En esta pantalla y las otras pantallas de este proceso, seleccione Volver para pasar a pantallas anteriores para cambiar las opciones de los valores.

En esta captura de pantalla se muestra el panel de una programación Cron:

Name: identificador único de la programación dentro del área de trabajo.
Descripción: la descripción de la programación.

Desencadenador: el patrón de periodicidad de la programación, que incluye las siguientes propiedades.

Zona horaria: el cálculo de la hora del desencadenador se basa en esta zona horaria; hora universal coordinada (UTC) de manera predeterminada.
Recurrence o Cron expression: seleccione la expresión Cron para especificar los detalles de Cron.

(Obligatorio)expression usa una expresión crontab estándar para expresar una programación periódica. Una sola expresión se compone de cinco campos delimitados por espacios:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Un solo carácter comodín (*), que cubre todos los valores del campo. Un *, en días, se refiere a todos los días de un mes (que varía con el mes y el año).
El expression: "15 16 * * 1" del ejemplo anterior se refiere a las 16:15 todos los lunes.

La siguiente tabla enumera los valores válidos para cada campo:

Campo	Intervalo	Comentario
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	No se admite. El valor se ignora y se trata como `*`.
`MONTHS`	-	No compatible. El valor se ignora y se trata como `*`.
`DAYS-OF-WEEK`	0-6	Cero (0) significa domingo. También se aceptan nombres de días.

Para más información sobre las expresiones crontab, visite la wiki de la expresión crontab en GitHub.

Importante

No se admiten DAYS ni MONTH. Si pasa uno de estos valores, se omitirá y se tratará como *.

Inicio: la programación se activa primero en esta fecha. De manera predeterminada, la fecha de creación de esta programación.
Fin: la programación quedará inactiva después de esta fecha. De manera predeterminada, es NONE, lo que significa que la programación siempre estará activa hasta que la deshabilite manualmente.
Etiquetas: las etiquetas de programación seleccionadas.

Nota

Importar datos de un sistema de archivos externo como un recurso de datos de carpeta

Nota

Un recurso de datos de Amazon S3 puede servir como un recurso de sistema de archivos externo.

La connection que controla la acción de importación de datos determina los aspectos del origen de datos externo. La conexión define un cubo de Amazon S3 como destino. La conexión espera un valor válido path. Un valor de recurso importado desde un origen de sistema de archivos externo tiene un type de uri_folder.

El siguiente ejemplo de código importa datos de un recurso de Amazon S3.

Creación de un archivo YAML<file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: uri_folder
name: <name>
source:
  type: file_system
  path: <path_on_source>
  connection: <connection>
path: <path>

Luego, ejecute este comando en la CLI:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import FileSystem
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=FileSystem(connection="<connection>", path="<path_on_source>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Vaya al Estudio de Azure Machine Learning.
En Recursos en el panel de navegación izquierdo, seleccione Datos. Después, seleccione la pestaña Importar datos. Luego, seleccione Crear, como se muestra en esta captura de pantalla:
En la pantalla Origen de datos, seleccione S3 y, a continuación, seleccione Siguiente, como se muestra en esta captura de pantalla:
En la pantalla Tipo de datos, rellene los valores. El valor Tipo tiene como valor predeterminado Folder (uri_folder). A continuación, seleccione Siguiente, como se muestra en esta captura de pantalla:
En la pantalla Crear importación de datos, rellene los valores y seleccione Siguiente, como se muestra en esta captura de pantalla:
Rellene los valores en la pantalla Elegir un almacén de datos para la salida y seleccione Siguiente, como se muestra en esta captura de pantalla. El almacén de datos administrados del área de trabajo está seleccionado de manera predeterminada. El sistema asigna automáticamente la ruta de acceso al elegir el almacén de datos administrados. Si selecciona Almacén de datos administrados del área de trabajo, aparecerá la lista desplegable Valor de eliminación automática. Ofrece un período de tiempo de eliminación de datos de 30 días de manera predeterminada y cómo administrar los recursos de datos importados explica cómo cambiar este valor.
Puede agregar una programación. Seleccione Agregar programación como se muestra en esta captura de pantalla:
Se abre un nuevo panel, donde puede definir una programación de Periodicidad o una programación Cron. En esta captura de pantalla se muestra el panel de una programación de Periodicidad:
- Name: identificador único de la programación dentro del área de trabajo.
- Descripción: la descripción de la programación.
- Desencadenador: el patrón de periodicidad de la programación, que incluye las siguientes propiedades.
  - Zona horaria: el cálculo de la hora del desencadenador se basa en esta zona horaria; hora universal coordinada (UTC) de manera predeterminada.
  - Recurrence o Cron expression: seleccione Periodicidad para especificar el patrón periódico. En Periodicidad, puede especificar la frecuencia de periodicidad: por minutos, horas, días, semanas o meses.
  - Inicio: la programación se activa primero en esta fecha. De manera predeterminada, la fecha de creación de esta programación.
  - Fin: la programación quedará inactiva después de esta fecha. De manera predeterminada, es NONE, lo que significa que la programación siempre estará activa hasta que la deshabilite manualmente.
  - Etiquetas: las etiquetas de programación seleccionadas.
Nota

Inicio especifica la fecha y hora de inicio con la zona horaria de la programación. Si el inicio se omite, la hora de inicio es igual a la hora de creación de la programación. En el caso de una hora de inicio en el pasado, el primer trabajo se ejecuta en el siguiente tiempo de ejecución calculado.
Como se muestra en la siguiente captura de pantalla, revise las opciones en la última pantalla de este proceso y seleccione Crear. En esta pantalla y las otras pantallas de este proceso, seleccione Volver para pasar a pantallas anteriores si desea cambiar las opciones de los valores.

En esta captura de pantalla se muestra el panel de una programación Cron:

Name: identificador único de la programación dentro del área de trabajo.
Descripción: la descripción de la programación.

Desencadenador: el patrón de periodicidad de la programación, que incluye las siguientes propiedades.

Zona horaria: el cálculo de la hora del desencadenador se basa en esta zona horaria; hora universal coordinada (UTC) de manera predeterminada.
Recurrence o Cron expression: seleccione la expresión Cron para especificar los detalles de Cron.

(Obligatorio)expression usa una expresión crontab estándar para expresar una programación periódica. Una sola expresión se compone de cinco campos delimitados por espacios:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Un solo carácter comodín (*), que cubre todos los valores del campo. Un *, en días, se refiere a todos los días de un mes (que varía con el mes y el año).
El expression: "15 16 * * 1" del ejemplo anterior se refiere a las 16:15 todos los lunes.

La siguiente tabla enumera los valores válidos para cada campo:

Campo	Intervalo	Comentario
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	No se admite. El valor se ignora y se trata como `*`.
`MONTHS`	-	No compatible. El valor se ignora y se trata como `*`.
`DAYS-OF-WEEK`	0-6	Cero (0) significa domingo. También se aceptan nombres de días.

Para más información sobre las expresiones crontab, visite la wiki de la expresión crontab en GitHub.

Importante

No se admiten DAYS ni MONTH. Si pasa uno de estos valores, se omitirá y se tratará como *.

Inicio: la programación se activa primero en esta fecha. De manera predeterminada, la fecha de creación de esta programación.
Fin: la programación quedará inactiva después de esta fecha. De manera predeterminada, es NONE, lo que significa que la programación siempre estará activa hasta que la deshabilite manualmente.
Etiquetas: las etiquetas de programación seleccionadas.

Nota

Comprobación del estado de importación de orígenes de datos externos

La acción de importación de datos es una acción asincrónica. Puede tardar mucho tiempo. Después de enviar una acción de importación de datos a través de la CLI o el SDK, es posible que el servicio Azure Machine Learning necesite varios minutos para conectarse al origen de datos externo. A continuación, el servicio iniciará la importación de datos y controlará el almacenamiento en caché de datos y el registro. El tiempo necesario para una importación de datos también depende del tamaño del conjunto de datos de origen.

En el ejemplo siguiente se devuelve el estado de la actividad de importación de datos enviada. El comando o método usa el nombre "data asset" (recurso de datos) como entrada para determinar el estado de la materialización de datos.

> az ml data list-materialization-status --name <name>

from azure.ai.ml.entities import DataImport
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

ml_client.data.show_materialization_status(name="<name>")

Importar recursos de datos (versión preliminar)

Requisitos previos

Versiones de código

Importación desde una base de datos externa como un recurso de datos de mltable

Importar datos de un sistema de archivos externo como un recurso de datos de carpeta

Comprobación del estado de importación de orígenes de datos externos

Pasos siguientes

Recursos adicionales