Envío de trabajos de Spark en Azure Machine Learning

2024-09-30

SE APLICA A:Extensión ML de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)

Azure Machine Learning admite los envíos de trabajo de aprendizaje automático independientes y la creación de canalizaciones de aprendizaje automático que implican varios pasos del flujo de trabajo de aprendizaje automático. Azure Machine Learning controla la creación de trabajos de Spark independientes y de componentes de Spark reutilizables que las canalizaciones de Azure Machine Learning pueden usar. En este artículo, aprenderá a enviar trabajos de Spark con:

IU del Estudio de Azure Machine Learning
CLI de Azure Machine Learning
SDK de Azure Machine Learning

Para más información sobre Conceptos de Apache Spark en Azure Machine Learning, visite este recurso.

Requisitos previos

SE APLICA A:Extensión de ML de la CLI de Azure v2 (actual)

Una suscripción a Azure: si aún no tiene ninguna, cree una cuenta gratuita antes de empezar.
Un área de trabajo de Azure Machine Learning. Visite Crear recursos del área de trabajo para obtener más información.
Creará una instancia de proceso de Azure Machine Learning.
Instalar la CLI de Azure Machine Learning.
(Opcional): un grupo de Synapse Spark asociado en el área de trabajo de Azure Machine Learning.

Nota:

Para obtener más información sobre el acceso a los recursos mientras se usa el proceso de Spark sin servidor de Azure Machine Learning y el grupo de Spark de Synapse conectado, visite Garantizar el acceso a los recursos para trabajos de Spark.
Azure Machine Learning proporciona un grupo de cuota compartida desde el que todos los usuarios pueden acceder a la cuota de proceso para realizar pruebas durante un tiempo limitado. Cuando se usa el proceso de Spark sin servidor, Azure Machine Learning le permite acceder a esta cuota compartida durante un breve tiempo.

Asociación de identidades administradas asignadas por el usuario mediante la CLI v2

Cree un archivo YAML que defina la identidad administrada asignada por el usuario que se debe asociar al área de trabajo:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

Con el parámetro --file, use el archivo YAML en el comando az ml workspace update para asociar la identidad administrada asignada por el usuario:

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

Asociación de identidades administradas asignadas por el usuario mediante `ARMClient`

Instale ARMClient, una sencilla herramienta de línea de comandos que invoca la API de Azure Resource Manager.

Cree un archivo JSON que defina la identidad administrada asignada por el usuario que se debe asociar al área de trabajo:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Para adjuntar la identidad administrada asignada por el usuario al área de trabajo, ejecute el siguiente comando en el símbolo del sistema o en el símbolo del sistema de PowerShell.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Nota:

Para garantizar la ejecución correcta del trabajo de Spark, debe asignar los roles Colaborador y Colaborador de datos de Storage Blob, que hay en la cuenta de almacenamiento de Azure que se usa para la entrada y salida de datos, a la identidad que usa el trabajo de Spark.
El acceso a la red pública debe estar habilitado en el área de trabajo de Azure Synapse para garantizar la correcta ejecución del trabajo de Spark mediante un grupo de Synapse Spark conectado.
En un área de trabajo Azure Synapse, que tiene una red virtual administrada asociada, si un grupo de Synapse Spark adjunto apunta a un grupo Synapse Spark debe configurar un punto de conexión privado administrado a una cuenta de almacenamiento para garantizar el acceso a los datos.
El proceso de Spark sin servidor admite la red virtual administrada de Azure Machine Learning. Si se aprovisiona una red administrada para el proceso de Spark sin servidor, también se deben aprovisionar los puntos de conexión privados correspondientes para la cuenta de almacenamiento para garantizar el acceso a los datos.

Enviar un trabajo independiente de Spark

Después de realizar los cambios necesarios para la parametrización de script de Python, puede usar un script de Python desarrollado con limpieza y transformación de datos interactivos para enviar un trabajo por lotes, a fin de procesar un mayor volumen de datos. Puede enviar un trabajo por lotes de limpieza y transformación de datos como un trabajo de Spark independiente.

Un trabajo de Spark requiere un script de Python que tome argumentos. Puede modificar el código de Python desarrollado originalmente a partir de la limpieza y transformación de datos interactivos para desarrollar ese script. Aquí se muestra un script de Python de ejemplo.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Nota:

En este ejemplo de código de Python se usa pyspark.pandas. Esto solo se admite en el entorno de ejecución Spark versión 3.2 o posteriores.

Este script toma dos argumentos, que pasan la ruta de acceso de los datos de entrada y la carpeta de salida, respectivamente:

--titanic_data
--wrangled_data

SE APLICA A:Extensión de ML de la CLI de Azure v2 (actual)

Para crear un trabajo, puede definir un trabajo de Spark independiente como un archivo de especificación YAML, que puede usar en el comando az ml job create, con el parámetro --file. Defina estas propiedades en el archivo YAML:

Propiedades de YAML en la especificación del trabajo de Spark

type: establecer en spark.
code: define la ubicación de la carpeta que contiene código fuente y scripts para este trabajo.
entry: define el punto de entrada del trabajo. Debe cubrir una de estas propiedades:
- file: define el nombre del script de Python que actúa como punto de entrada para el trabajo.
- class_name: define el nombre de la clase que actúa como punto de entrada para el trabajo.
py_files: define una lista de archivos .zip, .eggo .py, que se colocarán en PYTHONPATH, para la ejecución correcta del trabajo. Esta propiedad es opcional.
jars: define una lista de archivos .jar que se van a incluir en el controlador de Spark y el ejecutor CLASSPATH, para la ejecución correcta del trabajo. Esta propiedad es opcional.
files: define una lista de archivos que se deben copiar en el directorio de trabajo de cada ejecutor para la ejecución correcta del trabajo. Esta propiedad es opcional.
archives: define una lista de archivos que se deben extraer en el directorio de trabajo de cada ejecutor para la ejecución correcta del trabajo. Esta propiedad es opcional.
conf: define estas propiedades de controlador y ejecutor de Spark:
- spark.driver.cores: el número de núcleos para el controlador de Spark.
- spark.driver.memory: memoria asignada para el controlador spark, en gigabytes (GB).
- spark.executor.cores: el número de núcleos para el ejecutor de Spark.
- spark.executor.memory: asignación de memoria para el ejecutor de Spark, en gigabytes (GB).
- spark.dynamicAllocation.enabled : si los ejecutores deben asignarse de forma dinámica, como valor True o False.
- Si la asignación dinámica de ejecutores está habilitada, define estas propiedades:
  - spark.dynamicAllocation.minExecutors: el número mínimo de instancias de ejecutores de Spark para la asignación dinámica.
  - spark.dynamicAllocation.maxExecutors: el número máximo de instancias de ejecutores de Spark para la asignación dinámica.
- Si la asignación dinámica de ejecutores está deshabilitada, define esta propiedad:
  - spark.executor.instances: el número de instancias del ejecutor de Spark.
environment: un entorno de Azure Machine Learning para ejecutar el trabajo.
args: argumentos de la línea de comandos que se deben pasar al script de Python del punto de entrada del trabajo. Revise el archivo de especificación YAML que se proporciona aquí para obtener un ejemplo.
resources: esta propiedad define los recursos que va a usar un proceso de Spark sin servidor de Azure Machine Learning. Usa las siguientes propiedades:
- instance_type: el tipo de instancia de proceso que se va a usar para el grupo de Spark. Actualmente se admiten los siguientes tipos de instancias:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version: define la versión del entorno de ejecución de Spark. Actualmente se admiten las siguientes versiones del entorno de ejecución de Spark:
  - 3.3
  - 3.4
    Importante
    
    Azure Synapse Runtime para Apache Spark: Anuncios
    - Entorno de ejecución de Azure Synapse para Apache Spark 3.3:
      
      Fecha de anuncio de EOLA: 12 de julio de 2024
      
      Fecha de finalización del soporte: 31 de marzo de 2025. Luego de esta fecha, el tiempo de ejecución se desactivará.
    - Para obtener soporte técnico continuo y un rendimiento óptimo, se recomienda migrar a Apache Spark 3.4.
Este es un archivo YAML de ejemplo:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute: esta propiedad define el nombre de un grupo de Synapse Spark asociado, como se muestra en este ejemplo:
```
compute: mysparkpool
```
inputs: esta propiedad define entradas para el trabajo de Spark. Las entradas de un trabajo de Spark pueden ser un valor literal o datos almacenados en un archivo o carpeta.
- Un valor literal puede ser un número, un valor booleano o una cadena. Aquí se muestran algunos ejemplos:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Los datos almacenados en un archivo o carpeta deben definirse con estas propiedades:
  - type: establece esta propiedad en uri_file, o uri_folder, para los datos de entrada contenidos en un archivo o una carpeta, respectivamente.
  - path: el URI de los datos de entrada, como azureml://, abfss://o wasbs://.
  - mode: establece esta propiedad en direct. En este ejemplo se muestra la definición de una entrada de trabajo, a la que se puede hacer referencia como $${inputs.titanic_data}}:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs: esta propiedad define las salidas del trabajo de Spark. Los resultados de un trabajo de Spark se pueden escribir en un archivo o en una ubicación de carpeta, que se define mediante las tres propiedades siguientes:
- type: puede establecer esta propiedad en uri_file o uri_folder, para escribir datos de salida en un archivo o una carpeta respectivamente.
- path: esta propiedad define el URI de ubicación de salida, como azureml://, abfss://o wasbs://.
- mode: establece esta propiedad en direct. En este ejemplo se muestra la definición de una salida de trabajo, que puede hacer referencia como ${{outputs.wrangled_data}}:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity: esta propiedad opcional define la identidad usada para enviar este trabajo. Puede tener valores user_identity y managed. Si la especificación YAML no define una identidad, el trabajo de Spark usa la identidad predeterminada.

Trabajo de Spark independiente

En este ejemplo de especificación YAML se muestra un trabajo de Spark independiente. Usa un proceso de Spark sin servidor de Azure Machine Learning:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

Nota:

Para usar un grupo de Spark Synapse asociado, defina la propiedad compute en el archivo de especificación YAML de ejemplo mostrado anteriormente en lugar de la propiedad resources.

Puede usar los archivos YAML mostrados anteriormente en el comando az ml job create, con el parámetro --file, para crear un trabajo de Spark independiente como se muestra:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Puede ejecutar el comando anterior desde:

terminal de una instancia de proceso de Azure Machine Learning.
un terminal de Visual Studio Code conectado a una instancia de proceso de Azure Machine Learning.
el equipo local que tiene instalada la CLI de Azure Machine Learning.

SE APLICA A: SDK de Python azure-ai-ml v2 (actual)

Trabajo de Spark independiente mediante el SDK de Python

Para crear un trabajo de Spark independiente, use la función azure.ai.ml.spark con estos parámetros:

name: el nombre del trabajo de Spark.
display_name: el nombre para mostrar del trabajo de Spark que se debe mostrar en la interfaz de usuario y en otro lugar.
code: la ubicación de la carpeta que contiene el código fuente y los scripts de este trabajo.
entry: el punto de entrada del trabajo. Debe ser un diccionario que defina el punto de entrada de archivo.
py_files: una lista de archivos .zip, .eggo .py, que se colocarán en PYTHONPATH, para la ejecución correcta del trabajo. Este parámetro es opcional.
jars: una lista de archivos .jar que se van a incluir en el controlador de Spark y el ejecutor CLASSPATH, para la ejecución correcta del trabajo. Este parámetro es opcional.
files: una lista de archivos que se deben copiar en el directorio de trabajo de cada ejecutor para la ejecución correcta del trabajo. Este parámetro es opcional.
archives: una lista de archivos que se extraen y colocan automáticamente en el directorio de trabajo de cada ejecutor para la ejecución correcta del trabajo. Este parámetro es opcional.
conf: diccionario con pares clave-valor de configuración de Spark predefinidos.
driver_cores: el número de núcleos asignados para el controlador spark.
driver_memory: memoria asignada para el controlador de Spark, con un sufijo de unidad de tamaño k, m, g o t (por ejemplo, 512m o 2g).
executor_cores: el número de núcleos asignados para el ejecutor de Spark.
executor_memory: memoria asignada para el ejecutor de Spark, con un sufijo de unidad de tamaño k, m, g o t (por ejemplo, 512m o 2g).
dynamic_allocation_enabled: parámetro booleano que define si los ejecutores deben asignarse dinámicamente o no.
- Si la asignación dinámica de ejecutores está habilitada, define estos parámetros:
  - dynamic_allocation_min_executors: el número mínimo de instancias de ejecutores de Spark para la asignación dinámica.
  - dynamic_allocation_max_executors: el número máximo de instancias de ejecutores de Spark para la asignación dinámica.
- Si la asignación dinámica de ejecutores está deshabilitada, define estos parámetros:
  - executor_instances: el número de instancias del ejecutor de Spark.
  - environment: el entorno de Azure Machine Learning que ejecuta el trabajo. Este parámetro debería aprobarse:
    - un objeto de azure.ai.ml.entities.Environment, o un nombre de entorno de Azure Machine Learning (cadena).
args: argumentos de la línea de comandos que se deben pasar al script de Python del punto de entrada del trabajo. Vea el código de ejemplo que se proporciona aquí para obtener un ejemplo.
resources: los recursos que va a usar un proceso de Spark sin servidor de Azure Machine Learning. Este parámetro debe pasar un diccionario con:
- instance_type: una clave que define el tipo de instancia de proceso que se va a usar para el proceso de Spark sin servidor. Actualmente se admiten los siguientes tipos de instancias:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version: una clave que define la versión del entorno de ejecución de Spark. Actualmente se admiten las siguientes versiones del entorno de ejecución de Spark:
  - 3.3.0
  - 3.4.0
    Importante
    
    Azure Synapse Runtime para Apache Spark: Anuncios
    - Entorno de ejecución de Azure Synapse para Apache Spark 3.3:
      
      Fecha de anuncio de EOLA: 12 de julio de 2024
      
      Fecha de finalización del soporte: 31 de marzo de 2025. Luego de esta fecha, el tiempo de ejecución se desactivará.
    - Para obtener soporte técnico continuo y un rendimiento óptimo, se recomienda migrar a Apache Spark 3.4.
compute: el nombre de un grupo de Spark de Synapse asociado.
inputs: las entradas para el trabajo de Spark. Este parámetro debe pasar un diccionario con asignaciones de los enlaces de datos de entrada usados en el trabajo. Este diccionario tiene estos valores:
- una clave de diccionario define el nombre de entrada
- un valor correspondiente podría ser:
  - un valor literal: entero, número, booleano o cadena.
  - un objeto de clase azure.ai.ml.Input, con los parámetros siguientes:
    - type: establece este parámetro en uri_file, o uri_folder, para los datos de entrada contenidos en un archivo o una carpeta, respectivamente.
    - path: el URI de los datos de entrada, como azureml://, abfss://o wasbs://.
    - mode: establece este parámetro en direct.
outputs: las salidas del trabajo de Spark. Este parámetro debe pasar un diccionario con asignaciones de los enlaces de datos de salida usados en el trabajo. Este diccionario tiene estos valores:
- una clave de diccionario define el nombre de entrada
- un valor correspondiente es un objeto de clase azure.ai.ml.Output, con los parámetros siguientes:
  - type: establece este parámetro en uri_file o uri_folder, para un archivo de datos de salida o una carpeta respectivamente.
  - path: el URI de los datos de entrada, como azureml://, abfss:// o wasbs://.
  - mode: establece este parámetro en direct.
identity: un parámetro opcional que define la identidad utilizada para el envío de este trabajo. Los valores permitidos son un objeto de clase
- azure.ai.ml.entities.UserIdentityConfiguration o
- azure.ai.ml.entities.ManagedIdentityConfiguration para la identidad de usuario y la identidad administrada respectivamente. Si no se define ninguna identidad, el trabajo de Spark usa la identidad predeterminada.

Puede enviar un trabajo de Spark independiente desde:

un cuaderno de Azure Machine Learning conectado a una instancia de proceso de Azure Machine Learning.
Visual Studio Code conectado a una instancia de proceso de Azure Machine Learning.
el equipo local que tiene instalado el SDK de Azure Machine Learning para Python.

Este fragmento de código de Python muestra la creación de un trabajo de Spark independiente, con un proceso de Spark sin servidor de Azure Machine Learning, mediante la identidad de usuario.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Nota:

Para usar un grupo de Synapse Spark asociado, defina el parámetro compute en la función azure.ai.ml.spark en lugar de resources.

Envío de un trabajo de Spark independiente desde la interfaz de usuario de Estudio de Azure Machine Learning (versión preliminar)

Importante

Esta característica actualmente está en su versión preliminar pública. Esta versión preliminar se ofrece sin un Acuerdo de Nivel de Servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas.

Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

Para enviar un trabajo de Spark independiente mediante la interfaz de usuario de Estudio de Azure Machine Learning:

Captura de pantalla que muestra la creación de un nuevo trabajo de Spark en Estudio de Azure Machine Learning interfaz de usuario.

Cerca de la parte superior derecha de la pantalla, seleccione + Nuevo.
Selecciona Trabajo de Spark (versión preliminar).
En la pantalla Proceso:

Recorte de pantalla que muestra la pantalla de selección de proceso para un nuevo trabajo de Spark en la UI de Estudio de Azure Machine Learning.

En Seleccionar tipo de proceso, seleccione Spark sin servidor para proceso de Spark sin servidor o Proceso asociado para un grupo de Spark conectado.
Si seleccionó Spark sin servidor:
1. Selecciona tamaño de la máquina virtual.
2. Selecciona Versión del runtime de Spark.
  Importante
  
  Azure Synapse Runtime para Apache Spark: Anuncios
  - Entorno de ejecución de Azure Synapse para Apache Spark 3.3:
    - Fecha de anuncio de EOLA: 12 de julio de 2024
    - Fecha de finalización del soporte: 31 de marzo de 2025. Luego de esta fecha, el tiempo de ejecución se desactivará.
  - Para obtener soporte técnico continuo y un rendimiento óptimo, se recomienda migrar a Apache Spark 3.4.
Si seleccionas Proceso adjunto:
1. Seleccione un grupo de Synapse Spark asociado en el menú Seleccionar proceso conectado a Azure Machine Learning.
Seleccione Next (Siguiente).
En la pantalla Entorno:
1. Selecciona uno de los entornos disponibles en la lista. La selección del entorno es opcional.
2. Seleccione Next (Siguiente).
En la pantalla Configuración del trabajo:
1. Especifica un Nombre de trabajo. Puedes usar el Nombre del trabajo, que se genera de forma predeterminada.
2. Selecciona un Nombre de experimento del menú desplegable.
3. En Agregar etiquetas, proporciona el Nombre y el valor y, a continuación, selecciona Agregar. Añadir etiquetas es opcional.
4. En la sección Código:
  1. Selecciona una opción en la lista desplegable Elegir ubicación de código. Elige Cargar archivo local o almacenamiento de blobs predeterminado del área de trabajo de Azure Machine Learning.
  2. Si has seleccionado Escoger ubicación del código:
    - Seleccione Examinar y vaya a la ubicación que contiene el archivo de código o los archivos del equipo local.
  3. Si has seleccionado Blob Storage predeterminado del área de trabajo de Azure Machine Learning:
    1. En Ruta de acceso al archivo de código que se va a cargar, selecciona Examinar.
    2. En la pantalla emergente titulada Ruta de acceso, selecciona la ruta de acceso de los archivos de código en el almacenamiento de blobs predeterminado del área de trabajo.
    3. Seleccione Guardar.
  4. Escribe el nombre del archivo Entry para el trabajo independiente. Este archivo debería contener el código Python que toma argumentos.
  5. Para agregar otro archivo o archivos de Python que el trabajo independiente requiera en tiempo de ejecución, seleccione + Agregar archivo en archivos Py y escriba el nombre del archivo .zip, .eggo .py que se va a colocar en PYTHONPATH para la ejecución correcta del trabajo. Se pueden añadir varios archivos.
  6. Para agregar el archivo o los archivos Jar que el trabajo independiente requiera en tiempo de ejecución, seleccione + Agregar archivo en Jars y escriba el nombre del .jar archivo que se incluirá en el controlador de Spark. Además, agregue el ejecutor CLASSPATH para la ejecución correcta del trabajo. Se pueden añadir varios archivos.
  7. Para agregar el archivo o los archivos que se deban extraer en el directorio de trabajo de cada ejecutor para la ejecución correcta del trabajo, seleccione + Agregar archivo en Archivos y escriba el nombre del archivo. Se pueden agregar varios archivos.
  8. Añadir archivos Py, Jars y Archives es opcional.
  9. Para agregar una entrada, selecciona + Agregar entrada en Entradas e
    1. Escribe un nombre de entrada. La entrada debe hacer referencia a este nombre más adelante en los argumentos.
    2. Selecciona un tipo de entrada.
    3. Para el tipo Datos:
      1. Selecciona Tipo de datos como Archivo o Carpeta.
      2. Selecciona Origen de datos como Cargar desde el almacén de datos local, el URI o el almacén de datos.
        
        En Cargar desde local, selecciona Examinar en Ruta de acceso para cargar, para elegir el archivo o la carpeta de entrada.
        
        En URI, escriba un URI de datos de almacenamiento (por ejemplo URI abfss:// o wasbs://) o escriba un recurso de datos azureml://.
        
        Para el almacén de datos:
        
        Selecciona un almacén de datos en el menú desplegable.
        
        En Ruta de acceso a datos, selecciona Examinar.
        
        En la pantalla emergente titulada Ruta de acceso, selecciona la ruta de acceso de los archivos de código en el almacenamiento de blobs predeterminado del área de trabajo.
        
        Seleccione Guardar.
      3. En tipo Integer, escribe un valor entero como Valor de entrada.
      4. En tipo Número, escribe un valor numérico como Valor de entrada.
      5. En tipo Boolean, selecciona True o False como Valor de entrada.
      6. En tipo String, escribe una cadena como Valor de entrada.
    4. Para agregar una entrada, selecciona + Agregar salida en Salidas y
      1. Escribe un alias de salida. La salida debe hacer referencia a este nombre más adelante en los Argumentos.
      2. Selecciona Tipo de salida como Archivo o Carpeta.
      3. En Destino de URI de salida, escriba un URI de datos de almacenamiento (por ejemplo, URI abfss:// o wasbs://), o escriba un recurso de datos azureml://.
    5. Escribe Argumentos mediante los nombres definidos en los campos Nombre de entrada y Nombre de salida de los pasos anteriores, así como los nombres de los argumentos de entrada y salida usados en el archivo de entrada de script de Python. Por ejemplo, si el nombre de entrada y el nombre de salida se definen como job_input y job_output, y los argumentos se agregan en el archivo Entry como se muestra aquí
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
    entonces, escribe Argumentos como --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}.
    1. En la sección Configuraciones de Spark:
      1. Para Executor size (Tamaño del ejecutor):
        
        Escribe el número de núcleos de ejecutor y memoria del ejecutor (GB) en gigabytes.
        
        En Ejecutores asignados dinámicamente, selecciona la opción Deshabilitado o Habilitado.
        
        Si la asignación dinámica de ejecutores es Deshabilitada, escribe el número de instancias de Ejecutor.
        
        Si la asignación dinámica de ejecutores está habilitada, usa el control deslizante para seleccionar el número mínimo y máximo de ejecutores.
      2. Para Driver size (tamaño del ejecutor):
        
        Escriba el número de núcleos de controlador y memoria (GB) del controlador en gigabytes.
        
        Escriba los pares de nombre y valor para cualquier configuración adicional y, a continuación, seleccione Agregar. Opcionalmente, puede proporcionar configuraciones adicionales.
      3. Seleccione Next (Siguiente).
  10. En la pantalla Revisar:
    1. Revise la especificación del trabajo antes de enviarla.
    2. Selecciona Crear para enviar el trabajo de Spark independiente.

Componente de Spark en un trabajo de canalización

Un componente de Spark ofrece la flexibilidad de usar el mismo componente en varias canalizaciones de Azure Machine Learning como paso de canalización.

SE APLICA A:Extensión de ML de la CLI de Azure v2 (actual)

La sintaxis de YAML para un componente de Spark es similar a la sintaxis de YAML para la especificación del trabajo de Spark de la mayoría de las maneras. Estas propiedades se definen de forma diferente en la especificación YAML del componente spark:

name: el nombre del componente de Spark.
version: la versión del componente de Spark.
display_name: el nombre del componente de Spark que se va a mostrar en la interfaz de usuario y en otro lugar.
description: descripción del componente de Spark.
inputs: esta propiedad es similar a la propiedad inputs descrita en sintaxis YAML para la especificación del trabajo de Spark, salvo que no define la propiedad path. Este fragmento de código muestra un ejemplo de la propiedad del componente inputs Spark:
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs: esta propiedad es similar a la propiedad outputs descrita en sintaxis YAML para la especificación del trabajo de Spark, salvo que no define la propiedad path. Este fragmento de código muestra un ejemplo de la propiedad del componente outputs Spark:
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Nota:

Un componente de Spark no define las propiedades identity, ni compute, ni resources. El archivo de especificación YAML de canalización define estas propiedades.

Este archivo de especificación YAML proporciona un ejemplo de un componente de Spark:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Puede usar el componente de Spark definido en el archivo de especificación YAML anterior en un trabajo de canalización de Azure Machine Learning. Visite el recurso de esquema YAML del trabajo de canalización para obtener más información sobre la sintaxis de YAML que define un trabajo de canalización. En este ejemplo se muestra un archivo de especificación YAML para un trabajo de canalización, con un componente de Spark y un proceso de Spark sin servidor de Azure Machine Learning:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

Nota:

Para usar un grupo de Synapse Spark asociado, defina la propiedad compute en el archivo de especificación YAML de ejemplo mostrado anteriormente en lugar de la propiedad resources.

Puede usar el archivo de especificación YAML anterior en el comando az ml job create, mediante el parámetro --file, para crear un trabajo de canalización como se muestra:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Puede ejecutar el comando anterior desde:

el terminal de una instancia de proceso de Azure Machine Learning.
el terminal de Visual Studio Code, conectado a una instancia de proceso de Azure Machine Learning.
el equipo local que tiene instalada la CLI de Azure Machine Learning.

SE APLICA A: SDK de Python azure-ai-ml v2 (actual)

La creación de una canalización de Azure Machine Learning con un componente de Spark implica la creación de canalizaciones de Azure Machine Learning a partir de componentes, mediante el SDK de Python. Se crea un componente de Spark mediante la función azure.ai.ml.spark. Los parámetros de función se definen casi de la misma manera que para el trabajo de Spark independiente. Estos parámetros se definen de forma diferente para el componente Spark:

name: el nombre del componente de Spark.
display_name: el nombre del componente de Spark que se muestra en la interfaz de usuario y en otro lugar.
inputs: este parámetro es similar al parámetro inputs descrito para el trabajo de Spark independiente, excepto que se crea una instancia de la clase azure.ai.ml.Input sin el parámetro path.
outputs: este parámetro es similar al parámetro outputs descrito para el trabajo de Spark independiente, excepto que se crea una instancia de la clase azure.ai.ml.Output sin el parámetro path.

Nota:

Un componente de Spark creado mediante la función azure.ai.ml.spark no define los parámetros identity, ni compute, ni resources. La canalización de Azure Machine Learning define estos parámetros.

Puede enviar un trabajo de canalización con un componente de Spark desde:

un cuaderno de Azure Machine Learning conectado a una instancia de proceso de Azure Machine Learning.
Visual Studio Code conectado a una instancia de proceso de Azure Machine Learning.
el equipo local que tiene instalado el SDK de Azure Machine Learning para Python.

En este fragmento de código de Python se muestra el uso de una identidad administrada, junto con la creación de un trabajo de canalización de Azure Machine Learning. Además, se muestra el uso de un componente de Spark y un proceso de Synapse administrado (automático) de Azure Machine Learning:

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Nota:

Para usar un grupo de Synapse Spark asociado, defina el parámetro compute en la función azure.ai.ml.spark en lugar del parámetro resources. Por ejemplo, en el ejemplo de código mostrado anteriormente, defina spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" en lugar de definir spark_step.resources.

Solución de problemas de trabajos de Spark

Para solucionar problemas de un trabajo de Spark, puede acceder a los registros generados para ese trabajo en Estudio de Azure Machine Learning. Para ver los registros de un trabajo de Spark:

Vaya a Trabajos desde el panel izquierdo en la interfaz de usuario de Estudio de Azure Machine Learning
Seleccione la pestaña Todos los trabajos
Seleccione el valor Nombre para mostrar del trabajo
En la página de detalles del trabajo, seleccione la pestaña Salida y registros
En el explorador de archivos, expanda la carpeta registros y, a continuación, expanda la carpeta azureml
Acceda a los registros de trabajos de Spark dentro de las carpetas del controlador y del administrador de bibliotecas

Nota:

Para solucionar problemas de trabajos de Spark creados durante la limpieza y transformación de datos interactivos en una sesión de cuaderno, seleccione Detalles del trabajo cerca de la esquina superior derecha de la interfaz de usuario del cuaderno. Se crea un trabajo de Spark desde una sesión interactiva de cuaderno bajo el nombre de experimentoejecuciones de cuaderno.

Compartir a través de

Envío de trabajos de Spark en Azure Machine Learning

Requisitos previos

Asociación de identidades administradas asignadas por el usuario mediante la CLI v2

Asociación de identidades administradas asignadas por el usuario mediante ARMClient

Enviar un trabajo independiente de Spark

Propiedades de YAML en la especificación del trabajo de Spark

Trabajo de Spark independiente

Componente de Spark en un trabajo de canalización

Solución de problemas de trabajos de Spark

Pasos siguientes

Comentarios

Recursos adicionales

Asociación de identidades administradas asignadas por el usuario mediante `ARMClient`