Configuración de trabajos de Apache Spark en Azure Machine Learning

2024-09-04

SE APLICA A:Extensión ML de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)

La integración de Azure Machine Learning, con Azure Synapse Analytics, proporciona un acceso sencillo a la funcionalidad de computación distribuida, respaldada por Azure Synapse, para escalar trabajos de Apache Spark en Azure Machine Learning.

En este artículo, aprenderá a enviar un trabajo de Spark mediante el proceso de Spark sin servidor de Azure Machine Learning, la cuenta de almacenamiento de Azure Data Lake Storage (ADLS) Gen 2 y el paso de identidad de usuario en unos sencillos pasos.

Para más información sobre Conceptos de Apache Spark en Azure Machine Learning, visite este recurso.

Requisitos previos

SE APLICA A:Extensión de ML de la CLI de Azure v2 (actual)

Una suscripción a Azure: si aún no tiene ninguna, cree una cuenta gratuita antes de empezar.
Un área de trabajo de Azure Machine Learning. Para obtener más información, visite Creación de recursos del área de trabajo.
Una cuenta de almacenamiento de Azure Data Lake Storage (ADLS) Gen 2. Para más información, consulte Creación de una cuenta de almacenamiento de Azure Data Lake Storage (ADLS) Gen 2.
Creación de una instancia de proceso de Azure Machine Learning.
Instalación de la CLI de Azure Machine Learning.

Adición de asignaciones de roles en cuentas de almacenamiento de Azure

Antes de enviar un trabajo de Apache Spark, debemos asegurarnos de que las rutas de acceso de datos de entrada y salida sean accesibles. Asigne los roles Colaborador y Colaborador de datos de Storage Blob a la identidad del usuario que ha iniciado la sesión para habilitar el acceso de lectura y escritura.

Para asignar roles adecuados a la identidad de usuario:

Abrir Microsoft Azure Portal.
Busque y seleccione el servicio Cuentas de almacenamiento.
En la página Cuentas de almacenamiento, seleccione la cuenta de almacenamiento de Azure Data Lake Storage (ADLS) Gen 2 de la lista. Se abre una página que muestra Información general de la cuenta de almacenamiento.
Seleccione Control de acceso (IAM) en el panel izquierdo.
Seleccione Agregar asignación de roles.
Busque el rol Colaborador de datos de blobs de almacenamiento.
Seleccione el rol Colaborador de datos de Storage Blob.
Seleccione Siguiente.
Seleccione Usuario, grupo o entidad de servicio.
Seleccione + Seleccionar miembros.
En el cuadro de texto situado debajo de Seleccionar, busque la identidad del usuario.
Seleccione la identidad de usuario de la lista para que se muestra en Miembros seleccionados.
Seleccione la identidad de usuario adecuada.
Seleccione Siguiente.
Seleccione Revisar y asignar.
Repita los pasos del 2 al 13 para la asignación de roles de Colaborador de Storage Blob.

Los datos de la cuenta de almacenamiento de Azure Data Lake Storage (ADLS) Gen 2 deben ser accesibles una vez que la identidad del usuario tenga asignados los roles adecuados.

Creación de código de Python parametrizado

Un trabajo de Spark requiere un script de Python que acepte argumentos. Para compilar este script, puede modificar el código de Python desarrollado a partir de la limpieza y transformación de datos. Aquí se muestra un script de Python de ejemplo:

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Nota:

En este ejemplo de código de Python se usa pyspark.pandas, que solo admite Spark runtime versión 3.2.
Asegúrese de que el archivo titanic.py se carga en una carpeta denominada src. La carpeta src debe encontrarse en el mismo directorio donde ha creado el script o cuaderno de Python o el archivo de especificación de YAML que define el trabajo de Spark independiente.

Ese script admite dos argumentos: --titanic_data y --wrangled_data. Estos argumentos pasan la ruta de acceso de datos de entrada y la carpeta de salida, respectivamente. El script utiliza el archivo titanic.csv, disponible aquí. Cargue este archivo en un contenedor creado en la cuenta de almacenamiento de Azure Data Lake Storage (ADLS) Gen 2.

Enviar un trabajo independiente de Spark

SE APLICA A:Extensión de ML de la CLI de Azure v2 (actual)

Sugerencia

Puede enviar un trabajo de Spark desde:

el terminal de una instancia de proceso de Azure Machine Learning.
el terminal de Visual Studio Code, conectado a una instancia de proceso de Azure Machine Learning.
el equipo local que tenga instalada la CLI de Azure Machine Learning.

En este ejemplo de especificación YAML se muestra un trabajo de Spark independiente. Usa un proceso de Spark sin servidor de Azure Machine Learning el acceso directo de la identidad de usuario y un URI de datos de entrada y salida en el formato abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/<PATH_TO_DATA>. Aquí, <FILE_SYSTEM_NAME> coincide con el nombre del contenedor.

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./src 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.2"

En el archivo de especificación YAML anterior:

la propiedad code define la ruta de acceso relativa de la carpeta que contiene el archivo con parámetrostitanic.py.
La propiedad resource define los valores de instance_type y Apache Spark runtime_version que usa el proceso de Spark sin servidor. Actualmente se admiten estos valores de tipo de instancia:
- standard_e4s_v3
- standard_e8s_v3
- standard_e16s_v3
- standard_e32s_v3
- standard_e64s_v3

El archivo YAML mostrado anteriormente se puede usar en el comando az ml job create, con el parámetro --file, para crear un trabajo de Spark independiente como se muestra:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

SE APLICA A: SDK de Python azure-ai-ml v2 (actual)

Sugerencia

Puede enviar un trabajo de Spark desde:

un cuaderno de Azure Machine Learning conectado a una instancia de proceso de Azure Machine Learning.
Visual Studio Code conectado a una instancia de proceso de Azure Machine Learning.
el equipo local que tiene instalado el SDK de Azure Machine Learning para Python.

Este fragmento de código de Python muestra una creación de trabajos de Spark independiente. Usa un proceso de Spark sin servidor de Azure Machine Learning el acceso directo de la identidad de usuario y un URI de datos de entrada y salida en el formato abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/<PATH_TO_DATA>. Aquí, el <FILE_SYSTEM_NAME> coincide con el nombre del contenedor.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.2.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

En el ejemplo de código anterior:

El parámetro code define la ruta de acceso relativa de la carpeta que contiene archivo con parámetrostitanic.py.
el parámetro resource que define instance_type y el apache Spark runtime_version que usa el proceso de Spark sin servidor (versión preliminar). Actualmente se admiten estos valores de tipo de instancia:
- Standard_E4S_V3
- Standard_E8S_V3
- Standard_E16S_V3
- Standard_E32S_V3
- Standard_E64S_V3

Importante

Esta característica actualmente está en su versión preliminar pública. Esta versión preliminar se ofrece sin un Acuerdo de Nivel de Servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas.

Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

En primer lugar, cargue el código Python parametrizado titanic.py en el contenedor de almacenamiento Azure Blob para el almacén de datos predeterminado workspaceblobstore del área de trabajo. Para enviar un trabajo de Spark independiente mediante la interfaz de usuario de Estudio de Azure Machine Learning:

Seleccione Nuevo, que está cerca de la parte superior derecha de la pantalla.
Selecciona Trabajo de Spark (versión preliminar).
En la pantalla Proceso:
1. En Seleccionar tipo de proceso, seleccione Spark sin servidor para el proceso sin servidor de Spark.
2. Selecciona tamaño de la máquina virtual. Actualmente se admiten estos tipos de instancia:
  - Standard_E4s_v3
  - Standard_E8s_v3
  - Standard_E16s_v3
  - Standard_E32s_v3
  - Standard_E64s_v3
3. En Versión del runtime de Spark, seleccione Spark 3.2.
4. Seleccione Siguiente.
En la pantalla Entorno, seleccione Siguiente.
En la pantalla Configuración del trabajo:
1. En Nombre, proporcione un nombre para el trabajo o use el nombre del trabajo que se genera de forma predeterminada.
2. Seleccione un nombre de experimento en el menú desplegable.
3. En Agregar etiquetas, proporciona el Nombre y el valor y, a continuación, selecciona Agregar. Añadir etiquetas es opcional.
4. En la sección Código:
  1. Seleccione Blob Storage predeterminado del área de trabajo de Azure Machine Learning en la lista desplegable Elegir ubicación de código.
  2. En Ruta de acceso al archivo de código que se va a cargar, selecciona Examinar.
  3. En la pantalla emergente titulada selección ruta de acceso, seleccione la ruta de acceso del archivo de código titanic.py en el área de trabajo workspaceblobstore almacén de datos predeterminado.
  4. Seleccione Guardar.
  5. Entrada titanic.py como nombre del Archivo de entrada para el trabajo independiente.
  6. Para agregar una entrada, selecciona + Agregar entrada en Entradas e
    1. En Nombre de entrada, escriba titanic_data. La entrada debe hacer referencia a este nombre más adelante en los argumentos.
    2. En Tipo de entrada, seleccione Datos.
    3. En Tipo de datos, seleccione Archivo.
    4. En Origen de datos, seleccione URI.
    5. Escriba un URI de datos de Azure Data Lake Storage (ADLS) Gen 2 para el archivo titanic.csv en el formato abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/<PATH_TO_DATA>. Aquí, <FILE_SYSTEM_NAME> coincide con el nombre del contenedor.
  7. Para agregar una entrada, selecciona + Agregar salida en Salidas y
    1. En Nombre de salida, escriba wrangled_data. La salida debe hacer referencia a este nombre más adelante en los argumentos.
    2. En Tipo de salida, seleccione Carpeta.
    3. En Destino de URI de salida, escriba un URI de carpeta de Azure Data Lake Storage (ADLS) Gen 2 en el formato abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/<PATH_TO_DATA>. Aquí, <FILE_SYSTEM_NAME> coincide con el nombre del contenedor.
  8. En Argumentos, escriba --titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}.
5. En la sección Configuraciones de Spark:
  1. Para Executor size (Tamaño del ejecutor):
    1. Escriba 2 como número de Núcleos del ejecutor y 2 como Memoria (GB) del ejecutor.
    2. En Ejecutores asignados dinámicamente, seleccione Deshabilitado.
    3. En Instancias del ejecutor, escriba 2.
  2. En Tamaño del controlador, escriba 1 como número de Núcleos de controlador y 2 como Memoria (GB) de controlador.
6. Seleccione Siguiente.
En la pantalla Revisar:
1. Revisa la especificación del trabajo antes de enviarlo.
2. Selecciona Crear para enviar el trabajo de Spark independiente.

Nota:

Un trabajo independiente enviado desde la interfaz de usuario de Studio, mediante un proceso de Spark sin servidor de Azure Machine Learning, tiene como valor predeterminado el acceso directo de identidad de usuario para el acceso a datos.

Sugerencia

Es posible que tenga un grupo de Synapse Spark existente en el área de trabajo de Azure Synapse. Para usar un grupo de Synapse Spark existente, siga las instrucciones para asociar un grupo de Synapse Spark en el área de trabajo de Azure Machine Learning.

Compartir a través de

Configuración de trabajos de Apache Spark en Azure Machine Learning

Requisitos previos

Adición de asignaciones de roles en cuentas de almacenamiento de Azure

Creación de código de Python parametrizado

Enviar un trabajo independiente de Spark

Pasos siguientes

Comentarios

Recursos adicionales