Soumettre des travaux Spark dans Azure Machine Learning

Article
09/03/2024

S’APPLIQUE À :Extension Azure CLI v2 (actuelle)Kit de développement logiciel (SDK) Python azure-ai-ml v2 (version actuelle)

Azure Machine Learning prend en charge la soumission de tâches d’apprentissage automatique autonomes et la création de pipelines d’apprentissage automatique, qui impliquent plusieurs étapes de flux de travail d’apprentissage automatique. Azure Machine Learning gère à la fois la création de tâches Spark autonomes et la création de composants Spark réutilisables que les pipelines Azure Machine Learning peuvent utiliser. Cet article vous apprend à soumettre des tâches Spark avec :

L’interface utilisateur Azure Machine Learning studio
Interface CLI Azure Machine Learning
Kit de développement logiciel (SDK) Azure Machine Learning

Pour plus d’informations sur les concepts d’Apache Spark dans Azure Machine Learning, consultez cette ressource.

Prérequis

S’APPLIQUE À : Extension Azure CLI ml v2 (actuelle)

Un abonnement Azure : si vous n’en possédez pas, créez un compte gratuit avant de commencer.
Un espace de travail Azure Machine Learning. Consultez Créer des ressources d’espace de travail.
Créer une instance de calcul Azure Machine Learning.
Installez l’interface CLI d’Azure Machine Learning.
(Facultatif) : Pool Synapse Spark attaché dans l’espace de travail Azure Machine Learning.

Remarque

Pour en savoir plus sur l’accès aux ressources lors de l’utilisation du calcul Spark serverless Azure Machine Learning et du pool Synapse Spark attaché, consultez Garantir l’accès aux ressources pour les travaux Spark.
Azure Machine Learning fournit un pool de quotas partagé à partir duquel tous les utilisateurs peuvent accéder au quota de calcul pour effectuer des tests pendant une période limitée. Lorsque vous utilisez le calcul Spark serverless, Azure Machine Learning vous permet d’accéder à ce quota partagé pendant une courte période.

Attacher une identité managée affectée par l’utilisateur à l’aide de l’interface CLI v2

Créez un fichier YAML définissant l’identité managée affectée par l’utilisateur, qui doit être attachée à l’espace de travail :

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

Avec le paramètre --file, utilisez le fichier YAML dans la commande az ml workspace update pour joindre l’identité managée affectée par l’utilisateur :
```
az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml
```

Attacher une identité managée affectée par l’utilisateur à l’aide de `ARMClient`

Installez ARMClient, un simple outil de ligne de commande qui permet d’appeler l’API Azure Resource Manager.

Créez un fichier JSON définissant l’identité managée affectée par l’utilisateur, qui doit être attachée à l’espace de travail :

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Exécutez la commande suivante dans l’invite PowerShell ou l’invite de commandes pour attacher l’identité managée affectée par l’utilisateur à l’espace de travail.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Remarque

Pour garantir l’exécution réussie de la tâche Spark, attribuez les rôles Contributeur et Contributeur aux données Blob du stockage, sur le compte de stockage Azure utilisé pour l’entrée et la sortie des données, à l’identité utilisée par la tâche Spark.
L’accès au réseau public doit être activé dans l’espace de travail Azure Synapse pour garantir la réussite de l’exécution du travail Spark à l’aide d’un pool Synapse Spark attaché.
Si un pool Synapse Spark attaché pointe vers un pool Synapse Spark dans un espace de travail Azure Synapse auquel est associé un réseau virtuel managé, un point de terminaison privé managé vers un compte de stockage doit être configuré pour garantir l’accès aux données.
Le calcul Spark serverless prend en charge un réseau virtuel managé Azure Machine Learning. Si un réseau managé est provisionné pour le calcul Spark serverless, les points de terminaison privés correspondants pour le compte de stockage doivent également être provisionnés pour garantir l’accès aux données.

Soumettez un travail Spark autonome

Un script Python développé par data wrangling interactif peut être utilisé pour soumettre une tâche par lots afin de traiter un plus grand volume de données, après avoir apporté les modifications nécessaires au paramétrage du script Python. Un traitement par lots simple basé sur le data wrangling peut être soumis comme travail Spark autonome.

Un travail Spark nécessite un script Python prenant des arguments que vous pouvez développer en modifiant le code Python développé à partir du data wrangling interactif. Un exemple de script Python est présenté ici.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Remarque

Cet exemple de code Python utilise pyspark.pandas. Seul le runtime Spark version 3.2 ou ultérieure le prend en charge.

Le script ci-dessus prend deux arguments (--titanic_data et --wrangled_data) qui transfèrent le chemin des données d’entrée et du dossier de sortie, respectivement.

S’APPLIQUE À : Extension Azure CLI ml v2 (actuelle)

Pour créer une tâche, un travail Spark autonome peut être défini sous la forme d’un fichier de spécification YAML, qui peut être utilisé dans la commande az ml job create avec le paramètre --file. Définissez ces propriétés dans le fichier YAML :

Propriétés YAML dans la spécification du travail Spark

type : à définir sur spark.
code : définit l’emplacement du dossier qui contient les scripts et le code source pour ce travail.
entry : définit le point d’entrée du travail ; doit couvrir l’une des propriétés suivantes :
- file : définit le nom du script Python qui sert de point d’entrée pour le travail.
py_files : définit une liste de fichiers .zip, .eggou .py à placer dans PYTHONPATH pour réussir l’exécution du travail. Cette propriété est facultative.
jars : définit une liste de fichiers .jar à inclure dans le pilote Spark et l’exécuteur CLASSPATH pour réussir l’exécution du travail. Cette propriété est facultative.
files : définit une liste de fichiers à copier dans le répertoire de travail de chaque exécuteur pour réussir l’exécution du travail. Cette propriété est facultative.
archives : définit une liste d’archives à extraire dans le répertoire de travail de chaque exécuteur pour réussir l’exécution du travail. Cette propriété est facultative.
conf : définit les propriétés de pilote et d’exécuteur Spark suivantes :
- spark.driver.cores : nombre de cœurs pour le pilote Spark.
- spark.driver.memory : mémoire allouée au pilote Spark, en Go (gigaoctets).
- spark.executor.cores : nombre de cœurs pour l’exécuteur Spark.
- spark.executor.memory : allocation de mémoire pour l’exécuteur Spark, en Go (gigaoctets).
- spark.dynamicAllocation.enabled : valeur True ou False indiquant si les exécuteurs doivent être alloués dynamiquement ou non.
- Si l’allocation dynamique des exécuteurs est activée, définissez ces propriétés :
  - spark.dynamicAllocation.minExecutors : nombre minimal d’instances d’exécuteurs Spark pour l’allocation dynamique.
  - spark.dynamicAllocation.maxExecutors : nombre maximal d’instances d’exécuteurs Spark pour l’allocation dynamique.
- Si l’allocation dynamique d’exécuteurs est désactivée, définissez cette propriété :
  - spark.executor.instances : nombre d’instances d’exécuteur Spark.
environment : environnement Azure Machine Learning pour l’exécution du travail.
args : arguments de ligne de commande à passer au script Python du point d’entrée du travail. Pour obtenir un exemple, consultez le fichier de spécification YAML fourni ici.
resources : cette propriété définit les ressources que doit utiliser un calcul Spark serverless Azure Machine Learning. Elle utilise les propriétés suivantes :
- instance_type : type d’instance de calcul à utiliser pour le pool Spark. Actuellement, les types d’instance suivants sont pris en charge :
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version : définit la version du runtime Spark. Actuellement, les versions de runtime Spark suivantes sont prises en charge :
  - 3.3
  - 3.4
    Important
    
    Azure Synapse Runtime pour Apache Spark : annonces
    - Runtime Azure Synapse pour Apache Spark 3.3 :
      
      Date d'annonce EOLA : 12 juillet 2024
      
      Date de fin de support : 31 mars 2025. Après cette date, le runtime sera désactivé.
    - Pour une assistance continue et des performances optimales, nous vous conseillons de migrer vers Apache Spark 3.4.
Voici un exemple :
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute : cette propriété définit le nom d’un pool Spark Synapse attaché comme illustré dans cet exemple :
```
compute: mysparkpool
```
inputs : cette propriété définit les entrées pour le travail Spark. Les entrées pour un travail Spark peuvent être une valeur littérale ou des données stockées dans un fichier ou un dossier.
- Une valeur littérale peut être un nombre, une valeur booléenne ou une chaîne. En voici quelques exemples :
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Les données stockées dans un fichier ou un dossier doivent être définies avec les propriétés suivantes :
  - type : propriété à définir sur uri_file ou uri_folder pour les données d’entrée contenues dans un fichier ou dans un dossier, respectivement.
  - path : URI des données d’entrée, par exemple azureml://, abfss://ou wasbs://.
  - mode : propriété à définir sur direct. Cet exemple montre la définition d’une entrée de travail, qui peut être désignée $${inputs.titanic_data}} :
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs : cette propriété définit les sorties du travail Spark. Les sorties d’un travail Spark peuvent être écrites dans un fichier ou un emplacement de dossier, défini à l’aide des trois propriétés suivantes :
- type : cette propriété peut être définie sur uri_file ou uri_folder pour écrire les données de sortie dans un fichier ou un dossier, respectivement.
- path : cette propriété définit l’URI de l’emplacement de sortie, par exemple azureml://, abfss://ou wasbs://.
- mode : propriété à définir sur direct. Cet exemple montre la définition d’une sortie de travail, qui peut être désignée ${{outputs.wrangled_data}} :
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity : cette propriété facultative définit l’identité utilisée pour la soumission de ce travail. Elle peut avoir les valeurs user_identity et managed. Si la spécification YAML ne définit pas d’identité, le travail Spark utilise l’identité par défaut.

Travail Spark autonome

Cet exemple de spécification YAML montre un travail Spark autonome. Il utilise du calcul Spark serverless pour Azure Machine Learning :

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

Remarque

Pour utiliser un pool Synapse Spark attaché, définissez la propriété compute dans l’exemple de fichier de spécification YAML illustré précédemment, au lieu de la propriété resources.

Les fichiers YAML précédents peuvent être utilisés dans la commande az ml job create avec le paramètre --file pour créer un travail Spark autonome comme indiqué ici :

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Vous pouvez exécuter la commande ci-dessus à partir de :

terminal d’une instance de calcul Azure Machine Learning.
terminal de Visual Studio Code connecté à une instance de calcul Azure Machine Learning.
votre ordinateur local sur lequel Azure Machine Learning CLI est installé.

S’APPLIQUE À : Kit de développement logiciel (SDK) Python azure-ai-mlv2 (préversion)

Travail Spark autonome avec le SDK Python

Pour créer un travail Spark autonome, utilisez la fonction azure.ai.ml.spark avec les paramètres suivants :

name : nom du travail Spark.
display_name : nom d’affichage du travail Spark qui doit apparaître dans l’interface utilisateur et ailleurs.
code : emplacement du dossier qui contient les scripts et le code source pour ce travail.
entry : point d’entrée du travail. Il doit s’agir d’un dictionnaire qui définit le point d’entrée du fichier.
py_files : liste de fichiers .zip, .eggou .py à placer dans PYTHONPATH pour réussir l’exécution du travail. Ce paramètre est facultatif.
jars : liste de fichiers .jar à inclure dans le pilote Spark et l’exécuteur CLASSPATH pour réussir l’exécution du travail. Ce paramètre est facultatif.
files : liste de fichiers à copier dans le répertoire de travail de chaque exécuteur pour réussir l’exécution du travail. Ce paramètre est facultatif.
archives : liste d’archives qui sont automatiquement extraites et placées dans le répertoire de travail de chaque exécuteur pour réussir l’exécution du travail. Ce paramètre est facultatif.
conf : dictionnaire avec des paires clé-valeur de configuration Spark prédéfinies.
driver_cores : nombre de cœurs alloués au pilote Spark.
driver_memory : mémoire allouée au pilote Spark avec un suffixe d’unité de taille k, m, g ou t (par exemple, 512m, 2g).
executor_cores : nombre de cœurs alloués à l’exécuteur Spark.
executor_memory : mémoire allouée à l’exécuteur Spark avec un suffixe d’unité de taille k, m, g ou t (par exemple, 512m, 2g).
dynamic_allocation_enabled : paramètre booléen qui définit si les exécuteurs doivent être alloués dynamiquement ou non.
- Si l’allocation dynamique des exécuteurs est activée, définissez ces paramètres :
  - dynamic_allocation_min_executors : nombre minimal d’instances d’exécuteurs Spark pour l’allocation dynamique.
  - dynamic_allocation_max_executors : nombre maximal d’instances d’exécuteurs Spark pour l’allocation dynamique.
- Si l’allocation dynamique des exécuteurs est désactivée, définissez ces paramètres :
  - executor_instances : nombre d’instances d’exécuteur Spark.
  - environment : environnement Azure Machine Learning qui exécute le travail. Ce paramètre doit transférer :
    - un objet azure.ai.ml.entities.Environment ou un nom d’environnement Azure Machine Learning (chaîne).
args : arguments de ligne de commande à passer au script Python du point d’entrée du travail. Pour obtenir un exemple, consultez l’exemple de code fourni ici.
resources : les ressources que doit utiliser un calcul Spark serverless Azure Machine Learning. Ce paramètre doit transférer un dictionnaire avec :
- instance_type : une clé qui définit le type d’instance de calcul à utiliser pour le calcul Spark serverless. Actuellement, les types d’instance suivants sont pris en charge :
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version : clé qui définit la version du runtime Spark. Actuellement, les versions de runtime Spark suivantes sont prises en charge :
  - 3.3.0
  - 3.4.0
    Important
    
    Azure Synapse Runtime pour Apache Spark : annonces
    - Runtime Azure Synapse pour Apache Spark 3.3 :
      
      Date d'annonce EOLA : 12 juillet 2024
      
      Date de fin de support : 31 mars 2025. Après cette date, le runtime sera désactivé.
    - Pour une assistance continue et des performances optimales, nous vous conseillons de migrer vers Apache Spark 3.4.
compute : nom d’un pool Spark Synapse attaché.
inputs : entrées pour le travail Spark. Ce paramètre doit transférer un dictionnaire avec les mappages des liaisons de données d’entrée utilisées dans le travail. Ce dictionnaire a les valeurs suivantes :
- une clé de dictionnaire qui définit le nom d’entrée
- une valeur correspondante, qui peut être :
  - une valeur littérale : entier, nombre, booléen ou chaîne.
  - un objet de la classe azure.ai.ml.Input avec les paramètres suivants :
    - type : paramètre à définir sur uri_file ou uri_folder pour les données d’entrée contenues dans un fichier ou dans un dossier, respectivement.
    - path : URI des données d’entrée, par exemple azureml://, abfss://ou wasbs://.
    - mode : paramètre à définir sur direct.
outputs : sorties pour le travail Spark. Ce paramètre doit transférer un dictionnaire avec les mappages des liaisons de données de sortie utilisées dans le travail. Ce dictionnaire a les valeurs suivantes :
- une clé de dictionnaire qui définit le nom de sortie
- une valeur correspondante, qui est un objet de la classe azure.ai.ml.Output, avec les paramètres suivants :
  - type : paramètre à définir sur uri_file ou uri_folder pour un fichier de données de sortie ou un dossier, respectivement.
  - path : URI des données de sortie, par exemple azureml://, abfss://ou wasbs://.
  - mode : paramètre à définir sur direct.
identity : paramètre facultatif qui définit l’identité utilisée pour la soumission de ce travail. Les valeurs autorisées sont un objet de la classe
- azure.ai.ml.entities.UserIdentityConfiguration ou
- azure.ai.ml.entities.ManagedIdentityConfiguration pour une identité utilisateur et une identité managée, respectivement. Si aucune identité n’est définie, le travail Spark utilise l’identité par défaut.

Vous pouvez envoyer un travail Spark autonome à partir de :

un notebook Azure Machine Learning connecté à une instance de calcul Azure Machine Learning.
Visual Studio Code connecté à une instance de calcul Azure Machine Learning.
votre ordinateur local sur lequel le Kit de développement logiciel (SDK) Azure Machine Learning pour Python est installé.

Cet extrait de code Python montre la création d’un travail Spark autonome avec un calcul Spark serverless Azure Machine Learning, à l’aide d’une identité utilisateur.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Notes

Pour utiliser un pool Synapse Spark attaché, définissez le paramètre compute dans la fonction azure.ai.ml.spark au lieu de resources.

Soumettre un travail Spark autonome à partir de l’interface utilisateur Azure Machine Learning studio (préversion)

Important

Cette fonctionnalité est actuellement disponible en préversion publique. Cette préversion est fournie sans contrat de niveau de service et n’est pas recommandée pour les charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge.

Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Pour soumettre un travail Spark autonome à l’aide de l’interface utilisateur Azure Machine Learning studio :

Capture d’écran montrant la création d’un travail Spark dans l’interface utilisateur Azure Machine Learning studio.

En haut à droite de l’écran, sélectionnez + Nouveau.
Sélectionnez Travail Spark (préversion).
Dans l’écran Calcul :

Capture d’écran montrant l’écran de sélection de calcul pour un nouveau travail Spark dans l’interface utilisateur Azure Machine Learning studio.

Sous Sélectionner le type de calcul, sélectionnez Spark serverless pour un calcul Spark serverless ou Calcul attaché pour un pool Spark Synapse attaché.
Si vous avez sélectionné Spark serverless :
1. Sélectionnez une option sous Taille de l’ordinateur virtuel.
2. Sélectionnez une option sous Version d’exécution Spark.
Important

Azure Synapse Runtime pour Apache Spark : annonces
- Runtime Azure Synapse pour Apache Spark 3.3 :
  - Date d'annonce EOLA : 12 juillet 2024
  - Date de fin de support : 31 mars 2025. Après cette date, le runtime sera désactivé.
- Pour une assistance continue et des performances optimales, nous vous conseillons de migrer vers Apache Spark 3.4.
Si vous avez sélectionné Calcul attaché :
1. Sélectionnez un pool Spark Synapse attaché dans le menu Sélectionner un calcul attaché Azure Machine Learning.
Sélectionnez Suivant.
Dans l’écran Environnement :
1. Sélectionnez l’un des environnements disponibles dans la liste. La sélection de l’environnement est facultative.
2. Sélectionnez Suivant.
Dans l’écran Paramètres de travail :
1. Fournissez un nom de travail sous Nom. Vous pouvez utiliser le nom de travail généré par défaut.
2. Sélectionnez Nom de l’expérience dans le menu déroulant.
3. Sous Ajouter des étiquettes, renseignez les champs Nom et Valeur, puis sélectionnez Ajouter. L’ajout d’étiquettes est facultatif.
4. Sous la section Code :
  1. Sélectionnez une option dans la liste déroulante Choisir l’emplacement du code. Choisissez Charger un fichier local ou Azure Machine Learning stockage d’objets blob par défaut de l’espace de travail.
  2. Si vous avez sélectionné Choisir l’emplacement du code :
    - Sélectionnez Parcourir, puis accédez à l’emplacement contenant le ou les fichiers de code sur votre ordinateur local.
  3. Si vous avez sélectionné Azure Machine Learning stockage d’objets blob par défaut de l’espace de travail :
    1. Sous Chemin d’accès au fichier de code à charger, sélectionnez Parcourir.
    2. Dans l’écran contextuel intitulé Sélection du chemin, sélectionnez le chemin des fichiers de code sur le stockage d’objets blob par défaut de l’espace de travail.
    3. Sélectionnez Enregistrer.
  4. Sous Fichier d’entrée, entrez le nom du fichier d’entrée pour le travail autonome. Ce fichier doit contenir le code Python qui prend les arguments.
  5. Pour ajouter d’autres fichiers Python nécessaires au travail autonome au moment de l’exécution, sélectionnez + Ajouter un fichier sous Fichiers Py et entrez le nom du fichier .zip, .egg ou .py à placer dans PYTHONPATH afin de réussir l’exécution du travail. Vous pouvez ajouter plusieurs fichiers.
  6. Pour ajouter un ou plusieurs fichiers Jar nécessaires au travail autonome au moment de l’exécution, sélectionnez + Ajouter un fichier sous Jars et entrez le nom du fichier .jar à inclure dans le pilote Spark. Ajoutez également l'exécuteur CLASSPATH pour une exécution réussie du travail. Vous pouvez ajouter plusieurs fichiers.
  7. Pour ajouter des archives qui doivent être extraites dans le répertoire de travail de chaque exécuteur pour que le travail soit exécuté avec succès, sélectionnez + Ajouter un fichier sous Archives, et saisissez le nom de l'archive. Vous pouvez ajouter plusieurs archives.
  8. L’ajout de fichiers Py, jars et archives est facultatif.
  9. Pour ajouter une entrée, sélectionnez + Ajouter une entrée sous Entrées et
    1. Renseignez Nom d’entrée. L’entrée doit faire référence à ce nom plus loin dans arguments.
    2. Sélectionnez une option sous Type d’entrée.
    3. Pour le type Données :
      1. Sélectionnez Fichier ou Dossier pour Type de données.
      2. Sélectionnez Charger à partir d’un fichier local, URI ou Magasin de données pour Source de données.
        
        Pour Charger à partir d’un fichier local, sélectionnez Parcourir sous Chemin d’accès à charger pour choisir le fichier ou le dossier d’entrée.
        
        Pour URI, entrez un URI de données de stockage (par exemple, abfss:// ou wasbs://) ou entrez une ressource de données azureml://.
        
        Pour Magasin de données :
        
        Sélectionnez un magasin de données dans le menu déroulant.
        
        Sous Chemin d’accès aux données, sélectionnez Parcourir.
        
        Dans l’écran contextuel intitulé Sélection du chemin, sélectionnez le chemin des fichiers de code sur le stockage d’objets blob par défaut de l’espace de travail.
        
        Sélectionnez Enregistrer.
    4. Pour le type Entier, entrez une valeur entière comme Valeur d’entrée.
    5. Pour le type Nombre, entrez une valeur numérique comme Valeur d’entrée.
    6. Pour le type Booléen, sélectionnez True ou False comme Valeur d’entrée.
    7. Pour le type Chaîne, entrez une chaîne comme Valeur d’entrée.
  10. Pour ajouter une sortie, sélectionnez + Ajouter une sortie sous Sorties et
    1. Renseignez Nom de la sortie. La sortie doit faire référence à ce nom plus loin dans Arguments.
    2. Sélectionnez Fichier ou Dossier pour Type de sortie.
    3. Pour Destination de l’URI de sortie, entrez un URI de données de stockage (par exemple, abfss:// ou wasbs://) ou entrez une ressource de données azureml://.
  11. Entrez les Arguments en utilisant les noms définis dans les champs Nom d’entrée et Nom de la sortie dans les étapes précédentes ainsi que les noms des arguments d’entrée et de sortie utilisés dans le Fichier d’entrée du script Python. Par exemple, si le Nom d’entrée et le Nom de la sortie définis sont job_input et job_output et que les arguments sont ajoutés au Fichier d’entrée comme indiqué ici
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
alors entrez les Arguments comme suit : --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}. 5. Sous la section Configurations Spark : 1. Pour la taille de l’exécuteur : 1. Entrez le nombre de cœurs de l’exécuteur et de mémoire (Go) de l’exécuteur, en gigaoctets. 2. Pour les Exécuteurs alloués dynamiquement, sélectionnez l’option Désactivé ou Activé. - Si l’allocation dynamique des exécuteurs est Désactivée, entrez le nombre d’Instances d’exécuteur. - Si l’allocation dynamique des exécuteurs est Activée, utilisez le curseur pour sélectionner le nombre minimal et le nombre maximal d’exécuteurs. 1. Pour la taille du pilote : 1. Indiquez le nombre de Cœurs et la mémoire (GB) du pilote, en gigaoctets. 2. Entrez les paires Nom et Valeur pour les éventuelles Configurations supplémentaires, puis sélectionnez Ajouter. La fourniture de Configurations supplémentaires est facultative. 6. Sélectionnez Suivant.
Dans l’écran Vérifier :
1. Vérifiez la spécification du travail avant de le soumettre.
2. Sélectionnez Créer pour soumettre le travail Spark autonome.

Composant Spark dans un travail de pipeline

Un composant Spark offre la possibilité d’utiliser le même composant dans plusieurs pipelines Azure Machine Learning en tant qu’étape de pipeline.

S’APPLIQUE À : Extension Azure CLI ml v2 (actuelle)

La syntaxe YAML d’un composant Spark ressemble essentiellement à la syntaxe YAML pour la spécification d’un travail Spark. Les propriétés suivantes sont définies différemment dans la spécification YAML du composant Spark :

name : nom du composant Spark.
version : version du composant Spark.
display_name : nom du composant Spark à afficher dans l’interface utilisateur et ailleurs.
description : description du composant Spark.
inputs : propriété similaire à la propriété inputs décrite dans la section sur la syntaxe YAML pour une spécification de travail Spark, si ce n’est qu’elle ne définit pas la propriété path. Cet extrait de code montre un exemple de propriété inputs de composant Spark :
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs : propriété similaire à la propriété outputs décrite dans la section sur la syntaxe YAML pour une spécification de travail Spark, si ce n’est qu’elle ne définit pas la propriété path. Cet extrait de code montre un exemple de propriété outputs de composant Spark :
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Notes

Un composant Spark ne définit pas les propriétés identity, compute et resources. Le fichier de spécification YAML du pipeline définit ces propriétés.

Ce fichier de spécification YAML fournit un exemple de composant Spark :

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Le composant Spark défini dans le fichier de spécification YAML ci-dessus peut être utilisé dans un travail de pipeline Azure Machine Learning. Consultez Schéma YAML du travail de pipeline pour en savoir plus sur la syntaxe YAML qui définit un travail de pipeline. Cet exemple montre un fichier de spécification YAML pour un travail de pipeline, avec un composant Spark et un calcul Spark serverless Azure Machine Learning :

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

Notes

Pour utiliser un pool Synapse Spark attaché, définissez la propriété compute dans l’exemple de fichier de spécification YAML illustré ci-dessus au lieu de la propriété resources.

Le fichier de spécification YAML ci-dessus peut être utilisé dans la commande az ml job create avec le paramètre --file pour la création d’un travail de pipeline comme indiqué ici :

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Vous pouvez exécuter la commande ci-dessus à partir de :

terminal d’une instance de calcul Azure Machine Learning.
terminal de Visual Studio Code connecté à une instance de calcul Azure Machine Learning.
votre ordinateur local sur lequel Azure Machine Learning CLI est installé.

S’APPLIQUE À : Kit de développement logiciel (SDK) Python azure-ai-mlv2 (préversion)

Pour créer un pipeline Azure Machine Learning avec un composant Spark, vous devez connaître la création de pipelines Azure Machine Learning à partir de composants à l’aide du SDK Python. Un composant Spark est créé à l’aide de la fonction azure.ai.ml.spark. La définition des paramètres de la fonction est quasiment identique à celle du travail Spark autonome. Les paramètres suivants sont définis différemment pour le composant Spark :

name : nom du composant Spark.
display_name : nom du composant Spark à afficher dans l’interface utilisateur et ailleurs.
inputs : ce paramètre ressemble au paramètre inputs décrit pour le travail Spark autonome, à ceci près que la classe azure.ai.ml.Input est instanciée sans le paramètre path.
outputs : ce paramètre ressemble au paramètre outputs décrit pour le travail Spark autonome, à ceci près que la classe azure.ai.ml.Output est instanciée sans le paramètre path.

Remarque

Un composant Spark créé avec la fonction azure.ai.ml.spark ne définit pas les paramètres identity, compute ou resources. Le pipeline Azure Machine Learning définit ces paramètres.

Vous pouvez envoyer un travail de pipeline avec un composant Spark à partir de :

un notebook Azure Machine Learning connecté à une instance de calcul Azure Machine Learning.
Visual Studio Code connecté à une instance de calcul Azure Machine Learning.
votre ordinateur local sur lequel le Kit de développement logiciel (SDK) Azure Machine Learning pour Python est installé.

Cet extrait de code Python montre l’utilisation d’une identité managée ainsi que la création d’un travail de pipeline Azure Machine Learning. En outre, il montre l’utilisation d’un composant Spark et d’un calcul Synapse managé (automatique) Azure Machine Learning :

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Notes

Pour utiliser un pool Spark Synapse attaché, définissez le paramètre compute dans la fonction azure.ai.ml.spark au lieu du paramètre resources. Par exemple, dans l’exemple de code ci-dessus, définissez spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" au lieu de définir spark_step.resources.

Résolution des problèmes liés aux travaux Spark

Pour résoudre les problèmes d’un travail Spark, vous pouvez accéder aux journaux générés pour ce travail dans Azure Machine Learning studio. Pour afficher les journaux d’un travail Spark :

Accédez à Travaux dans le volet gauche de l’interface utilisateur Azure Machine Learning studio
Sélectionnez l’onglet Tous les travaux
Sélectionnez la valeur Nom d’affichage pour le travail
Dans la page des détails du travail, sélectionnez l’onglet Sortie + journaux
Dans l’Explorateur de fichiers, développez le dossier logs, puis le dossier azureml
Accéder aux journaux des travaux Spark dans les dossiers du gestionnaire de pilotes et de bibliothèques

Notes

Pour résoudre les problèmes liés aux travaux Spark créés lors du wrangling de données interactif dans une session de notebook, sélectionnez Détails du travail en haut à droite de l’interface utilisateur du notebook. Un travail Spark à partir d’une session interactive de notebook est créé sous le nom d’expérience notebook-runs.

Partager via

Soumettre des travaux Spark dans Azure Machine Learning

Prérequis

Attacher une identité managée affectée par l’utilisateur à l’aide de l’interface CLI v2

Attacher une identité managée affectée par l’utilisateur à l’aide de `ARMClient`

Soumettez un travail Spark autonome

Propriétés YAML dans la spécification du travail Spark

Travail Spark autonome

Travail Spark autonome avec le SDK Python

Soumettre un travail Spark autonome à partir de l’interface utilisateur Azure Machine Learning studio (préversion)

Composant Spark dans un travail de pipeline

Résolution des problèmes liés aux travaux Spark

Étapes suivantes

Commentaires

Ressources supplémentaires

Partager via

Soumettre des travaux Spark dans Azure Machine Learning

Prérequis

Attacher une identité managée affectée par l’utilisateur à l’aide de l’interface CLI v2

Attacher une identité managée affectée par l’utilisateur à l’aide de ARMClient

Soumettez un travail Spark autonome

Propriétés YAML dans la spécification du travail Spark

Travail Spark autonome

Composant Spark dans un travail de pipeline

Résolution des problèmes liés aux travaux Spark

Étapes suivantes

Commentaires

Ressources supplémentaires

Attacher une identité managée affectée par l’utilisateur à l’aide de `ARMClient`