Inviare processi Spark in Azure Machine Learning

Articolo
04/29/2024

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)Python SDK azure-ai-ml v2 (corrente)

Azure Machine Learning supporta l'invio di processi di apprendimento automatico autonomi e la creazione di pipeline di apprendimento automatico che coinvolgono più passaggi del flusso di lavoro di apprendimento automatico. Azure Machine Learning gestisce sia la creazione di processi Spark autonomi che la creazione di componenti Spark riutilizzabili che possono essere usati dalle pipeline di Azure Machine Learning. Questo articolo mostra come inviare processi Spark usando:

Interfaccia utente di Studio di Azure Machine Learning
Interfaccia della riga di comando di Azure Machine Learning
SDK di Azure Machine Learning

Per altre informazioni su Apache Spark in Azure Machine Learning, vedere questa risorsa.

Prerequisiti

SI APPLICA A: estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

Sottoscrizione di Azure; se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
Un'area di lavoro di Azure Machine Learning. Vedere Creare le risorse dell'area di lavoro.
Creare un'istanza di ambiente di calcolo di Azure Machine Learning.
Installare l'interfaccia della riga di comando di Azure Machine Learning.
(facoltativo): un pool di Spark per Synapse collegato all'area di lavoro di Azure Machine Learning.

Nota

Per altre informazioni sull'accesso alle risorse durante l'uso dell’ambiente di calcolo Spark serverless di Azure Machine Learning e del pool di Spark per Synapse collegato, vedere Garantire l'accesso alle risorse ai processi Spark.
Azure Machine Learning offre un pool di quote condivise da cui tutti gli utenti possono accedere alla quota di calcolo per eseguire i test per un periodo di tempo limitato. Quando si usa l’ambiente di calcolo Spark serverless, Azure Machine Learning consente di accedere a questa quota condivisa per un breve periodo di tempo.

Collegare un'identità gestita assegnata dall'utente tramite l'interfaccia della riga di comando v2

Creare un file YAML che definisce l'identità gestita assegnata dall'utente che deve essere collegata all'area di lavoro:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

Con il parametro --file usare il file YAML nel comandoaz ml workspace update per collegare l'identità gestita assegnata dall'utente:

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

Collegare un'identità gestita assegnata dall'utente usando `ARMClient`

Installare ARMClient, un semplice strumento da riga di comando che richiama l'API di Azure Resource Manager.

Creare un file JSON che definisce l'identità gestita assegnata dall'utente che deve essere collegata all'area di lavoro:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Per collegare l'identità gestita assegnata dall'utente all'area di lavoro, eseguire il comando seguente nel prompt di PowerShell o nel prompt dei comandi.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Nota

Per garantire la corretta esecuzione del processo Spark assegnare i ruoli Collaboratore e Collaboratore ai dati dei BLOB di archiviazione nell'account di archiviazione di Azure usato per l'input e l'output dei dati all'identità usata dal processo Spark
L'accesso alla rete pubblica deve essere abilitato nell'area di lavoro di Azure Synapse per garantire la corretta esecuzione del processo Spark usando un pool di Spark per Synapse collegato.
Se un pool di Spark per Synapse collegato punta a un pool di Synapse Spark in un'area di lavoro di Azure Synapse con una rete virtuale gestita associata, è necessario configurare un endpoint privato gestito per l'account di archiviazione per garantire l'accesso ai dati.
L'ambiente di calcolo Spark serverless supporta la rete virtuale gestita di Azure Machine Learning. Se si esegue il provisioning di una rete gestita per l’ambiente di calcolo Spark serverless, è necessario eseguire il provisioning degli endpoint privati corrispondenti agli account di archiviazione per garantire l'accesso ai dati.

Inviare un processo Spark autonomo

Dopo aver apportato le modifiche necessarie per la parametrizzazione degli script Python, è possibile usare uno script Python sviluppato dal data wrangling interattivo per inviare un processo batch per elaborare un volume di dati più grande. Un processo batch di data wrangling semplice può essere inviato come processo Spark autonomo.

Un processo Spark richiede uno script Python che accetta argomenti che è possibile sviluppare modificando il codice Python sviluppato per il data wrangling interattivo. Di seguito è riportato uno script Python di esempio.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Nota

Questo esempio di codice Python usa pyspark.pandas. Ciò è supportato solo dal runtime Spark versione 3.2 o successiva.

Lo script precedente accetta due argomenti --titanic_data e --wrangled_data, che passano rispettivamente il percorso dei dati di input e della cartella di output.

SI APPLICA A: estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

Per creare un processo è possibile definire un processo Spark autonomo come file di specifica YAML, che può essere usato nel comando az ml job create con il parametro--file. Definire queste proprietà nel file YAML:

Proprietà YAML nella specifica del processo Spark

type : impostare su spark.
code : definisce il percorso della cartella che contiene il codice sorgente e gli script per questo processo.
entry : definisce il punto di ingresso per il processo. Deve coprire una di queste proprietà:
- file : definisce il nome dello script Python che serve da punto di ingresso per il processo.
py_files : definisce un elenco di file .zip, .egg o .py da includere in PYTHONPATH per l'esecuzione corretta del processo. Questa proprietà è facoltativa.
jars : definisce un elenco di file .jar da includere nel driver Spark e nell'executor CLASSPATH per l'esecuzione corretta del processo. Questa proprietà è facoltativa.
files : definisce un elenco di file che devono essere copiati nella directory di lavoro di ogni executor per l'esecuzione corretta del processo. Questa proprietà è facoltativa.
archives : definisce un elenco di archivi che devono essere estratti nella directory di lavoro di ogni executor per l'esecuzione corretta del processo. Questa proprietà è facoltativa.
conf : definisce queste proprietà del driver Spark e dell'executor:
- spark.driver.cores: numero di core per il driver Spark.
- spark.driver.memory: memoria allocata per il driver Spark in gigabyte (GB).
- spark.executor.cores: numero di core per l'executor Spark.
- spark.executor.memory: memoria allocata per l'executor Spark in gigabyte (GB).
- spark.dynamicAllocation.enabled - indica se gli executor devono essere allocati in modo dinamico, come valore di True o di False.
- Se l'allocazione dinamica degli executor è abilitata, definire queste proprietà:
  - spark.dynamicAllocation.minExecutors : numero minimo di istanze degli executor Spark per l'allocazione dinamica.
  - spark.dynamicAllocation.maxExecutors : numero massimo di istanze degli executor Spark per l'allocazione dinamica.
- Se l'allocazione dinamica degli executor è disabilitata, definire questa proprietà:
  - spark.executor.instances : numero di istanze dell'executor Spark.
environment : un ambiente di Azure Machine Learning per eseguire il processo.
args : gli argomenti della riga di comando che devono essere passati allo script Python del punto di ingresso del processo. Per un esempio, vedere il file di specifica YAML fornito qui.
resources : questa proprietà definisce le risorse da usare in un ambiente di calcolo Spark serverless di Azure Machine Learning. Usa le proprietà seguenti:
- instance_type : tipo di istanza di calcolo da usare per il pool di Spark. Attualmente sono supportati i tipi di istanza seguenti:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version : definisce la versione del runtime di Spark. Attualmente sono supportate le versioni di runtime di Spark seguenti:
  - 3.3
  - 3.4
    Importante
    
    Runtime di Azure Synapse per Apache Spark: annunci
    - Runtime di Azure Synapse per Apache Spark 3.3:
      
      Data dell’annuncio EOLA: 12 luglio 2024
      
      Data di fine supporto: 31 marzo 2025. Dopo questa data il runtime sarà disabilitato.
    - Per usufruire di un supporto continuo e di prestazioni ottimali,è consigliabile eseguire la migrazione ad Apache Spark 3.4.
Questo è un esempio:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute : questa proprietà definisce il nome di un pool di Spark per Synapse collegato, come illustrato in questo esempio:
```
compute: mysparkpool
```
inputs : questa proprietà definisce gli input per il processo Spark. Gli input per un processo Spark possono essere un valore letterale o dati archiviati in un file o in una cartella.
- Un valore letterale può essere un numero, un valore booleano o una stringa. Di seguito sono riportati alcuni esempi:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- I dati archiviati in un file o in una cartella devono essere definiti usando queste proprietà:
  - type : impostare questa proprietà suuri_file o uri_folder per i dati di input contenuti rispettivamente in un file o in una cartella.
  - path - URI dei dati di input, ad esempio azureml://, abfss:// o wasbs://.
  - mode: impostare questa proprietà su direct. Questo esempio mostra la definizione di un input del processo, a cui è possibile fare riferimento come $${inputs.titanic_data}}:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs : questa proprietà definisce gli output del processo Spark. Gli output di un processo Spark possono essere scritti in un file o in un percorso di cartella, definiti usando le tre proprietà seguenti:
- type : questa proprietà può essere impostata su uri_file o uri_folder per la scrittura di dati di output rispettivamente in un file o in una cartella.
- path : questa proprietà definisce l'URI del percorso di output, ad esempio azureml://, abfss:// o wasbs://.
- mode: impostare questa proprietà su direct. Questo esempio mostra la definizione di un output del processo, a cui è possibile fare riferimento come: ${{outputs.wrangled_data}}
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity : questa proprietà facoltativa definisce l'identità usata per inviare questo processo. Può avere i valori user_identity e managed. Se la specifica YAML non definisce un'identità, il processo Spark usa l'identità predefinita.

Processo Spark autonomo

Questa specifica YAML di esempio mostra un processo Spark autonomo. Usa un ambiente di calcolo Spark serverless di Azure Machine Learning:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

Nota

Per usare un pool di Spark per Synapse collegato definire la proprietà compute nel file di specifica YAML di esempio mostrato in precedenza, anziché nella proprietà resources.

I file YAML mostrati in precedenza possono essere usati nel comando az ml job create con il parametro --file per creare un processo Spark autonomo, come mostrato di seguito:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

È possibile eseguire il comando precedente da:

terminale di un'istanza di ambiente di calcolo di Azure Machine Learning.
terminale di Visual Studio Code connesso a un'istanza di ambiente di calcolo di Azure Machine Learning.
un computer locale in cui è installata l’ interfaccia della riga di comando di Azure Machine Learning.

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

Processo Spark autonomo con Python SDK

Per creare un processo Spark autonomo, usare la funzione azure.ai.ml.spark con questi parametri:

name : nome del processo Spark.
display_name : nome visualizzato del processo Spark che deve essere visualizzato nell'interfaccia utente e altrove.
code : percorso della cartella che contiene il codice sorgente e gli script per questo processo.
entry : punto di ingresso per il processo. Il punto di ingresso del file deve essere definito da un dizionario.
py_files : elenco di file.zip, .egg o .py da inserire in PYTHONPATH, per l'esecuzione corretta del processo. Il parametro è facoltativo.
jars : elenco di file .jar da includere nel driver Spark e nell'executor CLASSPATHper l’esecuzione corretta del processo. Il parametro è facoltativo.
files : elenco di file che devono essere copiati nella directory di lavoro di ogni executor per l'esecuzione corretta del processo. Il parametro è facoltativo.
archives : elenco di archivi estratti e inseriti automaticamente nella directory di lavoro di ogni executor per l'esecuzione corretta del processo. Il parametro è facoltativo.
conf : dizionario con coppie chiave-valore della configurazione Spark predefinite.
driver_cores: numero di core allocati per il driver Spark.
driver_memory: memoria allocata per il driver Spark, con suffisso dell’unità di misura k, m, g o t (ad esempio, 512m, 2g).
executor_cores: numero di core allocati per l'executor Spark.
executor_memory: memoria allocata per l'executor Spark, con suffisso dell’unità di misura k, m g o t (ad esempio, 512m, 2g).
dynamic_allocation_enabled : parametro booleano che definisce se gli executor devono essere allocati in modo dinamico.
- Se l'allocazione dinamica degli executor è abilitata, definire questi parametri:
  - dynamic_allocation_min_executors : numero minimo di istanze degli executor Spark per l'allocazione dinamica.
  - dynamic_allocation_max_executors : numero massimo di istanze degli executor Spark per l'allocazione dinamica.
- Se l'allocazione dinamica degli executor è disabilitata, definire questi parametri:
  - executor_instances : numero di istanze dell'executor Spark.
  - environment : ambiente di Azure Machine Learning che esegue il processo. Questo parametro deve essere superiore:
    - di un oggetto di azure.ai.ml.entities.Environment o di un nome di ambiente di Azure Machine Learning (stringa).
args : gli argomenti della riga di comando che devono essere passati allo script Python del punto di ingresso del processo. A titolo dimostrativo, vedere il codice di esempio fornito qui.
resources : le risorse da usare in un ambiente di calcolo Spark serverless di Azure Machine Learning. Questo parametro deve passare un dizionario con:
- instance_type - chiave che definisce il tipo di istanza di calcolo da usare per l’ambiente di calcolo Spark serverless. Attualmente sono supportati i tipi di istanza seguenti:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version : chiave che definisce la versione del runtime di Spark. Attualmente sono supportate le versioni di runtime di Spark seguenti:
  - 3.3.0
  - 3.4.0
    Importante
    
    Runtime di Azure Synapse per Apache Spark: annunci
    - Runtime di Azure Synapse per Apache Spark 3.3:
      
      Data dell’annuncio EOLA: 12 luglio 2024
      
      Data di fine supporto: 31 marzo 2025. Dopo questa data il runtime sarà disabilitato.
    - Per usufruire di un supporto continuo e di prestazioni ottimali,è consigliabile eseguire la migrazione ad Apache Spark 3.4.
compute : nome di un pool di Spark per Synapse collegato.
inputs : gli input per il processo Spark. Questo parametro deve passare un dizionario con mapping dei data binding di input usati nel processo. Questo dizionario ha i valori seguenti:
- una chiave del dizionario definisce il nome di input
- un valore corrispondente può essere:
  - valore letterale: numero intero, valore booleano o stringa.
  - oggetto della classe azure.ai.ml.Input con i parametri seguenti:
    - type : impostare questo parametro su uri_file o uri_folder per i dati di input contenuti rispettivamente in un file o in una cartella.
    - path - URI dei dati di input, ad esempio azureml://, abfss:// o wasbs://.
    - mode : impostare questo parametro su direct.
outputs : output per il processo Spark. Questo parametro deve passare un dizionario con mapping dei data binding di output usati nel processo. Questo dizionario ha i valori seguenti:
- una chiave del dizionario definisce il nome di output
- un valore corrispondente è un oggetto della classe azure.ai.ml.Output con i parametri seguenti:
  - type : impostare questo parametro su uri_file o uri_folder, rispettivamente per un file di dati di output o una cartella.
  - path - URI dei dati di output, ad esempio azureml://, abfss:// o wasbs://.
  - mode : impostare questo parametro su direct.
identity : parametro facoltativo che definisce l'identità usata per l'invio di questo processo. I valori consentiti sono un oggetto della classe
- azure.ai.ml.entities.UserIdentityConfiguration oppure
- azure.ai.ml.entities.ManagedIdentityConfiguration rispettivamente per identità utente e identità gestita. Se non viene definita alcuna identità, il processo Spark usa l'identità predefinita.

È possibile inviare un processo Spark autonomo da:

un notebook di Azure Machine Learning connesso a un'istanza di ambiente di calcolo di Azure Machine Learning.
Visual Studio Code connesso a un'istanza di ambiente di calcolo di Azure Machine Learning.
un computer locale in cui è installato Azure Machine Learning SDK per Python.

Questo frammento di codice Python mostra la creazione di un processo Spark autonomo in un ambiente di calcolo Spark serverless di Azure Machine Learning usando l'identità utente.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Nota

Per usare un pool di Spark per Synapse collegato definire il parametro compute nella azure.ai.ml.spark funzione, anziché resources.

Per inviare un processo Spark autonomo usando l'interfaccia utente di Studio di Azure Machine Learning (anteprima)

Importante

Questa funzionalità è attualmente in anteprima pubblica. Questa versione di anteprima viene fornita senza contratto di servizio, pertanto se ne sconsiglia l’uso per i carichi di lavoro in ambienti di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate.

Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Per inviare un processo Spark autonomo usando l'interfaccia utente di Studio di Azure Machine Learning:

Screenshot che mostra la creazione di un nuovo processo Spark nell'interfaccia utente di studio di Azure Machine Learning.

Nella parte superiore destra della schermata selezionare + Nuovo.
Selezionare Processo Spark (anteprima).
Nella schermata Calcolo:

Screenshot che mostra la schermata di selezione del calcolo per un nuovo processo Spark nell'interfaccia utente di studio di Azure Machine Learning.

In Seleziona tipo di calcolo selezionare Spark serverless per ambiente di calcolo Spark serverless oppure Calcolo collegato per un pool di Spark per Synapse collegato.
Se è stata selezionata l'opzione Spark serverless:
1. Selezionare Dimensioni della macchina virtuale.
2. Selezionare Versione del runtime di Spark.
Importante

Runtime di Azure Synapse per Apache Spark: annunci
- Runtime di Azure Synapse per Apache Spark 3.3:
  - Data dell’annuncio EOLA: 12 luglio 2024
  - Data di fine supporto: 31 marzo 2025. Dopo questa data il runtime sarà disabilitato.
- Per usufruire di un supporto continuo e di prestazioni ottimali,è consigliabile eseguire la migrazione ad Apache Spark 3.4.
Se è stata selezionata l'opzione Calcolo collegato:
1. Selezionare un pool di Spark per Synapse collegato dal menu Seleziona l'ambiente di calcolo collegato di Azure Machine Learning.
Selezionare Avanti.
Nella schermata Ambiente:
1. Selezionare uno degli ambienti disponibili dall'elenco. La selezione dell'ambiente è facoltativa.
2. Selezionare Avanti.
Nella schermata Impostazioni processo:
1. Specificare il Nome del processo. È possibile usare il Nome del processo generato per impostazione predefinita.
2. Selezionare un Nome esperimento nel menu a discesa.
3. In Aggiungi tag indicare Nome e Valore e quindi selezionare Aggiungi. L'aggiunta di tag è facoltativa.
4. Nella sezione Codice:
  1. Selezionare un'opzione dall'elenco a discesa Scegli percorso del codice. Scegliere Carica file locale o Archiviazione BLOB predefinita dell'area di lavoro di Azure Machine Learning.
  2. Se è stata selezionata l'opzione Scegli percorso del codice :
    - Selezionare Sfogliae passare al percorso contenente i file di codice nel computer locale.
  3. Se è stata selezionata l’opzione Archiviazione BLOB predefinita dell'area di lavoro di Azure Machine Learning:
    1. In Percorso del file di codice da caricare selezionare Sfoglia.
    2. Nella schermata popup denominata Selezione percorsoselezionare il percorso dei file di codice nell'archivio BLOB predefinito dell'area di lavoro.
    3. Seleziona Salva.
  4. Immettere il nome del File di voce per il processo autonomo. Questo file deve contenere il codice Python che accetta argomenti.
  5. Per aggiungere qualsiasi altro file Python richiesto dal processo autonomo in fase di esecuzione selezionare + Aggiungi file in File Py e immettere il nome del file .zip .eggo .py da inserire in PYTHONPATH per l'esecuzione corretta del processo. È possibile aggiungere più file.
  6. Per aggiungere eventuali file JAR richiesti dal processo autonomo in fase di esecuzione selezionare + Aggiungi file in File JAR e immettere il nome del file .jar da includere nel driver Spark. Aggiungere anche l'executor CLASSPATH per l'esecuzione corretta del processo. È possibile aggiungere più file.
  7. Per aggiungere archivi che devono essere estratti nella directory di lavoro di ogni executor per l'esecuzione corretta del processo, selezionare + Aggiungi file in Archivie immettere il nome dell'archivio. È possibile aggiungere più archivi.
  8. L'aggiunta di File Py, JAR e Archivi è facoltativa.
  9. Per aggiungere un input selezionare + Aggiungi input in Input e
    1. Immettere un Nome di input. L'input deve fare riferimento a questo nome in un secondo momento in Argomenti.
    2. Selezionare un tipo di input.
    3. Per tipo Dati:
      1. Selezionare Tipo di dati come File o Cartella.
      2. Selezionare Origine dati come Carica da locale, URI, o Datastore.
        
        In Carica da locale selezionare Sfoglia in Percorso da caricare per scegliere il file o la cartella di input.
        
        Come URI immettere un URI dei dati di archiviazione (ad esempio, l’URIabfss:// o wasbs://) o immettere un asset di dati azureml://.
        
        In Archivio dati:
        
        Selezionare un archivio dati dal menu a discesa.
        
        In Percorso dei datiselezionare Sfoglia.
        
        Nella schermata popup denominata Selezione percorsoselezionare il percorso dei file di codice nell'archivio BLOB predefinito dell'area di lavoro.
        
        Seleziona Salva.
    4. Per tipo Numero interoimmettere un valore intero come valore di input..
    5. In tipo Numero immettere un valore numerico come valore di input..
    6. Per tipo Booleano selezionare Vero o Falso come valoredi input.
    7. Per tipo Stringa immettere una stringa come valoredi input.
  10. Per aggiungere un output selezionare + Aggiungi output in Output e
    1. Immettere un Nome di output. L'output deve fare riferimento a questo nome in un secondo momento in Argomenti.
    2. Selezionare Tipo di output come File o Cartella.
    3. Per Destinazione dell’URI di outputimmettere un URI dei dati di archiviazione (ad esempio, l’URI abfss:// o wasbs://) o immettere un asset di dati azureml://.
  11. Immettere Argomenti usando i nomi definiti nei campi Nome di input e Nome di output nei passaggi precedenti e i nomi degli argomenti di input a di output usati nello script Python File di voce. Ad esempio, se il Nome di Input e il Nome di output vengono definiti come job_input e job_output, e gli argomenti vengono aggiunti nel File di voce, come illustrato qui
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
Quindi immettere Argomenti come --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}. 5. Nella sezione Configurazioni di Spark : 1. Come Dimensioni dell’executor: 1. Immettere il numero di Core dell’executor e la Memoria (GB) in gigabyte dell’executor. 2. In Executor allocati dinamicamente selezionare l'opzione Disabilitato o Abilitato. - Se l'allocazione dinamica degli executor è Disabilitata, immettere il numero di Istanze dell’executor. - Se l'allocazione dinamica degli executor è Abilitata, usare il dispositivo di scorrimento per selezionare il numero minimo e massimo di executor. 1. Come Dimensioni del driver: 1. Immettere il numero di Core del driver e la Memoria (GB) in gigabyte del driver. 2. Immettere coppie di Nome e Valore per eventuali Configurazioni aggiuntivee quindi selezionare Aggiungi. L’indicazione di Configurazioni aggiuntive è facoltativa. 6. Selezionare Avanti.
Nella schermata Rivedi:
1. Esaminare la specifica del processo prima di inviarla.
2. Selezionare Crea per inviare il processo Spark autonomo.

Componente Spark in un processo della pipeline

Un componente Spark offre la flessibilità di usare lo stesso componente in più Pipeline di Azure Machine Learning come passaggio della pipeline.

SI APPLICA A: estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

La sintassi YAML per un componente Spark è simile alla sintassi YAML per la specifica del processo Spark da più punti di vista. Queste proprietà sono definite in modo diverso nella specifica YAML del componente Spark:

name : nome del componente Spark.
version : versione del componente Spark.
display_name : nome del componente Spark da visualizzare nell'interfaccia utente e altrove.
description : la descrizione del componente Spark.
inputs : questa proprietà è simile alla proprietà inputs descritta nella sintassi YAML per la specifica del processo Spark, ad eccezione del fatto che non definisce la proprietà path. Questo frammento di codice mostra un esempio della proprietà del componente Sparkinputs:
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs : questa proprietà è simile alla proprietà outputs descritta nella sintassi YAML per la specifica del processo Spark, ad eccezione del fatto che non definisce la proprietàpath. Questo frammento di codice mostra un esempio della proprietà del componente Sparkoutputs:
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Nota

Un componente Spark non definisce le proprietà identity, compute o resources. Il file di specifica YAML della pipeline definisce queste proprietà.

Questo file di specifica YAML fornisce un esempio di un componente Spark:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Il componente Spark definito nel file di specifica YAML precedente può essere usato in un processo della pipeline di Azure Machine Learning. Per altre informazioni sulla sintassi YAML che definisce un processo della pipeline, vedere Schema YAML del processo della pipeline. Questo esempio mostra un file di specifica YAML per un processo della pipeline con un componente Spark e un ambiente di calcolo Spark serverless di Azure Machine Learning:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

Nota

Per usare un pool di Spark per Synapse collegato definire la proprietà compute nel file di specifica YAML di esempio mostrato in precedenza, anziché la proprietà resources.

Il file di specifica YAML precedente può essere usato nel comando az ml job create usando il parametro --file per creare un processo della pipeline come mostrato di seguito:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

È possibile eseguire il comando precedente da:

terminale di un'istanza di ambiente di calcolo di Azure Machine Learning.
terminale di Visual Studio Code connesso a un'istanza di ambiente di calcolo di Azure Machine Learning.
un computer locale in cui è installata l’ interfaccia della riga di comando di Azure Machine Learning.

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

Per creare una pipeline di Azure Machine Learning con un componente Spark è necessario sapere come creare le Pipeline di Azure Machine Learning da componenti usando Python SDK. Viene creato un componente Spark usando la funzione azure.ai.ml.spark. I parametri della funzione sono definiti quasi come per il processo Spark autonomo. Questi parametri sono definiti in modo diverso per il componente Spark:

name : nome del componente Spark.
display_name : nome del componente Spark visualizzato nell'interfaccia utente e altrove.
inputs : questo parametro è simile al parametro inputs descritto per il processo Spark autonomo, ad eccezione del fatto che viene creata un'istanza della classe azure.ai.ml.Input senza il parametro path.
outputs : questo parametro è simile al parametro outputs descritto per il processo Spark autonomo, ad eccezione del fatto che viene creata un'istanza della classe azure.ai.ml.Output senza il parametro path.

Nota

Un componente Spark creato tramite la funzione azure.ai.ml.spark non definisce i parametri identity, compute o resources. La pipeline di Azure Machine Learning definisce questi parametri.

È possibile inviare un processo della pipeline con un componente Spark da:

un notebook di Azure Machine Learning connesso a un'istanza di ambiente di calcolo di Azure Machine Learning.
Visual Studio Code connesso a un'istanza di ambiente di calcolo di Azure Machine Learning.
un computer locale in cui è installato Azure Machine Learning SDK per Python.

Questo frammento di codice Python mostra l'uso di un'identità gestita, insieme alla creazione di un processo della pipeline di Azure Machine Learning. Inoltre, mostra l'uso di un componente Spark e di un ambiente di calcolo (automatico) gestito per Synapse di Azure Machine Learning:

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Nota

Per usare un pool di Spark per Synapse collegato definire il parametro compute nella funzione azure.ai.ml.spark, anziché il parametro resources. Nell'esempio di codice mostrato in precedenza provare a definire spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" anziché definire spark_step.resources.

Risoluzione dei problemi relativi ai processi Spark

Per risolvere i problemi relativi a un processo Spark è possibile accedere ai log generati per tale processo in Studio di Azure Machine Learning. Per visualizzare i log per un processo Spark:

Passare a Processi dal pannello sinistro nell'interfaccia utente di Studio di Azure Machine Learning
Selezionare la scheda Tutti i processi
Selezionare il valore Nome visualizzato per il processo
Nella pagina dei dettagli del processo selezionare la scheda Output e log
In Esplora file espandere la cartella log e quindi espandere la cartella azureml
Accedere ai log dei processi Spark all'interno delle cartelle del driver e di Gestione librerie

Nota

Per risolvere i problemi relativi ai processi Spark creati durante il data wrangling interattivo in una sessione del notebook selezionare Dettagli del processo nell'angolo superiore destro dell'interfaccia utente del notebook. I processi Spark di una sessione interattiva del notebook vengono creati con il nome dell'esperimento esecuzioni del notebook.

Condividi tramite

Inviare processi Spark in Azure Machine Learning

Prerequisiti

Collegare un'identità gestita assegnata dall'utente tramite l'interfaccia della riga di comando v2

Collegare un'identità gestita assegnata dall'utente usando `ARMClient`

Inviare un processo Spark autonomo

Proprietà YAML nella specifica del processo Spark

Processo Spark autonomo

Processo Spark autonomo con Python SDK

Per inviare un processo Spark autonomo usando l'interfaccia utente di Studio di Azure Machine Learning (anteprima)

Componente Spark in un processo della pipeline

Risoluzione dei problemi relativi ai processi Spark

Passaggi successivi

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Inviare processi Spark in Azure Machine Learning

Prerequisiti

Collegare un'identità gestita assegnata dall'utente tramite l'interfaccia della riga di comando v2

Collegare un'identità gestita assegnata dall'utente usando ARMClient

Inviare un processo Spark autonomo

Proprietà YAML nella specifica del processo Spark

Processo Spark autonomo

Componente Spark in un processo della pipeline

Risoluzione dei problemi relativi ai processi Spark

Passaggi successivi

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive

Collegare un'identità gestita assegnata dall'utente usando `ARMClient`