Enviar trabalhos do Spark no Azure Machine Learning

Artigo
10/16/2024

APLICA-SE A:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)

O Azure Machine Learning dá suporte ao envio de trabalhos de aprendizado de máquina autônomos e à criação de pipelines de aprendizado de máquina que envolvem várias etapas de fluxo de trabalho de aprendizado de máquina. O Azure Machine Learning lida com a criação de trabalhos do Spark autônomos e a criação de componentes reutilizáveis do Spark que os pipelines do Azure Machine Learning podem usar. Neste artigo, você aprenderá como enviar trabalhos do Spark usando:

Interface do usuário do estúdio do Azure Machine Learning
CLI do Azure Machine Learning
Azure Machine Learning SDK

Para obter mais informações sobre o Apache Spark nos conceitos do Azure Machine Learning , consulte este recurso.

Pré-requisitos

APLICA-SE A: Azure CLI ml extension v2 (atual)

Uma assinatura do Azure; se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
Uma área de trabalho do Azure Machine Learning. Consulte Criar recursos do espaço de trabalho.
Crie uma instância de computação do Azure Machine Learning.
Instale a CLI do Azure Machine Learning.
(Opcional): um pool Synapse Spark anexado no espaço de trabalho do Azure Machine Learning.

Nota

Para saber mais sobre o acesso a recursos ao usar a computação do Spark sem servidor do Aprendizado de Máquina do Azure e o pool Synapse Spark anexado, consulte Garantindo o acesso a recursos para trabalhos do Spark.
O Azure Machine Learning fornece um pool de cotas compartilhadas a partir do qual todos os usuários podem acessar a cota de computação para executar testes por um tempo limitado. Quando você usa a computação do Spark sem servidor, o Aprendizado de Máquina do Azure permite que você acesse essa cota compartilhada por um curto período de tempo.

Anexar identidade gerenciada atribuída ao usuário usando a CLI v2

Crie um arquivo YAML que defina a identidade gerenciada atribuída pelo usuário que deve ser anexada ao espaço de trabalho:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

Com o --file parâmetro, use o az ml workspace update arquivo YAML no comando para anexar a identidade gerenciada atribuída ao usuário:

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

Anexar identidade gerenciada atribuída ao usuário usando `ARMClient`

Instale ARMCliento , uma ferramenta de linha de comando simples que invoca a API do Azure Resource Manager.

Crie um arquivo JSON que defina a identidade gerenciada atribuída pelo usuário que deve ser anexada ao espaço de trabalho:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Para anexar a identidade gerenciada atribuída pelo usuário ao espaço de trabalho, execute o seguinte comando no prompt do PowerShell ou no prompt de comando.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Nota

Para garantir a execução bem-sucedida do trabalho do Spark, atribua as funções de Colaborador e Colaborador de Dados do Blob de Armazenamento , na conta de armazenamento do Azure usada para entrada e saída de dados, à identidade que o trabalho do Spark usa
O Acesso à Rede Pública deve ser habilitado no espaço de trabalho do Azure Synapse para garantir a execução bem-sucedida do trabalho do Spark usando um pool Synapse Spark anexado.
Se um pool do Synapse Spark anexado apontar para um pool do Synapse Spark, em um espaço de trabalho do Azure Synapse que tenha uma rede virtual gerenciada associada a ele, um ponto de extremidade privado gerenciado para a conta de armazenamento deverá ser configurado para garantir o acesso aos dados.
A computação do Serverless Spark dá suporte à rede virtual gerenciada do Azure Machine Learning. Se uma rede gerenciada for provisionada para a computação do Spark sem servidor, os pontos de extremidade privados correspondentes para a conta de armazenamento também deverão ser provisionados para garantir o acesso aos dados.

Enviar um trabalho independente do Spark

Depois de fazer as alterações necessárias para a parametrização do script Python, um script Python desenvolvido pela disputa interativa de dados pode ser usado para enviar um trabalho em lote para processar um volume maior de dados. Um trabalho em lote de disputa de dados simples pode ser enviado como um trabalho autônomo do Spark.

Um trabalho Spark requer um script Python que usa argumentos, que pode ser desenvolvido com a modificação do código Python desenvolvido a partir de disputa de dados interativa. Um exemplo de script Python é mostrado aqui.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Nota

Este exemplo de código Python usa pyspark.pandas. Somente o tempo de execução do Spark versão 3.2 ou posterior suporta isso.

O script acima usa dois argumentos --titanic_data e --wrangled_data, que passam o caminho dos dados de entrada e da pasta de saída, respectivamente.

APLICA-SE A: Azure CLI ml extension v2 (atual)

Para criar um trabalho, um trabalho Spark autônomo pode ser definido como um arquivo de especificação YAML, que pode ser usado no az ml job create comando, com o --file parâmetro. Defina estas propriedades no arquivo YAML:

Propriedades YAML na especificação do trabalho do Spark

type - definido como spark.
code - define o local da pasta que contém o código-fonte e scripts para este trabalho.
entry - define o ponto de entrada para o trabalho. Deve abranger uma destas propriedades:
- file - define o nome do script Python que serve como ponto de entrada para o trabalho.
py_files - define uma lista de .zip, .eggou .py arquivos, a serem colocados no PYTHONPATH, para a execução bem-sucedida do trabalho. Esta propriedade é opcional.
jars - define uma lista de .jar arquivos para incluir no driver Spark, e o executor CLASSPATH, para a execução bem-sucedida do trabalho. Esta propriedade é opcional.
files - define uma lista de arquivos que devem ser copiados para o diretório de trabalho de cada executor, para a execução bem-sucedida do trabalho. Esta propriedade é opcional.
archives - define uma lista de arquivos que devem ser extraídos para o diretório de trabalho de cada executor, para a execução bem-sucedida do trabalho. Esta propriedade é opcional.
conf - define estas propriedades do driver e do executor do Spark:
- spark.driver.cores: o número de núcleos para o driver Spark.
- spark.driver.memory: memória alocada para o driver Spark, em gigabytes (GB).
- spark.executor.cores: o número de núcleos para o executor do Spark.
- spark.executor.memory: a alocação de memória para o executor Spark, em gigabytes (GB).
- spark.dynamicAllocation.enabled - se os executores devem ou não ser atribuídos dinamicamente, como um True False ou valor.
- Se a alocação dinâmica de executores estiver habilitada, defina estas propriedades:
  - spark.dynamicAllocation.minExecutors - o número mínimo de instâncias de executores Spark, para alocação dinâmica.
  - spark.dynamicAllocation.maxExecutors - o número máximo de instâncias de executores do Spark, para alocação dinâmica.
- Se a alocação dinâmica de executores estiver desativada, defina esta propriedade:
  - spark.executor.instances - o número de instâncias do executor do Spark.
environment - um ambiente do Azure Machine Learning para executar o trabalho.
args - os argumentos de linha de comando que devem ser passados para o script Python do ponto de entrada do trabalho. Consulte o arquivo de especificação YAML fornecido aqui para obter um exemplo.
resources - esta propriedade define os recursos a serem usados por uma computação do Spark sem servidor do Azure Machine Learning. Ele usa as seguintes propriedades:
- instance_type - o tipo de instância de computação a ser usado para o pool do Spark. Os seguintes tipos de instância são suportados atualmente:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version - define a versão de tempo de execução do Spark. As seguintes versões de tempo de execução do Spark são suportadas no momento:
  - 3.3
  - 3.4
    Importante
    
    Azure Synapse Runtime for Apache Spark: Anúncios
    - Azure Synapse Runtime para Apache Spark 3.3:
      
      Data de anúncio EOLA: 12 de julho de 2024
      
      Data de fim do suporte: 31 de março de 2025. Após essa data, o tempo de execução será desativado.
    - Para suporte contínuo e desempenho ideal, recomendamos a migração para o Apache Spark 3.4.
Este é um exemplo:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute - esta propriedade define o nome de um pool Synapse Spark anexado, como mostrado neste exemplo:
```
compute: mysparkpool
```
inputs - esta propriedade define entradas para o trabalho do Spark. As entradas para um trabalho do Spark podem ser um valor literal ou dados armazenados em um arquivo ou pasta.
- Um valor literal pode ser um número, um valor booleano ou uma cadeia de caracteres. Alguns exemplos são mostrados aqui:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Os dados armazenados em um arquivo ou pasta devem ser definidos usando estas propriedades:
  - type - defina esta propriedade como uri_file, ou uri_folder, para dados de entrada contidos em um arquivo ou uma pasta, respectivamente.
  - path - o URI dos dados de cálculo, como azureml://, abfss://ou wasbs://.
  - mode - defina esta propriedade como direct. Este exemplo mostra a definição de uma entrada de trabalho, que pode ser referida como $${inputs.titanic_data}}:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs - esta propriedade define as saídas de trabalho do Spark. As saídas para um trabalho do Spark podem ser gravadas em um arquivo ou em um local de pasta, que é definido usando as três propriedades a seguir:
- type - Esta propriedade pode ser definida como uri_file ou uri_folder para gravar dados de saída em um arquivo ou uma pasta, respectivamente.
- path - esta propriedade define o URI do local de saída, como azureml://, abfss://ou wasbs://.
- mode - defina esta propriedade como direct. Este exemplo mostra a definição de uma saída de trabalho, que pode ser referida como ${{outputs.wrangled_data}}:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity - Esta propriedade opcional define a identidade usada para enviar este trabalho. Pode ter user_identity e managed valorizar. Se a especificação YAML não definir uma identidade, o trabalho do Spark usará a identidade padrão.

Trabalho Standalone Spark

Este exemplo de especificação YAML mostra um trabalho Spark autônomo. Ele usa uma computação do Spark sem servidor do Azure Machine Learning:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

Nota

Para usar um pool Synapse Spark anexado, defina a compute propriedade no arquivo de especificação YAML de exemplo mostrado anteriormente, em vez da resources propriedade.

Os arquivos YAML mostrados az ml job create anteriormente podem ser usados no comando, com o --file parâmetro, para criar um trabalho Spark autônomo, conforme mostrado:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Você pode executar o comando acima de:

terminal de uma instância de computação do Azure Machine Learning.
terminal do Visual Studio Code conectado a uma instância de computação do Azure Machine Learning.
seu computador local que tenha a CLI do Azure Machine Learning instalada.

APLICA-SE A: Python SDK azure-ai-ml v2 (atual)

Trabalho Spark autônomo usando Python SDK

Para criar um trabalho Spark autônomo, use a função, com estes azure.ai.ml.spark parâmetros:

name - o nome do trabalho Spark.
display_name - o nome de exibição do trabalho do Spark que deve ser exibido na interface do usuário e em outros lugares.
code - o local da pasta que contém o código-fonte e scripts para este trabalho.
entry - o ponto de entrada para o trabalho. Deve ser um dicionário que define o ponto de entrada do arquivo.
py_files - uma lista de .zip, .eggou .py ficheiros a colocar no PYTHONPATH, para uma execução bem sucedida do trabalho. Este parâmetro é opcional.
jars - uma lista de .jar arquivos para incluir no driver e executor CLASSPATHSpark, para a execução bem-sucedida do trabalho. Este parâmetro é opcional.
files - uma lista de arquivos que devem ser copiados para o diretório de trabalho de cada executor, para a execução bem-sucedida do trabalho. Este parâmetro é opcional.
archives - uma lista de arquivos que é automaticamente extraída e colocada no diretório de trabalho de cada executor, para a execução bem-sucedida do trabalho. Este parâmetro é opcional.
conf - um dicionário com pares chave-valor de configuração Spark predefinidos.
driver_cores: o número de núcleos atribuídos ao condutor Spark.
driver_memory: a memória alocada para o driver Spark, com um sufixo kde unidade de tamanho , g mou t (por exemplo, 512m2g, ).
executor_cores: o número de núcleos alocados para o executor Spark.
executor_memory: a memória alocada para o executor Spark, com um sufixo kde unidade de tamanho , g mou t (por exemplo, 512m2g, ).
dynamic_allocation_enabled - Um parâmetro booleano que define se os executores devem ou não ser alocados dinamicamente.
- Se a alocação dinâmica de executores estiver habilitada, defina estes parâmetros:
  - dynamic_allocation_min_executors - o número mínimo de instâncias de executores Spark para alocação dinâmica.
  - dynamic_allocation_max_executors - o número máximo de instâncias de executores Spark para alocação dinâmica.
- Se a alocação dinâmica de executores estiver desativada, defina estes parâmetros:
  - executor_instances - o número de instâncias do executor do Spark.
  - environment - o ambiente do Azure Machine Learning que executa o trabalho. Este parâmetro deve passar:
    - um objeto de , ou um nome de ambiente do Azure Machine Learning (cadeia de azure.ai.ml.entities.Environmentcaracteres).
args - os argumentos de linha de comando que devem ser passados para o script Python do ponto de entrada do trabalho. Consulte o código de exemplo fornecido aqui para obter um exemplo.
resources - os recursos a serem usados por uma computação do Azure Machine Learning sem servidor do Spark. Este parâmetro deve passar um dicionário com:
- instance_type - uma chave que define o tipo de instância de computação a ser usado para a computação do Spark sem servidor. Os seguintes tipos de instância são suportados atualmente:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version - uma chave que define a versão de tempo de execução do Spark. As seguintes versões de tempo de execução do Spark são suportadas no momento:
  - 3.3.0
  - 3.4.0
    Importante
    
    Azure Synapse Runtime for Apache Spark: Anúncios
    - Azure Synapse Runtime para Apache Spark 3.3:
      
      Data de anúncio EOLA: 12 de julho de 2024
      
      Data de fim do suporte: 31 de março de 2025. Após essa data, o tempo de execução será desativado.
    - Para suporte contínuo e desempenho ideal, recomendamos a migração para o Apache Spark 3.4.
compute - o nome de uma piscina Synapse Spark anexada.
inputs - os inputs para o trabalho Spark. Este parâmetro deve passar por um dicionário com mapeamentos das ligações de dados de entrada usadas no trabalho. Este dicionário tem estes valores:
- Uma chave de dicionário define o nome de entrada
- Um valor correspondente pode ser:
  - Um valor literal: inteiro, número, booleano ou string.
  - um objeto de classe azure.ai.ml.Input, com os seguintes parâmetros:
    - type - definir este parâmetro como uri_file ou uri_folder, para os dados de entrada contidos num ficheiro ou numa pasta, respectivamente.
    - path - o URI dos dados de cálculo, como azureml://, abfss://ou wasbs://.
    - mode - defina este parâmetro como direct.
outputs - as saídas para o trabalho Spark. Este parâmetro deve passar por um dicionário com mapeamentos das ligações de dados de saída usadas no trabalho. Este dicionário tem estes valores:
- Uma chave de dicionário define o nome de saída
- Um valor correspondente é um objeto de classe azure.ai.ml.Output, com os seguintes parâmetros:
  - type - defina este parâmetro como uri_file ou uri_folder, para um ficheiro de dados de saída ou uma pasta, respectivamente.
  - path - o URI dos dados de saída, como azureml://, abfss://ou wasbs://.
  - mode - defina este parâmetro como direct.
identity - um parâmetro opcional que define a identidade utilizada para a submissão deste trabalho. Os valores permitidos são um objeto de classe
- azure.ai.ml.entities.UserIdentityConfiguration ou
- azure.ai.ml.entities.ManagedIdentityConfiguration para identidade de usuário e identidade gerenciada, respectivamente. Se nenhuma identidade for definida, o trabalho do Spark usará a identidade padrão.

Você pode enviar um trabalho independente do Spark de:

um Bloco de Anotações do Azure Machine Learning conectado a uma instância de computação do Azure Machine Learning.
Código do Visual Studio conectado a uma instância de computação do Azure Machine Learning.
seu computador local que tenha o SDK do Azure Machine Learning para Python instalado.

Este trecho de código Python mostra a criação de um trabalho Spark autônomo, com uma computação Spark sem servidor do Azure Machine Learning, usando a identidade do usuário.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Nota

Para usar um pool Synapse Spark anexado, defina o compute azure.ai.ml.spark parâmetro na função, em vez de resources.

Enviar um trabalho autônomo do Spark da interface do usuário do estúdio de Aprendizado de Máquina do Azure (visualização)

Importante

Esta funcionalidade está atualmente em pré-visualização pública. Esta versão de pré-visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas.

Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

Para enviar um trabalho autônomo do Spark usando a interface do usuário do estúdio do Azure Machine Learning:

Captura de ecrã a mostrar a criação de um novo trabalho do Spark na IU do estúdio do Azure Machine Learning.

Perto do canto superior direito do ecrã, selecione + Novo.
Selecione Trabalho do Spark (visualização).
Na tela Computação:

Captura de tela mostrando a tela de seleção de computação para um novo trabalho do Spark na interface do usuário do estúdio do Azure Machine Learning.

Em Selecionar tipo de computação, selecione Spark serverless para serverless Spark compute ou Attached compute para um pool Synapse Spark anexado.
Se você selecionou Spark serverless:
1. Selecione Tamanho da máquina virtual.
2. Selecione Versão de tempo de execução do Spark.
Importante

Azure Synapse Runtime for Apache Spark: Anúncios
- Azure Synapse Runtime para Apache Spark 3.3:
  - Data de anúncio EOLA: 12 de julho de 2024
  - Data de fim do suporte: 31 de março de 2025. Após essa data, o tempo de execução será desativado.
- Para suporte contínuo e desempenho ideal, recomendamos a migração para o Apache Spark 3.4.
Se você selecionou Computação anexada:
1. Selecione um pool Synapse Spark anexado no menu Selecionar computação anexada do Azure Machine Learning.
Selecione Seguinte.
Na tela Ambiente:
1. Selecione um dos ambientes disponíveis na lista. A seleção do ambiente é opcional.
2. Selecione Seguinte.
Na tela Configurações de trabalho :
1. Forneça um nome de trabalho. Você pode usar o nome do trabalho, que é gerado por padrão.
2. Selecione Nome do experimento no menu suspenso.
3. Em Adicionar tags, forneça Nome e Valor e selecione Adicionar. Adicionar tags é opcional.
4. Na secção Código:
  1. Selecione uma opção na lista suspensa Escolher local do código. Escolha Carregar arquivo local ou armazenamento de blob padrão do espaço de trabalho do Azure Machine Learning.
  2. Se você selecionou Escolher local do código:
    - Selecione Procurar e navegue até o local que contém o(s) arquivo(s) de código em sua máquina local.
  3. Se você selecionou o armazenamento de blob padrão do espaço de trabalho do Azure Machine Learning:
    1. Em Caminho para o arquivo de código a ser carregado, selecione Procurar.
    2. Na tela pop-up intitulada Seleção de caminho, selecione o caminho dos arquivos de código no armazenamento de blob padrão do espaço de trabalho.
    3. Selecione Guardar.
  4. Insira o nome do arquivo de entrada para o trabalho autônomo. Este arquivo deve conter o código Python que usa argumentos.
  5. Para adicionar qualquer outro arquivo Python que o trabalho autônomo requer em tempo de execução, selecione + Adicionar arquivo em arquivos Py e insira o nome do .ziparquivo , .eggou .py a ser colocado no para a execução bem-sucedida do PYTHONPATH trabalho. Vários arquivos podem ser adicionados.
  6. Para adicionar qualquer arquivo Jar que o trabalho autônomo requer em tempo de execução, selecione + Adicionar arquivo em Jars e insira o .jar nome do arquivo a ser incluído no driver Spark. Além disso, adicione o executor CLASSPATH para a execução bem-sucedida do trabalho. Vários arquivos podem ser adicionados.
  7. Para adicionar arquivo(s) que devem ser extraídos no diretório de trabalho de cada executor para a execução bem-sucedida do trabalho, selecione + Adicionar arquivo em Arquivos e insira o nome do arquivo. Vários arquivos podem ser adicionados.
  8. Adicionar arquivos Py, Jars e Arquivos é opcional.
  9. Para adicionar uma entrada, selecione + Adicionar entrada em Entradas e
    1. Insira um nome de entrada. A entrada deve referir-se a este nome mais adiante nos Argumentos.
    2. Selecione um tipo de entrada.
    3. Para o tipo Dados:
      1. Selecione Tipo de dados como Arquivo ou Pasta.
      2. Selecione Fonte de dados como Carregar do local, URI ou Datastore.
        
        Em Carregar a partir do local, selecione Procurar em Caminho a carregar, para escolher o ficheiro ou pasta de entrada.
        
        Para URI, insira um URI de dados de armazenamento (por exemplo, abfss:// ou wasbs:// URI) ou insira um ativo azureml://de dados .
        
        Para armazenamento de dados:
        
        Selecione um armazenamento de dados no menu suspenso.
        
        Em Caminho para dados, selecione Procurar.
        
        Na tela pop-up intitulada Seleção de caminho, selecione o caminho dos arquivos de código no armazenamento de blob padrão do espaço de trabalho.
        
        Selecione Guardar.
    4. Para o tipo Inteiro, insira um valor inteiro como Valor de entrada.
    5. Para o tipo Número, insira um valor numérico como Valor de entrada.
    6. Para o tipo Booleano, selecione Verdadeiro ou Falso como valor de entrada.
    7. Para o tipo String, insira uma string como Valor de entrada.
  10. Para adicionar uma entrada, selecione + Adicionar saída em Saídas e
    1. Insira um nome de saída. A saída deve referir-se a este nome mais tarde nos Argumentos.
    2. Selecione Tipo de saída como Arquivo ou Pasta.
    3. Para Destino do URI de saída, insira um URI de dados de armazenamento (por exemplo, abfss:// ou wasbs:// URI) ou insira um ativo azureml://de dados .
  11. Insira Argumentos usando os nomes definidos nos campos Nome de entrada e Nome de saída nas etapas anteriores e os nomes dos argumentos de entrada e saída usados no arquivo de entrada de script Python. Por exemplo, se o nome de entrada e o nome de saída forem definidos como job_input e job_output, e os argumentos forem adicionados no arquivo de entrada, conforme mostrado aqui
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
em seguida, insira Argumentos como --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}. 5. Na seção Configurações do Spark: 1. Para o tamanho do executor: 1. Digite o número de núcleos do executor e a memória do executor (GB), em gigabytes. 2. Para executores alocados dinamicamente, selecione a opção Desativado ou Habilitado . - Se a alocação dinâmica de executores estiver Desabilitada, insira o número de instâncias do Executor. - Se a alocação dinâmica de executores estiver ativada, use o controle deslizante para selecionar o número mínimo e máximo de executores. 1. Para o tamanho do driver: 1. Digite o número de núcleos de driver e memória do driver (GB), em gigabytes. 2. Introduza os pares Nome e Valor para quaisquer configurações adicionais e, em seguida, selecione Adicionar. O fornecimento de configurações adicionais é opcional. 6. Selecione Seguinte.
Na tela Revisão:
1. Revise a especificação do trabalho antes de enviá-la.
2. Selecione Criar para enviar o trabalho autônomo do Spark.

Componente Spark em um trabalho de pipeline

Um componente do Spark oferece a flexibilidade de usar o mesmo componente em vários pipelines do Azure Machine Learning, como uma etapa de pipeline.

APLICA-SE A: Azure CLI ml extension v2 (atual)

A sintaxe YAML para um componente Spark se assemelha à sintaxe YAML para especificação de trabalho do Spark na maioria das maneiras. Essas propriedades são definidas de forma diferente na especificação YAML do componente Spark:

name - o nome do componente Spark.
version - a versão do componente Spark.
display_name - o nome do componente Spark a ser exibido na interface do usuário e em outros lugares.
description - a descrição do componente Spark.
inputs - esta propriedade é semelhante à inputs propriedade descrita na sintaxe YAML para especificação de trabalho do Spark, exceto que ela não define a path propriedade. Este trecho de código mostra um exemplo da propriedade do componente inputs Spark:
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs - esta propriedade é semelhante à outputs propriedade descrita na sintaxe YAML para especificação de trabalho do Spark, exceto que ela não define a path propriedade. Este trecho de código mostra um exemplo da propriedade do componente outputs Spark:
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Nota

Um componente Spark não define identity, compute ou resources propriedades. O arquivo de especificação YAML do pipeline define essas propriedades.

Este arquivo de especificação YAML fornece um exemplo de um componente Spark:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

O componente Spark definido no arquivo de especificação YAML acima pode ser usado em um trabalho de pipeline do Azure Machine Learning. Consulte Esquema YAML do trabalho de pipeline para saber mais sobre a sintaxe YAML que define um trabalho de pipeline. Este exemplo mostra um arquivo de especificação YAML para um trabalho de pipeline, com um componente Spark e uma computação Spark sem servidor do Azure Machine Learning:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

Nota

Para usar um pool Synapse Spark anexado, defina a compute propriedade no arquivo de especificação YAML de exemplo mostrado acima, em vez da resources propriedade.

O arquivo de especificação YAML acima pode ser usado no az ml job create comando, usando o --file parâmetro, para criar um trabalho de pipeline como mostrado:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Você pode executar o comando acima de:

terminal de uma instância de computação do Azure Machine Learning.
terminal do Visual Studio Code conectado a uma instância de computação do Azure Machine Learning.
seu computador local que tenha a CLI do Azure Machine Learning instalada.

APLICA-SE A: Python SDK azure-ai-ml v2 (atual)

Para criar um pipeline do Azure Machine Learning com um componente do Spark, você deve saber sobre a criação de pipelines do Azure Machine Learning a partir de componentes, usando o Python SDK. Um componente Spark é criado usando azure.ai.ml.spark a função. Os parâmetros da função são definidos quase da mesma maneira que para o trabalho Spark autônomo. Esses parâmetros são definidos de forma diferente para o componente Spark:

name - o nome do componente Spark.
display_name - o nome do componente Spark exibido na interface do usuário e em outros lugares.
inputs - este parâmetro é semelhante ao inputs parâmetro descrito para o trabalho Spark autônomo, exceto que a azure.ai.ml.Input classe é instanciada sem o path parâmetro.
outputs - este parâmetro é semelhante ao outputs parâmetro descrito para o trabalho Spark autônomo, exceto que a azure.ai.ml.Output classe é instanciada sem o path parâmetro.

Nota

Um componente Spark criado usando azure.ai.ml.spark a função não define o identity, compute ou resources parâmetros. O pipeline do Azure Machine Learning define esses parâmetros.

Você pode enviar um trabalho de pipeline com um componente do Spark de:

um Bloco de Anotações do Azure Machine Learning conectado a uma instância de computação do Azure Machine Learning.
Código do Visual Studio conectado a uma instância de computação do Azure Machine Learning.
seu computador local que tenha o SDK do Azure Machine Learning para Python instalado.

Este trecho de código Python mostra o uso de uma identidade gerenciada, juntamente com a criação de um trabalho de pipeline do Azure Machine Learning. Além disso, ele mostra o uso de um componente do Spark e uma computação Synapse gerenciada (automática) do Azure Machine Learning:

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Nota

Para usar um pool Synapse Spark anexado, defina o compute azure.ai.ml.spark parâmetro na função, em vez de resources parâmetro. Por exemplo, no exemplo de código mostrado acima, defina spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" em vez de definir spark_step.resources.

Solução de problemas de trabalhos do Spark

Para solucionar problemas de um trabalho do Spark, você pode acessar os logs gerados para esse trabalho no estúdio do Azure Machine Learning. Para exibir os logs de um trabalho do Spark:

Navegue até Trabalhos no painel esquerdo na interface do usuário do estúdio de Aprendizado de Máquina do Azure
Selecione a guia Todos os trabalhos
Selecione o valor Nome para exibição do trabalho
Na página de detalhes do trabalho, selecione a guia Saída + logs
No explorador de ficheiros, expanda a pasta logs e, em seguida, expanda a pasta azureml
Acesse os logs de trabalho do Spark dentro das pastas do driver e do gerenciador de bibliotecas

Nota

Para solucionar problemas de trabalhos do Spark criados durante a disputa interativa de dados em uma sessão de bloco de anotações, selecione Detalhes do trabalho no canto superior direito da interface do usuário do bloco de anotações. Um trabalho do Spark de uma sessão de bloco de anotações interativo é criado sob o nome de experimento notebook-runs.

Partilhar via

Enviar trabalhos do Spark no Azure Machine Learning

Pré-requisitos

Anexar identidade gerenciada atribuída ao usuário usando a CLI v2

Anexar identidade gerenciada atribuída ao usuário usando `ARMClient`

Enviar um trabalho independente do Spark

Propriedades YAML na especificação do trabalho do Spark

Trabalho Standalone Spark

Trabalho Spark autônomo usando Python SDK

Enviar um trabalho autônomo do Spark da interface do usuário do estúdio de Aprendizado de Máquina do Azure (visualização)

Componente Spark em um trabalho de pipeline

Solução de problemas de trabalhos do Spark

Próximos passos

Comentários

Recursos adicionais

Partilhar via

Enviar trabalhos do Spark no Azure Machine Learning

Pré-requisitos

Anexar identidade gerenciada atribuída ao usuário usando a CLI v2

Anexar identidade gerenciada atribuída ao usuário usando ARMClient

Enviar um trabalho independente do Spark

Propriedades YAML na especificação do trabalho do Spark

Trabalho Standalone Spark

Componente Spark em um trabalho de pipeline

Solução de problemas de trabalhos do Spark

Próximos passos

Comentários

Recursos adicionais

Anexar identidade gerenciada atribuída ao usuário usando `ARMClient`