Skicka Spark-jobb i Azure Machine Learning

2024-11-09

GÄLLER FÖR:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (aktuell)

Azure Machine Learning stöder fristående inlämningar av maskininlärningsjobb och skapande av maskininlärningspipelines som omfattar flera steg i arbetsflödet för maskininlärning. Azure Machine Learning hanterar både skapande av fristående Spark-jobb och skapandet av återanvändbara Spark-komponenter som Azure Machine Learning-pipelines kan använda. I den här artikeln får du lära dig hur du skickar Spark-jobb med:

Azure Machine Learning-studio användargränssnitt
Azure Machine Learning CLI
Azure Machine Learning SDK

Mer information om Apache Spark i Azure Machine Learning-begreppfinns i den här resursen.

Förutsättningar

GÄLLER FÖR: Azure CLI ml-tillägget v2 (aktuellt)

En Azure-prenumeration; Om du inte har någon Azure-prenumeration skapar du ett kostnadsfritt konto innan du börjar.
En Azure Machine Learning-arbetsyta. Mer information finns i Skapa arbetsyteresurser .
Skapa en Azure Machine Learning-beräkningsinstans.
Installera Azure Machine Learning CLI.
(Valfritt): En bifogad Synapse Spark-pool på Azure Machine Learning-arbetsytan.

Kommentar

Mer information om resursåtkomst när du använder Serverlös Spark-beräkning i Azure Machine Learning och bifogad Synapse Spark-pool finns i Säkerställa resursåtkomst för Spark-jobb.
Azure Machine Learning tillhandahåller en delad kvotpool , från vilken alla användare kan komma åt beräkningskvoten för att utföra testning under en begränsad tid. När du använder den serverlösa Spark-beräkningen ger Azure Machine Learning dig åtkomst till den här delade kvoten under en kort tid.

Koppla användartilldelad hanterad identitet med CLI v2

Skapa en YAML-fil som definierar den användartilldelade hanterade identiteten som ska kopplas till arbetsytan:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

Med parametern --file använder du YAML-filen i az ml workspace update kommandot för att koppla den användartilldelade hanterade identiteten:

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

Koppla användartilldelad hanterad identitet med hjälp av `ARMClient`

Installera ARMClient, ett enkelt kommandoradsverktyg som anropar Azure Resource Manager-API:et.

Skapa en JSON-fil som definierar den användartilldelade hanterade identiteten som ska kopplas till arbetsytan:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Om du vill koppla den användartilldelade hanterade identiteten till arbetsytan kör du följande kommando i PowerShell-prompten eller kommandotolken.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Kommentar

För att säkerställa en lyckad körning av Spark-jobbet tilldelar du rollerna Deltagare och Lagringsblobdatadeltagare på azure-lagringskontot som används för dataindata och utdata till den identitet som Spark-jobbet använder
Offentlig nätverksåtkomst bör aktiveras i Azure Synapse-arbetsytan för att säkerställa att Spark-jobbet körs med hjälp av en ansluten Synapse Spark-pool.
Om en ansluten Synapse Spark-pool pekar på en Synapse Spark-pool på en Azure Synapse-arbetsyta som har ett hanterat virtuellt nätverk associerat med den, bör du konfigurera en hanterad privat slutpunkt för lagringskontot för att säkerställa dataåtkomst.
Serverlös Spark-beräkning stöder azure Machine Learning-hanterat virtuellt nätverk. Om ett hanterat nätverk etableras för den serverlösa Spark-beräkningen bör motsvarande privata slutpunkter för lagringskontot också etableras för att säkerställa dataåtkomst.

Skicka ett fristående Spark-jobb

När du har gjort nödvändiga ändringar för Python-skriptparameterisering kan du använda ett Python-skript som utvecklats med interaktiv dataomvandling för att skicka ett batchjobb för att bearbeta en större mängd data. Du kan skicka ett batchjobb för dataomvandling som ett fristående Spark-jobb.

Ett Spark-jobb kräver ett Python-skript som tar argument. Du kan ändra Python-koden som ursprungligen utvecklades från interaktiv dataomvandling för att utveckla skriptet. Ett Python-exempelskript visas här.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Kommentar

Det här Python-kodexemplet använder pyspark.pandas. Endast Spark-körningsversionen 3.2 eller senare stöder detta.

Det här skriptet tar två argument som skickar sökvägen till indata respektive utdatamappen:

--titanic_data
--wrangled_data

GÄLLER FÖR: Azure CLI ml-tillägget v2 (aktuellt)

För att skapa ett jobb kan du definiera ett fristående Spark-jobb som en YAML-specifikationsfil som du kan använda i az ml job create kommandot med parametern --file . Definiera dessa egenskaper i YAML-filen:

YAML-egenskaper i Spark-jobbspecifikationen

type - inställd på spark.
code – definierar platsen för mappen som innehåller källkod och skript för det här jobbet.
entry – definierar startpunkten för jobbet. Den bör omfatta någon av följande egenskaper:
- file – definierar namnet på Python-skriptet som fungerar som en startpunkt för jobbet.
- class_name – definierar namnet på klassen som servrar som en startpunkt för jobbet.
py_files – definierar en lista över .zip, .eggeller .py filer som ska placeras i PYTHONPATH, för lyckad körning av jobbet. Den här egenskapen är valfri.
jars – definierar en lista över .jar filer som ska inkluderas på Spark-drivrutinen och kören CLASSPATHför att jobbet ska kunna köras. Den här egenskapen är valfri.
files – definierar en lista över filer som ska kopieras till arbetskatalogen för varje köre för lyckad jobbkörning. Den här egenskapen är valfri.
archives – definierar en lista över arkiv som ska extraheras till arbetskatalogen för varje utförare för lyckad jobbkörning. Den här egenskapen är valfri.
conf – definierar dessa Egenskaper för Spark-drivrutin och körkörning:
- spark.driver.cores: antalet kärnor för Spark-drivrutinen.
- spark.driver.memory: allokerat minne för Spark-drivrutinen i gigabyte (GB).
- spark.executor.cores: antalet kärnor för Spark-kören.
- spark.executor.memory: minnesallokeringen för Spark-kören i gigabyte (GB).
- spark.dynamicAllocation.enabled – om exekutorer ska allokeras dynamiskt, som ett True eller False -värde.
- Om dynamisk allokering av exekutorer är aktiverad definierar du följande egenskaper:
  - spark.dynamicAllocation.minExecutors – det minsta antalet Spark-körinstanser för dynamisk allokering.
  - spark.dynamicAllocation.maxExecutors – det maximala antalet Spark-körinstanser för dynamisk allokering.
- Om dynamisk allokering av exekutorer är inaktiverad definierar du den här egenskapen:
  - spark.executor.instances – antalet Spark-körinstanser.
environment – en Azure Machine Learning-miljö för att köra jobbet.
args – de kommandoradsargument som ska skickas till python-skriptet för jobbinmatningspunkten. Ett exempel finns i YAML-specifikationsfilen som finns här.
resources – Den här egenskapen definierar de resurser som ska användas av en serverlös Spark-beräkning utan Azure Machine Learning. Den använder följande egenskaper:
- instance_type – den beräkningsinstanstyp som ska användas för Spark-poolen. Följande instanstyper stöds för närvarande:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version – definierar Spark-körningsversionen. Följande Spark-körningsversioner stöds för närvarande:
  - 3.3
  - 3.4
    Viktigt!
    
    Azure Synapse Runtime för Apache Spark: Meddelanden
    - Azure Synapse Runtime för Apache Spark 3.3:
      
      EOLA-meddelandedatum: 12 juli 2024
      
      Supportdatum: 31 mars 2025. Efter det här datumet inaktiveras körningen.
    - För fortsatt support och optimala prestanda rekommenderar vi att du migrerar till Apache Spark 3.4.
Det här är en YAML-exempelfil:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute – Den här egenskapen definierar namnet på en bifogad Synapse Spark-pool, som du ser i det här exemplet:
```
compute: mysparkpool
```
inputs – Den här egenskapen definierar indata för Spark-jobbet. Indata för ett Spark-jobb kan vara antingen ett literalvärde eller data som lagras i en fil eller mapp.
- Ett literalvärde kan vara ett tal, ett booleskt värde eller en sträng. Några exempel visas här:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Data som lagras i en fil eller mapp bör definieras med hjälp av följande egenskaper:
  - type – ange den här egenskapen till uri_file, eller uri_folder, för indata som finns i en fil eller en mapp.
  - path – URI för indata, till exempel azureml://, abfss://eller wasbs://.
  - mode - ställ in den här egenskapen på direct. Det här exemplet visar definitionen av ett jobbindata, som kan kallas $${inputs.titanic_data}}:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs – den här egenskapen definierar Spark-jobbutdata. Utdata för ett Spark-jobb kan skrivas till antingen en fil eller en mappplats, som definieras med hjälp av följande tre egenskaper:
- type – du kan ange den här egenskapen till uri_file eller uri_folder, för att skriva utdata till en fil eller en mapp.
- path – den här egenskapen definierar utdataplats-URI:n, till exempel azureml://, abfss://eller wasbs://.
- mode - ställ in den här egenskapen på direct. Det här exemplet visar definitionen av ett jobbutdata, som du kan referera till som ${{outputs.wrangled_data}}:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity – Den här valfria egenskapen definierar den identitet som används för att skicka det här jobbet. Det kan ha user_identity och managed värden. Om YAML-specifikationen inte definierar en identitet använder Spark-jobbet standardidentiteten.

Fristående Spark-jobb

I det här exemplet visar YAML-specifikationen ett fristående Spark-jobb. Den använder en serverlös Spark-beräkning i Azure Machine Learning:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

Kommentar

Om du vill använda en bifogad Synapse Spark-pool definierar du compute egenskapen i yaml-exempelspecifikationsfilen som visades tidigare, i stället för egenskapen resources .

Du kan använda YAML-filerna som visades tidigare i az ml job create kommandot med parametern --file för att skapa ett fristående Spark-jobb enligt följande:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Du kan köra kommandot ovan från:

terminalen för en Azure Machine Learning-beräkningsinstans.
en Visual Studio Code-terminal som är ansluten till en Azure Machine Learning-beräkningsinstans.
din lokala dator som har Azure Machine Learning CLI installerat.

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Fristående Spark-jobb med Python SDK

Om du vill skapa ett fristående Spark-jobb använder du azure.ai.ml.spark funktionen med följande parametrar:

name - Namnet på Spark-jobbet.
display_name – visningsnamnet för Spark-jobbet som ska visas i användargränssnittet och någon annanstans.
code – platsen för mappen som innehåller källkoden och skripten för det här jobbet.
entry – startpunkten för jobbet. Det bör vara en ordlista som definierar filinmatningspunkten.
py_files – en lista över .zip, .eggeller .py filer som ska placeras i PYTHONPATH, för lyckad körning av jobbet. Den här parametern är valfri.
jars – en lista över .jar filer som ska inkluderas i Spark-drivrutinen och -kören CLASSPATHför lyckad körning av jobbet. Den här parametern är valfri.
files – en lista över filer som ska kopieras till arbetskatalogen för varje utförare för att jobbet ska kunna köras. Den här parametern är valfri.
archives – en lista över arkiv som extraheras automatiskt och placeras i arbetskatalogen för varje utförare, för lyckad körning av jobbet. Den här parametern är valfri.
conf – en ordlista med fördefinierade Nyckel/värde-par för Spark-konfiguration.
driver_cores: antalet kärnor som allokerats för Spark-drivrutinen.
driver_memory: det allokerade minnet för Spark-drivrutinen med storleksenhetssuffixet k, m, g, eller t (till exempel 512m, 2g).
executor_cores: antalet kärnor som allokerats för Spark-kören.
executor_memory: det allokerade minnet för Spark-kören, med storleksenhetssuffixet k, m, g, eller t (till exempel 512m, 2g).
dynamic_allocation_enabled – en boolesk parameter som definierar om exekutorer ska allokeras dynamiskt eller inte.
- Om dynamisk allokering av exekutorer är aktiverad definierar du följande parametrar:
  - dynamic_allocation_min_executors – det minsta antalet Spark-körinstanser för dynamisk allokering.
  - dynamic_allocation_max_executors – det maximala antalet Spark-körinstanser för dynamisk allokering.
- Om dynamisk allokering av exekutorer är inaktiverad definierar du följande parametrar:
  - executor_instances – antalet Spark-körinstanser.
  - environment – Den Azure Machine Learning-miljö som kör jobbet. Den här parametern ska passera:
    - ett objekt i azure.ai.ml.entities.Environment, eller ett Azure Machine Learning-miljönamn (sträng).
args – de kommandoradsargument som ska skickas till python-skriptet för jobbinmatningspunkten. Se exempelkoden som anges här för ett exempel.
resources – de resurser som ska användas av en Serverlös Spark-beräkning i Azure Machine Learning. Den här parametern ska skicka en ordlista med:
- instance_type – en nyckel som definierar den beräkningsinstanstyp som ska användas för den serverlösa Spark-beräkningen. Följande instanstyper stöds för närvarande:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version – en nyckel som definierar Spark-körningsversionen. Följande Spark-körningsversioner stöds för närvarande:
  - 3.3.0
  - 3.4.0
    Viktigt!
    
    Azure Synapse Runtime för Apache Spark: Meddelanden
    - Azure Synapse Runtime för Apache Spark 3.3:
      
      EOLA-meddelandedatum: 12 juli 2024
      
      Supportdatum: 31 mars 2025. Efter det här datumet inaktiveras körningen.
    - För fortsatt support och optimala prestanda rekommenderar vi att du migrerar till Apache Spark 3.4.
compute – namnet på en bifogad Synapse Spark-pool.
inputs – indata för Spark-jobbet. Den här parametern ska skicka en ordlista med mappningar av indatabindningar som används i jobbet. Den här ordlistan har följande värden:
- en ordlistenyckel definierar indatanamnet
- ett motsvarande värde kan vara:
  - ett literalvärde: heltal, tal, booleskt värde eller sträng.
  - ett objekt av klassen azure.ai.ml.Input, med följande parametrar:
    - type – ange den här parametern till uri_file eller uri_folder, för indata som finns i en fil eller en mapp.
    - path – URI för indata, till exempel azureml://, abfss://eller wasbs://.
    - mode – ange den här parametern till direct.
outputs – utdata för Spark-jobbet. Den här parametern ska skicka en ordlista med mappningar av utdatabindningar som används i jobbet. Den här ordlistan har följande värden:
- en ordlistenyckel definierar utdatanamnet
- ett motsvarande värde är ett objekt av klassen azure.ai.ml.Output, med följande parametrar:
  - type – ange den här parametern till uri_file eller uri_folder, för en utdatafil eller en mapp.
  - path – URI:n för utdata, till exempel azureml://, abfss://eller wasbs://.
  - mode – ange den här parametern till direct.
identity – en valfri parameter som definierar den identitet som används för att skicka det här jobbet. Tillåtna värden är ett objekt i klassen
- azure.ai.ml.entities.UserIdentityConfiguration eller
- azure.ai.ml.entities.ManagedIdentityConfiguration för användaridentitet respektive hanterad identitet. Om ingen identitet har definierats använder Spark-jobbet standardidentiteten.

Du kan skicka ett fristående Spark-jobb från:

en Azure Machine Learning Notebook som är ansluten till en Azure Machine Learning-beräkningsinstans.
Visual Studio Code är ansluten till en Azure Machine Learning-beräkningsinstans.
din lokala dator som har Azure Machine Learning SDK för Python installerat.

Det här Python-kodfragmentet visar skapandet av ett fristående Spark-jobb med en serverlös Spark-beräkning utan Azure Machine Learning med hjälp av användaridentitet.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Kommentar

Om du vill använda en bifogad Synapse Spark-pool definierar du parametern computeazure.ai.ml.spark i funktionen i stället för resources.

Skicka ett fristående Spark-jobb från Azure Machine Learning-studio användargränssnitt (förhandsversion)

Viktigt!

Den här funktionen är för närvarande i allmänt tillgänglig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade.

Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Så här skickar du ett fristående Spark-jobb med hjälp av användargränssnittet för Azure Machine Learning-studio:

Skärmbild som visar skapandet av ett nytt Spark-jobb i Azure Machine Learning-studio användargränssnittet.

Välj + Ny längst upp till höger på skärmen.
Välj Spark-jobb (förhandsversion).
På skärmen Beräkning:

Skärmbild som visar skärmen för beräkningsval för ett nytt Spark-jobb i Azure Machine Learning-studio användargränssnittet.

Under Välj beräkningstyp väljer du Spark serverlös för serverlös Spark-beräkning eller Ansluten beräkning för en ansluten Synapse Spark-pool.
Om du har valt Spark serverlös:
1. Välj Storlek på virtuell dator.
2. Välj Spark-körningsversion.
  Viktigt!
  
  Azure Synapse Runtime för Apache Spark: Meddelanden
  - Azure Synapse Runtime för Apache Spark 3.3:
    - EOLA-meddelandedatum: 12 juli 2024
    - Supportdatum: 31 mars 2025. Efter det här datumet inaktiveras körningen.
  - För fortsatt support och optimala prestanda rekommenderar vi att du migrerar till Apache Spark 3.4.
Om du har valt Bifogad beräkning:
1. Välj en ansluten Synapse Spark-pool på menyn Välj azure Machine Learning-ansluten beräkning .
Välj Nästa.
På skärmen Miljö:
1. Välj en av de tillgängliga miljöerna i listan. Miljöval är valfritt.
2. Välj Nästa.
På skärmen Jobbinställningar:
1. Ange ett jobbnamn. Du kan använda jobbnamnet, som genereras som standard.
2. Välj Experimentnamn på den nedrullningsbara menyn.
3. Under Lägg till taggar anger du Namn och Värde och väljer sedan Lägg till. Att lägga till taggar är valfritt.
4. Under avsnittet Kod :
  1. Välj ett alternativ i listrutan Välj kodplats . Välj Ladda upp lokal fil eller Azure Machine Learning-arbetsytans standardbloblagring.
  2. Om du har valt Välj kodplats:
    - Välj Bläddra och navigera till den plats som innehåller kodfilen eller filerna på den lokala datorn.
  3. Om du valde Azure Machine Learning-arbetsytans standardbloblagring:
    1. Under Sökväg till kodfil som ska laddas upp väljer du Bläddra.
    2. På popup-skärmen med rubriken Sökvägsval väljer du sökvägen till kodfilerna på arbetsytans standardbloblagring.
    3. Välj Spara.
  4. Ange namnet på postfilen för det fristående jobbet. Den här filen ska innehålla Python-koden som tar argument.
  5. Om du vill lägga till andra Python-filer som det fristående jobbet kräver vid körningen väljer du + Lägg till fil under Py-filer och anger namnet på , .zip.eggeller .py filen som ska placeras i PYTHONPATH för lyckad jobbkörning. Flera filer kan läggas till.
  6. Om du vill lägga till jar-filer som det fristående jobbet kräver vid körning väljer du + Lägg till fil under Jars och anger namnet på .jar filen som ska ingå i Spark-drivrutinen. Lägg också till kören CLASSPATH för lyckad jobbkörning. Flera filer kan läggas till.
  7. Om du vill lägga till ett arkiv eller arkiv som ska extraheras till arbetskatalogen för varje utförare för lyckad jobbkörning väljer du + Lägg till fil under Arkiv och anger namnet på arkivet. Flera arkiv kan läggas till.
  8. Det är valfritt att lägga till Py-filer, jars och arkiv.
  9. Om du vill lägga till indata väljer du + Lägg till indata under Indata och
    1. Ange ett indatanamn. Indata bör referera till det här namnet senare i Argument.
    2. Välj en indatatyp.
    3. För typen Data:
      1. Välj Datatyp som Fil eller Mapp.
      2. Välj Datakälla som Ladda upp från lokalt, URI eller Datalager.
        
        För Ladda upp från lokal väljer du Bläddra under Sökväg att ladda upp för att välja indatafilen eller mappen.
        
        För URI anger du en URI för lagringsdata (till exempel abfss:// eller wasbs:// URI) eller anger en datatillgång azureml://.
        
        För datalager:
        
        Välj ett datalager på den nedrullningsbara menyn.
        
        Under Sökväg till data väljer du Bläddra.
        
        På popup-skärmen med rubriken Sökväg väljer du sökvägen till kodfilerna på arbetsytans standardbloblagring.
        
        Välj Spara.
      3. För typ Heltal anger du ett heltalsvärde som indatavärde.
      4. För typNummer anger du ett numeriskt värde som indatavärde.
      5. För typ Boolesk väljer du Sant eller Falskt som indatavärde.
      6. För typ Sträng anger du en sträng som indatavärde.
    4. Om du vill lägga till indata väljer du + Lägg till utdata under Utdata och
      1. Ange ett utdatanamn. Utdata bör referera till det här namnet senare i argumenten.
      2. Välj Utdatatyp som Fil eller mapp.
      3. För utdata-URI-mål anger du en URI för lagringsdata (till exempel abfss:// eller wasbs:// URI) eller anger en datatillgång azureml://.
    5. Ange Argument med hjälp av de namn som definierats i fälten Indatanamn och Utdatanamn i de tidigare stegen, samt namnen på indata- och utdataargumenten som används i Python-skriptets postfil. Om till exempel indatanamnet och utdatanamnet definieras som och job_input, och argumenten läggs till i job_output som visas här
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
    ange sedan Argument som --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}.
    1. I avsnittet Spark-konfigurationer :
      1. För körstorlek:
        
        Ange antalet executor Cores och executor Memory (GB) i gigabyte.
        
        För Dynamiskt allokerade köre väljer du alternativet Inaktiverad eller Aktiverad .
        
        Om dynamisk allokering av exekutorer är Inaktiverad anger du antalet Executor-instanser.
        
        Om dynamisk allokering av exekutorer är Aktiverad använder du skjutreglaget för att välja det lägsta och högsta antalet utförare.
      2. För drivrutinsstorlek:
        
        Ange antalet kärnor och drivrutinsminne (GB) i gigabyte.
        
        Ange paren Namn och Värde för ytterligare konfigurationer och välj sedan Lägg till. Du kan också ange Ytterligare konfigurationer.
      3. Välj Nästa.
  10. På skärmen Granska:
    1. Granska jobbspecifikationen innan du skickar den.
    2. Välj Skapa för att skicka det fristående Spark-jobbet.

Spark-komponent i ett pipelinejobb

En Spark-komponent ger flexibiliteten att använda samma komponent i flera Azure Machine Learning-pipelines som ett pipelinesteg.

GÄLLER FÖR: Azure CLI ml-tillägget v2 (aktuellt)

YAML-syntaxen för en Spark-komponent liknar YAML-syntaxen för Spark-jobbspecifikationen på de flesta sätt. Dessa egenskaper definieras på olika sätt i YAML-specifikationen för Spark-komponenten:

name - Namnet på Spark-komponenten.
version – versionen av Spark-komponenten.
display_name – namnet på Spark-komponenten som ska visas i användargränssnittet och någon annanstans.
description – beskrivningen av Spark-komponenten.
inputs – den här egenskapen liknar egenskapen inputs som beskrivs i YAML-syntaxen för Spark-jobbspecifikationen, förutom att den path inte definierar egenskapen. Det här kodfragmentet visar ett exempel på egenskapen Spark-komponent inputs :
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs – den här egenskapen liknar egenskapen outputs som beskrivs i YAML-syntaxen för Spark-jobbspecifikationen, förutom att den path inte definierar egenskapen. Det här kodfragmentet visar ett exempel på egenskapen Spark-komponent outputs :
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Kommentar

En Spark-komponent definierar identityinte egenskaperna , compute eller resources . YAML-specifikationsfilen för pipeline definierar dessa egenskaper.

Den här YAML-specifikationsfilen innehåller ett exempel på en Spark-komponent:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Du kan använda Spark-komponenten som definierats i yaml-specifikationsfilen ovan i ett Azure Machine Learning-pipelinejobb. Besök YAML-schemaresursen för pipelinejobbet för att lära dig mer om YAML-syntaxen som definierar ett pipelinejobb. Det här exemplet visar en YAML-specifikationsfil för ett pipelinejobb, med en Spark-komponent och en Serverlös Spark-beräkning utan Azure Machine Learning:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

Kommentar

Om du vill använda en bifogad Synapse Spark-pool definierar du compute egenskapen i yaml-exempelspecifikationsfilen som visas ovan, i stället resources för egenskapen.

Du kan använda YAML-specifikationsfilen som visas ovan i az ml job create kommandot med hjälp av parametern --file för att skapa ett pipelinejobb enligt följande:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Du kan köra kommandot ovan från:

terminalen för en Azure Machine Learning-beräkningsinstans.
terminalen för Visual Studio Code som är ansluten till en Azure Machine Learning-beräkningsinstans.
din lokala dator som har Azure Machine Learning CLI installerat.

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

När du skapar en Azure Machine Learning-pipeline med en Spark-komponent kan du skapa Azure Machine Learning-pipelines från komponenter med hjälp av Python SDK. En Spark-komponent skapas med hjälp av azure.ai.ml.spark funktionen. Funktionsparametrarna definieras nästan på samma sätt som för det fristående Spark-jobbet. Dessa parametrar definieras på olika sätt för Spark-komponenten:

name - Namnet på Spark-komponenten.
display_name – namnet på Spark-komponenten som visas i användargränssnittet och någon annanstans.
inputs – den här parametern liknar parametern inputs som beskrivs för det fristående Spark-jobbet, förutom att azure.ai.ml.Input klassen instansieras utan parametern path .
outputs – den här parametern liknar parametern outputs som beskrivs för det fristående Spark-jobbet, förutom att azure.ai.ml.Output klassen instansieras utan parametern path .

Kommentar

En Spark-komponent som skapats med hjälp av azure.ai.ml.spark funktionen definierar inte parametrarna identity, compute eller resources . Azure Machine Learning-pipelinen definierar dessa parametrar.

Du kan skicka ett pipelinejobb med en Spark-komponent från:

en Azure Machine Learning Notebook som är ansluten till en Azure Machine Learning-beräkningsinstans.
Visual Studio Code är ansluten till en Azure Machine Learning-beräkningsinstans.
din lokala dator som har Azure Machine Learning SDK för Python installerat.

Det här Python-kodfragmentet visar användningen av en hanterad identitet, tillsammans med skapandet av ett Azure Machine Learning-pipelinejobb. Dessutom visas användningen av en Spark-komponent och en Azure Machine Learning Managed (automatisk) Synapse-beräkning:

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Kommentar

Om du vill använda en ansluten Synapse Spark-pool definierar du parametern computeazure.ai.ml.spark i funktionen i stället för parametern resources . I kodexemplet som visas ovan definierar du spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" till exempel i stället för att spark_step.resourcesdefiniera .

Felsöka Spark-jobb

Om du vill felsöka ett Spark-jobb kan du komma åt loggarna som genererats för jobbet i Azure Machine Learning-studio. Så här visar du loggarna för ett Spark-jobb:

Navigera till Jobb från den vänstra panelen i användargränssnittet för Azure Machine Learning-studio
Välj fliken Alla jobb
Välj visningsnamnvärdet för jobbet
På sidan jobbinformation väljer du fliken Utdata + loggar
I utforskaren expanderar du loggmappen och expanderar sedan mappen azureml
Få åtkomst till Spark-jobbloggarna i mapparna för drivrutins- och bibliotekshanteraren

Kommentar

Om du vill felsöka Spark-jobb som skapats under interaktiv dataomvandling i en notebook-session väljer du Jobbinformation i det övre högra hörnet i notebook-användargränssnittet. Ett Spark-jobb från en interaktiv notebook-session skapas under experimentnamnet notebook-runs.

Dela via

Skicka Spark-jobb i Azure Machine Learning

Förutsättningar

Koppla användartilldelad hanterad identitet med CLI v2

Koppla användartilldelad hanterad identitet med hjälp av ARMClient

Skicka ett fristående Spark-jobb

YAML-egenskaper i Spark-jobbspecifikationen

Fristående Spark-jobb

Spark-komponent i ett pipelinejobb

Felsöka Spark-jobb

Nästa steg

Feedback

Ytterligare resurser

Koppla användartilldelad hanterad identitet med hjälp av `ARMClient`