Spark-taken verzenden in Azure Machine Learning

Artikel
10/18/2023

VAN TOEPASSING OP:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)

Azure Machine Learning biedt ondersteuning voor het verzenden van zelfstandige machine learning-taken en het maken van machine learning-pijplijnen waarbij meerdere machine learning-werkstroomstappen zijn betrokken. Azure Machine Learning verwerkt zowel het maken van zelfstandige Spark-taken als het maken van herbruikbare Spark-onderdelen die azure Machine Learning-pijplijnen kunnen gebruiken. In dit artikel leert u hoe u Spark-taken verzendt met behulp van:

gebruikersinterface voor Azure Machine Learning-studio
Azure Machine Learning CLI
Azure Machine Learning-SDK

Zie deze resource voor meer informatie over Apache Spark in Azure Machine Learning-concepten.

Vereisten

VAN TOEPASSING OP: Azure CLI ml-extensie v2 (huidige)

Een Azure-abonnement; Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.
Een Azure Machine Learning-werkruimte. Zie Werkruimtebronnen maken.
Maak een Azure Machine Learning-rekenproces.
Installeer Azure Machine Learning CLI.
(Optioneel): Een gekoppelde Synapse Spark-pool in de Azure Machine Learning-werkruimte.

Notitie

Zie Resourcetoegang garanderen voor Spark-taken voor meer informatie over resourcetoegang tijdens het gebruik van serverloze Spark-rekenkracht van Azure Machine Learning en gekoppelde Synapse Spark-pool.
Azure Machine Learning biedt een gedeelde quotumgroep waaruit alle gebruikers toegang hebben tot het rekenquotum om gedurende een beperkte tijd tests uit te voeren. Wanneer u de serverloze Spark-berekening gebruikt, kunt u met Azure Machine Learning gedurende korte tijd toegang krijgen tot dit gedeelde quotum.

Door de gebruiker toegewezen beheerde identiteit koppelen met CLI v2

Maak een YAML-bestand dat de door de gebruiker toegewezen beheerde identiteit definieert die moet worden gekoppeld aan de werkruimte:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

Gebruik met de --file parameter het YAML-bestand in de az ml workspace update opdracht om de door de gebruiker toegewezen beheerde identiteit toe te voegen:
```
az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml
```

Door de gebruiker toegewezen beheerde identiteit koppelen met `ARMClient`

Installeren ARMClient, een eenvoudig opdrachtregelprogramma dat de Azure Resource Manager-API aanroept.

Maak een JSON-bestand dat de door de gebruiker toegewezen beheerde identiteit definieert die moet worden gekoppeld aan de werkruimte:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Als u de door de gebruiker toegewezen beheerde identiteit aan de werkruimte wilt koppelen, voert u de volgende opdracht uit in de PowerShell-prompt of de opdrachtprompt.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Notitie

Als u wilt zorgen voor een geslaagde uitvoering van de Spark-taak, wijst u de rollen Inzender en Inzender voor opslagblobgegevens toe aan het Azure-opslagaccount dat wordt gebruikt voor gegevensinvoer en -uitvoer, aan de identiteit die door de Spark-taak wordt gebruikt
Openbare netwerktoegang moet zijn ingeschakeld in de Azure Synapse-werkruimte om ervoor te zorgen dat de Spark-taak wordt uitgevoerd met behulp van een gekoppelde Synapse Spark-pool.
Als een gekoppelde Synapse Spark-pool verwijst naar een Synapse Spark-pool, moet in een Azure Synapse-werkruimte waaraan een beheerd virtueel netwerk is gekoppeld, een beheerd privé-eindpunt voor het opslagaccount worden geconfigureerd om toegang tot gegevens te garanderen.
Serverloze Spark-rekenkracht ondersteunt door Azure Machine Learning beheerd virtueel netwerk. Als een beheerd netwerk is ingericht voor de serverloze Spark-berekening, moeten de bijbehorende privé-eindpunten voor het opslagaccount ook worden ingericht om toegang tot gegevens te garanderen.

Een zelfstandige Spark-taak verzenden

Nadat u de benodigde wijzigingen voor python-scriptparameterisatie hebt aangebracht, kan een Python-script dat is ontwikkeld door interactieve gegevens wrangling , worden gebruikt om een batchtaak te verzenden om een groter aantal gegevens te verwerken. Een eenvoudige batchtaak kan worden verzonden als een zelfstandige Spark-taak.

Een Spark-taak vereist een Python-script dat argumenten accepteert, die kan worden ontwikkeld met wijziging van de Python-code die is ontwikkeld op basis van interactieve gegevens-wrangling. Hier ziet u een voorbeeld van een Python-script.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Notitie

In dit Python-codevoorbeeld wordt gebruikgemaakt van pyspark.pandas. Alleen de Spark Runtime-versie 3.2 of hoger ondersteunt dit.

Het bovenstaande script heeft twee argumenten --titanic_data en --wrangled_data, die respectievelijk het pad van invoergegevens en uitvoermap doorgeven.

VAN TOEPASSING OP: Azure CLI ml-extensie v2 (huidige)

Als u een taak wilt maken, kan een zelfstandige Spark-taak worden gedefinieerd als een YAML-specificatiebestand, dat kan worden gebruikt in de az ml job create opdracht, met de --file parameter. Definieer deze eigenschappen in het YAML-bestand:

YAML-eigenschappen in de Spark-taakspecificatie

type - ingesteld op spark.
code - definieert de locatie van de map die broncode en scripts voor deze taak bevat.
entry - definieert het toegangspunt voor de taak. Dit moet betrekking hebben op een van deze eigenschappen:
- file - definieert de naam van het Python-script dat fungeert als invoerpunt voor de taak.
py_files - definieert een lijst met .zip, .eggof .py bestanden, die in de PYTHONPATH, voor een succesvolle uitvoering van de taak moeten worden geplaatst. Deze eigenschap is optioneel.
jars - definieert een lijst met .jar bestanden die moeten worden opgenomen in het Spark-stuurprogramma en de uitvoerder CLASSPATHvoor een geslaagde uitvoering van de taak. Deze eigenschap is optioneel.
files - definieert een lijst met bestanden die moeten worden gekopieerd naar de werkmap van elke uitvoerder, voor een geslaagde taakuitvoering. Deze eigenschap is optioneel.
archives - definieert een lijst met archieven die moeten worden geëxtraheerd in de werkmap van elke uitvoerder, voor een geslaagde taakuitvoering. Deze eigenschap is optioneel.
conf - definieert deze Spark-stuurprogramma- en uitvoerderseigenschappen:
- spark.driver.cores: het aantal kernen voor het Spark-stuurprogramma.
- spark.driver.memory: toegewezen geheugen voor het Spark-stuurprogramma, in gigabytes (GB).
- spark.executor.cores: het aantal kernen voor de Spark-uitvoerfunctie.
- spark.executor.memory: de geheugentoewijzing voor de Spark-uitvoerfunctie, in gigabytes (GB).
- spark.dynamicAllocation.enabled - of uitvoerders dynamisch moeten worden toegewezen, als een True of False waarde.
- Als dynamische toewijzing van uitvoerders is ingeschakeld, definieert u deze eigenschappen:
  - spark.dynamicAllocation.minExecutors - het minimale aantal Spark-uitvoerders voor dynamische toewijzing.
  - spark.dynamicAllocation.maxExecutors - het maximum aantal Spark-uitvoerders voor dynamische toewijzing.
- Als dynamische toewijzing van uitvoerders is uitgeschakeld, definieert u deze eigenschap:
  - spark.executor.instances - het aantal Spark-uitvoerders.
environment - een Azure Machine Learning-omgeving om de taak uit te voeren.
args - de opdrachtregelargumenten die moeten worden doorgegeven aan het Python-script voor het taakinvoerpunt. Zie het YAML-specificatiebestand dat hier is opgegeven voor een voorbeeld.
resources - met deze eigenschap worden de resources gedefinieerd die moeten worden gebruikt door een serverloze Spark-rekenkracht van Azure Machine Learning. Hierbij worden de volgende eigenschappen gebruikt:
- instance_type - het type rekeninstantie dat moet worden gebruikt voor Spark-pool. De volgende exemplaartypen worden momenteel ondersteund:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version - definieert de Spark Runtime-versie. De volgende Spark-runtimeversies worden momenteel ondersteund:
  - 3.2
  - 3.3
    Belangrijk
    
    Azure Synapse Runtime voor Apache Spark: aankondigingen
    - Azure Synapse Runtime voor Apache Spark 3.2:
      
      EOLA Aankondigingsdatum: 8 juli 2023
      
      Einddatum van ondersteuning: 8 juli 2024. Na deze datum wordt de runtime uitgeschakeld.
    - Voor continue ondersteuning en optimale prestaties adviseren we om te migreren naar Apache Spark 3.3.
Dit is een voorbeeld:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.3"
```
compute - deze eigenschap definieert de naam van een gekoppelde Synapse Spark-pool, zoals wordt weergegeven in dit voorbeeld:
```
compute: mysparkpool
```
inputs - met deze eigenschap worden invoer voor de Spark-taak gedefinieerd. Invoer voor een Spark-taak kan een letterlijke waarde zijn of gegevens die zijn opgeslagen in een bestand of map.
- Een letterlijke waarde kan een getal, een Booleaanse waarde of een tekenreeks zijn. Hier ziet u enkele voorbeelden:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Gegevens die zijn opgeslagen in een bestand of map, moeten worden gedefinieerd met behulp van deze eigenschappen:
  - type - stel deze eigenschap in op uri_file, of uri_folder, voor invoergegevens in een bestand of een map.
  - path - de URI van de invoergegevens, zoals azureml://, abfss://of wasbs://.
  - mode - stel deze eigenschap in op direct. In dit voorbeeld ziet u de definitie van een taakinvoer, die kan worden aangeduid als $${inputs.titanic_data}}:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs - met deze eigenschap worden de uitvoer van de Spark-taak gedefinieerd. Uitvoer voor een Spark-taak kan worden geschreven naar een bestand of een maplocatie, die is gedefinieerd met behulp van de volgende drie eigenschappen:
- type - deze eigenschap kan worden ingesteld op uri_file of uri_folder voor het schrijven van uitvoergegevens naar een bestand of een map.
- path - deze eigenschap definieert de URI van de uitvoerlocatie, zoals azureml://, abfss://of wasbs://.
- mode - stel deze eigenschap in op direct. In dit voorbeeld ziet u de definitie van een taakuitvoer, die kan worden aangeduid als ${{outputs.wrangled_data}}:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity - deze optionele eigenschap definieert de identiteit die wordt gebruikt om deze taak te verzenden. Het kan bestaan user_identity uit waarden en managed waarden. Als de YAML-specificatie geen identiteit definieert, gebruikt de Spark-taak de standaardidentiteit.

Zelfstandige Spark-taak

In dit voorbeeld van de YAML-specificatie ziet u een zelfstandige Spark-taak. Er wordt gebruikgemaakt van een serverloze Spark-rekenkracht van Azure Machine Learning:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.3"

Notitie

Als u een gekoppelde Synapse Spark-pool wilt gebruiken, definieert u de compute eigenschap in het yamL-voorbeeldspecificatiebestand dat eerder wordt weergegeven, in plaats van de resources eigenschap.

De YAML-bestanden die eerder worden weergegeven, kunnen worden gebruikt in de az ml job create opdracht, met de --file parameter, om een zelfstandige Spark-taak te maken, zoals wordt weergegeven:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

U kunt de bovenstaande opdracht uitvoeren vanuit:

terminal van een Azure Machine Learning-rekenproces.
terminal van Visual Studio Code die is verbonden met een Azure Machine Learning-rekenproces.
uw lokale computer waarop Azure Machine Learning CLI is geïnstalleerd.

VAN TOEPASSING OP: Python SDK azure-ai-ml v2 (actueel)

Zelfstandige Spark-taak met behulp van Python SDK

Als u een zelfstandige Spark-taak wilt maken, gebruikt u de azure.ai.ml.spark functie met de volgende parameters:

name - de naam van de Spark-taak.
display_name - de weergavenaam van de Spark-taak die moet worden weergegeven in de gebruikersinterface en elders.
code - de locatie van de map die broncode en scripts voor deze taak bevat.
entry - het toegangspunt voor de taak. Dit moet een woordenlijst zijn waarmee het bestandsinvoerpunt wordt gedefinieerd.
py_files - een lijst van .zip, .eggof .py bestanden die in de PYTHONPATH, voor een succesvolle uitvoering van de taak moeten worden geplaatst. Deze parameter is optioneel.
jars - een lijst met .jar bestanden die moeten worden opgenomen in het Spark-stuurprogramma en de uitvoerder CLASSPATH, voor een geslaagde uitvoering van de taak. Deze parameter is optioneel.
files - een lijst met bestanden die moeten worden gekopieerd naar de werkmap van elke uitvoerder, voor een geslaagde uitvoering van de taak. Deze parameter is optioneel.
archives - een lijst met archieven die automatisch wordt geëxtraheerd en in de werkmap van elke uitvoerder geplaatst, voor een geslaagde uitvoering van de taak. Deze parameter is optioneel.
conf - een woordenlijst met vooraf gedefinieerde Spark-configuratiesleutel-waardeparen.
driver_cores: het aantal kernen dat is toegewezen voor het Spark-stuurprogramma.
driver_memory: het toegewezen geheugen voor het Spark-stuurprogramma, met het achtervoegsel kvan de grootte-eenheid, mg of t (bijvoorbeeld 512m, 2g).
executor_cores: het aantal kerngeheugens dat is toegewezen voor de Spark-uitvoerfunctie.
executor_memory: het toegewezen geheugen voor de Spark-uitvoerfunctie, met het achtervoegsel kvan de grootte-eenheid , mg of t (bijvoorbeeld 512m, 2g).
dynamic_allocation_enabled - een Booleaanse parameter die bepaalt of uitvoerders dynamisch moeten worden toegewezen.
- Als dynamische toewijzing van uitvoerders is ingeschakeld, definieert u deze parameters:
  - dynamic_allocation_min_executors - het minimale aantal Spark-uitvoerders voor dynamische toewijzing.
  - dynamic_allocation_max_executors - het maximum aantal Spark-uitvoerders voor dynamische toewijzing.
- Als dynamische toewijzing van uitvoerders is uitgeschakeld, definieert u deze parameters:
  - executor_instances - het aantal Spark-uitvoerders.
  - environment - de Azure Machine Learning-omgeving waarmee de taak wordt uitgevoerd. Deze parameter moet worden doorgegeven:
    - een object van azure.ai.ml.entities.Environment, of een Azure Machine Learning-omgevingsnaam (tekenreeks).
args - de opdrachtregelargumenten die moeten worden doorgegeven aan het Python-script voor het taakinvoerpunt. Zie de voorbeeldcode die hier wordt gegeven voor een voorbeeld.
resources - de resources die moeten worden gebruikt door een serverloze Spark-rekenkracht van Azure Machine Learning. Deze parameter moet een woordenlijst doorgeven met:
- instance_type - een sleutel waarmee het type rekeninstantie wordt gedefinieerd dat moet worden gebruikt voor de serverloze Spark-berekening. De volgende exemplaartypen worden momenteel ondersteund:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version - een sleutel die de Spark Runtime-versie definieert. De volgende Spark-runtimeversies worden momenteel ondersteund:
  - 3.2.0
  - 3.3.0
    Belangrijk
    
    Azure Synapse Runtime voor Apache Spark: aankondigingen
    - Azure Synapse Runtime voor Apache Spark 3.2:
      
      EOLA Aankondigingsdatum: 8 juli 2023
      
      Einddatum van ondersteuning: 8 juli 2024. Na deze datum wordt de runtime uitgeschakeld.
    - Voor continue ondersteuning en optimale prestaties adviseren we om te migreren naar Apache Spark 3.3.
compute - de naam van een gekoppelde Synapse Spark-pool.
inputs - de invoer voor de Spark-taak. Deze parameter moet een woordenlijst doorgeven met toewijzingen van de invoergegevensbindingen die in de taak worden gebruikt. Deze woordenlijst heeft de volgende waarden:
- een woordenlijstsleutel definieert de invoernaam
- een overeenkomstige waarde kan zijn:
  - een letterlijke waarde: geheel getal, getal, booleaanse waarde of tekenreeks.
  - een object van klasse azure.ai.ml.Input, met de volgende parameters:
    - type - stel deze parameter in op uri_file of uri_folder, voor invoergegevens in een bestand of een map.
    - path - de URI van de invoergegevens, zoals azureml://, abfss://of wasbs://.
    - mode - stel deze parameter in op direct.
outputs - de uitvoer voor de Spark-taak. Deze parameter moet een woordenlijst doorgeven met toewijzingen van de uitvoergegevensbindingen die in de taak worden gebruikt. Deze woordenlijst heeft de volgende waarden:
- een woordenlijstsleutel definieert de uitvoernaam
- een overeenkomstige waarde is een object van klasse azure.ai.ml.Output, met de volgende parameters:
  - type - stel deze parameter uri_file respectievelijk in op of uri_folder, voor een uitvoergegevensbestand of een map.
  - path - de URI van de uitvoergegevens, zoals azureml://, abfss://of wasbs://.
  - mode - stel deze parameter in op direct.
identity - een optionele parameter die de identiteit definieert die wordt gebruikt voor het verzenden van deze taak. Toegestane waarden zijn een object van klasse
- azure.ai.ml.entities.UserIdentityConfiguration of
- azure.ai.ml.entities.ManagedIdentityConfiguration respectievelijk voor gebruikersidentiteit en beheerde identiteit. Als er geen identiteit is gedefinieerd, gebruikt de Spark-taak de standaardidentiteit.

U kunt een zelfstandige Spark-taak verzenden vanuit:

een Azure Machine Learning Notebook dat is verbonden met een Azure Machine Learning-rekenproces.
Visual Studio Code is verbonden met een Azure Machine Learning-rekenproces.
uw lokale computer waarop de Azure Machine Learning SDK voor Python is geïnstalleerd.

Dit Python-codefragment toont het maken van een zelfstandige Spark-taak, met een serverloze Spark-rekenkracht van Azure Machine Learning, met behulp van de gebruikersidentiteit.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.3.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Notitie

Als u een gekoppelde Synapse Spark-pool wilt gebruiken, definieert u de compute parameter in de azure.ai.ml.spark functie in plaats van resources.

Een zelfstandige Spark-taak verzenden vanuit Azure Machine Learning-studio-gebruikersinterface (preview)

Belangrijk

Deze functie is momenteel beschikbaar als openbare preview-versie. Deze preview-versie wordt geleverd zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt.

Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Een zelfstandige Spark-taak verzenden met behulp van de Azure Machine Learning-studio-gebruikersinterface:

Schermopname van het maken van een nieuwe Spark-taak in Azure Machine Learning-studio gebruikersinterface.

Selecteer + Nieuw rechtsboven in het scherm.
Selecteer Spark-taak (preview).
Op het scherm Compute :

Schermopname van het scherm berekeningsselectie voor een nieuwe Spark-taak in Azure Machine Learning-studio gebruikersinterface.

Selecteer onder Rekentype Selecteren de optie Serverloos voor serverloze Spark-berekening of Gekoppelde rekenkracht voor een gekoppelde Synapse Spark-pool.
Als u serverloos Spark hebt geselecteerd:
1. Selecteer de grootte van de virtuele machine.
2. Selecteer spark-runtimeversie.
Belangrijk

Azure Synapse Runtime voor Apache Spark: aankondigingen
- Azure Synapse Runtime voor Apache Spark 3.2:
  - EOLA Aankondigingsdatum: 8 juli 2023
  - Einddatum van ondersteuning: 8 juli 2024. Na deze datum wordt de runtime uitgeschakeld.
- Voor continue ondersteuning en optimale prestaties adviseren we om te migreren naar Apache Spark 3.3.
Als u Gekoppelde rekenkracht hebt geselecteerd:
1. Selecteer een gekoppelde Synapse Spark-pool in het menu Aan Azure Machine Learning gekoppelde rekenkracht selecteren.
Selecteer Volgende.
In het scherm Omgeving :
1. Selecteer een van de beschikbare omgevingen in de lijst. Omgevingsselectie is optioneel.
2. Selecteer Volgende.
In het scherm Taakinstellingen :
1. Geef een taaknaam op. U kunt de taaknaam gebruiken, die standaard wordt gegenereerd.
2. Selecteer De naam van het experiment in de vervolgkeuzelijst.
3. Geef onder Tags toevoegen de naam en waarde op en selecteer Vervolgens Toevoegen. Het toevoegen van tags is optioneel.
4. Onder de sectie Code :
  1. Selecteer een optie in de vervolgkeuzelijst Codelocatie kiezen. Kies Lokaal bestand uploaden of standaardblobopslag voor Azure Machine Learning-werkruimte.
  2. Als u De codelocatie kiezen hebt geselecteerd:
    - Selecteer Bladeren en navigeer naar de locatie met de codebestanden op uw lokale computer.
  3. Als u de standaardblobopslag van de Azure Machine Learning-werkruimte hebt geselecteerd:
    1. Selecteer Bladeren onder Pad naar codebestand dat u wilt uploaden.
    2. Selecteer in het pop-upscherm met de titel Padselectie het pad naar codebestanden in de standaard-blobopslag van de werkruimte.
    3. Selecteer Opslaan.
  4. Voer de naam van het invoerbestand in voor de zelfstandige taak. Dit bestand moet de Python-code bevatten die argumenten accepteert.
  5. Als u andere Python-bestanden wilt toevoegen die tijdens runtime voor de zelfstandige taak zijn vereist, selecteert u + Bestand toevoegen onder Py-bestanden en voert u de naam van het .zipbestand in .eggof .py het bestand dat in de PYTHONPATH taak moet worden geplaatst voor een geslaagde taakuitvoering. Er kunnen meerdere bestanden worden toegevoegd.
  6. Als u jar-bestanden wilt toevoegen die de zelfstandige taak tijdens runtime vereist, selecteert u + Bestand toevoegen onder Jars en voert u de naam in van het .jar bestand dat moet worden opgenomen in het Spark-stuurprogramma. Voeg ook de uitvoerder CLASSPATH toe voor een geslaagde taakuitvoering. Er kunnen meerdere bestanden worden toegevoegd.
  7. Als u archief(en) wilt toevoegen die moeten worden geëxtraheerd in de werkmap van elke uitvoerder voor een geslaagde taakuitvoering, selecteert u + Bestand toevoegen onder Archieven en voert u de naam van het archief in. Er kunnen meerdere archieven worden toegevoegd.
  8. Het toevoegen van Py-bestanden, Jars en Archieven is optioneel.
  9. Als u een invoer wilt toevoegen, selecteert u + Invoer toevoegen onder Invoer en
    1. Voer een invoernaam in. De invoer moet later in de argumenten naar deze naam verwijzen.
    2. Selecteer een invoertype.
    3. Voor het type Gegevens:
      1. Selecteer gegevenstype als bestand of map.
      2. Selecteer gegevensbron als Uploaden vanuit lokale, URI of Gegevensarchief.
        
        Selecteer Bladeren onder Pad voor uploaden om het invoerbestand of de invoermap te kiezen.
        
        Voer voor URI een opslaggegevens-URI (bijvoorbeeld abfss:// of URI) in wasbs:// of voer een gegevensasset azureml://in.
        
        Voor het gegevensarchief:
        
        Selecteer een gegevensarchief in de vervolgkeuzelijst.
        
        Selecteer Bladeren onder Pad naar gegevens.
        
        Selecteer in het pop-upscherm met de titel Padselectie het pad van de codebestanden in de standaard-blobopslag van de werkruimte.
        
        Selecteer Opslaan.
    4. Voer voor het type Geheel getal een geheel getal in als invoerwaarde.
    5. Voer voor het type Getal een numerieke waarde in als invoerwaarde.
    6. Voor het type Booleaanse waarde selecteert u Waar of Onwaar als invoerwaarde.
    7. Voer voor het type Tekenreeks een tekenreeks in als invoerwaarde.
  10. Als u een invoer wilt toevoegen, selecteert u + Uitvoer toevoegen onder Uitvoer en
    1. Voer een uitvoernaam in. De uitvoer moet later in de argumenten naar deze naam verwijzen.
    2. Selecteer uitvoertype als bestand of map.
    3. Voer voor de uitvoer-URI-bestemming een opslaggegevens-URI (bijvoorbeeld abfss:// of URI) in wasbs:// of voer een gegevensasset azureml://in.
  11. Voer argumenten in met behulp van de namen die zijn gedefinieerd in de velden Invoernaam en Uitvoernaam in de eerdere stappen, en de namen van invoer- en uitvoerargumenten die worden gebruikt in het Python-scriptinvoerbestand. Als de invoernaam en uitvoernaam bijvoorbeeld zijn gedefinieerd als job_input enjob_output, en de argumenten worden toegevoegd aan het invoerbestand, zoals hier wordt weergegeven
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
voer vervolgens Argumenten in als --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}. 5. Onder de sectie Spark-configuraties: 1. Voer voor uitvoerdersgrootte 1. Voer het aantal uitvoerderskernen en uitvoerprogrammageheugen (GB) in, in gigabytes. 2. Voor dynamisch toegewezen uitvoerders selecteert u de optie Uitgeschakeld of Ingeschakeld . - Als dynamische toewijzing van uitvoerders is uitgeschakeld, voert u het aantal uitvoerders in. - Als dynamische toewijzing van uitvoerders is ingeschakeld, gebruikt u de schuifregelaar om het minimum- en maximum aantal uitvoerders te selecteren. 1. Voor de grootte van het stuurprogramma: 1. Voer het aantal stuurprogrammakernen en het geheugen van het stuurprogramma (GB) in, in gigabytes. 2. Voer naam - en waardeparen in voor eventuele aanvullende configuraties en selecteer vervolgens Toevoegen. Het bieden van aanvullende configuraties is optioneel. 6. Selecteer Volgende.
Op het scherm Controleren :
1. Controleer de taakspecificatie voordat u deze indient.
2. Selecteer Maken om de zelfstandige Spark-taak te verzenden.

Spark-onderdeel in een pijplijntaak

Een Spark-onderdeel biedt de flexibiliteit om hetzelfde onderdeel in meerdere Azure Machine Learning-pijplijnen te gebruiken als een pijplijnstap.

VAN TOEPASSING OP: Azure CLI ml-extensie v2 (huidige)

De YAML-syntaxis voor een Spark-onderdeel lijkt op de YAML-syntaxis voor spark-taakspecificatie op de meeste manieren. Deze eigenschappen worden anders gedefinieerd in de YAML-specificatie van het Spark-onderdeel:

name - de naam van het Spark-onderdeel.
version - de versie van het Spark-onderdeel.
display_name - de naam van het Spark-onderdeel dat moet worden weergegeven in de gebruikersinterface en elders.
description - de beschrijving van het Spark-onderdeel.
inputs - deze eigenschap is vergelijkbaar met inputs de eigenschap die wordt beschreven in de YAML-syntaxis voor spark-taakspecificatie, behalve dat de path eigenschap niet wordt gedefinieerd. Dit codefragment toont een voorbeeld van de spark-onderdeeleigenschap inputs :
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs- deze eigenschap is vergelijkbaar met de eigenschap die wordt beschreven in de outputs YAML-syntaxis voor spark-taakspecificatie, behalve dat deze de path eigenschap niet definieert. Dit codefragment toont een voorbeeld van de spark-onderdeeleigenschap outputs :
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Notitie

Een Spark-onderdeel definieert identitycompute of resources eigenschappen niet. Het YAML-specificatiebestand van de pijplijn definieert deze eigenschappen.

Dit YAML-specificatiebestand bevat een voorbeeld van een Spark-onderdeel:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Het Spark-onderdeel dat is gedefinieerd in het bovenstaande YAML-specificatiebestand, kan worden gebruikt in een Azure Machine Learning-pijplijntaak. Zie het YAML-schema voor pijplijntaken voor meer informatie over de YAML-syntaxis waarmee een pijplijntaak wordt gedefinieerd. In dit voorbeeld ziet u een YAML-specificatiebestand voor een pijplijntaak, met een Spark-onderdeel en een serverloze Spark-rekenkracht van Azure Machine Learning:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.3"

Notitie

Als u een gekoppelde Synapse Spark-pool wilt gebruiken, definieert u de compute eigenschap in het voorbeeldbestand van de YAML-specificatie dat hierboven wordt weergegeven, in plaats van resources de eigenschap.

Het bovenstaande YAML-specificatiebestand kan worden gebruikt in de az ml job create opdracht, met behulp van de --file parameter, om een pijplijntaak te maken zoals wordt weergegeven:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

U kunt de bovenstaande opdracht uitvoeren vanuit:

terminal van een Azure Machine Learning-rekenproces.
terminal van Visual Studio Code die is verbonden met een Azure Machine Learning-rekenproces.
uw lokale computer waarop Azure Machine Learning CLI is geïnstalleerd.

VAN TOEPASSING OP: Python SDK azure-ai-ml v2 (actueel)

Als u een Azure Machine Learning-pijplijn met een Spark-onderdeel wilt maken, moet u weten hoe u Azure Machine Learning-pijplijnen maakt van onderdelen met behulp van Python SDK. Er wordt een Spark-onderdeel gemaakt met behulp van azure.ai.ml.spark de functie. De functieparameters worden bijna op dezelfde manier gedefinieerd als voor de zelfstandige Spark-taak. Deze parameters zijn anders gedefinieerd voor het Spark-onderdeel:

name - de naam van het Spark-onderdeel.
display_name - de naam van het Spark-onderdeel dat wordt weergegeven in de gebruikersinterface en elders.
inputs - deze parameter lijkt op de inputs parameter die wordt beschreven voor de zelfstandige Spark-taak, behalve dat de azure.ai.ml.Input klasse wordt geïnstantieerd zonder de path parameter.
outputs - deze parameter lijkt op de outputs parameter die wordt beschreven voor de zelfstandige Spark-taak, behalve dat de azure.ai.ml.Output klasse wordt geïnstantieerd zonder de path parameter.

Notitie

Een Spark-onderdeel dat met de azure.ai.ml.spark functie is gemaakt, definieert de identityof compute resources parameters niet. De Azure Machine Learning-pijplijn definieert deze parameters.

U kunt een pijplijntaak met een Spark-onderdeel verzenden vanuit:

een Azure Machine Learning Notebook dat is verbonden met een Azure Machine Learning-rekenproces.
Visual Studio Code is verbonden met een Azure Machine Learning-rekenproces.
uw lokale computer waarop de Azure Machine Learning SDK voor Python is geïnstalleerd.

Dit Python-codefragment toont het gebruik van een beheerde identiteit, samen met het maken van een Azure Machine Learning-pijplijntaak. Daarnaast wordt het gebruik van een Spark-onderdeel en een door Azure Machine Learning beheerde (automatische) Synapse-berekening weergegeven:

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.3.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Notitie

Als u een gekoppelde Synapse Spark-pool wilt gebruiken, definieert u de compute parameter in de azure.ai.ml.spark functie in plaats van resources parameter. Definieer bijvoorbeeld in het bovenstaande spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" codevoorbeeld in plaats van definiëren spark_step.resources.

Problemen met Spark-taken oplossen

Als u problemen met een Spark-taak wilt oplossen, hebt u toegang tot de logboeken die zijn gegenereerd voor die taak in Azure Machine Learning-studio. De logboeken voor een Spark-taak weergeven:

Ga in het linkerdeelvenster naar Taken in de gebruikersinterface van Azure Machine Learning-studio
Het tabblad Alle taken selecteren
Selecteer de weergavenaamwaarde voor de taak
Selecteer op de pagina Met taakgegevens het tabblad Uitvoer en logboeken
Vouw in de Verkenner de map logboeken uit en vouw vervolgens de azureml-map uit
Toegang tot de Spark-taaklogboeken in de mappen stuurprogramma- en bibliotheekbeheer

Notitie

Als u problemen met Spark-taken wilt oplossen die zijn gemaakt tijdens interactieve gegevens in een notebooksessie, selecteert u Taakdetails in de rechterbovenhoek van de gebruikersinterface van het notebook. Een Spark-taak van een interactieve notebooksessie wordt gemaakt onder de naam notebook-runs van het experiment.

Delen via

Spark-taken verzenden in Azure Machine Learning

Vereisten

Door de gebruiker toegewezen beheerde identiteit koppelen met CLI v2

Door de gebruiker toegewezen beheerde identiteit koppelen met `ARMClient`

Een zelfstandige Spark-taak verzenden

YAML-eigenschappen in de Spark-taakspecificatie

Zelfstandige Spark-taak

Zelfstandige Spark-taak met behulp van Python SDK

Een zelfstandige Spark-taak verzenden vanuit Azure Machine Learning-studio-gebruikersinterface (preview)

Spark-onderdeel in een pijplijntaak

Problemen met Spark-taken oplossen

Volgende stappen

Feedback

Feedback

Aanvullende resources

Delen via

Spark-taken verzenden in Azure Machine Learning

Vereisten

Door de gebruiker toegewezen beheerde identiteit koppelen met CLI v2

Door de gebruiker toegewezen beheerde identiteit koppelen met ARMClient

Een zelfstandige Spark-taak verzenden

YAML-eigenschappen in de Spark-taakspecificatie

Zelfstandige Spark-taak

Spark-onderdeel in een pijplijntaak

Problemen met Spark-taken oplossen

Volgende stappen

Feedback

Feedback

Aanvullende resources

Door de gebruiker toegewezen beheerde identiteit koppelen met `ARMClient`