Übermitteln von Spark-Aufträgen in Azure Machine Learning

Artikel
10/05/2023

GILT FÜR:Azure CLI ML-Erweiterung v2 (aktuell)Python SDK azure-ai-ml v2 (aktuell)

Azure Machine Learning unterstützt die Übermittlung eigenständiger Aufträge für maschinelles Lernen und die Erstellung von Pipelines für maschinelles Lernen, die mehrere Schritte in Workflows für maschinelles Lernen umfassen. Azure Machine Learning übernimmt sowohl die Erstellung von eigenständigen Spark-Aufträgen als auch die Erstellung wiederverwendbarer Spark-Komponenten, die von Azure Machine Learning-Pipelines verwendet werden können. In diesem Artikel erfahren Sie, wie Sie Spark-Aufträge mithilfe dieser Voraussetzungen übermitteln:

Benutzeroberfläche von Azure Machine Learning Studio
Azure Machine Learning-CLI
Azure Machine Learning SDK

Weitere Informationen zu Apache Spark in Azure Machine Learning-Konzepten finden Sie in dieser Ressource.

Voraussetzungen

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

Ein Azure-Abonnement: Sollten Sie über kein Azure-Abonnement verfügen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.
Ein Azure Machine Learning-Arbeitsbereich. Siehe Erstellen von Arbeitsbereichsressourcen.
Erstellen einer Compute-Instanz von Azure Machine Learning
Installieren Sie die Azure Machine Learning-CLI.
(Optional): Ein angefügter Synapse Spark-Pool im Azure Machine Learning-Arbeitsbereich.

Hinweis

Weitere Informationen zum Ressourcenzugriff bei Verwendung der serverlosen Spark-Compute von Azure Machine Learning und angefügtem Synapse Spark-Pool finden Sie unter Sicherstellen des Ressourcenzugriffs für Spark-Aufträge.
Azure Machine Learning bietet einen freigegebenen Kontingentpool, aus dem alle Benutzer auf das Computekontingent zugreifen können, um Tests für einen begrenzten Zeitraum durchzuführen. Wenn Sie die serverlose Spark-Computing verwenden, können Sie mit Azure Machine Learning für kurze Zeit auf dieses freigegebene Kontingent zugreifen.

Anfügen einer benutzerseitig zugewiesenen verwalteten Identität mithilfe von CLI v2

Erstellen Sie eine YAML-Datei, die die benutzerseitig zugewiesene verwaltete Identität definiert, die an den Arbeitsbereich angefügt werden soll:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

Verwenden Sie die YAML-Datei im az ml workspace update-Befehl mit dem --file-Parameter, um die vom Benutzer zugewiesene verwaltete Identität anzufügen:
```
az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml
```

Anfügen einer benutzerseitig zugewiesenen verwalteten Identität mithilfe von `ARMClient`

Installieren Sie ARMClient, ein einfaches Befehlszeilentool, das die Azure Resource Manager-API aufruft.

Erstellen Sie eine JSON-Datei, die die benutzerseitig zugewiesene verwaltete Identität definiert, die an den Arbeitsbereich angefügt werden soll:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Führen Sie den folgenden Befehl an der PowerShell-Eingabeaufforderung oder der Eingabeaufforderung aus, um die vom Benutzer zugewiesene verwaltete Identität an den Arbeitsbereich anzufügen.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Hinweis

Um eine erfolgreiche Ausführung des Spark-Auftrags sicherzustellen, weisen Sie der Identität, die für den Spark-Auftrag verwendet wird, die Rollen Mitwirkender und Mitwirkender für Speicherblobdaten für das Azure-Speicherkonto zu, das für die Dateneingabe und -ausgabe verwendet wird.
Der öffentliche Netzwerkzugriff muss im Azure Synapse-Arbeitsbereich aktiviert sein, um eine erfolgreiche Ausführung des Spark-Auftrags mithilfe eines angefügten Synapse Spark-Pools sicherzustellen.
Wenn ein angefügter Synapse Spark-Pool auf einen Synapse Spark-Pool in einem Azure Synapse-Arbeitsbereich verweist, dem ein verwaltetes virtuelles Netzwerk zugeordnet ist, sollte ein verwalteter privater Endpunkt für das Speicherkonto konfiguriert werden, um den Zugriff auf die Daten sicherzustellen.
Serverlose Spark-Computevorgänge unterstützen ein verwaltetes virtuelles Netzwerk für Azure Machine Learning. Wenn ein verwaltetes Netzwerk für die serverlose Spark-Compute-Instanz bereitgestellt wird, sollten auch die entsprechenden privaten Endpunkte für das Speicherkonto bereitgestellt werden, um den Datenzugriff sicherzustellen.

Übermitteln eines eigenständigen Spark-Auftrags

Ein durch interaktives Data Wrangling entwickeltes Python-Skript kann zum Übermitteln eines Batchauftrags verwendet werden, um eine größere Menge von Daten zu verarbeiten, nachdem die erforderlichen Änderungen an der Parametrisierung des Python-Skripts vorgenommen wurden. Ein einfacher Data Wrangling-Batchauftrag kann als eigenständiger Spark-Job übermittelt werden.

Ein Spark-Auftrag erfordert ein Python-Skript, das Argumente akzeptiert und durch Modifikation des Python-Codes entwickelt werden kann, der aus interaktivem Data Wrangling entwickelt wurde. Ein Python-Beispielskript wird hier gezeigt.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Hinweis

Dieses Python-Codebeispiel verwendet pyspark.pandas. Dies wird nur von der Spark-Laufzeitversion 3.2 oder höher unterstützt.

Das obige Skript akzeptiert zwei Argumente --titanic_data und --wrangled_data, die den Pfad der Eingabedaten bzw. des Ausgabeordners übergeben.

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

Zum Erstellen eines Auftrags kann ein eigenständiger Spark-Auftrag als YAML-Spezifikationsdatei definiert werden, die im Befehl az ml job create mit dem Parameter --file verwendet werden kann. Definieren Sie diese Eigenschaften in der YAML-Datei:

YAML-Eigenschaften in der Spark-Auftragsspezifikation

type – festgelegt auf spark.
code – definiert den Speicherort des Ordners, der Quellcode und Skripte für diesen Job enthält.
entry – definiert den Einstiegspunkt für den Auftrag. Es sollte eine der folgenden Eigenschaften abdecken:
- file – definiert den Namen des Python-Skripts, das als Einstiegspunkt für den Auftrag dient.
py_files – definiert eine Liste von den Dateien .zip, .egg, oder .py, die für die erfolgreiche Ausführung des Auftrags in PYTHONPATH platziert werden sollen. Diese Eigenschaft ist optional.
jars – definiert eine Liste der Dateien .jar, die für die erfolgreiche Ausführung des Auftrags in den Spark-Treiber und den Executor CLASSPATH eingeschlossen werden sollen. Diese Eigenschaft ist optional.
files – definiert eine Liste der Dateien, die für die erfolgreiche Auftragsausführung in das Arbeitsverzeichnis jedes Executors kopiert werden sollen. Diese Eigenschaft ist optional.
archives – definiert eine Liste der Archive, die für die erfolgreiche Auftragsausführung in das Arbeitsverzeichnis jedes Executors extrahiert werden sollen. Diese Eigenschaft ist optional.
conf – definiert die folgenden Spark-Treiber- und Executor-Eigenschaften:
- spark.driver.cores: die Anzahl der Kerne für den Spark-Treiber.
- spark.driver.memory: zugewiesener Arbeitsspeicher für den Spark-Treiber in Gigabyte (GB).
- spark.executor.cores: die Anzahl der Kerne für den Spark-Treiber.
- spark.executor.memory: die Speicherbelegung für den Spark-Executor in Gigabyte (GB).
- spark.dynamicAllocation.enabled – gibt an, ob Executors dynamisch als Wert True oder False zugeordnet werden sollen.
- Wenn die dynamische Zuordnung von Executors aktiviert ist, definieren Sie die folgenden Eigenschaften:
  - spark.dynamicAllocation.minExecutors – die Mindestanzahl von Spark-Executors-Instanzen für die dynamische Zuordnung.
  - spark.dynamicAllocation.maxExecutors – die maximale Anzahl von Spark-Executors-Instanzen für die dynamische Zuordnung.
- Wenn die dynamische Zuordnung von Executors deaktiviert ist, definieren Sie diese Eigenschaft:
  - spark.executor.instances – die Anzahl der Spark-Executor-Instanzen.
environment – eine Azure Machine Learning-Umgebung zum Ausführen des Auftrags.
args – die Befehlszeilenargumente, die an das Python-Skript des Auftragseinstiegspunkts übergeben werden sollten. Ein Beispiel finden Sie in der hier angegebenen YAML-Spezifikationsdatei.
resources – diese Eigenschaft definiert die Ressourcen, die von einer serverlosen Spark-Computeversion (Vorschau) von Azure Machine Learning verwendet werden sollen. Es verfügt über folgende Eigenschaften:
- instance_type – der Compute-Instanztyp, der für den Spark-Pool verwendet werden soll. Folgende Instanztypen werden derzeit unterstützt:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version – definiert die Spark-Runtimeversion. Die folgenden Spark-Runtimeversionen werden derzeit unterstützt:
  - 3.2
  - 3.3
    Wichtig
    
    Azure Synapse-Runtime für Apache Spark: Ankündigungen
    - Azure Synapse Runtime for Apache Spark 3.2:
      
      EOLA-Datum: 8. Juli 2023
      
      Datum für Supportende: 8. Juli 2024. Nach diesem Datum wird die Runtime deaktiviert.
    - Wenn Sie weiterhin Support erhalten und von optimaler Leistung profitieren möchten, empfehlen wir die Migration zu Apache Spark 3.3.
Hier ein Beispiel:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.3"
```
compute – diese Eigenschaft definiert den Namen eines angefügten Synapse Spark-Pools, wie in diesem Beispiel gezeigt:
```
compute: mysparkpool
```
inputs – diese Eigenschaft definiert Eingaben für den Spark-Auftrag. Eingaben für einen Spark-Auftrag können entweder ein Literalwert oder gespeicherte Daten in einer Datei oder einem Ordner sein.
- Ein Literalwert kann eine Zahl, ein boolescher Wert oder eine Zeichenfolge sein. Einige Beispiele sind hier dargestellt:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Gespeicherte Daten in einer Datei oder einem Ordner sollten mithilfe der folgenden Eigenschaften definiert werden:
  - type – legen Sie diese Eigenschaft für Eingabedaten, die in einer Datei oder einem Ordner enthalten sind, auf uri_file oder uri_folder fest.
  - path – der URI der Eingabedaten, z. B. azureml://, abfss:// oder wasbs://.
  - mode – legen Sie diese Eigenschaft auf direct fest. Dieses Beispiel zeigt die Definition einer Auftragseingabe, die als $${inputs.titanic_data}} bezeichnet werden kann:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs – diese Eigenschaft definiert die Spark-Auftragsausgaben. Ausgaben für einen Spark-Auftrag können in eine Datei oder einen Ordnerspeicherort geschrieben werden, der mit den folgenden drei Eigenschaften definiert wird:
- type – diese Eigenschaft kann auf uri_file oder uri_folder festgelegt werden, um Ausgabedaten in eine Datei oder einen Ordner zu schreiben.
- path – diese Eigenschaft definiert den Ausgabespeicherort-URI, z. B. azureml://, abfss:// oder wasbs://.
- mode – legen Sie diese Eigenschaft auf direct fest. Dieses Beispiel zeigt die Definition einer Auftragsausgabe, die als ${{outputs.wrangled_data}} bezeichnet werden kann:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity – diese optionale Eigenschaft definiert die Identität, die zum Übermitteln dieses Auftrags verwendet wird. Es kann Werte user_identity und managed aufweisen. Wenn die YAML-Spezifikation keine Identität definiert, verwendet der Spark-Auftrag die Standardidentität.

Eigenständiger Spark-Auftrag

Diese YAML-Beispielspezifikation zeigt einen eigenständigen Spark-Auftrag. Sie verwendet eine serverlose Spark-Computeversion von Azure Machine Learning:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.3"

Hinweis

Wenn Sie einen angefügten Synapse Spark-Pool verwenden möchten, definieren Sie im zuvor gezeigten Beispiel einer YAML-Spezifikationsdatei die Eigenschaft compute anstelle der Eigenschaft resources.

Die zuvor gezeigten YAML-Dateien können im Befehl az ml job create mit dem Parameter --file verwendet werden, um einen eigenständigen Spark-Auftrag wie dargestellt zu erstellen:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Sie können den obigen Befehl an folgenden Stellen ausführen:

Terminal einer Azure Machine Learning-Compute-Instanz
Terminal nach Herstellen einer Verbindung mit einer Azure Machine Learning-Compute-Instanz in Visual Studio Code
Auf Ihrem lokalen Computer mit installierter Azure Machine Learning CLI

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Eigenständiger Spark-Auftrag mithilfe des Python-SDK

Um einen eigenständigen Spark-Auftrag zu erstellen, verwenden Sie die Funktion azure.ai.ml.spark mit den folgenden Parametern:

name – der Name des Spark-Auftrags.
display_name – der Anzeigename des Spark-Auftrags, der auf der Benutzeroberfläche und an anderer Stelle angezeigt werden soll.
code – der Speicherort des Ordners, der Quellcode und Skripte für diesen Job enthält.
entry – der Einstiegspunkt für den Auftrag. Es sollte ein Wörterbuch sein, das den Dateieinstiegspunkt definiert.
py_files – eine Liste von den Dateien .zip, .egg, oder .py, die für die erfolgreiche Ausführung des Auftrags in PYTHONPATH platziert werden sollen. Dieser Parameter ist optional.
jars – eine Liste der Dateien .jar, die für die erfolgreiche Ausführung des Auftrags in den Spark-Treiber und Executor CLASSPATH eingeschlossen werden sollen. Dieser Parameter ist optional.
files – eine Liste der Dateien, die für die erfolgreiche Ausführung des Auftrags in das Arbeitsverzeichnis jedes Executors kopiert werden sollen. Dieser Parameter ist optional.
archives – eine Liste von Archiven, die automatisch extrahiert und im Arbeitsverzeichnis jedes Executors platziert werden, um den Auftrag erfolgreich auszuführen. Dieser Parameter ist optional.
conf – ein Wörterbuch mit vordefinierten Schlüssel-Wert-Paaren der Spark-Konfiguration.
driver_cores: die Anzahl der Kerne, die dem Spark-Treiber zugeordnet sind.
driver_memory: der zugeordnete Arbeitsspeicher für den Spark-Treiber mit einem Größeneinheitssuffix k, m, g oder t (beispielsweise 512m, 2g).
executor_cores: die Anzahl der Kerne, die dem Spark-Executor zugeordnet sind.
executor_memory: der zugeordnete Arbeitsspeicher für den Spark-Executor mit einem Größeneinheitssuffix k, m, g oder t (beispielsweise 512m, 2g).
dynamic_allocation_enabled – ein boolescher Parameter, der definiert, ob Executors dynamisch zugeordnet werden sollen.
- Wenn die dynamische Zuordnung von Executors aktiviert ist, dann definieren Sie die folgenden Parameter:
  - dynamic_allocation_min_executors – die Mindestanzahl von Spark-Executors-Instanzen für die dynamische Zuordnung.
  - dynamic_allocation_max_executors – die maximale Anzahl von Spark-Executors-Instanzen für die dynamische Zuordnung.
- Wenn die dynamische Zuordnung von Executors deaktiviert ist, dann definieren Sie die folgenden Parameter:
  - executor_instances – die Anzahl der Spark-Executor-Instanzen.
  - environment – die Azure Machine Learning-Umgebung, die den Auftrag ausführt. Dieser Parameter sollte Folgendes übergeben:
    - ein Objekt von azure.ai.ml.entities.Environment oder den Namen einer Azure Machine Learning-Umgebung (Zeichenfolge).
args – die Befehlszeilenargumente, die an das Python-Skript des Auftragseinstiegspunkts übergeben werden sollten. Ein Beispiel finden Sie im hier angegebenen Beispielcode.
resources – die Ressourcen, die von einer serverlosen Spark-Computeversion (Vorschau) von Azure Machine Learning verwendet werden sollen. Dieser Parameter sollte ein Wörterbuch mit Folgendem übergeben:
- instance_type – ein Schlüssel, der den Compute-Instanztyp definiert, der für die serverlose Spark-Computeversion (Vorschau) von Azure Machine Learning verwendet werden soll. Folgende Instanztypen werden derzeit unterstützt:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version – ein Schlüssel, der die Spark-Runtimeversion definiert. Die folgenden Spark-Runtimeversionen werden derzeit unterstützt:
  - 3.2.0
  - 3.3.0
    Wichtig
    
    Azure Synapse-Runtime für Apache Spark: Ankündigungen
    - Azure Synapse Runtime for Apache Spark 3.2:
      
      EOLA-Datum: 8. Juli 2023
      
      Datum für Supportende: 8. Juli 2024. Nach diesem Datum wird die Runtime deaktiviert.
    - Wenn Sie weiterhin Support erhalten und von optimaler Leistung profitieren möchten, empfehlen wir die Migration zu Apache Spark 3.3.
compute – der Name eines angefügten Synapse Spark-Pools.
inputs – die Eingaben für den Spark-Auftrag. Dieser Parameter sollte ein Wörterbuch mit Zuordnungen der Eingabedatenbindungen übergeben, die im Auftrag verwendet werden. Dieses Wörterbuch verfügt über die folgenden Werte:
- ein Wörterbuchschlüssel definiert den Eingabenamen
- ein entsprechender Wert kann sein:
  - ein Literalwert: integer, Zahl, boolescher Wert oder Zeichenfolge.
  - ein Objekt der Klasse azure.ai.ml.Input mit den folgenden Parametern:
    - type – legen Sie diese Parameter für Eingabedaten, die in einer Datei oder einem Ordner enthalten sind, auf uri_file oder uri_folder fest.
    - path – der URI der Eingabedaten, z. B. azureml://, abfss:// oder wasbs://.
    - mode – legen Sie diesen Parameter auf direct fest.
outputs – die Ausgaben für den Spark-Auftrag. Dieser Parameter sollte ein Wörterbuch mit Zuordnungen der Ausgabedatenbindungen übergeben, die im Auftrag verwendet werden. Dieses Wörterbuch verfügt über die folgenden Werte:
- ein Wörterbuchschlüssel definiert den Ausgabenamen
- ein entsprechender Wert ist ein Objekt der Klasse azure.ai.ml.Output mit den folgenden Parametern:
  - type – legen Sie diesen Parameter für eine Ausgabedatendatei bzw. einen Ordner auf uri_file oder uri_folder fest.
  - path – der URI der Ausgabedaten, z. B. azureml://, abfss:// oder wasbs://.
  - mode – legen Sie diesen Parameter auf direct fest.
identity – ein optionaler Parameter, der die Identität definiert, die für die Übermittlung dieses Auftrags verwendet wird. Zulässige Werte sind ein Objekt der Klasse
- azure.ai.ml.entities.UserIdentityConfiguration oder
- azure.ai.ml.entities.ManagedIdentityConfiguration für die Benutzeridentität bzw. die verwaltete Identität. Wenn keine Identität definiert ist, wird für den Spark-Auftrag die Standardidentität verwendet.

Sie können einen eigenständigen Spark-Auftrag an folgenden Stellen übermitteln:

Azure Machine Learning-Notebook, das mit einer Azure Machine Learning-Compute-Instanz verbunden ist
Visual Studio Code nach Herstellen einer Verbindung mit einer Azure Machine Learning-Compute-Instanz
Ihrem lokalen Computer bei installiertem Azure Machine Learning SDK für Python

Dieser Python-Codeausschnitt zeigt die Erstellung eines eigenständigen Spark-Auftrags mit einer serverlosen Spark-Computeversion von Azure Machine Learning unter Verwendung der Benutzeridentität.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.3.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Hinweis

Zum Verwenden eines angefügten Synapse Spark-Pools definieren Sie in der Funktion azure.ai.ml.spark den Parameter compute anstelle von resources.

Übermitteln eines eigenständigen Spark-Auftrags über die Benutzeroberfläche von Azure Machine Learning Studio (Vorschau)

Wichtig

Dieses Feature ist zurzeit als öffentliche Preview verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und ist nicht für Produktionsworkloads vorgesehen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar.

Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

So übermitteln Sie einen eigenständigen Spark-Auftrag über die Benutzeroberfläche von Azure Machine Learning Studio:

Screenshot showing creation of a new Spark job in Azure Machine Learning studio UI.

Wählen Sie rechts oben auf dem Bildschirm + Neu aus.
Wählen Sie Spark-Auftrag (Vorschau) aus.
Auf dem Bildschirm Compute:

Screenshot showing compute selection screen for a new Spark job in Azure Machine Learning studio UI.

Wählen Sie unter Compute-Typ auswählen die Option Spark serverlos für die serverlose Spark-Computeversion oder Angehängte Compute für einen angefügten Synapse-Spark-Pool aus.
Wenn Sie Spark serverlos ausgewählt haben:
1. Wählen Sie VM-Größe aus.
2. Wählen Sie Spark-Runtimeversion aus.
Wichtig

Azure Synapse-Runtime für Apache Spark: Ankündigungen
- Azure Synapse Runtime for Apache Spark 3.2:
  - EOLA-Datum: 8. Juli 2023
  - Datum für Supportende: 8. Juli 2024. Nach diesem Datum wird die Runtime deaktiviert.
- Wenn Sie weiterhin Support erhalten und von optimaler Leistung profitieren möchten, empfehlen wir die Migration zu Apache Spark 3.3.
Wenn Sie Angefügte Compute ausgewählt haben:
1. Wählen Sie einen angefügten Synapse-Spark-Pool aus dem Menü Angefügte Azure Machine Learning-Computeressourcen auswählen aus.
Klicken Sie auf Weiter.
Auf dem Bildschirm Umgebung:
1. Wählen Sie eine der verfügbaren Umgebungen aus der Liste aus. Die Umgebungsauswahl ist optional.
2. Klicken Sie auf Weiter.
Auf dem Bildschirm Auftragseinstellungen:
1. Geben Sie den Namen für einen Auftrag an. Sie können den Namen für einen Auftrag verwenden, der standardmäßig generiert wird.
2. Wählen Sie aus dem Dropdownmenü die Executor-Größe aus.
3. Geben Sie unter Tags hinzufügen die Optionen Name und Wert an und wählen Sie dann Hinzufügen aus. Das Hinzufügen von Tags ist optional.
4. Führen Sie im Abschnitt Code Folgendes aus:
  1. Wählen Sie eine Option aus der Dropdownliste Codespeicherort auswählen aus. Wählen Sie Lokale Datei hochladen oder Standardblobspeicher des Azure Machine Learning-Arbeitsbereichs aus.
  2. Wenn Sie Codespeicherort auswählen ausgewählt haben:
    - Wählen Sie Durchsuchen aus und navigieren Sie zu dem Speicherort, der die Codedatei(en) auf Ihrem lokalen Computer enthält.
  3. Wenn Sie Standardblobspeicher für Azure Machine Learning-Arbeitsbereich ausgewählt haben:
    1. Wählen Sie unter Pfad zur hochzuladenden Codedatei die Option Durchsuchen aus.
    2. Wählen Sie im Popupbildschirm mit dem Titel Pfadauswahl den Pfad der Codedateien im Standardblobspeicher des Arbeitsbereichs aus.
    3. Wählen Sie Speichern aus.
  4. Geben Sie den Namen der Eintragsdatei für den eigenständigen Auftrag ein. Diese Datei sollte den Python-Code enthalten, der Argumente akzeptiert.
  5. Um weitere Python-Dateien hinzuzufügen, die für den eigenständigen Auftrag zur Laufzeit erforderlich sind, wählen Sie unter Py-Dateien die Option + Datei hinzufügen aus, und geben Sie den Namen der Datei .zip, .egg oder .py ein, die für die erfolgreiche Ausführung des Auftrags in PYTHONPATH eingefügt werden soll. Es können mehrere Dateien hinzugefügt werden.
  6. Um JAR-Dateien hinzuzufügen, die für den eigenständigen Auftrag zur Laufzeit erforderlich sind, wählen Sie unter JARs die Option + Datei hinzufügen aus und geben Sie den Namen der Datei .jar ein, die in den Spark-Treiber eingeschlossen werden soll. Fügen Sie außerdem den Executor CLASSPATH für eine erfolgreiche Auftragsausführung hinzu. Es können mehrere Dateien hinzugefügt werden.
  7. Um Archive hinzuzufügen, die in das Arbeitsverzeichnis jedes Executors extrahiert werden sollen, um den Auftrag erfolgreich auszuführen, wählen Sie unter Archive die Option + Datei hinzufügen aus und geben Sie den Namen des Archivs ein. Mehrere Archive können hinzugefügt werden.
  8. Das Hinzufügen von Py-Dateien, JARs und Archiven ist optional.
  9. Um eine Eingabe hinzuzufügen, wählen Sie unter Eingaben die Option + Eingabe hinzufügen aus und
    1. geben Sie einen Eingabenamen ein. Die Eingabe sollte später in den Argumenten auf diesen Namen verweisen.
    2. Wählen Sie einen Eingabetyp aus.
    3. Für den Typ Daten:
      1. Wählen Sie Datentyp als Datei oder Ordner aus.
      2. Wählen Sie Datenquelle als Hochladen von lokal, URI oder Datenspeicher aus.
        
        Wählen Sie für Hochladen von lokal unter Pfad zum Hochladen die Option Durchsuchen aus, um die Eingabedatei oder den Eingabeordner auszuwählen.
        
        Geben Sie für URI einen Speicherdaten-URI (beispielsweise URI abfss:// oder wasbs://) ein, oder geben Sie ein Datenobjekt azureml:// ein.
        
        Für Datenspeicher:
        
        Wählen Sie einen Datenspeicher aus dem Dropdownmenü aus.
        
        Wählen Sie unter Pfad zu Daten die Option Durchsuchen aus.
        
        Wählen Sie im Popupbildschirm mit dem Titel Pfadauswahl den Pfad der Codedateien im Standardblobspeicher des Arbeitsbereichs aus.
        
        Wählen Sie Speichern aus.
    4. Geben Sie für den Typ Integer einen ganzzahligen Wert als Eingabewert ein.
    5. Geben Sie für den Typ Zahl einen numerischen Wert als Eingabewert ein.
    6. Wählen Sie für den Typ Boolesch die Option True oder False als Eingabewert aus.
    7. Geben Sie für den Typ Zeichenfolge eine Zeichenfolge als Eingabewert ein.
  10. Um eine Eingabe hinzuzufügen, wählen Sie unter Ausgaben die Option + Ausgabe hinzufügen aus und
    1. geben Sie einen Ausgabenamen ein. Die Ausgabe sollte später in den Argumenten auf diesen Namen verweisen.
    2. Wählen Sie Ausgabetyp als Datei oder Ordner aus.
    3. Geben Sie unter Ausgabe-URI-Ziel einen Speicherdaten-URI (z. B. URI abfss:// oder wasbs://) ein, oder geben Sie ein Datenobjekt azureml:// ein.
  11. Geben Sie Argumente ein, indem Sie die Namen verwenden, die in den vorherigen Schritten in den Feldern Eingabename und Ausgabename definiert sind, und die Namen der Eingabe- und Ausgabeargumente, die in der Eingabedatei des Python-Skripts verwendet werden. Wenn beispielsweise der Eingabename und der Ausgabename als job_input und job_outputdefiniert sind und die Argumente wie hier gezeigt in der Eintragsdatei hinzugefügt werden,
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
geben Sie dann Argumente als --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}} ein. 5. Im Abschnitt Spark-Konfigurationen: 1. Für Executor-Größe: 1. Geben Sie die Anzahl der Executor-Kerne und des Executor-Speichers (GB) in Gigabyte ein. 2. Wählen Sie für Dynamisch zugeordnete Executors die Option Deaktiviert oder Aktiviert aus. - Wenn die dynamische Zuteilung von Executors deaktiviert ist, geben Sie die Anzahl der Executor-Instanzen ein. - Wenn die dynamische Zuteilung von Executors aktiviert ist, verwenden Sie den Schieberegler, um die minimale und maximale Anzahl von Executors auszuwählen. 1. Für Treibergröße: 1. Geben Sie die Anzahl der Treiber-Kerne und den Treiber-Speicher (GB) in Gigabyte ein. 2. Geben Sie die Name- und Wert-Paare für alle zusätzlichen Konfigurationen ein und wählen Sie dann Hinzufügen aus. Die Angabe zusätzlicher Konfigurationen ist optional. 6- Klicken Sie auf Weiter.
Auf dem Bildschirm Überprüfung:
1. Überprüfen Sie die Auftragsspezifikation, bevor Sie sie übermitteln.
2. Wählen Sie Erstellen aus, um den eigenständigen Spark-Auftrag zu übermitteln.

Spark-Komponente in einem Pipelineauftrag

Eine Spark-Komponente bietet die Flexibilität, dieselbe Komponente in mehreren Azure Machine Learning-Pipelines als Pipelineschritt zu verwenden.

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

Die YAML-Syntax für eine Spark-Komponente ähnelt in den meisten Fällen der YAML-Syntax für die Spark-Auftragsspezifikation. Diese Eigenschaften werden in der YAML-Spezifikation der Spark-Komponente unterschiedlich definiert:

name – der Name der Spark-Komponente.
version – die Version der Spark-Komponente.
display_name – der Name der Spark-Komponente, die auf der Benutzeroberfläche und an anderer Stelle angezeigt werden soll.
description – die Beschreibung der Spark-Komponente.
inputs: Diese Eigenschaft ähnelt der Eigenschaft inputs, die in der YAML-Syntax für die Spark-Auftragsspezifikation beschrieben wird, mit der Ausnahme, dass sie die Eigenschaft path nicht definiert. Dieser Codeausschnitt zeigt ein Beispiel für die Spark-Komponenteneigenschaft inputs:
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs: Diese Eigenschaft ähnelt der Eigenschaft outputs, die in der YAML-Syntax für die Spark-Auftragsspezifikation beschrieben wird, mit der Ausnahme, dass sie die Eigenschaft path nicht definiert. Dieser Codeausschnitt zeigt ein Beispiel für die Spark-Komponenteneigenschaft outputs:
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Hinweis

Eine Spark-Komponente definiert nicht die Eigenschaften identity, compute oder resources. Diese Eigenschaften sind in der YAML-Spezifikationsdatei der Pipeline definiert.

Diese YAML-Spezifikationsdatei enthält ein Beispiel für eine Spark-Komponente:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Die in der obigen YAML-Spezifikationsdatei definierte Spark-Komponente kann in einem Azure Machine Learning-Pipelineauftrag verwendet werden. Weitere Informationen zur YAML-Syntax, die einen Pipelineauftrag definiert, finden Sie unter YAML-Schema für Pipelineaufträge. Dieses Beispiel zeigt eine YAML-Spezifikationsdatei für einen Pipelineauftrag mit einer Spark-Komponente und einer serverlosen Spark-Computeversion von Azure Machine Learning:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.3"

Hinweis

Wenn Sie einen angefügten Synapse Spark-Pool verwenden möchten, definieren Sie im oben gezeigten Beispiel einer YAML-Spezifikationsdatei die Eigenschaft compute anstelle der Eigenschaft resources.

Die obige YAML-Spezifikationsdatei kann im Befehl az ml job create mithilfe des Befehls --file verwendet werden, um einen Pipelineauftrag wie gezeigt zu erstellen:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Sie können den obigen Befehl an folgenden Stellen ausführen:

Terminal einer Azure Machine Learning-Compute-Instanz
Terminal nach Herstellen einer Verbindung mit einer Azure Machine Learning-Compute-Instanz in Visual Studio Code
Auf Ihrem lokalen Computer mit installierter Azure Machine Learning CLI

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Zum Erstellen einer Azure Machine Learning-Pipeline mit einer Spark-Komponente sollten Sie mit dem Erstellen von Azure Machine Learning-Pipelines aus Komponenten mit dem Python-SDK vertraut sein. Eine Spark-Komponente wird mithilfe der Funktion azure.ai.ml.spark erstellt. Die Funktionsparameter werden fast auf die gleiche Weise wie für den eigenständigen Spark-Auftrag definiert. Diese Parameter werden für die Spark-Komponente unterschiedlich definiert:

name – der Name der Spark-Komponente.
display_name – der Name der Spark-Komponente, die auf der Benutzeroberfläche und an anderer Stelle angezeigt wird.
inputs – dieser Parameter ähnelt dem Parameter inputs, der für den eigenständigen Spark-Auftrag beschrieben wird, mit der Ausnahme, dass die Klasse azure.ai.ml.Input ohne den Parameter path instanziiert wird.
outputs – dieser Parameter ähnelt dem Parameter outputs, der für den eigenständigen Spark-Auftrag beschrieben wird, mit der Ausnahme, dass die Klasse azure.ai.ml.Output ohne den Parameter path instanziiert wird.

Hinweis

Eine Spark-Komponente, die mit der Funktion azure.ai.ml.spark erstellt wurde, definiert nicht die Parameter identity, compute oder resources. Diese Parameter sind in der Azure Machine Learning-Pipeline definiert.

Sie können einen Pipelineauftrag mit einer Spark-Komponente an folgenden Stellen übermitteln:

Azure Machine Learning-Notebook, das mit einer Azure Machine Learning-Compute-Instanz verbunden ist
Visual Studio Code nach Herstellen einer Verbindung mit einer Azure Machine Learning-Compute-Instanz
Ihrem lokalen Computer bei installiertem Azure Machine Learning SDK für Python

Dieser Python-Codeschnipsel zeigt die Verwendung einer verwalteten Identität zusammen mit der Erstellung eines Azure Machine Learning-Pipelineauftrags. Darüber hinaus wird die Verwendung einer Spark-Komponente und einer verwalteten (automatischen) Synapse-Compute-Instanz von Azure Machine Learning veranschaulicht:

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.3.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Hinweis

Zum Verwenden eines angefügten Synapse Spark-Pools definieren Sie in der Funktion azure.ai.ml.spark den Parameter compute anstelle von resources. Legen Sie beispielsweise im oben gezeigten Codebeispiel spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" statt spark_step.resources fest.

Problembehandlung bei Spark-Aufträgen

Um Probleme mit einem Spark-Auftrag zu behandeln, können Sie auf die Protokolle zugreifen, die für diesen Auftrag in Azure Machine Learning Studio generiert wurden. So zeigen Sie die Protokolle für einen Spark-Auftrag an

Navigieren Sie im linken Bereich auf der Azure Machine Learning Studio-Benutzeroberfläche zu Aufträge.
Wählen Sie die Registerkarte Alle Aufträge aus.
Wählen Sie den Wert Anzeigename für den Auftrag aus.
Wählen Sie auf der Auftragsdetailseite die Registerkarte Ausgabe + Protokolle aus.
Erweitern Sie im Datei-Explorer den Ordner logs, und erweitern Sie dann den Ordner azureml.
Sie können auf die Spark-Auftragsprotokolle in den Ordnern driver und library manager zugreifen.

Hinweis

Um Probleme mit Spark-Aufträgen zu behandeln, die während des interaktiven Data Wrangling in einer Notebooksitzung erstellt wurden, wählen Sie Auftragsdetails in der oberen rechten Ecke der Notebook-Benutzeroberfläche aus. Ein Spark-Auftrag aus einer interaktiven Notebooksitzung wird unter dem Experimentnamen notebook-runs erstellt.

Übermitteln von Spark-Aufträgen in Azure Machine Learning

Voraussetzungen

Anfügen einer benutzerseitig zugewiesenen verwalteten Identität mithilfe von CLI v2

Anfügen einer benutzerseitig zugewiesenen verwalteten Identität mithilfe von `ARMClient`

Übermitteln eines eigenständigen Spark-Auftrags

YAML-Eigenschaften in der Spark-Auftragsspezifikation

Eigenständiger Spark-Auftrag

Eigenständiger Spark-Auftrag mithilfe des Python-SDK

Übermitteln eines eigenständigen Spark-Auftrags über die Benutzeroberfläche von Azure Machine Learning Studio (Vorschau)

Spark-Komponente in einem Pipelineauftrag

Problembehandlung bei Spark-Aufträgen

Nächste Schritte

Zusätzliche Ressourcen

Übermitteln von Spark-Aufträgen in Azure Machine Learning

Voraussetzungen

Anfügen einer benutzerseitig zugewiesenen verwalteten Identität mithilfe von CLI v2

Anfügen einer benutzerseitig zugewiesenen verwalteten Identität mithilfe von ARMClient

Übermitteln eines eigenständigen Spark-Auftrags

YAML-Eigenschaften in der Spark-Auftragsspezifikation

Eigenständiger Spark-Auftrag

Spark-Komponente in einem Pipelineauftrag

Problembehandlung bei Spark-Aufträgen

Nächste Schritte

Zusätzliche Ressourcen

Anfügen einer benutzerseitig zugewiesenen verwalteten Identität mithilfe von `ARMClient`