Konfigurieren von Apache Spark-Aufträgen in Azure Machine Learning

2024-09-04

GILT FÜR:Azure CLI ML-Erweiterung v2 (aktuell)Python SDK azure-ai-ml v2 (aktuell)

Die Azure Machine Learning-Integration mit Azure Synapse Analytics bietet einfachen Zugriff auf verteilte Computingfunktionen – unterstützt durch Azure Synapse –, um Apache Spark-Aufträge in Azure Machine Learning zu skalieren.

In diesem Artikel erfahren Sie, wie Sie einen Spark-Auftrag mithilfe einer serverlosen Spark-Compute-Instanz von Azure Machine Learning, eines Azure Data Lake Storage Gen 2-Speicherkontos (ADLS) und eines Passthrough der Benutzeridentität in wenigen einfachen Schritten übermitteln.

Für weitere Informationen zu Apache Spark in Azure Machine Learning-Konzepten besuchen Sie diese Ressource.

Voraussetzungen

GILT FÜRAzure CLI-ML-Erweiterung v2 (aktuell)

Ein Azure-Abonnement: Sollten Sie über kein Azure-Abonnement verfügen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.
Ein Azure Machine Learning-Arbeitsbereich. Für weitere Informationen besuchen Sie Erstellen eines Arbeitsbereichs.
Ein ADLS Gen2-Speicherkonto (Azure Data Lake Storage). Für weitere Informationen besuchen Sie Erstellen eines Azure Data Lake Storage (ADLS) Gen 2-Speicherkontos.
Erstellen einer Compute-Instanz von Azure Machine Learning
Installieren Sie die Azure Machine Learning-CLI.

Hinzufügen von Rollenzuweisungen in Azure-Speicherkonten

Bevor wir einen Apache Spark-Auftrag übermitteln, müssen wir sicherstellen, dass auf die Eingabe- und Ausgabedatenpfade zugegriffen werden kann. Weisen Sie der Benutzeridentität des angemeldeten Benutzers die Rollen Mitwirkender und Mitwirkender an Speicherblobdaten zu, um Lese- und Schreibzugriff zu aktivieren.

So weisen Sie der Benutzeridentität geeignete Rollen zu

Öffnen Sie das Microsoft Azure-Portal.
Suchen Sie nach dem Dienst Speicherkonten, und wählen Sie ihn aus.
Wählen Sie auf der Seite Speicherkonten in der Liste das Speicherkonto Azure Data Lake Storage Gen 2 (ADLS) aus. Die Seite Übersicht des Speicherkontos wird geöffnet.
Wählen Sie im linken Bereich Zugriffssteuerung (IAM) aus.
Wählen Sie Rollenzuweisung hinzufügen aus.
Suchen Sie nach der Rolle Mitwirkender an Speicherblobdaten.
Wählen Sie die Rolle Mitwirkender an Storage-Blobdaten aus.
Wählen Sie Weiter aus.
Wählen Sie User, group, or service principal (Benutzer, Gruppe oder Dienstprinzipal) aus.
Wählen Sie + Mitglieder auswählen aus.
Suchen Sie im Textfeld unter Auswählen nach der Benutzeridentität.
Wählen Sie die Benutzeridentität in der Liste aus, sodass sie unter Ausgewählte Mitglieder angezeigt wird.
Wählen Sie die entsprechende Benutzeridentität aus.
Wählen Sie Weiter aus.
Wählen Sie Überprüfen und zuweisen aus.
Wiederholen Sie die Schritte 2 bis 13 für die Zuweisung der Rolle Storage Blob-Mitwirkender.

Die Daten im Azure Data Lake Storage (ADLS) Gen2-Speicherkonto sollten zugänglich werden, sobald der Benutzeridentität die entsprechenden Rollen zugewiesen wurden.

Erstellen von parametrisiertem Python-Code

Ein Spark-Auftrag erfordert ein Python-Skript, das Argumente akzeptiert. Um dieses Skript zu erstellen, können Sie den Python-Code ändern, der aus interaktivem Data Wrangling entwickelt wurde. Ein Python-Beispielskript wird hier gezeigt:

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Hinweis

Dieses Python-Codebeispiel verwendet pyspark.pandas, das nur durch die Spark-Runtimeversion 3.2 unterstützt wird.
Stellen Sie sicher, dass die Datei titanic.py in einen Ordner namens src hochgeladen wird. Der Ordner src sollte sich im selben Verzeichnis befinden, in dem Sie das Python-Skript/Notebook oder die YAML-Spezifikationsdatei erstellt haben, die den eigenständigen Spark-Auftrag definiert.

Das Skript akzeptiert zwei Argumente: --titanic_data und --wrangled_data. Diese Argumente übergeben den Eingabedatenpfad bzw. den Ausgabeordner. Das Skript verwendet die titanic.csv-Datei (hier verfügbar). Laden Sie diese Datei in einen Container hoch, der im Azure Data Lake Storage (ADLS) Gen 2-Speicherkonto erstellt wurde.

Übermitteln eines eigenständigen Spark-Auftrags

GILT FÜRAzure CLI-ML-Erweiterung v2 (aktuell)

Tipp

Sie können einen Spark-Auftrag an folgenden Stellen übermitteln:

das Terminal einer Azure Machine Learning-Compute-Instanz.
das Terminal von Visual Studio Code, verbunden mit einer Azure Machine Learning-Compute-Instanz.
Auf Ihrem lokalen Computer mit installierter Azure Machine Learning CLI

Diese YAML-Beispielspezifikation zeigt einen eigenständigen Spark-Auftrag. Es verwendet eine serverlose Spark-Compute-Instanz von Azure Machine Learning, ein Passthrough der Benutzeridentität und einen URI für Eingabe-/Ausgabedaten im Format abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/<PATH_TO_DATA>. Hier entspricht <FILE_SYSTEM_NAME> dem Containernamen.

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./src 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.2"

In der obigen YAML-Spezifikationsdatei:

Die Eigenschaft code definiert den relativen Pfad des Ordners, der eine parametrisierte titanic.py-Datei enthält.
die resource-Eigenschaft definiert den instance_type und die Apache Spark-Werte runtime_version, die von serverlosem Spark-Compute verwendet werden. Diese Werte für Instanztypen werden derzeit unterstützt:
- standard_e4s_v3
- standard_e8s_v3
- standard_e16s_v3
- standard_e32s_v3
- standard_e64s_v3

Die gezeigte YAML-Dateie kann im Befehl az ml job create mit dem Parameter --file verwendet werden, um einen eigenständigen Spark-Auftrag wie dargestellt zu erstellen:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Tipp

Sie können einen Spark-Auftrag an folgenden Stellen übermitteln:

Azure Machine Learning-Notebook, das mit einer Azure Machine Learning-Compute-Instanz verbunden ist
Visual Studio Code, verbunden mit einer Azure Machine Learning-Compute-Instanz.
Ihrem lokalen Computer bei installiertem Azure Machine Learning SDK für Python

Dieser Python-Codeschnipsel zeigt eine eigenständige Spark-Auftragserstellung. Es verwendet eine serverlose Spark-Compute-Instanz von Azure Machine Learning, ein Passthrough der Benutzeridentität und einen URI für Eingabe-/Ausgabedaten im Format abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/<PATH_TO_DATA>. Hier entspricht der <FILE_SYSTEM_NAME> dem Containernamen.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.2.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Im obigen Codebeispiel:

der Parameter code definiert den relativen Pfad des Ordners, der eine parametrisierte titanic.py-Datei enthält.
der Parameter resource, der den instance_type und die Apache Spark runtime_version definiert, die vom serverlosen Spark-Compute (Preview) verwendet werden. Diese Werte für Instanztypen werden derzeit unterstützt:
- Standard_E4S_V3
- Standard_E8S_V3
- Standard_E16S_V3
- Standard_E32S_V3
- Standard_E64S_V3

Wichtig

Dieses Feature ist zurzeit als öffentliche Preview verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und ist nicht für Produktionsworkloads vorgesehen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar.

Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Laden Sie zunächst den parametrisierten Python-Code titanic.py in den Azure Blob-Speichercontainer für den Standarddatenspeicher workspaceblobstore des Arbeitsbereichs hoch. So übermitteln Sie einen eigenständigen Spark-Auftrag über die Benutzeroberfläche von Azure Machine Learning Studio:

Wählen Sie + Neu in der Nähe der oberen rechten Seite des Bildschirms aus.
Wählen Sie Spark-Auftrag (Vorschau) aus.
Auf dem Bildschirm Compute:
1. Wählen Sie unter Computetyp auswählen die Option Spark serverlos für serverloses Spark-Compute.
2. Wählen Sie VM-Größe aus. Diese Instanztypen werden derzeit unterstützt:
  - Standard_E4s_v3
  - Standard_E8s_v3
  - Standard_E16s_v3
  - Standard_E32s_v3
  - Standard_E64s_v3
3. Wählen Sie Spark 3.2 unter Spark-Runtimeversion aus.
4. Wählen Sie Weiter aus.
Wählen Sie auf dem Bildschirm Umgebung die Option Weiter aus.
Auf dem Bildschirm Auftragseinstellungen:
1. Geben Sie unter Name einen Namen für den Auftrag ein, oder verwenden Sie den standardmäßig generierten Namen für den Auftrag.
2. Wählen Sie aus dem Dropdownmenü einen Experimentnamen aus.
3. Geben Sie unter Tags hinzufügen die Optionen Name und Wert an und wählen Sie dann Hinzufügen aus. Das Hinzufügen von Tags ist optional.
4. Führen Sie im Abschnitt Code Folgendes aus:
  1. Wählen Sie im Dropdownmenü Codespeicherort auswählen die Option Standardblobspeicher für Azure Machine Learning-Arbeitsbereich aus.
  2. Wählen Sie unter Pfad zur hochzuladenden Codedatei die Option Durchsuchen aus.
  3. Wählen Sie im Popupbildschirm mit dem Titel Pfadauswahl den titanic.pyPfad der Codedateien im Standarddatenspeicher workspaceblobstore des Arbeitsbereichs aus.
  4. Wählen Sie Speichern.
  5. Geben Sie titanic.py als Namen der Eintragsdatei für den eigenständigen Auftrag ein.
  6. Um eine Eingabe hinzuzufügen, wählen Sie unter Eingaben die Option + Eingabe hinzufügen aus und
    1. Geben Sie als titanic_data ein. Die Eingabe sollte später in den Argumenten auf diesen Namen verweisen.
    2. Wählen Sie unter Eingabetyp die Option Daten aus.
    3. Wählen Sie unter Datentyp die Option Datei aus.
    4. Wählen Sie unter Datenquelle die Option URI aus.
    5. Geben Sie einen Azure Data Lake Storage (ADLS) Gen2-Daten-URI für die Datei titanic.csv im Format abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/<PATH_TO_DATA> ein. Hier entspricht <FILE_SYSTEM_NAME> dem Containernamen.
  7. Um eine Eingabe hinzuzufügen, wählen Sie unter Ausgaben die Option + Ausgabe hinzufügen aus und
    1. Geben Sie unter Ausgabename die Zeichenfolge wrangled_data ein. Die Ausgabe sollte später in den Argumenten auf diesen Namen verweisen.
    2. Wählen Sie unter Ausgabetyp die Option Ordner aus.
    3. Geben Sie unter Ausgabe-URI-Ziel einen Azure Data Lake Storage (ADLS) Gen 2-Ordner-URI im Format abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/<PATH_TO_DATA> ein. Hier entspricht <FILE_SYSTEM_NAME> dem Containernamen.
  8. Geben Sie dann unter --titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}} ein.
5. Führen Sie im Abschnitt Spark-Konfigurationen Folgendes aus:
  1. Für Executor-Größe:
    1. Geben Sie für die Anzahl der Executor-Kerne 2 und für Speicher (GB) des Executors 2 ein.
    2. Wählen Sie für Dynamisch zugeordnete Executors die Option Deaktiviert aus.
    3. Geben Sie 2 als Anzahl für die Executor-Instanzen ein.
  2. Geben Sie unter Treibergröße für die Anzahl der Treiberkerne 1 und für Speicher (GB) des Treibers 2 ein.
6. Wählen Sie Weiter aus.
Auf dem Bildschirm Überprüfung:
1. Überprüfen Sie die Auftragsspezifikation, bevor Sie sie übermitteln.
2. Wählen Sie Erstellen aus, um den eigenständigen Spark-Auftrag zu übermitteln.

Hinweis

Ein eigenständiger Auftrag, der über die Studio-Benutzeroberfläche mithilfe einer serverlosen Spark-Compute-Instanz von Azure Machine Learning übermittelt wird, verwendet standardmäßig ein Passthrough der Benutzeridentität für den Datenzugriff.

Tipp

Möglicherweise verfügen Sie über einen vorhandenen Synapse Spark-Pool in Ihrem Azure Synapse-Arbeitsbereich. Wenn Sie einen vorhandenen Synapse Spark-Pool verwenden möchten, befolgen Sie die Anweisungen zum Anfügen eines Synapse Spark-Pools in einen Azure Machine Learning-Arbeitsbereich.

Freigeben über

Konfigurieren von Apache Spark-Aufträgen in Azure Machine Learning

Voraussetzungen

Hinzufügen von Rollenzuweisungen in Azure-Speicherkonten

Erstellen von parametrisiertem Python-Code

Übermitteln eines eigenständigen Spark-Auftrags

Nächste Schritte

Feedback

Zusätzliche Ressourcen