Spark-feladatok küldése az Azure Machine Learningben

Cikk
09/02/2024

ÉRVÉNYES:Azure CLI ml-bővítmény v2 (aktuális)Python SDK azure-ai-ml v2 (aktuális)

Az Azure Machine Learning támogatja az önálló gépi tanulási feladatok beküldését és olyan gépi tanulási folyamatok létrehozását, amelyek több gépi tanulási munkafolyamat-lépést is magukban foglalnak. Az Azure Machine Learning kezeli az önálló Spark-feladatok létrehozását és az Azure Machine Learning-folyamatok által használható újrafelhasználható Spark-összetevők létrehozását. Ebből a cikkből megtudhatja, hogyan küldhet be Spark-feladatokat a következő módon:

Azure Machine Learning Studio felhasználói felület
Azure Machine Learning CLI
Azure Machine Learning SDK

Az Apache Spark Azure Machine Learning-fogalmaival kapcsolatos további információkért tekintse meg ezt az erőforrást.

Előfeltételek

A KÖVETKEZŐRE VONATKOZIK: Azure CLI ml-bővítmény v2 (aktuális)

Azure-előfizetés; ha nem rendelkezik Azure-előfizetéssel, a kezdés előtt hozzon létre egy ingyenes fiókot .
Egy Azure Machine Learning-munkaterület. Lásd: Munkaterület-erőforrások létrehozása.
Azure Machine Learning számítási példány létrehozása.
Telepítse az Azure Machine Learning CLI-t.
(Nem kötelező): Csatolt Synapse Spark-készlet az Azure Machine Learning-munkaterületen.

Feljegyzés

Az Azure Machine Learning kiszolgáló nélküli Spark-számítás és a csatolt Synapse Spark-készlet használata során az erőforrás-hozzáférésről további információt a Spark-feladatok erőforrás-hozzáférésének biztosítása című témakörben talál.
Az Azure Machine Learning egy megosztott kvótakészletet biztosít, amelyből minden felhasználó hozzáférhet a számítási kvótához, és korlátozott ideig végezhet tesztelést. A kiszolgáló nélküli Spark-számítás használatakor az Azure Machine Learning lehetővé teszi, hogy rövid ideig hozzáférjen ehhez a megosztott kvótához.

Felhasználó által hozzárendelt felügyelt identitás csatolása a CLI v2 használatával

Hozzon létre egy YAML-fájlt, amely meghatározza a munkaterülethez csatolandó, felhasználó által hozzárendelt felügyelt identitást:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

A paraméterrel --file a parancs YAML-fájljával az ml workspace update csatolja a felhasználó által hozzárendelt felügyelt identitást:

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

Felhasználó által hozzárendelt felügyelt identitás csatolása `ARMClient`

Telepítsen ARMClientegy egyszerű parancssori eszközt, amely meghívja az Azure Resource Manager API-t.

Hozzon létre egy JSON-fájlt, amely meghatározza a munkaterülethez csatolandó, felhasználó által hozzárendelt felügyelt identitást:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

A felhasználó által hozzárendelt felügyelt identitás munkaterülethez való csatolásához hajtsa végre a következő parancsot a PowerShell-parancssorban vagy a parancssorban.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Feljegyzés

A Spark-feladat sikeres végrehajtásához rendelje hozzá a Közreműködői és a Storage-blobadat-közreműködői szerepköröket az adatbemenethez és -kimenethez használt Azure Storage-fiókhoz a Spark-feladat által használt identitáshoz
Az Azure Synapse-munkaterületen engedélyezni kell a nyilvános hálózati hozzáférést a Spark-feladat sikeres végrehajtásához egy csatolt Synapse Spark-készlet használatával.
Ha egy csatolt Synapse Spark-készlet egy Synapse Spark-készletre mutat, egy olyan Azure Synapse-munkaterületen, amelyhez felügyelt virtuális hálózat van társítva, konfigurálnia kell egy felügyelt privát végpontot a tárfiókhoz az adathozzáférés biztosítása érdekében.
A kiszolgáló nélküli Spark-számítás támogatja az Azure Machine Learning által felügyelt virtuális hálózatot. Ha egy felügyelt hálózat ki van építve a kiszolgáló nélküli Spark-számításhoz, a tárfiók megfelelő privát végpontjait is ki kellépíteni az adathozzáférés biztosítása érdekében.

Önálló Spark-feladat elküldése

Miután elvégezte a Python-szkriptparaméterezéshez szükséges módosításokat, az interaktív adatkonvergálás által kifejlesztett Python-szkriptek felhasználhatók egy kötegelt feladat elküldésére, hogy nagyobb mennyiségű adatot dolgozzanak fel. Egy egyszerű adatkonfiguráló kötegfeladat önálló Spark-feladatként küldhető el.

A Spark-feladatokhoz olyan Python-szkriptre van szükség, amely argumentumokat használ, és amely az interaktív adatmeghatolásból kifejlesztett Python-kód módosításával fejleszthető. Itt egy Python-példaszkript jelenik meg.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Feljegyzés

Ez a Python-kódminta a következőt használja pyspark.pandas: . Ezt csak a Spark 3.2-es vagy újabb verziója támogatja.

A fenti szkript két argumentumot --titanic_data használ, amelyek --wrangled_dataa bemeneti adatok és a kimeneti mappa elérési útját adják át.

A KÖVETKEZŐRE VONATKOZIK: Azure CLI ml-bővítmény v2 (aktuális)

Feladat létrehozásához az önálló Spark-feladat yaML-specifikációs fájlként definiálható, amely a paraméterrel --file együtt használható a az ml job create parancsban. Adja meg ezeket a tulajdonságokat a YAML-fájlban:

YAML-tulajdonságok a Spark-feladat specifikációjában

type - a következőre van sparkállítva: .
code - meghatározza a feladat forráskódját és szkripteit tartalmazó mappa helyét.
entry - a feladat belépési pontjának meghatározása. A következő tulajdonságok egyikét kell lefednie:
- file - meghatározza annak a Python-szkriptnek a nevét, amely belépési pontként szolgál a feladathoz.
py_files- meghatározza a .zip.eggfeladat sikeres végrehajtásához elhelyezendő PYTHONPATHfájlok vagy .py fájlok listáját. Ez a tulajdonság opcionális.
jars - meghatározza a .jar Spark-illesztőprogramon és a végrehajtón CLASSPATHa feladat sikeres végrehajtásához belefoglalandó fájlok listáját. Ez a tulajdonság opcionális.
files - meghatározza azoknak a fájloknak a listáját, amelyeket az egyes végrehajtók munkakönyvtárába kell másolni a sikeres feladatvégrehajtás érdekében. Ez a tulajdonság opcionális.
archives - meghatározza az archívumok listáját, amelyeket az egyes végrehajtók munkakönyvtárába kell kinyerni a sikeres feladatvégrehajtás érdekében. Ez a tulajdonság opcionális.
conf - az alábbi Spark-illesztőprogram- és végrehajtótulajdonságokat határozza meg:
- spark.driver.cores: a Spark-illesztőprogram magjainak száma.
- spark.driver.memory: lefoglalt memória a Spark-illesztőprogramhoz gigabájtban (GB).
- spark.executor.cores: a Spark-végrehajtó magjainak száma.
- spark.executor.memory: a Spark-végrehajtó memóriafoglalása gigabájtban (GB).
- spark.dynamicAllocation.enabled- hogy a végrehajtókat dinamikusan kell-e lefoglalni, értékként vagy False értékkéntTrue.
- Ha engedélyezve van a végrehajtók dinamikus lefoglalása, adja meg az alábbi tulajdonságokat:
  - spark.dynamicAllocation.minExecutors - a Spark-végrehajtópéldányok minimális száma dinamikus lefoglaláshoz.
  - spark.dynamicAllocation.maxExecutors - a Spark-végrehajtó példányok maximális száma dinamikus lefoglaláshoz.
- Ha a végrehajtók dinamikus lefoglalása le van tiltva, adja meg ezt a tulajdonságot:
  - spark.executor.instances - a Spark-végrehajtópéldányok száma.
environment - egy Azure Machine Learning-környezet a feladat futtatásához.
args - azokat a parancssori argumentumokat, amelyeket át kell adni a feladatbeviteli pont Python-szkriptjének. Példaként tekintse meg az itt megadott YAML-specifikációs fájlt.
resources - ez a tulajdonság határozza meg az Azure Machine Learning kiszolgáló nélküli Spark-számítás által használandó erőforrásokat. A következő tulajdonságokat használja:
- instance_type - a Spark-készlethez használandó számítási példány típusa. Jelenleg a következő példánytípusok támogatottak:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version - meghatározza a Spark futtatókörnyezet verzióját. Jelenleg a következő Spark-futtatókörnyezeti verziók támogatottak:
  - 3.3
  - 3.4
    Fontos
    
    Azure Synapse Runtime for Apache Spark: Announcements
    - Azure Synapse Runtime for Apache Spark 3.3:
      
      EOLA közlemény dátuma: 2024. július 12.
      
      Támogatási dátum vége: 2025. március 31. A dátum után a futtatókörnyezet le lesz tiltva.
    - A folyamatos támogatás és az optimális teljesítmény érdekében javasoljuk az Apache Spark 3.4-re való migrálást.
Ez egy példa:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute - ez a tulajdonság egy csatolt Synapse Spark-készlet nevét határozza meg, az alábbi példában látható módon:
```
compute: mysparkpool
```
inputs - ez a tulajdonság a Spark-feladat bemeneteit határozza meg. A Spark-feladatok bemenetei lehetnek literálértékek, vagy fájlokban vagy mappákban tárolt adatok.
- A literális érték lehet szám, logikai érték vagy sztring. Néhány példa itt látható:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- A fájlban vagy mappában tárolt adatokat az alábbi tulajdonságok használatával kell definiálni:
  - type - állítsa be ezt a tulajdonságot uri_fileegy fájlban vagy mappában tárolt bemeneti adatokra, vagy uri_folderállítsa be ezt a tulajdonságot.
  - path - a bemeneti adatok URI-ja, például azureml://: , abfss://vagy wasbs://.
  - mode - állítsa be ezt a tulajdonságot a következőre direct: . Ez a minta egy feladatbemenet definícióját mutatja be, amely a következőnek $${inputs.titanic_data}}nevezhető:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs - ez a tulajdonság határozza meg a Spark-feladat kimeneteit. A Spark-feladatok kimenetei fájlba vagy mappába írhatók, amely a következő három tulajdonsággal van definiálva:
- type - ezt a tulajdonságot beállíthatja úgy uri_file , hogy uri_folder a kimeneti adatokat fájlba vagy mappába írja.
- path - ez a tulajdonság határozza meg a kimeneti hely URI-t, például azureml://: , abfss://vagy wasbs://.
- mode - állítsa be ezt a tulajdonságot a következőre direct: . Ez a minta egy feladatkimenet definícióját mutatja be, amely a következőnek ${{outputs.wrangled_data}}nevezhető:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity - ez az opcionális tulajdonság határozza meg a feladat elküldéséhez használt identitást. Lehetnek user_identity és managed lehetnek értékei. Ha a YAML-specifikáció nem definiál identitást, a Spark-feladat az alapértelmezett identitást használja.

Önálló Spark-feladat

Ez a példa YAML-specifikáció egy különálló Spark-feladatot mutat be. Kiszolgáló nélküli Azure Machine Learning Spark-számítást használ:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

Feljegyzés

Csatolt Synapse Spark-készlet használatához a compute tulajdonság helyett a korábban bemutatott YAML-specifikációs fájlban adja meg a resources tulajdonságot.

A korábban bemutatott YAML-fájlok a az ml job create paraméterrel --file együtt használhatók önálló Spark-feladat létrehozásához a következő módon:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

A fenti parancsot a következő forrásból hajthatja végre:

egy Azure Machine Learning számítási példány terminálja.
egy Azure Machine Learning számítási példányhoz csatlakoztatott Visual Studio Code-terminál.
a helyi számítógépre, amely telepítette az Azure Machine Learning CLI-t .

A KÖVETKEZŐKRE VONATKOZIK: Python SDK azure-ai-ml v2 (aktuális)

Önálló Spark-feladat a Python SDK használatával

Önálló Spark-feladat létrehozásához használja a azure.ai.ml.spark függvényt az alábbi paraméterekkel:

name - a Spark-feladat neve.
display_name - a Spark-feladat megjelenítendő neve, amelyet a felhasználói felületen és máshol kell megjeleníteni.
code - a feladat forráskódját és szkripteit tartalmazó mappa helye.
entry - a feladat belépési pontja. A fájlbeviteli pontot meghatározó szótárnak kell lennie.
py_files- a .zip.eggfeladat sikeres végrehajtásához elhelyezendő PYTHONPATHfájlok vagy .py fájlok listája. Ez a paraméter nem kötelező.
jars- a Spark-illesztőprogramban és a végrehajtóban CLASSPATHszerepeltetni kívánt fájlok listája .jar a feladat sikeres végrehajtásához. Ez a paraméter nem kötelező.
files - a feladat sikeres végrehajtása érdekében az egyes végrehajtók munkakönyvtárába másolandó fájlok listája. Ez a paraméter nem kötelező.
archives - a feladat sikeres végrehajtása érdekében automatikusan kinyert és az egyes végrehajtók munkakönyvtárába helyezett archívumok listája. Ez a paraméter nem kötelező.
conf - egy szótár előre definiált Spark-konfigurációs kulcs-érték párokkal.
driver_cores: a Spark-illesztőprogramhoz lefoglalt magok száma.
driver_memory: a Spark-illesztőprogram lefoglalt memóriája, a méretegység utótagjával vagy (például512m: , 2g).t kmg
executor_cores: a Spark-végrehajtóhoz lefoglalt magok száma.
executor_memory: a Spark-végrehajtó lefoglalt memóriája, a méretegység utótagjával kmvagy g t (például512m: , 2g).
dynamic_allocation_enabled - logikai paraméter, amely meghatározza, hogy a végrehajtókat dinamikusan kell-e lefoglalni.
- Ha engedélyezve van a végrehajtók dinamikus lefoglalása, adja meg az alábbi paramétereket:
  - dynamic_allocation_min_executors - a Dinamikus lefoglaláshoz szükséges Spark-végrehajtópéldányok minimális száma.
  - dynamic_allocation_max_executors - a Spark-végrehajtók maximális száma a dinamikus lefoglaláshoz.
- Ha a végrehajtók dinamikus lefoglalása le van tiltva, adja meg az alábbi paramétereket:
  - executor_instances - a Spark-végrehajtópéldányok száma.
  - environment - a feladatot futtató Azure Machine Learning-környezet. Ennek a paraméternek a következőnek kell lennie:
    - egy objektum vagy azure.ai.ml.entities.Environmentegy Azure Machine Learning-környezet neve (sztring).
args - azokat a parancssori argumentumokat, amelyeket át kell adni a feladatbeviteli pont Python-szkriptjének. Egy példaért tekintse meg az itt megadott mintakódot.
resources - az Azure Machine Learning kiszolgáló nélküli Spark-számítás által használandó erőforrások. Ennek a paraméternek egy szótárt kell átadnia a következőkkel:
- instance_type - egy kulcs, amely meghatározza a kiszolgáló nélküli Spark-számításhoz használandó számítási példány típusát. Jelenleg a következő példánytípusok támogatottak:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version - a Spark futtatókörnyezet verzióját meghatározó kulcs. Jelenleg a következő Spark-futtatókörnyezeti verziók támogatottak:
  - 3.3.0
  - 3.4.0
    Fontos
    
    Azure Synapse Runtime for Apache Spark: Announcements
    - Azure Synapse Runtime for Apache Spark 3.3:
      
      EOLA közlemény dátuma: 2024. július 12.
      
      Támogatási dátum vége: 2025. március 31. A dátum után a futtatókörnyezet le lesz tiltva.
    - A folyamatos támogatás és az optimális teljesítmény érdekében javasoljuk az Apache Spark 3.4-re való migrálást.
compute - egy csatolt Synapse Spark-készlet neve.
inputs - a Spark-feladat bemenetei. Ennek a paraméternek egy szótárt kell átadnia, amely megfelelteti a feladatban használt bemeneti adatkötéseket. Ez a szótár a következő értékeket tartalmaz:
- a szótárkulcs határozza meg a bemeneti nevet
- a megfelelő érték lehet:
  - literális érték: egész szám, szám, logikai vagy sztring.
  - osztályobjektum azure.ai.ml.Input, a következő paraméterekkel:
    - type - állítsa be ezt a paramétert uri_file uri_foldera fájlban vagy mappában lévő bemeneti adatokhoz.
    - path - a bemeneti adatok URI-ja, például azureml://: , abfss://vagy wasbs://.
    - mode - állítsa ezt a paramétert a következőre direct: .
outputs - a Spark-feladat kimenetei. Ennek a paraméternek át kell adnia egy szótárt a feladatban használt kimeneti adatkötések leképezésével. Ez a szótár a következő értékeket tartalmaz:
- a szótárkulcs határozza meg a kimeneti nevet
- a megfelelő érték az osztály azure.ai.ml.Outputobjektuma, a következő paraméterekkel:
  - type - állítsa be ezt a paramétert uri_file uri_folderkimeneti adatfájlra vagy mappára.
  - path - a kimeneti adatok URI-ja, például azureml://: , abfss://vagy wasbs://.
  - mode - állítsa ezt a paramétert a következőre direct: .
identity - egy választható paraméter, amely meghatározza a feladat beküldésére használt identitást. Az engedélyezett értékek osztályobjektumok
- azure.ai.ml.entities.UserIdentityConfiguration vagy
- azure.ai.ml.entities.ManagedIdentityConfiguration a felhasználói identitás és a felügyelt identitás esetében. Ha nincs definiálva identitás, a Spark-feladat az alapértelmezett identitást használja.

Önálló Spark-feladatot a következő forrásból küldhet el:

Egy Azure Machine Learning-számítási példányhoz csatlakoztatott Azure Machine Learning-jegyzetfüzet.
Egy Azure Machine Learning számítási példányhoz csatlakoztatott Visual Studio Code.
a pythonhoz készült Azure Machine Learning SDK-t futtató helyi számítógépen.

Ez a Python-kódrészlet egy különálló Spark-feladat létrehozását mutatja be egy kiszolgáló nélküli Azure Machine Learning Spark-számítással, felhasználói identitás használatával.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Feljegyzés

Csatolt Synapse Spark-készlet használatához a függvényben adja meg a compute paramétert resourcesahelyett, hogy .azure.ai.ml.spark

Önálló Spark-feladat beküldése az Azure Machine Learning Studio felhasználói felületéről (előzetes verzió)

Fontos

Ez a funkció jelenleg nyilvános előzetes verzióban érhető el. Ez az előzetes verzió szolgáltatásszintű szerződés nélkül érhető el, és éles számítási feladatokhoz nem javasoljuk. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik.

További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

Önálló Spark-feladat beküldése az Azure Machine Learning Studio felhasználói felületén:

Képernyőkép egy új Spark-feladat létrehozásáról az Azure Machine Learning Studio felhasználói felületén.

A képernyő jobb felső részén válassza az + Új lehetőséget.
Válassza a Spark-feladat (előzetes verzió) lehetőséget.
A Számítási képernyőn:

Képernyőkép egy új Spark-feladat számítási kijelölési képernyőjről az Azure Machine Learning Studio felhasználói felületén.

A Számítási típus kiválasztása csoportban válassza a Kiszolgáló nélküli Spark-számításhoz a Spark kiszolgáló nélküli, a csatolt Synapse Spark-készlethez pedig a Csatolt számítás lehetőséget.
Ha kiszolgáló nélküli Sparkot választott:
1. Válassza ki a virtuális gép méretét.
2. Válassza a Spark-futtatókörnyezet verzióját.
Fontos

Azure Synapse Runtime for Apache Spark: Announcements
- Azure Synapse Runtime for Apache Spark 3.3:
  - EOLA közlemény dátuma: 2024. július 12.
  - Támogatási dátum vége: 2025. március 31. A dátum után a futtatókörnyezet le lesz tiltva.
- A folyamatos támogatás és az optimális teljesítmény érdekében javasoljuk az Apache Spark 3.4-re való migrálást.
Ha a Csatolt számítás lehetőséget választotta:
1. Válasszon egy csatolt Synapse Spark-készletet a csatolt Azure Machine Learning kiválasztása számítási menüből.
Válassza a Tovább lehetőséget.
A Környezet képernyőn:
1. Válasszon ki egy elérhető környezetet a listából. A környezet kiválasztása nem kötelező.
2. Válassza a Tovább lehetőséget.
A Feladat beállításai képernyőn:
1. Adjon meg egy feladatnevet. Használhatja az alapértelmezés szerint létrehozott feladat nevét.
2. Válassza a Kísérlet nevét a legördülő menüből.
3. A Címkék hozzáadása csoportban adja meg a nevet és az értéket, majd válassza a Hozzáadás lehetőséget. A címkék hozzáadása nem kötelező.
4. A Kód szakaszban:
  1. Válasszon egy lehetőséget a Kód helyének kiválasztása legördülő listából. Válassza a Helyi fájl feltöltése vagy az Azure Machine Learning-munkaterület alapértelmezett blobtárolója lehetőséget.
  2. Ha a Kód helyének kiválasztása lehetőséget választotta:
    - Válassza a Tallózás lehetőséget, és keresse meg a helyi számítógépen található kódfájl(ok) helyét.
  3. Ha az Azure Machine Learning-munkaterület alapértelmezett blobtárolóját választotta:
    1. A feltöltendő kódfájl elérési útja területen válassza a Tallózás lehetőséget.
    2. Az Elérési út kiválasztása előugró képernyőn válassza ki a kódfájlok elérési útját a munkaterület alapértelmezett blobtárolójában.
    3. Válassza a Mentés lehetőséget.
  4. Adja meg az önálló feladat bejegyzésfájljának nevét. Ennek a fájlnak tartalmaznia kell az argumentumokat tartalmazó Python-kódot.
  5. Ha a futtatókörnyezetben az önálló feladathoz szükséges egyéb Python-fájl(ok) hozzáadásához válassza a + Fájl hozzáadása a Py-fájlok alatt lehetőséget, és adja meg annak a fájlnak a .zipnevét, .eggamelyet .py a feladat sikeres végrehajtásához el szeretne helyezni.PYTHONPATH Több fájl is hozzáadható.
  6. Ha olyan Jar-fájl(oka)t szeretne hozzáadni, amelyet az önálló feladat futásidőben igényel, válassza a + Fájl hozzáadása a Jars alatt lehetőséget, és adja meg a .jar Spark-illesztőprogramban felvenni kívánt fájl nevét. Emellett adja hozzá a végrehajtót CLASSPATH a sikeres feladatvégrehajtáshoz. Több fájl is hozzáadható.
  7. Ha az egyes végrehajtók munkakönyvtárába kinyert archívum(ok) hozzáadásához sikeres feladatvégrehajtást szeretne végezni, válassza a + Fájl hozzáadása lehetőséget az Archívum területen, és adja meg az archívum nevét. Több archívum is hozzáadható.
  8. Py-fájlok, Jars és Archívum hozzáadása nem kötelező.
  9. Bemenet hozzáadásához válassza a +Bemenet hozzáadása lehetőséget a Bemenetek és a
    1. Adjon meg egy bemeneti nevet. A bemenetnek az argumentumok későbbi részében erre a névre kell hivatkoznia.
    2. Válasszon ki egy bemeneti típust.
    3. Adattípus esetén:
      1. Válassza ki az Adattípust fájlként vagy mappaként.
      2. Válassza ki az adatforrást feltöltésként a helyi, az URI- vagy a datastore-ból.
        
        A helyi feltöltéshez válassza a Tallózás lehetőséget a Feltöltendő elérési út területen a bemeneti fájl vagy mappa kiválasztásához.
        
        URI esetén adjon meg egy tárolási adat URI-t (például abfss:// URI- vagy wasbs:// URI-t), vagy adjon meg egy adategységetazureml://.
        
        Adattár esetén:
        
        Válasszon egy adattárat a legördülő menüből.
        
        Az Adatok elérési útja területen válassza a Tallózás lehetőséget.
        
        Az Elérési út kiválasztása előugró képernyőn válassza ki a kódfájlok elérési útját a munkaterület alapértelmezett blobtárolójában.
        
        Válassza a Mentés lehetőséget.
    4. Az egész szám típusához adjon meg egy egész számot bemeneti értékként.
    5. A Szám típushoz adjon meg egy számértéket bemeneti értékként.
    6. Logikai típus esetén válassza a True (Igaz) vagy a False (Hamis) értéket bemeneti értékként.
    7. A Sztring típushoz írjon be egy karakterláncot bemeneti értékként.
  10. Bemenet hozzáadásához válassza a + Kimenet hozzáadása lehetőséget a Kimenetek és a
    1. Adjon meg egy kimeneti nevet. A kimenetnek később erre a névre kell hivatkoznia az argumentumokban.
    2. Válassza a Kimenet típust fájlként vagy mappaként.
    3. A kimeneti URI-célhelyhez adjon meg egy tárolási adat URI-t (például abfss:// URI- vagy wasbs:// URI-t), vagy adjon meg egy adategységetazureml://.
  11. Adja meg az argumentumokat a korábbi lépések Bemeneti és Kimeneti név mezőiben definiált nevek, valamint a Python-szkript bejegyzésfájljában használt bemeneti és kimeneti argumentumok nevével. Ha például a Bemeneti név és a Kimeneti név a következőként job_outputjob_input van definiálva, és az argumentumok az itt látható módon lesznek hozzáadva a Bejegyzés fájlhoz
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
majd írja be az argumentumokat a következőként --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}: . 5. A Spark-konfigurációk szakaszban: 1. A végrehajtó mérete: 1. Adja meg a végrehajtó magjainak és a végrehajtói memóriának (GB) számát gigabájtban. 2. Dinamikusan lefoglalt végrehajtók esetén válassza a Letiltott vagy az Engedélyezett lehetőséget. – Ha a végrehajtók dinamikus lefoglalása le van tiltva, adja meg a végrehajtópéldányok számát. - Ha a végrehajtók dinamikus lefoglalása engedélyezve van, a csúszkával válassza ki a végrehajtók minimális és maximális számát. 1. Az illesztőprogram mérete: 1. Adja meg az illesztőprogram magjainak és az illesztőprogram memóriájának (GB) számát gigabájtban. 2. Adjon meg név- és értékpárokat a további konfigurációkhoz, majd válassza a Hozzáadás lehetőséget. További konfigurációk megadása nem kötelező. 6. Válassza a Tovább gombot.
A Véleményezés képernyőn:
1. Mielőtt elküldené, tekintse át a feladat specifikációját.
2. Válassza a Létrehozás lehetőséget az önálló Spark-feladat elküldéséhez.

Spark-összetevő egy folyamatfeladatban

A Spark-összetevők rugalmasan használhatják ugyanazt az összetevőt több Azure Machine Learning-folyamatban is, folyamatlépésként.

A KÖVETKEZŐRE VONATKOZIK: Azure CLI ml-bővítmény v2 (aktuális)

A Spark-összetevők YAML-szintaxisa a Legtöbb módon hasonlít a Spark-feladat specifikációjának YAML-szintaxisára. Ezek a tulajdonságok eltérően vannak definiálva a Spark-összetevő YAML-specifikációjában:

name - a Spark-összetevő neve.
version - a Spark-összetevő verziója.
display_name - a felhasználói felületen és máshol megjelenítendő Spark-összetevő neve.
description - a Spark-összetevő leírása.
inputs- ez a tulajdonság hasonló a Spark-feladat specifikációjának YAML-szintaxisában leírt tulajdonsághozinputs, azzal a kivételt leszámítva, hogy nem határozza meg a tulajdonságotpath. Ez a kódrészlet a Spark-összetevő inputs tulajdonság egy példáját mutatja be:
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs- ez a tulajdonság hasonló a outputs Spark-feladat specifikációjának YAML-szintaxisában leírt tulajdonsághoz, azzal a kivételt leszámítva, hogy nem határozza meg a tulajdonságotpath. Ez a kódrészlet a Spark-összetevő outputs tulajdonság egy példáját mutatja be:
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Feljegyzés

A Spark-összetevők nem határoznak meg vagy compute resources nem határoznak meg identitytulajdonságokat. A folyamat YAML specifikációs fájlja határozza meg ezeket a tulajdonságokat.

Ez a YAML-specifikációs fájl egy Spark-összetevőre mutat példát:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

A fenti YAML-specifikációs fájlban definiált Spark-összetevő egy Azure Machine Learning-folyamatfeladatban használható. A folyamatfeladat YAML-sémája további információt a folyamatfeladatot meghatározó YAML-szintaxisról talál. Ez a példa egy folyamatfeladat YAML-specifikációs fájlját mutatja be Egy Spark-összetevővel és egy Kiszolgáló nélküli Azure Machine Learning Spark-számítással:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

Feljegyzés

Csatolt Synapse Spark-készlet használatához tulajdonság helyett resources adja meg a compute tulajdonságot a fent látható YAML-mintafájlban.

A fenti YAML-specifikációs fájl a paraméterrel --file használható a az ml job create parancsban egy folyamatfeladat létrehozásához az alábbi módon:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

A fenti parancsot a következő forrásból hajthatja végre:

egy Azure Machine Learning számítási példány terminálja.
egy Azure Machine Learning számítási példányhoz csatlakoztatott Visual Studio Code-terminál.
a helyi számítógépre, amely telepítette az Azure Machine Learning CLI-t .

A KÖVETKEZŐKRE VONATKOZIK: Python SDK azure-ai-ml v2 (aktuális)

Azure Machine Learning-folyamat Spark-összetevővel való létrehozásához ismernie kell az Azure Machine Learning-folyamatok összetevőkből történő létrehozását a Python SDK használatával. A Rendszer egy Spark-összetevőt hoz létre a függvény használatával azure.ai.ml.spark . A függvényparaméterek majdnem ugyanúgy vannak definiálva, mint az önálló Spark-feladat esetében. Ezek a paraméterek eltérően vannak definiálva a Spark-összetevőhöz:

name - a Spark-összetevő neve.
display_name - a felhasználói felületen és máshol megjelenő Spark-összetevő neve.
inputs- ez a paraméter az inputs önálló Spark-feladathoz leírt paraméterhez hasonlít, azzal a kivételt leszámítva, hogy az azure.ai.ml.Input osztály a paraméter nélkül path lesz példányosítva.
outputs- ez a paraméter az outputs önálló Spark-feladathoz leírt paraméterhez hasonlít, azzal a kivételt leszámítva, hogy az azure.ai.ml.Output osztály a paraméter nélkül path lesz példányosítva.

Feljegyzés

A függvény használatával azure.ai.ml.spark létrehozott Spark-összetevők nem határozzák meg az identity, compute vagy resources paramétereket. Az Azure Machine Learning-folyamat definiálja ezeket a paramétereket.

A folyamatfeladatokat a következő forrásból küldheti el Spark-összetevővel:

Egy Azure Machine Learning-számítási példányhoz csatlakoztatott Azure Machine Learning-jegyzetfüzet.
Egy Azure Machine Learning számítási példányhoz csatlakoztatott Visual Studio Code.
a pythonhoz készült Azure Machine Learning SDK-t futtató helyi számítógépen.

Ez a Python-kódrészlet egy felügyelt identitás használatát és egy Azure Machine Learning-folyamatfeladat létrehozását mutatja be. Emellett egy Spark-összetevő és egy Felügyelt Azure Machine Learning -alapú (automatikus) Synapse-számítás használatát is megjeleníti:

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Feljegyzés

Csatolt Synapse Spark-készlet használatához paraméter helyett adja meg a compute paramétert resources a azure.ai.ml.spark függvényben. A fenti kódmintában például definiálás spark_step.resourceshelyett definiáljonspark_step.compute = "<ATTACHED_SPARK_POOL_NAME>".

Spark-feladatok hibaelhárítása

A Spark-feladatok hibaelhárításához hozzáférhet a feladathoz létrehozott naplókhoz az Azure Machine Learning Studióban. Spark-feladat naplóinak megtekintése:

Navigáljon a Feladatok lapra az Azure Machine Learning Studio felhasználói felületén a bal oldali panelen
A Minden feladat lap kiválasztása
Válassza ki a feladat megjelenítendő névértékét
A feladat részletei lapon válassza a Kimenet + naplók lapot
A fájlkezelőben bontsa ki a naplók mappát, majd bontsa ki az azureml mappát
A Spark-feladatnaplók elérése az illesztőprogram és a tárkezelő mappájában

Feljegyzés

A jegyzetfüzet-munkamenetben az interaktív adatátvétel során létrehozott Spark-feladatok hibaelhárításához válassza a jegyzetfüzet felhasználói felületének jobb felső sarkában található Feladat részletei lehetőséget. Az interaktív jegyzetfüzet-munkamenetekből létrehozott Spark-feladatok jegyzetfüzetfuttatások néven jönnek létre.

Megosztás a következőn keresztül:

Spark-feladatok küldése az Azure Machine Learningben

Előfeltételek

Felhasználó által hozzárendelt felügyelt identitás csatolása a CLI v2 használatával

Felhasználó által hozzárendelt felügyelt identitás csatolása `ARMClient`

Önálló Spark-feladat elküldése

YAML-tulajdonságok a Spark-feladat specifikációjában

Önálló Spark-feladat

Önálló Spark-feladat a Python SDK használatával

Önálló Spark-feladat beküldése az Azure Machine Learning Studio felhasználói felületéről (előzetes verzió)

Spark-összetevő egy folyamatfeladatban

Spark-feladatok hibaelhárítása

Következő lépések

Visszajelzés

További források

Megosztás a következőn keresztül:

Spark-feladatok küldése az Azure Machine Learningben

Előfeltételek

Felhasználó által hozzárendelt felügyelt identitás csatolása a CLI v2 használatával

Felhasználó által hozzárendelt felügyelt identitás csatolása ARMClient

Önálló Spark-feladat elküldése

YAML-tulajdonságok a Spark-feladat specifikációjában

Önálló Spark-feladat

Spark-összetevő egy folyamatfeladatban

Spark-feladatok hibaelhárítása

Következő lépések

Visszajelzés

További források

Felhasználó által hozzárendelt felügyelt identitás csatolása `ARMClient`