Mengirimkan pekerjaan Spark di Azure Pembelajaran Mesin

Artikel
09/02/2024

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)Python SDK azure-ai-ml v2 (saat ini)

Azure Pembelajaran Mesin mendukung pengiriman pekerjaan pembelajaran mesin mandiri dan pembuatan alur pembelajaran mesin yang melibatkan beberapa langkah alur kerja pembelajaran mesin. Azure Pembelajaran Mesin menangani pembuatan pekerjaan Spark mandiri, dan pembuatan komponen Spark yang dapat digunakan kembali yang dapat digunakan oleh alur Azure Pembelajaran Mesin. Dalam artikel ini, Anda akan mempelajari cara mengirimkan pekerjaan Spark menggunakan:

Antarmuka pengguna studio Azure Pembelajaran Mesin
Azure Machine Learning CLI
Azure Machine Learning SDK

Untuk informasi selengkapnya tentang konsep Apache Spark di Azure Pembelajaran Mesin, lihat sumber daya ini.

Prasyarat

BERLAKU UNTUK: Ekstensi ml Azure CLI v2 (saat ini)

Langganan Azure; jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum memulai.
Ruang kerja Azure Machine Learning. Lihat Membuat sumber daya ruang kerja.
Membuat instans komputasi Azure Pembelajaran Mesin.
Instal Azure Pembelajaran Mesin CLI.
(Opsional): Kumpulan Synapse Spark terlampir di ruang kerja Azure Pembelajaran Mesin.

Catatan

Untuk mempelajari selengkapnya tentang akses sumber daya saat menggunakan Azure Pembelajaran Mesin komputasi Spark tanpa server dan kumpulan Synapse Spark terlampir, lihat Memastikan akses sumber daya untuk pekerjaan Spark.
Azure Pembelajaran Mesin menyediakan kumpulan kuota bersama tempat semua pengguna dapat mengakses kuota komputasi untuk melakukan pengujian dalam waktu terbatas. Saat Anda menggunakan komputasi Spark tanpa server, Azure Pembelajaran Mesin memungkinkan Anda mengakses kuota bersama ini untuk waktu yang singkat.

Melampirkan identitas terkelola yang ditetapkan pengguna menggunakan CLI v2

Buat file YAML yang menentukan identitas terkelola yang ditetapkan pengguna yang harus dilampirkan ke ruang kerja:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

--file Dengan parameter , gunakan file YAML dalam az ml workspace update perintah untuk melampirkan identitas terkelola yang ditetapkan pengguna:

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

Melampirkan identitas terkelola yang ditetapkan pengguna menggunakan `ARMClient`

Instal ARMClient, alat baris perintah sederhana yang memanggil API Azure Resource Manager.

Buat file JSON yang menentukan identitas terkelola yang ditetapkan pengguna yang harus dilampirkan ke ruang kerja:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Untuk melampirkan identitas terkelola yang ditetapkan pengguna ke ruang kerja, jalankan perintah berikut di prompt PowerShell atau prompt perintah.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Catatan

Untuk memastikan keberhasilan eksekusi pekerjaan Spark, tetapkan peran Kontributor dan Kontributor Data Blob Penyimpanan, pada akun penyimpanan Azure yang digunakan untuk input dan output data, ke identitas yang digunakan pekerjaan Spark
Akses Jaringan Publik harus diaktifkan di ruang kerja Azure Synapse untuk memastikan keberhasilan eksekusi pekerjaan Spark menggunakan kumpulan Synapse Spark yang terlampir.
Jika kumpulan Synapse Spark terlampir menunjuk ke kumpulan Synapse Spark, di ruang kerja Azure Synapse yang memiliki jaringan virtual terkelola yang terkait dengannya, titik akhir privat terkelola ke akun penyimpanan harus dikonfigurasi untuk memastikan akses data.
Komputasi Spark tanpa server mendukung jaringan virtual terkelola Azure Pembelajaran Mesin. Jika jaringan terkelola disediakan untuk komputasi Spark tanpa server, titik akhir privat yang sesuai untuk akun penyimpanan juga harus disediakan untuk memastikan akses data.

Mengirimkan pekerjaan Spark mandiri

Setelah membuat perubahan yang diperlukan untuk parameterisasi skrip Python, skrip Python yang dikembangkan oleh perselisihan data interaktif dapat digunakan untuk mengirimkan pekerjaan batch untuk memproses volume data yang lebih besar. Pekerjaan batch manipulasi data sederhana dapat dikirimkan sebagai pekerjaan Spark mandiri.

Pekerjaan Spark memerlukan skrip Python yang mengambil argumen, yang dapat dikembangkan dengan modifikasi kode Python yang dikembangkan dari perselisihan data interaktif. Contoh skrip Python ditampilkan di sini.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Catatan

Sampel kode Python ini menggunakan pyspark.pandas. Hanya runtime Spark versi 3.2 atau yang lebih baru yang mendukung ini.

Skrip di atas mengambil dua argumen --titanic_data dan --wrangled_data, yang masing-masing meneruskan jalur data input dan folder output.

BERLAKU UNTUK: Ekstensi ml Azure CLI v2 (saat ini)

Untuk membuat pekerjaan, pekerjaan Spark mandiri dapat didefinisikan sebagai file spesifikasi YAML, yang dapat digunakan dalam az ml job create perintah, dengan --file parameter . Tentukan properti ini dalam file YAML:

Properti YAML dalam spesifikasi pekerjaan Spark

type - diatur ke spark.
code - mendefinisikan lokasi folder yang berisi kode sumber dan skrip untuk pekerjaan ini.
entry - mendefinisikan titik masuk untuk pekerjaan tersebut. Ini harus mencakup salah satu properti ini:
- file - mendefinisikan nama skrip Python yang berfungsi sebagai titik masuk untuk pekerjaan tersebut.
py_files- mendefinisikan daftar .zip, , atau .py file, yang akan ditempatkan dalam PYTHONPATH, untuk keberhasilan .eggeksekusi pekerjaan. Properti ini bersifat opsional.
jars - mendefinisikan daftar .jar file yang akan disertakan pada driver Spark, dan pelaksana CLASSPATH, untuk keberhasilan eksekusi pekerjaan. Properti ini bersifat opsional.
files - mendefinisikan daftar file yang harus disalin ke direktori kerja setiap pelaksana, untuk keberhasilan eksekusi pekerjaan. Properti ini bersifat opsional.
archives - mendefinisikan daftar arsip yang harus diekstrak ke dalam direktori kerja setiap pelaksana, untuk keberhasilan eksekusi pekerjaan. Properti ini bersifat opsional.
conf - mendefinisikan properti driver dan eksekutor Spark ini:
- spark.driver.cores: jumlah inti untuk driver Spark.
- spark.driver.memory: mengalokasikan memori untuk driver Spark, dalam gigabyte (GB).
- spark.executor.cores: jumlah inti untuk pelaksana Spark.
- spark.executor.memory: alokasi memori untuk eksekutor Spark, dalam gigabyte (GB).
- spark.dynamicAllocation.enabled - apakah eksekutor harus dialokasikan secara dinamis, sebagai True nilai atau False .
- Jika alokasi dinamis pelaksana diaktifkan, tentukan properti ini:
  - spark.dynamicAllocation.minExecutors - jumlah minimum instans pelaksana Spark, untuk alokasi dinamis.
  - spark.dynamicAllocation.maxExecutors - jumlah maksimum instans pelaksana Spark, untuk alokasi dinamis.
- Jika alokasi dinamis pelaksana dinonaktifkan, tentukan properti ini:
  - spark.executor.instances - jumlah instans pelaksana Spark.
environment- lingkungan Azure Pembelajaran Mesin untuk menjalankan pekerjaan.
args - argumen baris perintah yang harus diteruskan ke skrip Python titik entri pekerjaan. Lihat file spesifikasi YAML yang disediakan di sini misalnya.
resources- properti ini menentukan sumber daya yang akan digunakan oleh Azure Pembelajaran Mesin komputasi Spark tanpa server. Ini menggunakan properti berikut:
- instance_type - jenis instans komputasi yang akan digunakan untuk kumpulan Spark. Jenis instans berikut saat ini didukung:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version - mendefinisikan versi runtime Spark. Versi runtime Spark berikut saat ini didukung:
  - 3.3
  - 3.4
    Penting
    
    Azure Synapse Runtime for Apache Spark: Pengumuman
    - Azure Synapse Runtime untuk Apache Spark 3.3:
      
      Tanggal Pengumuman EOLA: 12 Juli 2024
      
      Tanggal Akhir Dukungan: 31 Maret 2025. Setelah tanggal ini, runtime akan dinonaktifkan.
    - Untuk dukungan berkelanjutan dan performa optimal, kami menyarankan migrasi ke Apache Spark 3.4.
Ini adalah contoh:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute - properti ini mendefinisikan nama kumpulan Synapse Spark terlampir, seperti yang ditunjukkan dalam contoh ini:
```
compute: mysparkpool
```
inputs - properti ini mendefinisikan input untuk pekerjaan Spark. Input untuk pekerjaan Spark dapat berupa nilai harfiah, atau data yang disimpan dalam file atau folder.
- Nilai harfiah dapat berupa angka, nilai boolean, atau string. Beberapa contoh ditampilkan di sini:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Data yang disimpan dalam file atau folder harus ditentukan menggunakan properti ini:
  - type - atur properti ini ke uri_file, atau uri_folder, untuk data input yang terkandung dalam file atau folder masing-masing.
  - path - URI data input, seperti azureml://, , abfss://atau wasbs://.
  - mode - atur properti ini ke direct. Sampel ini menunjukkan definisi input pekerjaan, yang dapat disebut sebagai $${inputs.titanic_data}}:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs - properti ini mendefinisikan output pekerjaan Spark. Output untuk pekerjaan Spark dapat ditulis ke file atau lokasi folder, yang didefinisikan menggunakan tiga properti berikut:
- type - properti ini dapat diatur ke uri_file atau uri_folder untuk menulis data output ke file atau folder masing-masing.
- path - properti ini mendefinisikan URI lokasi output, seperti azureml://, , abfss://atau wasbs://.
- mode - atur properti ini ke direct. Sampel ini menunjukkan definisi output pekerjaan, yang dapat disebut sebagai ${{outputs.wrangled_data}}:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity - properti opsional ini mendefinisikan identitas yang digunakan untuk mengirimkan pekerjaan ini. Ini dapat memiliki user_identity nilai dan managed . Jika spesifikasi YAML tidak menentukan identitas, pekerjaan Spark menggunakan identitas default.

Pekerjaan Spark Mandiri

Contoh spesifikasi YAML ini menunjukkan pekerjaan Spark mandiri. Ini menggunakan komputasi Spark tanpa server Azure Pembelajaran Mesin:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

Catatan

Untuk menggunakan kumpulan Synapse Spark terlampir, tentukan compute properti dalam contoh file spesifikasi YAML yang ditampilkan sebelumnya, bukan resources properti .

File YAML yang ditampilkan sebelumnya dapat digunakan dalam perintah, dengan --file parameter , untuk membuat pekerjaan Spark mandiri seperti yang ditunjukkanaz ml job create:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Anda dapat menjalankan perintah di atas dari:

terminal instans komputasi Azure Pembelajaran Mesin.
terminal Visual Studio Code yang tersambung ke instans komputasi Azure Pembelajaran Mesin.
komputer lokal Anda yang telah menginstal Azure Pembelajaran Mesin CLI.

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

Pekerjaan Spark Mandiri menggunakan Python SDK

Untuk membuat pekerjaan Spark mandiri, gunakan azure.ai.ml.spark fungsi , dengan parameter ini:

name - nama pekerjaan Spark.
display_name - nama tampilan pekerjaan Spark yang harus ditampilkan di UI dan di tempat lain.
code - lokasi folder yang berisi kode sumber dan skrip untuk pekerjaan ini.
entry - titik masuk untuk pekerjaan. Ini harus menjadi kamus yang mendefinisikan titik entri file.
py_files- daftar .zip, , atau .py file yang akan ditempatkan dalam PYTHONPATH, untuk keberhasilan .eggeksekusi pekerjaan. Parameter ini bersifat opsional.
jars - daftar .jar file yang akan disertakan dalam driver dan pelaksana CLASSPATHSpark , untuk keberhasilan eksekusi pekerjaan. Parameter ini bersifat opsional.
files - daftar file yang harus disalin ke direktori kerja setiap pelaksana, untuk keberhasilan eksekusi pekerjaan. Parameter ini bersifat opsional.
archives - daftar arsip yang secara otomatis diekstraksi dan ditempatkan di direktori kerja setiap pelaksana, untuk keberhasilan eksekusi pekerjaan. Parameter ini bersifat opsional.
conf - kamus dengan pasangan kunci-nilai konfigurasi Spark yang telah ditentukan sebelumnya.
driver_cores: jumlah inti yang dialokasikan untuk driver Spark.
driver_memory: memori yang dialokasikan untuk driver Spark, dengan akhiran kunit ukuran , , matau g t (misalnya, 512m, 2g).
executor_cores: jumlah inti yang dialokasikan untuk pelaksana Spark.
executor_memory: memori yang dialokasikan untuk pelaksana Spark, dengan akhiran kunit ukuran , , m, g atau t (misalnya, 512m, 2g).
dynamic_allocation_enabled - parameter boolean yang mendefinisikan apakah eksekutor harus dialokasikan secara dinamis atau tidak.
- Jika alokasi dinamis pelaksana diaktifkan, tentukan parameter ini:
  - dynamic_allocation_min_executors - jumlah minimum instans pelaksana Spark untuk alokasi dinamis.
  - dynamic_allocation_max_executors - jumlah maksimum instans pelaksana Spark untuk alokasi dinamis.
- Jika alokasi dinamis pelaksana dinonaktifkan, maka tentukan parameter ini:
  - executor_instances - jumlah instans pelaksana Spark.
  - environment- lingkungan Azure Pembelajaran Mesin yang menjalankan pekerjaan. Parameter ini harus lulus:
    - objek , azure.ai.ml.entities.Environmentatau nama lingkungan (string) Azure Pembelajaran Mesin.
args - argumen baris perintah yang harus diteruskan ke skrip Python titik entri pekerjaan. Lihat kode sampel yang disediakan di sini untuk contoh.
resources- sumber daya yang akan digunakan oleh komputasi Spark tanpa server Azure Pembelajaran Mesin. Parameter ini harus melewati kamus dengan:
- instance_type - kunci yang menentukan jenis instans komputasi yang akan digunakan untuk komputasi Spark tanpa server. Jenis instans berikut saat ini didukung:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version - kunci yang mendefinisikan versi runtime Spark. Versi runtime Spark berikut saat ini didukung:
  - 3.3.0
  - 3.4.0
    Penting
    
    Azure Synapse Runtime for Apache Spark: Pengumuman
    - Azure Synapse Runtime untuk Apache Spark 3.3:
      
      Tanggal Pengumuman EOLA: 12 Juli 2024
      
      Tanggal Akhir Dukungan: 31 Maret 2025. Setelah tanggal ini, runtime akan dinonaktifkan.
    - Untuk dukungan berkelanjutan dan performa optimal, kami menyarankan migrasi ke Apache Spark 3.4.
compute - nama kumpulan Synapse Spark yang terpasang.
inputs - input untuk pekerjaan Spark. Parameter ini harus melewati kamus dengan pemetaan pengikatan data input yang digunakan dalam pekerjaan. Kamus ini memiliki nilai-nilai ini:
- kunci kamus mendefinisikan nama input
- nilai yang sesuai mungkin:
  - nilai harfiah: bilangan bulat, angka, boolean atau string.
  - objek kelas azure.ai.ml.Input, dengan parameter berikut:
    - type - atur parameter ini ke uri_file atau uri_folder, untuk data input yang terkandung dalam file atau folder masing-masing.
    - path - URI data input, seperti azureml://, , abfss://atau wasbs://.
    - mode - atur parameter ini ke direct.
outputs - output untuk pekerjaan Spark. Parameter ini harus melewati kamus dengan pemetaan pengikatan data output yang digunakan dalam pekerjaan. Kamus ini memiliki nilai-nilai ini:
- kunci kamus mendefinisikan nama output
- nilai yang sesuai adalah objek kelas azure.ai.ml.Output, dengan parameter berikut:
  - type - atur parameter ini ke uri_file atau uri_folder, untuk file data output atau folder masing-masing.
  - path - URI data output, seperti azureml://, , abfss://atau wasbs://.
  - mode - atur parameter ini ke direct.
identity - parameter opsional yang mendefinisikan identitas yang digunakan untuk pengiriman pekerjaan ini. Nilai yang diizinkan adalah objek kelas
- azure.ai.ml.entities.UserIdentityConfiguration atau
- azure.ai.ml.entities.ManagedIdentityConfiguration untuk identitas pengguna dan identitas terkelola masing-masing. Jika tidak ada identitas yang ditentukan, pekerjaan Spark menggunakan identitas default.

Anda dapat mengirimkan pekerjaan Spark mandiri dari:

Azure Pembelajaran Mesin Notebook yang tersambung ke instans komputasi Azure Pembelajaran Mesin.
Visual Studio Code tersambung ke instans komputasi Azure Pembelajaran Mesin.
komputer lokal Anda yang memiliki Azure Pembelajaran Mesin SDK untuk Python terinstal.

Cuplikan kode Python ini menunjukkan pembuatan pekerjaan Spark mandiri, dengan komputasi Spark tanpa server Azure Pembelajaran Mesin, menggunakan identitas pengguna.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Catatan

Untuk menggunakan kumpulan Synapse Spark terlampir, tentukan compute parameter dalam azure.ai.ml.spark fungsi, bukan resources.

Mengirimkan pekerjaan Spark mandiri dari antarmuka pengguna studio Azure Pembelajaran Mesin (pratinjau)

Penting

Fitur ini masih dalam pratinjau umum. Versi pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas.

Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Untuk mengirimkan pekerjaan Spark mandiri menggunakan antarmuka pengguna studio Azure Pembelajaran Mesin:

Cuplikan layar memperlihatkan pembuatan pekerjaan Spark baru di Azure Pembelajaran Mesin studio UI.

Di dekat sisi kanan atas layar, pilih + Baru.
Pilih Pekerjaan Spark (pratinjau).
Pada layar Komputasi:

Cuplikan layar memperlihatkan layar pemilihan komputasi untuk pekerjaan Spark baru di antarmuka pengguna studio Azure Pembelajaran Mesin.

Di bawah Pilih jenis komputasi, pilih Spark tanpa server untuk komputasi Spark tanpa server, atau Komputasi terlampir untuk kumpulan Synapse Spark yang terpasang.
Jika Anda memilih Spark tanpa server:
1. Pilih Ukuran komputer virtual.
2. Pilih versi runtime Spark.
Penting

Azure Synapse Runtime for Apache Spark: Pengumuman
- Azure Synapse Runtime untuk Apache Spark 3.3:
  - Tanggal Pengumuman EOLA: 12 Juli 2024
  - Tanggal Akhir Dukungan: 31 Maret 2025. Setelah tanggal ini, runtime akan dinonaktifkan.
- Untuk dukungan berkelanjutan dan performa optimal, kami menyarankan migrasi ke Apache Spark 3.4.
Jika Anda memilih Komputasi terlampir:
1. Pilih kumpulan Synapse Spark terlampir dari menu komputasi Pilih Azure Pembelajaran Mesin terlampir.
Pilih Selanjutnya.
Pada layar Lingkungan:
1. Pilih salah satu lingkungan yang tersedia dari daftar. Pemilihan lingkungan bersifat opsional.
2. Pilih Selanjutnya.
Pada layar Pengaturan pekerjaan:
1. Berikan Nama pekerjaan. Anda dapat menggunakan Nama pekerjaan, yang dihasilkan secara default.
2. Pilih Nama eksperimen dari menu dropdown.
3. Di bawah Tambahkan tag, berikan Nama dan Nilai, lalu pilih Tambahkan. Menambahkan tag bersifat opsional.
4. Di bawah bagian Kode :
  1. Pilih opsi dari menu dropdown Pilih lokasi kode. Pilih Unggah file lokal atau penyimpanan blob default ruang kerja Azure Pembelajaran Mesin.
  2. Jika Anda memilih Pilih lokasi kode:
    - Pilih Telusuri, dan navigasi ke lokasi yang berisi file kode di komputer lokal Anda.
  3. Jika Anda memilih penyimpanan blob default ruang kerja Azure Pembelajaran Mesin:
    1. Di bawah Jalur ke file kode untuk diunggah, pilih Telusuri.
    2. Di layar pop-up berjudul Pemilihan jalur, pilih jalur file kode pada penyimpanan blob default ruang kerja.
    3. Pilih Simpan.
  4. Masukkan nama file Entri untuk pekerjaan mandiri. File ini harus berisi kode Python yang mengambil argumen.
  5. Untuk menambahkan file Python lain yang diperlukan pekerjaan mandiri saat runtime, pilih + Tambahkan file di bawah file Py dan masukkan nama .zipfile , , .eggatau .py yang akan ditempatkan dalam untuk eksekusi pekerjaan yang PYTHONPATH berhasil. Beberapa file dapat ditambahkan.
  6. Untuk menambahkan file Jar apa pun yang diperlukan pekerjaan mandiri saat runtime, pilih + Tambahkan file di bawah Jar dan masukkan nama .jar file yang akan disertakan dalam driver Spark. Selain itu, tambahkan pelaksana CLASSPATH untuk keberhasilan eksekusi pekerjaan. Beberapa file dapat ditambahkan.
  7. Untuk menambahkan arsip yang harus diekstrak ke direktori kerja setiap pelaksana untuk keberhasilan eksekusi pekerjaan, pilih + Tambahkan file di bawah Arsip, dan masukkan nama arsip. Beberapa arsip dapat ditambahkan.
  8. Menambahkan file Py, Jar, dan Arsip bersifat opsional.
  9. Untuk menambahkan input, pilih + Tambahkan input di bawah Input dan
    1. Masukkan Nama input. Input harus merujuk ke nama ini nanti di Argumen.
    2. Pilih Jenis input.
    3. Untuk jenis Data:
      1. Pilih Jenis data sebagai File atau Folder.
      2. Pilih Sumber data sebagai Unggah dari lokal, URI, atau Datastore.
        
        Untuk Unggah dari lokal, pilih Telusuri di bawah Jalur untuk diunggah, untuk memilih file atau folder input.
        
        Untuk URI, masukkan URI data penyimpanan (misalnya, abfss:// atau wasbs:// URI), atau masukkan aset azureml://data .
        
        Untuk Datastore:
        
        Pilih datastore dari menu dropdown.
        
        Di bawah Jalur ke data, pilih Telusuri.
        
        Di layar pop-up berjudul Pemilihan jalur, pilih jalur file kode pada penyimpanan blob default ruang kerja.
        
        Pilih Simpan.
    4. Untuk ketik Bilangan Bulat, masukkan nilai bilangan bulat sebagai nilai Input.
    5. Untuk jenis Angka, masukkan nilai numerik sebagai Nilai input.
    6. Untuk jenis Boolean, pilih Benar atau Salah sebagai Nilai input.
    7. Untuk jenis String, masukkan string sebagai Nilai input.
  10. Untuk menambahkan input, pilih + Tambahkan output di bawah Output dan
    1. Masukkan Nama output. Output harus merujuk ke nama ini nanti di Argumen.
    2. Pilih Jenis output sebagai File atau Folder.
    3. Untuk tujuan URI Output, masukkan URI data penyimpanan (misalnya, abfss:// atau wasbs:// URI) atau masukkan aset azureml://data .
  11. Masukkan Argumen dengan menggunakan nama yang ditentukan dalam bidang Nama input dan Nama output di langkah-langkah sebelumnya, dan nama argumen input dan output yang digunakan dalam file Entri skrip Python. Misalnya, jika Nama input dan Nama output didefinisikan sebagai job_input dan job_output, dan argumen ditambahkan dalam file Entri seperti yang ditunjukkan di sini
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
lalu masukkan Argumen sebagai --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}. 5. Di bawah bagian konfigurasi Spark: 1. Untuk ukuran Pelaksana: 1. Masukkan jumlah Core pelaksana dan Eksekutor Memori (GB), dalam gigabyte. 2. Untuk pelaksana yang dialokasikan secara dinamis, pilih opsi Dinonaktifkan atau Diaktifkan . - Jika alokasi dinamis pelaksana Dinonaktifkan, masukkan jumlah instans Pelaksana. - Jika alokasi dinamis pelaksana Diaktifkan, gunakan penggeler untuk memilih jumlah pelaksana minimum dan maksimum. 1. Untuk ukuran Driver: 1. Masukkan jumlah core driver dan driver Memori (GB), dalam gigabyte. 2. Masukkan pasangan Nama dan Nilai untuk konfigurasi Tambahan apa pun, lalu pilih Tambahkan. Menyediakan Konfigurasi tambahan bersifat opsional. 6. Pilih Berikutnya.
Pada layar Tinjau:
1. Tinjau spesifikasi pekerjaan sebelum mengirimkannya.
2. Pilih Buat untuk mengirimkan pekerjaan Spark mandiri.

Komponen Spark dalam pekerjaan alur

Komponen Spark menawarkan fleksibilitas untuk menggunakan komponen yang sama di beberapa alur Azure Pembelajaran Mesin, sebagai langkah alur.

BERLAKU UNTUK: Ekstensi ml Azure CLI v2 (saat ini)

Sintaks YAML untuk komponen Spark menyerupai sintaks YAML untuk spesifikasi pekerjaan Spark dalam kebanyakan cara. Properti ini didefinisikan secara berbeda dalam spesifikasi YAML komponen Spark:

name - nama komponen Spark.
version - versi komponen Spark.
display_name - nama komponen Spark untuk ditampilkan di UI dan di tempat lain.
description - deskripsi komponen Spark.
inputs - properti ini mirip inputs dengan properti yang dijelaskan dalam sintaks YAML untuk spesifikasi pekerjaan Spark, kecuali bahwa properti tersebut tidak menentukan path properti . Cuplikan kode ini menunjukkan contoh properti komponen inputs Spark:
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs - properti ini mirip dengan properti yang outputs dijelaskan dalam sintaks YAML untuk spesifikasi pekerjaan Spark, kecuali bahwa properti tersebut tidak menentukan path properti . Cuplikan kode ini menunjukkan contoh properti komponen outputs Spark:
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Catatan

Komponen Spark tidak menentukan identityproperti , compute atau resources . File spesifikasi YAML alur menentukan properti ini.

File spesifikasi YAML ini memberikan contoh komponen Spark:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Komponen Spark yang ditentukan dalam file spesifikasi YAML di atas dapat digunakan dalam pekerjaan alur Azure Pembelajaran Mesin. Lihat skema YAML pekerjaan alur untuk mempelajari selengkapnya tentang sintaks YAML yang menentukan pekerjaan alur. Contoh ini menunjukkan file spesifikasi YAML untuk pekerjaan alur, dengan komponen Spark, dan komputasi Spark tanpa server Azure Pembelajaran Mesin:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

Catatan

Untuk menggunakan kumpulan Synapse Spark terlampir, tentukan compute properti dalam contoh file spesifikasi YAML yang ditunjukkan di atas, bukan resources properti.

File spesifikasi YAML di atas dapat digunakan dalam perintah, menggunakan --file parameter , untuk membuat pekerjaan alur seperti yang ditunjukkanaz ml job create:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Anda dapat menjalankan perintah di atas dari:

terminal instans komputasi Azure Pembelajaran Mesin.
terminal Visual Studio Code yang tersambung ke instans komputasi Azure Pembelajaran Mesin.
komputer lokal Anda yang telah menginstal Azure Pembelajaran Mesin CLI.

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

Untuk membuat alur Azure Pembelajaran Mesin dengan komponen Spark, Anda harus tahu tentang pembuatan alur Azure Pembelajaran Mesin dari komponen, menggunakan Python SDK. Komponen Spark dibuat menggunakan azure.ai.ml.spark fungsi. Parameter fungsi didefinisikan dengan cara yang hampir sama seperti untuk pekerjaan Spark mandiri. Parameter ini didefinisikan secara berbeda untuk komponen Spark:

name - nama komponen Spark.
display_name - nama komponen Spark yang ditampilkan di UI dan di tempat lain.
inputs - parameter ini menyerupai parameter yang inputs dijelaskan untuk pekerjaan Spark mandiri, kecuali bahwa azure.ai.ml.Input kelas dibuat tanpa path parameter .
outputs - parameter ini menyerupai parameter yang outputs dijelaskan untuk pekerjaan Spark mandiri, kecuali bahwa azure.ai.ml.Output kelas dibuat tanpa path parameter .

Catatan

Komponen Spark yang dibuat menggunakan azure.ai.ml.spark fungsi tidak menentukan identityparameter , compute atau resources . Alur Azure Pembelajaran Mesin mendefinisikan parameter ini.

Anda dapat mengirimkan pekerjaan alur dengan komponen Spark dari:

Azure Pembelajaran Mesin Notebook yang tersambung ke instans komputasi Azure Pembelajaran Mesin.
Visual Studio Code tersambung ke instans komputasi Azure Pembelajaran Mesin.
komputer lokal Anda yang memiliki Azure Pembelajaran Mesin SDK untuk Python terinstal.

Cuplikan kode Python ini menunjukkan penggunaan identitas terkelola, bersama dengan pembuatan pekerjaan alur Azure Pembelajaran Mesin. Selain itu, ini menunjukkan penggunaan komponen Spark dan komputasi Azure Pembelajaran Mesin Managed (Automatic) Synapse:

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Catatan

Untuk menggunakan kumpulan Synapse Spark terlampir, tentukan compute parameter dalam azure.ai.ml.spark fungsi, bukan resources parameter. Misalnya, dalam sampel kode yang ditunjukkan di atas, tentukan spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" alih-alih menentukan spark_step.resources.

Memecahkan masalah pekerjaan Spark

Untuk memecahkan masalah pekerjaan Spark, Anda dapat mengakses log yang dihasilkan untuk pekerjaan tersebut di studio Azure Pembelajaran Mesin. Untuk melihat log untuk pekerjaan Spark:

Navigasi ke Pekerjaan dari panel kiri di antarmuka pengguna studio Azure Pembelajaran Mesin
Pilih tab Semua pekerjaan
Pilih nilai Nama tampilan untuk pekerjaan
Pada halaman detail pekerjaan, pilih tab Output + log
Di penjelajah file, perluas folder log, lalu perluas folder azureml
Mengakses log pekerjaan Spark di dalam folder manajer driver dan pustaka

Catatan

Untuk memecahkan masalah pekerjaan Spark yang dibuat selama manipulasi data interaktif dalam sesi buku catatan, pilih Detail pekerjaan di dekat sudut kanan atas UI buku catatan. Pekerjaan Spark dari sesi notebook interaktif dibuat di bawah nama eksperimen yang dijalankan notebook.

Bagikan melalui

Mengirimkan pekerjaan Spark di Azure Pembelajaran Mesin

Prasyarat

Melampirkan identitas terkelola yang ditetapkan pengguna menggunakan CLI v2

Melampirkan identitas terkelola yang ditetapkan pengguna menggunakan `ARMClient`

Mengirimkan pekerjaan Spark mandiri

Properti YAML dalam spesifikasi pekerjaan Spark

Pekerjaan Spark Mandiri

Pekerjaan Spark Mandiri menggunakan Python SDK

Mengirimkan pekerjaan Spark mandiri dari antarmuka pengguna studio Azure Pembelajaran Mesin (pratinjau)

Komponen Spark dalam pekerjaan alur

Memecahkan masalah pekerjaan Spark

Langkah berikutnya

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Mengirimkan pekerjaan Spark di Azure Pembelajaran Mesin

Prasyarat

Melampirkan identitas terkelola yang ditetapkan pengguna menggunakan CLI v2

Melampirkan identitas terkelola yang ditetapkan pengguna menggunakan ARMClient

Mengirimkan pekerjaan Spark mandiri

Properti YAML dalam spesifikasi pekerjaan Spark

Pekerjaan Spark Mandiri

Komponen Spark dalam pekerjaan alur

Memecahkan masalah pekerjaan Spark

Langkah berikutnya

Saran dan Komentar

Sumber Daya Tambahan:

Melampirkan identitas terkelola yang ditetapkan pengguna menggunakan `ARMClient`