Azure Machine Learning'de Spark işlerini gönderme

Makale
10/18/2023

ŞUNLAR IÇIN GEÇERLIDIR: Azure CLI ml uzantısı v2 (geçerli)Python SDK azure-ai-ml v2 (geçerli)

Azure Machine Learning, tek başına makine öğrenmesi işlerinin gönderilmesini ve birden çok makine öğrenmesi iş akışı adımı içeren makine öğrenmesi işlem hatlarının oluşturulmasını destekler. Azure Machine Learning hem tek başına Spark işi oluşturmayı hem de Azure Machine Learning işlem hatlarının kullanabileceği yeniden kullanılabilir Spark bileşenlerinin oluşturulmasını işler. Bu makalede, spark işlerini göndermeyi şu şekilde öğreneceksiniz:

Azure Machine Learning stüdyosu kullanıcı arabirimi
Azure Machine Learning CLI
Azure Machine Learning SDK’sı

Azure Machine Learning kavramlarında Apache Spark hakkında daha fazla bilgi için bu kaynağa bakın.

Önkoşullar

ŞUNLAR IÇIN GEÇERLIDIR: Azure CLI ml uzantısı v2 (geçerli)

Azure aboneliği; Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.
Azure Machine Learning çalışma alanı. Bkz . Çalışma alanı kaynakları oluşturma.
Azure Machine Learning işlem örneği oluşturma.
Azure Machine Learning CLI'yi yükleyin.
(İsteğe bağlı): Azure Machine Learning çalışma alanında ekli bir Synapse Spark havuzu.

Not

Azure Machine Learning sunucusuz Spark işlemini ve ekli Synapse Spark havuzunu kullanırken kaynak erişimi hakkında daha fazla bilgi edinmek için bkz . Spark işlerine kaynak erişimi sağlama.
Azure Machine Learning, tüm kullanıcıların sınırlı bir süre için test gerçekleştirmek için işlem kotasına erişebileceği paylaşılan bir kota havuzu sağlar. Sunucusuz Spark işlemini kullandığınızda, Azure Machine Learning bu paylaşılan kotaya kısa bir süre erişmenizi sağlar.

CLI v2 kullanarak kullanıcı tarafından atanan yönetilen kimliği ekleme

Çalışma alanına eklenmesi gereken kullanıcı tarafından atanan yönetilen kimliği tanımlayan bir YAML dosyası oluşturun:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

parametresiyle --file , kullanıcı tarafından atanan yönetilen kimliği eklemek için komutundaki az ml workspace update YAML dosyasını kullanın:

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

Kullanarak kullanıcı tarafından atanan yönetilen kimliği ekleme `ARMClient`

Azure Resource Manager API'sini çağıran basit bir komut satırı aracı yükleyin ARMClient.

Çalışma alanına eklenmesi gereken kullanıcı tarafından atanan yönetilen kimliği tanımlayan bir JSON dosyası oluşturun:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Kullanıcı tarafından atanan yönetilen kimliği çalışma alanına eklemek için PowerShell isteminde veya komut isteminde aşağıdaki komutu yürütebilirsiniz.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Not

Spark işinin başarıyla yürütülmesini sağlamak için, Veri girişi ve çıkışı için kullanılan Azure depolama hesabında Katkıda Bulunan ve Depolama Blobu Veri Katkıda Bulunanı rollerini Spark işinin kullandığı kimliğe atayın
Spark işinin ekli synapse Spark havuzu kullanılarak başarıyla yürütülmesini sağlamak için Azure Synapse çalışma alanında Genel Ağ Erişimi etkinleştirilmelidir.
Ekli bir Synapse Spark havuzu Synapse Spark havuzuna işaret ederse, kendisiyle ilişkilendirilmiş yönetilen sanal ağa sahip bir Azure Synapse çalışma alanında, veri erişimini sağlamak için depolama hesabına yönetilen özel uç nokta yapılandırılmalıdır .
Sunucusuz Spark işlem, Azure Machine Learning yönetilen sanal ağını destekler. Sunucusuz Spark işlemi için yönetilen bir ağ sağlanırsa, veri erişimini sağlamak için depolama hesabına karşılık gelen özel uç noktalar da sağlanmalıdır .

Tek başına Spark işi gönderme

Python betiği parametreleştirmesi için gerekli değişiklikler yaptıktan sonra, etkileşimli veri düzenlemesi tarafından geliştirilen bir Python betiği, daha büyük hacimli verileri işlemek üzere toplu iş göndermek için kullanılabilir. Basit bir veri düzenleme toplu işi tek başına Spark işi olarak gönderilebilir.

Spark işi, etkileşimli veri düzenlemesinden geliştirilen Python kodunun değiştirilmesiyle geliştirilebilen bağımsız değişkenleri alan bir Python betiği gerektirir. Burada örnek bir Python betiği gösterilmiştir.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Not

Bu Python kod örneği kullanır pyspark.pandas. Yalnızca Spark çalışma zamanı sürüm 3.2 veya üzeri bunu destekler.

Yukarıdaki betik, sırasıyla giriş verilerinin ve çıkış klasörünün yolunu geçen ve iki bağımsız değişken --titanic_data --wrangled_dataalır.

ŞUNLAR IÇIN GEÇERLIDIR: Azure CLI ml uzantısı v2 (geçerli)

İş oluşturmak için tek başına spark işi, komutunda az ml job create parametresiyle --file birlikte kullanılabilecek bir YAML belirtim dosyası olarak tanımlanabilir. YAML dosyasında şu özellikleri tanımlayın:

Spark iş belirtimindeki YAML özellikleri

type - olarak sparkayarlayın.
code - Bu iş için kaynak kodu ve betikleri içeren klasörün konumunu tanımlar.
entry - işin giriş noktasını tanımlar. Bu özelliklerden birini kapsamalıdır:
- file - İş için giriş noktası olarak hizmet veren Python betiğinin adını tanımlar.
py_files- işin başarıyla yürütülmesi için içine yerleştirilecek PYTHONPATH, veya .py dosyalarının listesini .zip.eggtanımlar. Bu özellik isteğe bağlıdır.
jars - spark sürücüsüne eklenecek dosyaların listesini .jar ve işin başarıyla yürütülmesi için yürütücüsü CLASSPATHtanımlar. Bu özellik isteğe bağlıdır.
files - başarılı bir iş yürütme için her yürütücüsünün çalışma dizinine kopyalanması gereken dosyaların listesini tanımlar. Bu özellik isteğe bağlıdır.
archives - başarılı bir iş yürütme için her yürütücüsünün çalışma dizinine ayıklanması gereken arşivlerin listesini tanımlar. Bu özellik isteğe bağlıdır.
conf - bu Spark sürücüsü ve yürütücü özelliklerini tanımlar:
- spark.driver.cores: Spark sürücüsünün çekirdek sayısı.
- spark.driver.memory: Spark sürücüsü için gigabayt (GB) cinsinden ayrılmış bellek.
- spark.executor.cores: Spark yürütücüsünün çekirdek sayısı.
- spark.executor.memory: Spark yürütücüsü için gigabayt (GB) cinsinden bellek ayırma.
- spark.dynamicAllocation.enabled - yürütücülerin dinamik olarak veya değer olarak True False ayrılması gerekip gerekmediği.
- Yürütücülerin dinamik ayırması etkinleştirildiyse şu özellikleri tanımlayın:
  - spark.dynamicAllocation.minExecutors - dinamik ayırma için Spark yürütücüsü örneklerinin en az sayısı.
  - spark.dynamicAllocation.maxExecutors - dinamik ayırma için Spark yürütücüsü örneği sayısı üst sınırı.
- Yürütücülerin dinamik ayırması devre dışı bırakılırsa şu özelliği tanımlayın:
  - spark.executor.instances - Spark yürütücü örneklerinin sayısı.
environment - işi çalıştırmak için bir Azure Machine Learning ortamı .
args - iş giriş noktası Python betiğine geçirilmesi gereken komut satırı bağımsız değişkenleri. Bir örnek için burada sağlanan YAML belirtim dosyasına bakın.
resources - bu özellik, Azure Machine Learning sunucusuz Spark işlem tarafından kullanılacak kaynakları tanımlar. Aşağıdaki özellikleri kullanır:
- instance_type - Spark havuzu için kullanılacak işlem örneği türü. Şu anda aşağıdaki örnek türleri desteklenmektedir:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version - Spark çalışma zamanı sürümünü tanımlar. Şu anda aşağıdaki Spark çalışma zamanı sürümleri desteklenmektedir:
  - 3.2
  - 3.3
    Önemli
    
    Apache Spark için Azure Synapse Runtime: Duyurular
    - Apache Spark 3.2 için Azure Synapse Runtime:
      
      EOLA Duyuru Tarihi: 8 Temmuz 2023
      
      Destek Sonu Tarihi: 8 Temmuz 2024. Bu tarihten sonra çalışma zamanı devre dışı bırakılır.
    - Sürekli destek ve en iyi performans için Apache Spark 3.3'e geçiş önerilir.
Bu bir örnektir:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.3"
```
compute - bu özellik, bu örnekte gösterildiği gibi ekli bir Synapse Spark havuzunun adını tanımlar:
```
compute: mysparkpool
```
inputs - bu özellik Spark işi için girişleri tanımlar. Spark işinin girişleri değişmez değer veya dosya veya klasörde depolanan veriler olabilir.
- Değişmez değer bir sayı, boole değeri veya dize olabilir. Burada bazı örnekler gösterilmiştir:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Bir dosya veya klasörde depolanan veriler şu özellikler kullanılarak tanımlanmalıdır:
  - type- sırasıyla bir dosyada veya uri_folderklasörde bulunan giriş verileri için bu özelliği uri_file, veya olarak ayarlayın.
  - path- , abfss://veya wasbs://gibi azureml://giriş verilerinin URI'sini.
  - mode - bu özelliği olarak directayarlayın. Bu örnek, olarak adlandırılabilir $${inputs.titanic_data}}bir iş girişinin tanımını gösterir:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs - bu özellik Spark işi çıkışlarını tanımlar. Spark işinin çıkışları, aşağıdaki üç özellik kullanılarak tanımlanan bir dosyaya veya klasör konumuna yazılabilir:
- type- bu özellik, çıkış verilerini sırasıyla bir dosyaya veya uri_folder klasöre yazmak için veya olarak ayarlanabiliruri_file.
- path- bu özellik , abfss://veya wasbs://gibi azureml://çıkış konumu URI'sini tanımlar.
- mode - bu özelliği olarak directayarlayın. Bu örnek, olarak da adlandırılan ${{outputs.wrangled_data}}bir iş çıktısının tanımını gösterir:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity - bu isteğe bağlı özellik, bu işi göndermek için kullanılan kimliği tanımlar. ve managed değerlerine sahip user_identity olabilir. YAML belirtimi bir kimlik tanımlamıyorsa Spark işi varsayılan kimliği kullanır.

Tek başına Spark işi

Bu örnek YAML belirtimi tek başına spark işini gösterir. Azure Machine Learning sunucusuz Spark işlem kullanır:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.3"

Not

Ekli bir Synapse Spark havuzu kullanmak için özelliğini özelliği yerine resources daha önce gösterilen örnek YAML belirtim dosyasında tanımlayıncompute.

Daha önce gösterilen YAML dosyaları komutunda az ml job create parametresiyle birlikte --file , gösterildiği gibi tek başına bir Spark işi oluşturmak için kullanılabilir:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Yukarıdaki komutu şu kaynaktan yürütebilirsiniz:

Azure Machine Learning işlem örneğinin terminali.
Azure Machine Learning işlem örneğine bağlı Visual Studio Code terminali.
Azure Machine Learning CLI yüklü yerel bilgisayarınız.

ŞUNLAR IÇIN GEÇERLIDIR: Python SDK'sı azure-ai-ml v2 (geçerli)

Python SDK'sı kullanan tek başına Spark işi

Tek başına Spark işi oluşturmak için işlevini şu parametrelerle kullanın azure.ai.ml.spark :

name - Spark işinin adı.
display_name - Spark işinin kullanıcı arabiriminde ve başka bir yerde görüntülenmesi gereken görünen adı.
code - bu iş için kaynak kodu ve betikleri içeren klasörün konumu.
entry - işin giriş noktası. Bu, dosya giriş noktasını tanımlayan bir sözlük olmalıdır.
py_files- işin başarıyla yürütülmesi için içine yerleştirilecek , veya .py dosyalarının listesi..zip.eggPYTHONPATH Bu parametre isteğe bağlıdır.
jars- spark sürücüsüne ve yürütücüsünün CLASSPATHiçine eklenecek dosyaların listesi.jar, işin başarıyla yürütülmesi için. Bu parametre isteğe bağlıdır.
files - işin başarıyla yürütülmesi için her yürütücüsünün çalışma dizinine kopyalanması gereken dosyaların listesi. Bu parametre isteğe bağlıdır.
archives - işin başarıyla yürütülmesi için otomatik olarak ayıklanan ve her yürütücüsünün çalışma dizinine yerleştirilen arşivlerin listesi. Bu parametre isteğe bağlıdır.
conf - önceden tanımlanmış Spark yapılandırma anahtar-değer çiftlerine sahip bir sözlük.
driver_cores: Spark sürücüsü için ayrılan çekirdek sayısı.
driver_memory: Boyut birimi soneki k, veya t (örneğin, 512m2g, mg ) ile Spark sürücüsü için ayrılan bellek.
executor_cores: Spark yürütücüsü için ayrılan çekirdek sayısı.
executor_memory: Boyut birimi soneki k, veya t (örneğin, 512m2g, mg ) ile Spark yürütücüsü için ayrılan bellek.
dynamic_allocation_enabled - yürütücülerin dinamik olarak ayrılıp ayrılmayacağını tanımlayan boole parametresi.
- Yürütücülerin dinamik ayırması etkinleştirildiyse şu parametreleri tanımlayın:
  - dynamic_allocation_min_executors - dinamik ayırma için en az Spark yürütücü örneği sayısı.
  - dynamic_allocation_max_executors - dinamik ayırma için spark yürütücüsü örneklerinin en fazla sayısı.
- Yürütücülerin dinamik ayırması devre dışı bırakılırsa şu parametreleri tanımlayın:
  - executor_instances - Spark yürütücü örneklerinin sayısı.
  - environment - işi çalıştıran Azure Machine Learning ortamı. Bu parametrenin geçmesi gerekir:
    - nesnesi azure.ai.ml.entities.Environmentveya Azure Machine Learning ortam adı (dize).
args - iş giriş noktası Python betiğine geçirilmesi gereken komut satırı bağımsız değişkenleri. Örnek için burada sağlanan örnek koda bakın.
resources - Azure Machine Learning sunucusuz Spark işlem tarafından kullanılacak kaynaklar. Bu parametre şununla bir sözlük geçirmelidir:
- instance_type - sunucusuz Spark işlem için kullanılacak işlem örneği türünü tanımlayan bir anahtar. Şu anda aşağıdaki örnek türleri desteklenmektedir:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version - Spark çalışma zamanı sürümünü tanımlayan bir anahtar. Şu anda aşağıdaki Spark çalışma zamanı sürümleri desteklenmektedir:
  - 3.2.0
  - 3.3.0
    Önemli
    
    Apache Spark için Azure Synapse Runtime: Duyurular
    - Apache Spark 3.2 için Azure Synapse Runtime:
      
      EOLA Duyuru Tarihi: 8 Temmuz 2023
      
      Destek Sonu Tarihi: 8 Temmuz 2024. Bu tarihten sonra çalışma zamanı devre dışı bırakılır.
    - Sürekli destek ve en iyi performans için Apache Spark 3.3'e geçiş önerilir.
compute - ekli bir Synapse Spark havuzunun adı.
inputs - Spark işinin girişleri. Bu parametre, işte kullanılan giriş veri bağlamalarının eşlemelerini içeren bir sözlük geçirmelidir. Bu sözlük şu değerlere sahiptir:
- sözlük anahtarı giriş adını tanımlar
- karşılık gelen bir değer şu olabilir:
  - değişmez değer: tamsayı, sayı, boole veya dize.
  - aşağıdaki parametrelerle sınıfının azure.ai.ml.Inputbir nesnesi:
    - type - sırasıyla bir dosyada veya klasörde bulunan giriş verileri için bu parametreyi uri_file veya uri_folderolarak ayarlayın.
    - path- , abfss://veya wasbs://gibi azureml://giriş verilerinin URI'sini.
    - mode - bu parametreyi olarak directayarlayın.
outputs - Spark işinin çıkışları. Bu parametre, işte kullanılan çıkış veri bağlamalarının eşlemelerini içeren bir sözlük geçirmelidir. Bu sözlük şu değerlere sahiptir:
- sözlük anahtarı çıkış adını tanımlar
- karşılık gelen değer, aşağıdaki parametrelerle sınıfının azure.ai.ml.Outputbir nesnesidir:
  - type - Bu parametreyi uri_file sırasıyla bir çıkış veri dosyası veya klasör için veya uri_folderolarak ayarlayın.
  - path- , abfss://veya wasbs://gibi azureml://çıkış verilerinin URI'sini.
  - mode - bu parametreyi olarak directayarlayın.
identity - bu işin gönderilmesi için kullanılan kimliği tanımlayan isteğe bağlı bir parametre. İzin verilen değerler sınıfın bir nesnesidir
- azure.ai.ml.entities.UserIdentityConfiguration veya
- azure.ai.ml.entities.ManagedIdentityConfiguration kullanıcı kimliği ve yönetilen kimlik için sırasıyla. Kimlik tanımlanmamışsa Spark işi varsayılan kimliği kullanır.

Tek başına spark işi göndermek için:

Azure Machine Learning işlem örneğine bağlı bir Azure Machine Learning Not Defteri.
Azure Machine Learning işlem örneğine bağlı Visual Studio Code.
Python için Azure Machine Learning SDK'sının yüklü olduğu yerel bilgisayarınız.

Bu Python kod parçacığı, kullanıcı kimliğini kullanarak Azure Machine Learning sunucusuz Spark işlemiyle tek başına spark işi oluşturmayı gösterir.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.3.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Not

Ekli bir Synapse Spark havuzu kullanmak için parametresini compute yerine işlevinde azure.ai.ml.spark resourcestanımlayın.

Azure Machine Learning stüdyosu kullanıcı arabiriminden tek başına Spark işi gönderme (önizleme)

Önemli

Bu özellik şu anda genel önizlemededir. Bu önizleme sürümü hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için bu sürümü önermeyiz. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir.

Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri Ek Kullanım Koşulları.

Azure Machine Learning stüdyosu kullanıcı arabirimini kullanarak tek başına spark işi göndermek için:

Azure Machine Learning stüdyosu kullanıcı arabiriminde yeni bir Spark işi oluşturmayı gösteren ekran görüntüsü.

Ekranın sağ üst tarafında + Yeni'yi seçin.
Spark işi (önizleme) seçeneğini belirleyin.
İşlem ekranında:

Azure Machine Learning stüdyosu kullanıcı arabiriminde yeni bir Spark işi için işlem seçimi ekranını gösteren ekran görüntüsü.

İşlem türünü seçin bölümünde Sunucusuz Spark işlem için Spark sunucusuz veya ekli synapse Spark havuzu için ekli işlem'i seçin.
Spark sunucusuz seçeneğini belirlediyseniz:
1. Sanal makine boyutu'nu seçin.
2. Spark çalışma zamanı sürümü'ne tıklayın.
Önemli

Apache Spark için Azure Synapse Runtime: Duyurular
- Apache Spark 3.2 için Azure Synapse Runtime:
  - EOLA Duyuru Tarihi: 8 Temmuz 2023
  - Destek Sonu Tarihi: 8 Temmuz 2024. Bu tarihten sonra çalışma zamanı devre dışı bırakılır.
- Sürekli destek ve en iyi performans için Apache Spark 3.3'e geçiş önerilir.
İliştirilmiş işlem'i seçtiyseniz:
1. Azure Machine Learning ekli işlem menüsünü seçin menüsünden ekli bir Synapse Spark havuzu seçin.
İleri'yi seçin.
Ortam ekranında:
1. Listeden kullanılabilir ortamlardan birini seçin. Ortam seçimi isteğe bağlıdır.
2. İleri'yi seçin.
İş ayarları ekranında:
1. İş Adı girin. Varsayılan olarak oluşturulan İş Adı'nı kullanabilirsiniz.
2. Açılan menüden Deneme adı'nı seçin.
3. Etiket ekle'nin altında Ad ve Değer'i sağlayın ve Ekle'yi seçin. Etiket eklemek isteğe bağlıdır.
4. Kod bölümünün altında:
  1. Kod konumu seçin açılan listesinden bir seçenek belirleyin. Yerel dosyayı karşıya yükle'yi veya Azure Machine Learning çalışma alanı varsayılan blob depolama alanını seçin.
  2. Kod konumu seç'i seçtiyseniz:
    - Gözat'ı seçin ve yerel makinenizdeki kod dosyalarını içeren konuma gidin.
  3. Azure Machine Learning çalışma alanı varsayılan blob depolamayı seçtiyseniz:
    1. Karşıya yüklenecek kod dosyasının yolu altında Gözat'ı seçin.
    2. Yol seçimi başlıklı açılır ekranda, çalışma alanı varsayılan blob depolama alanındaki kod dosyalarının yolunu seçin.
    3. Kaydet'i seçin.
  4. Tek başına işin Entry dosyasının adını girin. Bu dosya bağımsız değişkenleri alan Python kodunu içermelidir.
  5. Çalışma zamanında tek başına işin gerektirdiği diğer Python dosyalarını eklemek için Py dosyaları altında + Dosya ekle'yi seçin ve başarılı bir iş yürütmesi .zipiçin içine yerleştirilecek , .eggveya .py dosyasının PYTHONPATH adını girin. Birden çok dosya eklenebilir.
  6. Çalışma zamanında tek başına işin gerektirdiği jar dosyalarını eklemek için Jars altında + Dosya ekle'yi seçin ve Spark sürücüsüne eklenecek dosyanın adını .jar girin. Ayrıca, başarılı bir iş yürütme için yürütücü CLASSPATH ekleyin. Birden çok dosya eklenebilir.
  7. Başarılı bir iş yürütme için her yürütücüsünün çalışma dizinine ayıklanması gereken arşivleri eklemek için Arşivler'in altında + Dosya ekle'yi seçin ve arşivin adını girin. Birden çok arşiv eklenebilir.
  8. Py dosyaları, Jar'lar ve Arşivler eklemek isteğe bağlıdır.
  9. Giriş eklemek için Girişler'in altında + Giriş ekle'yi seçin ve
    1. Bir Giriş adı girin. Giriş, Daha sonra Bağımsız Değişkenler'de bu ada başvurmalıdır.
    2. Bir Giriş türü seçin.
    3. Veri türü için:
      1. Veri türü'nü Dosya veya Klasör olarak seçin.
      2. Veri kaynağı olarak Yerel, URI veya Veri deposundan karşıya yükle'yi seçin.
        
        Yerelden karşıya yükle için, giriş dosyasını veya klasörünü seçmek için Karşıya yüklenecek yol'un altında Gözat'ı seçin.
        
        URI için bir depolama verisi URI'sini (örneğin, abfss:// veya wasbs:// URI) girin veya bir veri varlığı azureml://girin.
        
        Datastore için:
        
        Açılan menüden bir veri deposu seçin.
        
        Veri yolu altında Gözat'ı seçin.
        
        Yol seçimi başlıklı açılır ekranda, çalışma alanı varsayılan blob depolama alanındaki kod dosyalarının yolunu seçin.
        
        Kaydet'i seçin.
    4. Tamsayı türü için Giriş değeri olarak bir tamsayı değeri girin.
    5. Sayı türü için Giriş değeri olarak sayısal bir değer girin.
    6. Boole türü için Giriş değeri olarak Doğru veya Yanlış'ı seçin.
    7. Dize türü için Giriş değeri olarak bir dize girin.
  10. Giriş eklemek için Çıkışlar'ın altında + Çıkış ekle'yi seçin ve
    1. Bir Çıkış adı girin. Çıktının bu ada daha sonra Bağımsız Değişkenler'de başvurması gerekir.
    2. Çıkış türü'nü Dosya veya Klasör olarak seçin.
    3. Çıkış URI'si hedefi için bir depolama veri URI'sini (örneğin, abfss:// veya wasbs:// URI) girin veya bir veri varlığı azureml://girin.
  11. Önceki adımlarda Giriş adı ve Çıkış adı alanlarında tanımlanan adları ve Python betiği Giriş dosyasında kullanılan giriş ve çıkış bağımsız değişkenlerinin adlarını kullanarak Bağımsız Değişkenler girin. Örneğin, Giriş adı ve Çıkış adı ve job_outputolarak job_input tanımlanmışsa ve bağımsız değişkenler burada gösterildiği gibi Girdi dosyasına eklenirse
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
ardından Bağımsız Değişkenler'i olarak --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}girin. 5. Spark yapılandırmaları bölümünün altında: 1. Yürütücü boyutu için: 1. Yürütücü Çekirdeği ve yürütücü Belleği (GB) sayısını gigabayt cinsinden girin. 2. Dinamik olarak ayrılan yürütücüler için Devre Dışı veya Etkin seçeneğini belirleyin. - Yürütücülerin dinamik ayırması Devre Dışı ise Yürütücü örneklerinin sayısını girin. - Yürütücülerin dinamik ayırması Etkinse, yürütücü sayısı alt ve üst sınırını seçmek için kaydırıcıyı kullanın. 1. Sürücü boyutu için: 1. Sürücü Çekirdeği ve sürücü Belleği (GB) sayısını gigabayt cinsinden girin. 2. Ek yapılandırmalar için Ad ve Değer çiftleri girin, ardından Ekle'yi seçin. Ek yapılandırmalar sağlamak isteğe bağlıdır. 6. İleri'yi seçin.
Gözden Geçir ekranında:
1. göndermeden önce iş belirtimini gözden geçirin.
2. Tek başına Spark işini göndermek için Oluştur'u seçin.

İşlem hattı işinde Spark bileşeni

Spark bileşeni, işlem hattı adımı olarak aynı bileşeni birden çok Azure Machine Learning işlem hattında kullanma esnekliği sunar.

ŞUNLAR IÇIN GEÇERLIDIR: Azure CLI ml uzantısı v2 (geçerli)

Spark bileşeninin YAML söz dizimi, Spark iş belirtiminin YAML söz dizimine benzer. Bu özellikler Spark bileşeni YAML belirtiminde farklı şekilde tanımlanır:

name - Spark bileşeninin adı.
version - Spark bileşeninin sürümü.
display_name - Kullanıcı arabiriminde ve başka bir yerde görüntülenecek Spark bileşeninin adı.
description - Spark bileşeninin açıklaması.
inputs- bu özellik Spark iş belirtimi için YAML söz diziminde açıklanan özelliğe benzerinputs, ancak özelliği tanımlamazpath. Bu kod parçacığı Spark bileşeni inputs özelliğinin bir örneğini gösterir:
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs- bu özellik Spark iş belirtimi için YAML söz diziminde açıklanan özelliğe benzeroutputs, ancak özelliği tanımlamazpath. Bu kod parçacığı Spark bileşeni outputs özelliğinin bir örneğini gösterir:
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Not

Spark bileşeni, veya compute resources özelliklerini tanımlamazidentity. İşlem hattı YAML belirtim dosyası bu özellikleri tanımlar.

Bu YAML belirtim dosyası bir Spark bileşeni örneği sağlar:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Yukarıdaki YAML belirtim dosyasında tanımlanan Spark bileşeni bir Azure Machine Learning işlem hattı işinde kullanılabilir. İşlem hattı işini tanımlayan YAML söz dizimi hakkında daha fazla bilgi edinmek için bkz . işlem hattı işi YAML şeması . Bu örnekte Spark bileşeni ve Azure Machine Learning sunucusuz Spark işlemi içeren bir işlem hattı işi için YAML belirtim dosyası gösterilmektedir:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.3"

Not

Ekli bir Synapse Spark havuzu kullanmak için özelliği, özellik yerine resources yukarıda gösterilen örnek YAML belirtim dosyasında tanımlayıncompute.

Yukarıdaki YAML belirtim dosyası komutunda az ml job create parametresi kullanılarak --file kullanılabilir ve gösterildiği gibi bir işlem hattı işi oluşturulabilir:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Yukarıdaki komutu şu kaynaktan yürütebilirsiniz:

Azure Machine Learning işlem örneğinin terminali.
Azure Machine Learning işlem örneğine bağlı Visual Studio Code terminali.
Azure Machine Learning CLI yüklü yerel bilgisayarınız.

ŞUNLAR IÇIN GEÇERLIDIR: Python SDK'sı azure-ai-ml v2 (geçerli)

Spark bileşeniyle Azure Machine Learning işlem hattı oluşturmak için Python SDK'sını kullanarak bileşenlerden Azure Machine Learning işlem hatlarının oluşturulmasını bilmeniz gerekir. İşlev kullanılarak azure.ai.ml.spark bir Spark bileşeni oluşturulur. İşlev parametreleri, tek başına Spark işiyle neredeyse aynı şekilde tanımlanır. Bu parametreler Spark bileşeni için farklı şekilde tanımlanır:

name - Spark bileşeninin adı.
display_name - Kullanıcı arabiriminde ve başka bir yerde görüntülenen Spark bileşeninin adı.
inputs- bu parametre tek başına Spark işi için açıklanan parametreye benzerinputs, ancak sınıfın azure.ai.ml.Input parametresi olmadan path örneği oluşturulur.
outputs- bu parametre tek başına Spark işi için açıklanan parametreye benzeroutputs, ancak sınıfın azure.ai.ml.Output parametresi olmadan path örneği oluşturulur.

Not

İşlev kullanılarak azure.ai.ml.spark oluşturulan spark bileşeni, veya compute resources parametrelerini tanımlamazidentity. Azure Machine Learning işlem hattı bu parametreleri tanımlar.

Spark bileşeniyle bir işlem hattı işi gönderebilirsiniz:

Azure Machine Learning işlem örneğine bağlı bir Azure Machine Learning Not Defteri.
Azure Machine Learning işlem örneğine bağlı Visual Studio Code.
Python için Azure Machine Learning SDK'sının yüklü olduğu yerel bilgisayarınız.

Bu Python kod parçacığı, yönetilen kimliğin kullanımını ve Azure Machine Learning işlem hattı işinin oluşturulmasını gösterir. Buna ek olarak, Spark bileşeninin ve Azure Machine Learning Yönetilen (Otomatik) Synapse işlem kullanımını gösterir:

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.3.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Not

Ekli bir Synapse Spark havuzu kullanmak için parametresi yerine resources işlevinde azure.ai.ml.spark parametresini tanımlayıncompute. Örneğin, yukarıda gösterilen kod örneğinde tanımlamak yerine öğesini tanımlayın spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" spark_step.resources.

Spark işlerinin sorunlarını giderme

Spark işinin sorunlarını gidermek için bu iş için oluşturulan günlüklere Azure Machine Learning stüdyosu'de erişebilirsiniz. Spark işinin günlüklerini görüntülemek için:

Azure Machine Learning stüdyosu kullanıcı arabiriminin sol panelinden İşler'e gidin
Tüm işler sekmesini seçin
İş için Görünen ad değerini seçin
İş ayrıntıları sayfasında Çıkış + günlükler sekmesini seçin
Dosya gezgininde logs klasörünü genişletin ve ardından azureml klasörünü genişletin
Sürücü ve kitaplık yöneticisi klasörlerinin içindeki Spark iş günlüklerine erişme

Not

Bir not defteri oturumunda etkileşimli veri düzenleme sırasında oluşturulan Spark işlerinin sorunlarını gidermek için not defteri kullanıcı arabiriminin sağ üst köşesindeki İş ayrıntıları'nı seçin. Etkileşimli bir not defteri oturumundan Spark işleri, deneme adı not defteri çalıştırmaları altında oluşturulur.

Aracılığıyla paylaş

Azure Machine Learning'de Spark işlerini gönderme

Önkoşullar

CLI v2 kullanarak kullanıcı tarafından atanan yönetilen kimliği ekleme

Kullanarak kullanıcı tarafından atanan yönetilen kimliği ekleme `ARMClient`

Tek başına Spark işi gönderme

Spark iş belirtimindeki YAML özellikleri

Tek başına Spark işi

Python SDK'sı kullanan tek başına Spark işi

Azure Machine Learning stüdyosu kullanıcı arabiriminden tek başına Spark işi gönderme (önizleme)

İşlem hattı işinde Spark bileşeni

Spark işlerinin sorunlarını giderme

Sonraki adımlar

Geri Bildirim

Geri Bildirim

Ek kaynaklar

Aracılığıyla paylaş

Azure Machine Learning'de Spark işlerini gönderme

Önkoşullar

CLI v2 kullanarak kullanıcı tarafından atanan yönetilen kimliği ekleme

Kullanarak kullanıcı tarafından atanan yönetilen kimliği ekleme ARMClient

Tek başına Spark işi gönderme

Spark iş belirtimindeki YAML özellikleri

Tek başına Spark işi

İşlem hattı işinde Spark bileşeni

Spark işlerinin sorunlarını giderme

Sonraki adımlar

Geri Bildirim

Geri Bildirim

Ek kaynaklar

Kullanarak kullanıcı tarafından atanan yönetilen kimliği ekleme `ARMClient`