Aracılığıyla paylaş


SparkJob Sınıf

Tek başına spark işi.

Devralma
azure.ai.ml.entities._job.job.Job
SparkJob
azure.ai.ml.entities._job.parameterized_spark.ParameterizedSpark
SparkJob
azure.ai.ml.entities._job.job_io_mixin.JobIOMixin
SparkJob
azure.ai.ml.entities._job.spark_job_entry_mixin.SparkJobEntryMixin
SparkJob

Oluşturucu

SparkJob(*, driver_cores: int | None = None, driver_memory: str | None = None, executor_cores: int | None = None, executor_memory: str | None = None, executor_instances: int | None = None, dynamic_allocation_enabled: bool | None = None, dynamic_allocation_min_executors: int | None = None, dynamic_allocation_max_executors: int | None = None, inputs: Dict | None = None, outputs: Dict | None = None, compute: str | None = None, identity: Dict[str, str] | ManagedIdentityConfiguration | AmlTokenConfiguration | UserIdentityConfiguration | None = None, resources: Dict | SparkResourceConfiguration | None = None, **kwargs)

Parametreler

driver_cores
Optional[int]

Yalnızca küme modunda, sürücü işlemi için kullanılacak çekirdek sayısı.

driver_memory
Optional[str]

Sürücü işlemi için kullanılacak bellek miktarı, boyut birimi soneki ("k", "m", "g" veya "t") ("512m", "2g") olan dizeler olarak biçimlendirilir.

executor_cores
Optional[int]

Her yürütücüde kullanılacak çekirdek sayısı.

executor_memory
Optional[str]

Yürütücü işlemi başına kullanılacak bellek miktarı, boyut birimi soneki ("k", "m", "g" veya "t") (örneğin, "512m", "2g") olan dizeler olarak biçimlendirilir.

executor_instances
Optional[int]

yürütücülerin ilk sayısı.

dynamic_allocation_enabled
Optional[bool]

Bu uygulamayla kaydedilen yürütücü sayısını iş yüküne göre artırıp azaltan dinamik kaynak ayırmanın kullanılıp kullanılmayacağını belirtir.

dynamic_allocation_min_executors
Optional[int]

Dinamik ayırma etkinleştirildiyse yürütücü sayısı için alt sınır.

dynamic_allocation_max_executors
Optional[int]

Dinamik ayırma etkinleştirildiyse yürütücü sayısı için üst sınır.

inputs
Optional[dict[str, Input]]

İşte kullanılan giriş veri bağlamalarının eşlemesi.

outputs
Optional[dict[str, Output]]

İşte kullanılan çıkış veri bağlamalarının eşlemesi.

compute
Optional[str]

İşin üzerinde çalıştığı işlem kaynağı.

identity
Optional[Union[dict[str, str], ManagedIdentityConfiguration, AmlTokenConfiguration, UserIdentityConfiguration]]

Spark işinin işlem üzerinde çalışırken kullanacağı kimlik.

Örnekler

Sparkjob yapılandırma.


   from azure.ai.ml import Input, Output
   from azure.ai.ml.entities import SparkJob

   spark_job = SparkJob(
       code="./sdk/ml/azure-ai-ml/tests/test_configs/dsl_pipeline/spark_job_in_pipeline/basic_src",
       entry={"file": "sampleword.py"},
       conf={
           "spark.driver.cores": 2,
           "spark.driver.memory": "1g",
           "spark.executor.cores": 1,
           "spark.executor.memory": "1g",
           "spark.executor.instances": 1,
       },
       environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu:33",
       inputs={
           "input1": Input(
               type="uri_file", path="azureml://datastores/workspaceblobstore/paths/python/data.csv", mode="direct"
           )
       },
       compute="synapsecompute",
       outputs={"component_out_path": Output(type="uri_folder")},
       args="--input1 ${{inputs.input1}} --output2 ${{outputs.output1}} --my_sample_rate ${{inputs.sample_rate}}",
   )


Yöntemler

dump

İş içeriğini YAML biçiminde bir dosyaya dökümünü alır.

filter_conf_fields

Conf özniteliğinin ~azure.ai.ml._schema.job.parameterized_spark içinde listelenen Spark yapılandırma alanları arasında olmayan alanlarını filtreler. CONF_KEY_MAP ve bunları kendi sözlüklerinde döndürür.

dump

İş içeriğini YAML biçiminde bir dosyaya dökümünü alır.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parametreler

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Gerekli

YAML içeriğinin yazılabileceği yerel yol veya dosya akışı. Dest bir dosya yoluysa yeni bir dosya oluşturulur. Dest açık bir dosyaysa, dosya doğrudan öğesine yazılır.

kwargs
dict

YAML seri hale getiricisine geçirmek için ek bağımsız değişkenler.

Özel durumlar

Dest bir dosya yoluysa ve dosya zaten varsa oluşturulur.

Dest açık bir dosyaysa ve dosya yazılabilir değilse oluşturulur.

filter_conf_fields

Conf özniteliğinin ~azure.ai.ml._schema.job.parameterized_spark içinde listelenen Spark yapılandırma alanları arasında olmayan alanlarını filtreler. CONF_KEY_MAP ve bunları kendi sözlüklerinde döndürür.

filter_conf_fields() -> Dict[str, str]

Döndürülenler

Spark yapılandırma alanları olmayan conf alanlarının sözlüğü.

Dönüş türü

Özel durumlar

Dest bir dosya yoluysa ve dosya zaten varsa oluşturulur.

Dest açık bir dosyaysa ve dosya yazılabilir değilse oluşturulur.

Öznitelikler

base_path

Kaynağın temel yolu.

Döndürülenler

Kaynağın temel yolu.

Dönüş türü

str

creation_context

Kaynağın oluşturma bağlamı.

Döndürülenler

Kaynağın oluşturma meta verileri.

Dönüş türü

entry

environment

Spark bileşenini veya işini çalıştırmak için Azure ML ortamı.

Döndürülenler

Spark bileşenini veya işini çalıştırmak için Azure ML ortamı.

Dönüş türü

id

Kaynak kimliği.

Döndürülenler

Kaynağın genel kimliği, Azure Resource Manager (ARM) kimliği.

Dönüş türü

identity

Spark işinin işlem üzerinde çalışırken kullanacağı kimlik.

Döndürülenler

Spark işinin işlem üzerinde çalışırken kullanacağı kimlik.

Dönüş türü

inputs

log_files

İş çıkış dosyaları.

Döndürülenler

Günlük adlarının ve URL'lerin sözlüğü.

Dönüş türü

outputs

resources

İş için işlem kaynağı yapılandırması.

Döndürülenler

İş için işlem kaynağı yapılandırması.

Dönüş türü

status

İşin durumu.

Döndürülen yaygın değerler şunlardır: "Çalışıyor", "Tamamlandı" ve "Başarısız". Tüm olası değerler şunlardır:

  • NotStarted - Bu, istemci tarafı Çalıştırma nesnelerinin bulut göndermeden önce içinde olduğu geçici bir durumdur.

  • Başlatılıyor - Çalıştırma bulutta işlenmeye başladı. Çağıranın bu noktada bir çalıştırma kimliği vardır.

  • Sağlama - Belirli bir iş gönderimi için isteğe bağlı işlem oluşturuluyor.

  • Hazırlanıyor - Çalıştırma ortamı hazırlanıyor ve iki aşamadan birinde:

    • Docker görüntü derlemesi

    • conda ortamı kurulumu

  • Kuyruğa alındı - İş işlem hedefinde kuyruğa alındı. Örneğin, BatchAI'de iş kuyruğa alınmış durumdadır

    tüm istenen düğümlerin hazır olmasını beklerken.

  • Çalışıyor - İş işlem hedefinde çalışmaya başladı.

  • Son haline getirme - Kullanıcı kodu yürütmesi tamamlandı ve çalıştırma işlem sonrası aşamalarda.

  • CancelRequested - İş için iptal istendi.

  • Tamamlandı - Çalıştırma başarıyla tamamlandı. Buna hem kullanıcı kodu yürütme hem de çalıştırma dahildir

    işlem sonrası aşamalar.

  • Başarısız - Çalıştırma başarısız oldu. Genellikle bir çalıştırmadaki Error özelliği nedenine ilişkin ayrıntıları sağlar.

  • İptal edildi - bir iptal isteği izler ve çalıştırmanın başarıyla iptal edildi olduğunu gösterir.

  • NotResponding - Sinyallerin etkinleştirildiği çalıştırmalar için yakın zamanda sinyal gönderilmedi.

Döndürülenler

İşin durumu.

Dönüş türü

studio_url

Azure ML studio uç noktası.

Döndürülenler

İş ayrıntıları sayfasının URL'si.

Dönüş türü

type

İşin türü.

Döndürülenler

İşin türü.

Dönüş türü

CODE_ID_RE_PATTERN

CODE_ID_RE_PATTERN = re.compile('\\/subscriptions\\/(?P<subscription>[\\w,-]+)\\/resourceGroups\\/(?P<resource_group>[\\w,-]+)\\/providers\\/Microsoft\\.MachineLearningServices\\/workspaces\\/(?P<workspace>[\\w,-]+)\\/codes\\/(?P<co)