SynapseSparkStep Sınıf

Uyarı

Bu deneysel bir sınıftır ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/acr/connected-registry.

Python betiğini gönderen ve yürüten bir Azure ML Synapse adımı oluşturur.

Synapse spark havuzunda spark işini çalıştıran bir Azure ML İşlem Hattı adımı oluşturun.

Oluşturucu

SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)

Parametreler

Name Description
file
Gerekli
str

source_directory göre synapse betiğinin adı.

source_directory
Gerekli
str

Python betiği, conda env ve adımda kullanılan diğer kaynakları içeren bir klasör.

compute_target
Gerekli

Kullanılacak işlem hedefi.

driver_memory
Gerekli
str

Sürücü işlemi için kullanılacak bellek miktarı.

driver_cores
Gerekli
int

Sürücü işlemi için kullanılacak çekirdek sayısı.

executor_memory
Gerekli
str

Yürütücü işlemi başına kullanılacak bellek miktarı.

executor_cores
Gerekli
int

Her yürütücü için kullanılacak çekirdek sayısı.

num_executors
Gerekli
int

Bu oturum için başlatacak yürütücü sayısı.

name
Gerekli
str

Adımın adı. Belirtilmemişse kullanılır file .

app_name
Gerekli
str

Spark işini göndermek için kullanılan Uygulama adı.

environment
Gerekli

AML ortamı sonraki sürümlerde desteklenecektir.

arguments
Gerekli

Synapse betik dosyası için komut satırı bağımsız değişkenleri.

inputs
Gerekli

Girişlerin listesi.

outputs
Gerekli

Çıkışların listesi.

conf
Gerekli

Spark yapılandırma özellikleri.

py_files
Gerekli

Livy API parametresi olan bu oturumda kullanılacak Python dosyaları.

files
Gerekli

Bu oturumda kullanılacak dosyalar, livy API parametresi.

allow_reuse
Gerekli

Aynı ayarlarla yeniden çalıştırıldığında adımın önceki sonuçları yeniden kullanması gerekip gerekmediğini gösterir.

version
Gerekli
str

Adım için işlev değişikliğini belirtmek için isteğe bağlı bir sürüm etiketi.

file
Gerekli
str

Synapse betiğinin adı ile ilgili olarak source_directory.

source_directory
Gerekli
str

Python betiği, conda env ve adımda kullanılan diğer kaynakları içeren bir klasör.

compute_target
Gerekli

Kullanılacak işlem hedefi.

driver_memory
Gerekli
str

Sürücü işlemi için kullanılacak bellek miktarı.

driver_cores
Gerekli
int

Sürücü işlemi için kullanılacak çekirdek sayısı.

executor_memory
Gerekli
str

Yürütücü işlemi başına kullanılacak bellek miktarı.

executor_cores
Gerekli
int

Her yürütücü için kullanılacak çekirdek sayısı.

num_executors
Gerekli
int

Bu oturum için başlatacak yürütücü sayısı.

name
Gerekli
str

Adımın adı. Belirtilmemişse kullanılır file .

app_name
Gerekli
str

Apache Spark işini göndermek için kullanılan Uygulama adı.

environment
Gerekli

Bu SynapseSparkStep içinde yararlanılacak AML ortamı.

arguments
Gerekli

Synapse betik dosyası için komut satırı bağımsız değişkenleri.

inputs
Gerekli

Girişlerin listesi.

outputs
Gerekli

Çıkışların listesi.

conf
Gerekli

Spark yapılandırma özellikleri.

py_files
Gerekli

Livy API parametresi olan bu oturumda kullanılacak Python dosyaları.

jars
Gerekli

Bu oturumda kullanılacak jar dosyaları, livy API parametresi.

files
Gerekli

Bu oturumda kullanılacak dosyalar, livy API parametresi.

allow_reuse
Gerekli

Aynı ayarlarla yeniden çalıştırıldığında adımın önceki sonuçları yeniden kullanması gerekip gerekmediğini gösterir.

version
Gerekli
str

Adım için işlev değişikliğini belirtmek için isteğe bağlı bir sürüm etiketi.

Açıklamalar

SynapseSparkStep, synapse spark havuzlarında Python Spark işi çalıştırmaya yönelik temel, yerleşik bir adımdır. Bir ana dosya adı ve betik, işlem hedefi, girişler ve çıkışlar için bağımsız değişkenler gibi diğer isteğe bağlı parametreleri alır.

SynapseSparkStep ile çalışmak için en iyi yöntem, betikler ve adımla ilişkili bağımlı dosyalar için ayrı bir klasör kullanmak ve bu klasörü parametresiyle source_directory belirtmektir. Bu en iyi uygulamanın iki avantajı vardır. İlk olarak, yalnızca adım için gerekenler anlık görüntülendiğinden, adım için oluşturulan anlık görüntünün boyutunu azaltmaya yardımcı olur. İkinci olarak, anlık görüntünün yeniden yüklenmesini tetikleyecek bir değişiklik source_directory yapılmazsa önceki çalıştırmadan alınan adım çıktısı yeniden kullanılabilir.


   from azureml.core import Dataset
   from azureml.pipeline.steps import SynapseSparkStep
   from azureml.data import HDFSOutputDatasetConfig

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")

   # register pipeline output as dataset
   output_ds = HDFSOutputDatasetConfig("synapse_step_output",
                                       destination=(ws.datastores['datastore'],"dir")
                                       ).register_on_complete(name="registered_dataset")

   step_1 = SynapseSparkStep(
       name = "synapse_step",
       file = "pyspark_job.py",
       source_directory="./script",
       inputs=[input_ds],
       outputs=[output_ds],
       compute_target = "synapse",
       driver_memory = "7g",
       driver_cores = 4,
       executor_memory = "7g",
       executor_cores = 2,
       num_executors = 1,
       conf = {})

SynapseSparkStep yalnızca input olarak DatasetConsumptionConfig ve çıkış olarak HDFSOutputDatasetConfig'i destekler.

Yöntemler

create_node

Synapse betik adımı için bir düğüm oluşturun.

Bu yöntemin doğrudan kullanılması amaçlanmamıştır. Bu adımla bir işlem hattı örneği oluşturulduğunda, Azure ML gerekli parametreleri otomatik olarak bu yöntem aracılığıyla geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir.

create_node

Synapse betik adımı için bir düğüm oluşturun.

Bu yöntemin doğrudan kullanılması amaçlanmamıştır. Bu adımla bir işlem hattı örneği oluşturulduğunda, Azure ML gerekli parametreleri otomatik olarak bu yöntem aracılığıyla geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir.

create_node(graph, default_datastore, context)

Parametreler

Name Description
graph
Gerekli

Düğümün ekleneceği grafik nesnesi.

default_datastore
Gerekli

Varsayılan veri deposu.

context
Gerekli
<xref:azureml.pipeline.core._GraphContext>

Grafik bağlamı.

Döndürülenler

Tür Description

Oluşturulan düğüm.