SynapseSparkStep Sınıf

Uyarı

Bu deneysel bir sınıftır ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/acr/connected-registry.

Python betiğini gönderen ve yürüten bir Azure ML Synapse adımı oluşturur.

Synapse spark havuzunda spark işini çalıştıran bir Azure ML İşlem Hattı adımı oluşturun.

Oluşturucu

SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)

Parametreler

Name	Description
file Gerekli	str source_directory göre synapse betiğinin adı.
source_directory Gerekli	str Python betiği, conda env ve adımda kullanılan diğer kaynakları içeren bir klasör.
compute_target Gerekli	SynapseCompute veya str Kullanılacak işlem hedefi.
driver_memory Gerekli	str Sürücü işlemi için kullanılacak bellek miktarı.
driver_cores Gerekli	int Sürücü işlemi için kullanılacak çekirdek sayısı.
executor_memory Gerekli	str Yürütücü işlemi başına kullanılacak bellek miktarı.
executor_cores Gerekli	int Her yürütücü için kullanılacak çekirdek sayısı.
num_executors Gerekli	int Bu oturum için başlatacak yürütücü sayısı.
name Gerekli	str Adımın adı. Belirtilmemişse kullanılır `file` .
app_name Gerekli	str Spark işini göndermek için kullanılan Uygulama adı.
environment Gerekli	Environment AML ortamı sonraki sürümlerde desteklenecektir.
arguments Gerekli	list Synapse betik dosyası için komut satırı bağımsız değişkenleri.
inputs Gerekli	list[DatasetConsumptionConfig] Girişlerin listesi.
outputs Gerekli	list[HDFSOutputDatasetConfig] Çıkışların listesi.
conf Gerekli	dict Spark yapılandırma özellikleri.
py_files Gerekli	list Livy API parametresi olan bu oturumda kullanılacak Python dosyaları.
files Gerekli	list Bu oturumda kullanılacak dosyalar, livy API parametresi.
allow_reuse Gerekli	bool Aynı ayarlarla yeniden çalıştırıldığında adımın önceki sonuçları yeniden kullanması gerekip gerekmediğini gösterir.
version Gerekli	str Adım için işlev değişikliğini belirtmek için isteğe bağlı bir sürüm etiketi.
file Gerekli	str Synapse betiğinin adı ile ilgili olarak `source_directory`.
source_directory Gerekli	str Python betiği, conda env ve adımda kullanılan diğer kaynakları içeren bir klasör.
compute_target Gerekli	SynapseCompute veya str Kullanılacak işlem hedefi.
driver_memory Gerekli	str Sürücü işlemi için kullanılacak bellek miktarı.
driver_cores Gerekli	int Sürücü işlemi için kullanılacak çekirdek sayısı.
executor_memory Gerekli	str Yürütücü işlemi başına kullanılacak bellek miktarı.
executor_cores Gerekli	int Her yürütücü için kullanılacak çekirdek sayısı.
num_executors Gerekli	int Bu oturum için başlatacak yürütücü sayısı.
name Gerekli	str Adımın adı. Belirtilmemişse kullanılır `file` .
app_name Gerekli	str Apache Spark işini göndermek için kullanılan Uygulama adı.
environment Gerekli	Environment Bu SynapseSparkStep içinde yararlanılacak AML ortamı.
arguments Gerekli	list Synapse betik dosyası için komut satırı bağımsız değişkenleri.
inputs Gerekli	list[DatasetConsumptionConfig] Girişlerin listesi.
outputs Gerekli	list[HDFSOutputDatasetConfig] Çıkışların listesi.
conf Gerekli	dict Spark yapılandırma özellikleri.
py_files Gerekli	list Livy API parametresi olan bu oturumda kullanılacak Python dosyaları.
jars Gerekli	list Bu oturumda kullanılacak jar dosyaları, livy API parametresi.
files Gerekli	list Bu oturumda kullanılacak dosyalar, livy API parametresi.
allow_reuse Gerekli	bool Aynı ayarlarla yeniden çalıştırıldığında adımın önceki sonuçları yeniden kullanması gerekip gerekmediğini gösterir.
version Gerekli	str Adım için işlev değişikliğini belirtmek için isteğe bağlı bir sürüm etiketi.

Açıklamalar

SynapseSparkStep, synapse spark havuzlarında Python Spark işi çalıştırmaya yönelik temel, yerleşik bir adımdır. Bir ana dosya adı ve betik, işlem hedefi, girişler ve çıkışlar için bağımsız değişkenler gibi diğer isteğe bağlı parametreleri alır.

SynapseSparkStep ile çalışmak için en iyi yöntem, betikler ve adımla ilişkili bağımlı dosyalar için ayrı bir klasör kullanmak ve bu klasörü parametresiyle source_directory belirtmektir. Bu en iyi uygulamanın iki avantajı vardır. İlk olarak, yalnızca adım için gerekenler anlık görüntülendiğinden, adım için oluşturulan anlık görüntünün boyutunu azaltmaya yardımcı olur. İkinci olarak, anlık görüntünün yeniden yüklenmesini tetikleyecek bir değişiklik source_directory yapılmazsa önceki çalıştırmadan alınan adım çıktısı yeniden kullanılabilir.


   from azureml.core import Dataset
   from azureml.pipeline.steps import SynapseSparkStep
   from azureml.data import HDFSOutputDatasetConfig

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")

   # register pipeline output as dataset
   output_ds = HDFSOutputDatasetConfig("synapse_step_output",
                                       destination=(ws.datastores['datastore'],"dir")
                                       ).register_on_complete(name="registered_dataset")

   step_1 = SynapseSparkStep(
       name = "synapse_step",
       file = "pyspark_job.py",
       source_directory="./script",
       inputs=[input_ds],
       outputs=[output_ds],
       compute_target = "synapse",
       driver_memory = "7g",
       driver_cores = 4,
       executor_memory = "7g",
       executor_cores = 2,
       num_executors = 1,
       conf = {})

SynapseSparkStep yalnızca input olarak DatasetConsumptionConfig ve çıkış olarak HDFSOutputDatasetConfig'i destekler.

Yöntemler

create_node

Synapse betik adımı için bir düğüm oluşturun.

Bu yöntemin doğrudan kullanılması amaçlanmamıştır. Bu adımla bir işlem hattı örneği oluşturulduğunda, Azure ML gerekli parametreleri otomatik olarak bu yöntem aracılığıyla geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir.

create_node

Synapse betik adımı için bir düğüm oluşturun.

create_node(graph, default_datastore, context)

Parametreler

Name	Description
graph Gerekli	Graph Düğümün ekleneceği grafik nesnesi.
default_datastore Gerekli	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Varsayılan veri deposu.
context Gerekli	<xref:azureml.pipeline.core._GraphContext> Grafik bağlamı.

Döndürülenler

Tür	Description
Node	Oluşturulan düğüm.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?