SynapseSparkStep Sınıf
Uyarı
Bu deneysel bir sınıftır ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/acr/connected-registry.
Python betiğini gönderen ve yürüten bir Azure ML Synapse adımı oluşturur.
Synapse spark havuzunda spark işini çalıştıran bir Azure ML İşlem Hattı adımı oluşturun.
Oluşturucu
SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)
Parametreler
| Name | Description |
|---|---|
|
file
Gerekli
|
source_directory göre synapse betiğinin adı. |
|
source_directory
Gerekli
|
Python betiği, conda env ve adımda kullanılan diğer kaynakları içeren bir klasör. |
|
compute_target
Gerekli
|
SynapseCompute veya
str
Kullanılacak işlem hedefi. |
|
driver_memory
Gerekli
|
Sürücü işlemi için kullanılacak bellek miktarı. |
|
driver_cores
Gerekli
|
Sürücü işlemi için kullanılacak çekirdek sayısı. |
|
executor_memory
Gerekli
|
Yürütücü işlemi başına kullanılacak bellek miktarı. |
|
executor_cores
Gerekli
|
Her yürütücü için kullanılacak çekirdek sayısı. |
|
num_executors
Gerekli
|
Bu oturum için başlatacak yürütücü sayısı. |
|
name
Gerekli
|
Adımın adı. Belirtilmemişse kullanılır |
|
app_name
Gerekli
|
Spark işini göndermek için kullanılan Uygulama adı. |
|
environment
Gerekli
|
AML ortamı sonraki sürümlerde desteklenecektir. |
|
arguments
Gerekli
|
Synapse betik dosyası için komut satırı bağımsız değişkenleri. |
|
inputs
Gerekli
|
Girişlerin listesi. |
|
outputs
Gerekli
|
Çıkışların listesi. |
|
conf
Gerekli
|
Spark yapılandırma özellikleri. |
|
py_files
Gerekli
|
Livy API parametresi olan bu oturumda kullanılacak Python dosyaları. |
|
files
Gerekli
|
Bu oturumda kullanılacak dosyalar, livy API parametresi. |
|
allow_reuse
Gerekli
|
Aynı ayarlarla yeniden çalıştırıldığında adımın önceki sonuçları yeniden kullanması gerekip gerekmediğini gösterir. |
|
version
Gerekli
|
Adım için işlev değişikliğini belirtmek için isteğe bağlı bir sürüm etiketi. |
|
file
Gerekli
|
Synapse betiğinin adı ile ilgili olarak |
|
source_directory
Gerekli
|
Python betiği, conda env ve adımda kullanılan diğer kaynakları içeren bir klasör. |
|
compute_target
Gerekli
|
SynapseCompute veya
str
Kullanılacak işlem hedefi. |
|
driver_memory
Gerekli
|
Sürücü işlemi için kullanılacak bellek miktarı. |
|
driver_cores
Gerekli
|
Sürücü işlemi için kullanılacak çekirdek sayısı. |
|
executor_memory
Gerekli
|
Yürütücü işlemi başına kullanılacak bellek miktarı. |
|
executor_cores
Gerekli
|
Her yürütücü için kullanılacak çekirdek sayısı. |
|
num_executors
Gerekli
|
Bu oturum için başlatacak yürütücü sayısı. |
|
name
Gerekli
|
Adımın adı. Belirtilmemişse kullanılır |
|
app_name
Gerekli
|
Apache Spark işini göndermek için kullanılan Uygulama adı. |
|
environment
Gerekli
|
Bu SynapseSparkStep içinde yararlanılacak AML ortamı. |
|
arguments
Gerekli
|
Synapse betik dosyası için komut satırı bağımsız değişkenleri. |
|
inputs
Gerekli
|
Girişlerin listesi. |
|
outputs
Gerekli
|
Çıkışların listesi. |
|
conf
Gerekli
|
Spark yapılandırma özellikleri. |
|
py_files
Gerekli
|
Livy API parametresi olan bu oturumda kullanılacak Python dosyaları. |
|
jars
Gerekli
|
Bu oturumda kullanılacak jar dosyaları, livy API parametresi. |
|
files
Gerekli
|
Bu oturumda kullanılacak dosyalar, livy API parametresi. |
|
allow_reuse
Gerekli
|
Aynı ayarlarla yeniden çalıştırıldığında adımın önceki sonuçları yeniden kullanması gerekip gerekmediğini gösterir. |
|
version
Gerekli
|
Adım için işlev değişikliğini belirtmek için isteğe bağlı bir sürüm etiketi. |
Açıklamalar
SynapseSparkStep, synapse spark havuzlarında Python Spark işi çalıştırmaya yönelik temel, yerleşik bir adımdır. Bir ana dosya adı ve betik, işlem hedefi, girişler ve çıkışlar için bağımsız değişkenler gibi diğer isteğe bağlı parametreleri alır.
SynapseSparkStep ile çalışmak için en iyi yöntem, betikler ve adımla ilişkili bağımlı dosyalar için ayrı bir klasör kullanmak ve bu klasörü parametresiyle source_directory belirtmektir.
Bu en iyi uygulamanın iki avantajı vardır. İlk olarak, yalnızca adım için gerekenler anlık görüntülendiğinden, adım için oluşturulan anlık görüntünün boyutunu azaltmaya yardımcı olur. İkinci olarak, anlık görüntünün yeniden yüklenmesini tetikleyecek bir değişiklik source_directory yapılmazsa önceki çalıştırmadan alınan adım çıktısı yeniden kullanılabilir.
from azureml.core import Dataset
from azureml.pipeline.steps import SynapseSparkStep
from azureml.data import HDFSOutputDatasetConfig
# get input dataset
input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")
# register pipeline output as dataset
output_ds = HDFSOutputDatasetConfig("synapse_step_output",
destination=(ws.datastores['datastore'],"dir")
).register_on_complete(name="registered_dataset")
step_1 = SynapseSparkStep(
name = "synapse_step",
file = "pyspark_job.py",
source_directory="./script",
inputs=[input_ds],
outputs=[output_ds],
compute_target = "synapse",
driver_memory = "7g",
driver_cores = 4,
executor_memory = "7g",
executor_cores = 2,
num_executors = 1,
conf = {})
SynapseSparkStep yalnızca input olarak DatasetConsumptionConfig ve çıkış olarak HDFSOutputDatasetConfig'i destekler.
Yöntemler
| create_node |
Synapse betik adımı için bir düğüm oluşturun. Bu yöntemin doğrudan kullanılması amaçlanmamıştır. Bu adımla bir işlem hattı örneği oluşturulduğunda, Azure ML gerekli parametreleri otomatik olarak bu yöntem aracılığıyla geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir. |
create_node
Synapse betik adımı için bir düğüm oluşturun.
Bu yöntemin doğrudan kullanılması amaçlanmamıştır. Bu adımla bir işlem hattı örneği oluşturulduğunda, Azure ML gerekli parametreleri otomatik olarak bu yöntem aracılığıyla geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir.
create_node(graph, default_datastore, context)
Parametreler
| Name | Description |
|---|---|
|
graph
Gerekli
|
Düğümün ekleneceği grafik nesnesi. |
|
default_datastore
Gerekli
|
Varsayılan veri deposu. |
|
context
Gerekli
|
<xref:azureml.pipeline.core._GraphContext>
Grafik bağlamı. |
Döndürülenler
| Tür | Description |
|---|---|
|
Oluşturulan düğüm. |