parallel الحزمة

الفصول

ParallelJob

مهمة متوازية.

RunFunction

تشغيل الدالة.

الوظائف

parallel_run_function

إنشاء كائن متوازي يمكن استخدامه داخل dsl.pipeline كدالة ويمكن أيضا إنشاؤه كوظيفة متوازية مستقلة.

للحصول على مثال لاستخدام ParallelRunStep، راجع دفتر الملاحظات https://aka.ms/parallel-example-notebook


   from azure.ai.ml import Input, Output, parallel

   parallel_run = parallel_run_function(
       name="batch_score_with_tabular_input",
       display_name="Batch Score with Tabular Dataset",
       description="parallel component for batch score",
       inputs=dict(
           job_data_path=Input(
               type=AssetTypes.MLTABLE,
               description="The data to be split and scored in parallel",
           ),
           score_model=Input(
               type=AssetTypes.URI_FOLDER, description="The model for batch score."
           ),
       ),
       outputs=dict(job_output_path=Output(type=AssetTypes.MLTABLE)),
       input_data="${{inputs.job_data_path}}",
       max_concurrency_per_instance=2,  # Optional, default is 1
       mini_batch_size="100",  # optional
       mini_batch_error_threshold=5,  # Optional, allowed failed count on mini batch items, default is -1
       logging_level="DEBUG",  # Optional, default is INFO
       error_threshold=5,  # Optional, allowed failed count totally, default is -1
       retry_settings=dict(max_retries=2, timeout=60),  # Optional
       task=RunFunction(
           code="./src",
           entry_script="tabular_batch_inference.py",
           environment=Environment(
               image="mcr.microsoft.com/azureml/openmpi3.1.2-ubuntu18.04",
               conda_file="./src/environment_parallel.yml",
           ),
           program_arguments="--model ${{inputs.score_model}}",
           append_row_to="${{outputs.job_output_path}}",  # Optional, if not set, summary_only
       ),
   )
parallel_run_function(*, name: str | None = None, description: str | None = None, tags: Dict | None = None, properties: Dict | None = None, display_name: str | None = None, experiment_name: str | None = None, compute: str | None = None, retry_settings: BatchRetrySettings | None = None, environment_variables: Dict | None = None, logging_level: str | None = None, max_concurrency_per_instance: int | None = None, error_threshold: int | None = None, mini_batch_error_threshold: int | None = None, task: RunFunction | None = None, mini_batch_size: str | None = None, partition_keys: List | None = None, input_data: str | None = None, inputs: Dict | None = None, outputs: Dict | None = None, instance_count: int | None = None, instance_type: str | None = None, docker_args: str | None = None, shm_size: str | None = None, identity: ManagedIdentity | AmlToken | None = None, is_deterministic: bool = True, **kwargs) -> Parallel

المعلمات

name
str

اسم الوظيفة المتوازية أو المكون الذي تم إنشاؤه.

description
str

وصف مألوف للتوازي.

tags
Dict

العلامات المراد إرفاقها بهذا المتوازي.

properties
Dict

قاموس خاصية الأصل.

display_name
str

اسمًا مألوفًا.

experiment_name
str

اسم التجربة التي سيتم إنشاء المهمة ضمنها، إذا تم توفير بلا، فسيتم تعيين الافتراضي إلى اسم الدليل الحالي. سيتم تجاهله كخطوة مسار.

compute
str

اسم الحساب حيث يتم تنفيذ المهمة المتوازية (لن يتم استخدامه إذا تم استخدام المتوازي كمكون/دالة).

retry_settings
BatchRetrySettings

فشل تشغيل المكون المتوازي في إعادة المحاولة

environment_variables
Dict[str, str]

قاموس لأسماء وقيم متغيرات البيئة. يتم تعيين متغيرات البيئة هذه على العملية التي يتم فيها تنفيذ البرنامج النصي للمستخدم.

logging_level
str

سلسلة من اسم مستوى التسجيل، والتي يتم تعريفها في "التسجيل". القيم المحتملة هي "WARNING" و"INFO" و"DEBUG". (القيمة الافتراضية الاختيارية هي "INFO".) يمكن تعيين هذه القيمة من خلال PipelineParameter.

max_concurrency_per_instance
int

الحد الأقصى للتوازي الذي يحتوي عليه كل مثيل حساب.

error_threshold
int

عدد حالات فشل السجلات لمجموعة البيانات الجدولية وفشل الملفات لمجموعة بيانات الملفات التي يجب تجاهلها أثناء المعالجة. إذا تجاوز عدد الأخطاء هذه القيمة، فسيتم إجهاض المهمة. حد الخطأ هو للإدخل بأكمله بدلا من طريقة الدفعة المصغرة الفردية المرسلة للتشغيل(). النطاق هو [-1، int.max]. -1 يشير إلى تجاهل جميع حالات الفشل أثناء المعالجة

mini_batch_error_threshold
int

يجب تجاهل عدد حالات فشل معالجة الدفعات المصغرة

task
RunFunction

المهمة المتوازية

mini_batch_size
str

بالنسبة لإدخال FileDataset، هذا الحقل هو عدد الملفات التي يمكن للبرنامج النصي للمستخدم معالجتها في استدعاء تشغيل واحد(). بالنسبة لإدخال TabularDataset، هذا الحقل هو الحجم التقريبي للبيانات التي يمكن للبرنامج النصي للمستخدم معالجتها في استدعاء تشغيل واحد(). قيم المثال هي 1024 و1024 كيلوبايت و10 ميغابايت و1 غيغابايت. (القيمة الافتراضية الاختيارية هي 10 ملفات ل FileDataset و1 ميغابايت ل TabularDataset.) يمكن تعيين هذه القيمة من خلال PipelineParameter.

partition_keys
List

المفاتيح المستخدمة لتقسيم مجموعة البيانات إلى دفعات صغيرة. إذا تم تحديدها، فسيتم تقسيم البيانات بنفس المفتاح إلى نفس الدفعة المصغرة. إذا تم تحديد كل من partition_keys mini_batch_size، فستدخل مفاتيح الأقسام حيز التنفيذ. يجب أن تكون المدخلات (المدخلات) مجموعات بيانات مقسمة، ويجب أن تكون partition_keys مجموعة فرعية من مفاتيح كل مجموعة بيانات إدخال حتى يعمل هذا

input_data
str

بيانات الإدخال.

inputs
Dict

إملاء من المدخلات المستخدمة من قبل هذا المتوازي.

outputs
Dict

مخرجات هذا المتوازي

instance_count
int

العدد الاختياري للمثيلات أو العقد المستخدمة من قبل هدف الحساب. الإعدادات الافتراضية إلى 1

instance_type
str

نوع اختياري من الأجهزة الظاهرية المستخدمة كما هو مدعوم من قبل هدف الحساب..

docker_args
str

وسيطات إضافية لتمريرها إلى أمر تشغيل Docker. سيؤدي ذلك إلى تجاوز أي معلمات تم تعيينها بالفعل بواسطة النظام، أو في هذا القسم. هذه المعلمة مدعومة فقط أنواع حساب التعلم الآلي من Microsoft Azure.

shm_size
str

حجم كتلة الذاكرة المشتركة لحاوية docker. يجب أن يكون هذا بتنسيق (رقم)(وحدة) حيث يكون الرقم أكبر من 0 ويمكن أن تكون الوحدة واحدة من b(بايت) أو k(كيلوبايت) أو m(ميغابايت) أو g(غيغابايت).

identity
Union[ <xref:azure.ai.ml._restclient.v2022_02_01_preview.models.ManagedIdentity>, <xref:azure.ai.ml._restclient.v2022_02_01_preview.models.AmlToken>]

الهوية التي ستستخدمها مهمة التدريب أثناء التشغيل على الحساب.

is_deterministic
bool

حدد ما إذا كان المتوازي سيعيد نفس الإخراج نظرا لنفس الإدخال. إذا كان المتوازي (المكون) محددا، عند استخدامه كعقدة/خطوة في البنية الأساسية لبرنامج ربط العمليات التجارية، فسيعيد استخدام النتائج من مهمة سابقة تم إرسالها في مساحة العمل الحالية التي لها نفس المدخلات والإعدادات. في هذه الحالة، لن تستخدم هذه الخطوة أي مورد حساب. الإعدادات الافتراضية إلى True، حدد is_deterministic=False إذا كنت ترغب في تجنب سلوك إعادة الاستخدام هذا، الإعدادات الافتراضية إلى True.

المرتجعات

العقدة المتوازية

نوع الإرجاع

الملاحظات

لاستخدام parallel_run_function:

  • إنشاء كائن <xref:azure.ai.ml.entities._builders.Parallel> لتحديد كيفية تنفيذ التشغيل المتوازي، مع معلمات للتحكم في حجم الدفعة، وعدد العقد لكل هدف حساب، ومرجع إلى برنامج Python النصي المخصص.

  • إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية باستخدام الكائن المتوازي كدالة. يحدد المدخلات والمخرجات للخطوة.

  • Sumbit البنية الأساسية لبرنامج ربط العمليات التجارية لتشغيلها.