parallel الحزمة
الفصول
ParallelJob |
مهمة متوازية. |
RunFunction |
تشغيل الدالة. |
الوظائف
parallel_run_function
إنشاء كائن متوازي يمكن استخدامه داخل dsl.pipeline كدالة ويمكن أيضا إنشاؤه كوظيفة متوازية مستقلة.
للحصول على مثال لاستخدام ParallelRunStep، راجع دفتر الملاحظات https://aka.ms/parallel-example-notebook
from azure.ai.ml import Input, Output, parallel
parallel_run = parallel_run_function(
name="batch_score_with_tabular_input",
display_name="Batch Score with Tabular Dataset",
description="parallel component for batch score",
inputs=dict(
job_data_path=Input(
type=AssetTypes.MLTABLE,
description="The data to be split and scored in parallel",
),
score_model=Input(
type=AssetTypes.URI_FOLDER, description="The model for batch score."
),
),
outputs=dict(job_output_path=Output(type=AssetTypes.MLTABLE)),
input_data="${{inputs.job_data_path}}",
max_concurrency_per_instance=2, # Optional, default is 1
mini_batch_size="100", # optional
mini_batch_error_threshold=5, # Optional, allowed failed count on mini batch items, default is -1
logging_level="DEBUG", # Optional, default is INFO
error_threshold=5, # Optional, allowed failed count totally, default is -1
retry_settings=dict(max_retries=2, timeout=60), # Optional
task=RunFunction(
code="./src",
entry_script="tabular_batch_inference.py",
environment=Environment(
image="mcr.microsoft.com/azureml/openmpi3.1.2-ubuntu18.04",
conda_file="./src/environment_parallel.yml",
),
program_arguments="--model ${{inputs.score_model}}",
append_row_to="${{outputs.job_output_path}}", # Optional, if not set, summary_only
),
)
parallel_run_function(*, name: str | None = None, description: str | None = None, tags: Dict | None = None, properties: Dict | None = None, display_name: str | None = None, experiment_name: str | None = None, compute: str | None = None, retry_settings: BatchRetrySettings | None = None, environment_variables: Dict | None = None, logging_level: str | None = None, max_concurrency_per_instance: int | None = None, error_threshold: int | None = None, mini_batch_error_threshold: int | None = None, task: RunFunction | None = None, mini_batch_size: str | None = None, partition_keys: List | None = None, input_data: str | None = None, inputs: Dict | None = None, outputs: Dict | None = None, instance_count: int | None = None, instance_type: str | None = None, docker_args: str | None = None, shm_size: str | None = None, identity: ManagedIdentity | AmlToken | None = None, is_deterministic: bool = True, **kwargs) -> Parallel
المعلمات
- name
- str
اسم الوظيفة المتوازية أو المكون الذي تم إنشاؤه.
- description
- str
وصف مألوف للتوازي.
- tags
- Dict
العلامات المراد إرفاقها بهذا المتوازي.
- properties
- Dict
قاموس خاصية الأصل.
- display_name
- str
اسمًا مألوفًا.
- experiment_name
- str
اسم التجربة التي سيتم إنشاء المهمة ضمنها، إذا تم توفير بلا، فسيتم تعيين الافتراضي إلى اسم الدليل الحالي. سيتم تجاهله كخطوة مسار.
- compute
- str
اسم الحساب حيث يتم تنفيذ المهمة المتوازية (لن يتم استخدامه إذا تم استخدام المتوازي كمكون/دالة).
- retry_settings
- BatchRetrySettings
فشل تشغيل المكون المتوازي في إعادة المحاولة
قاموس لأسماء وقيم متغيرات البيئة. يتم تعيين متغيرات البيئة هذه على العملية التي يتم فيها تنفيذ البرنامج النصي للمستخدم.
- logging_level
- str
سلسلة من اسم مستوى التسجيل، والتي يتم تعريفها في "التسجيل". القيم المحتملة هي "WARNING" و"INFO" و"DEBUG". (القيمة الافتراضية الاختيارية هي "INFO".) يمكن تعيين هذه القيمة من خلال PipelineParameter.
- max_concurrency_per_instance
- int
الحد الأقصى للتوازي الذي يحتوي عليه كل مثيل حساب.
- error_threshold
- int
عدد حالات فشل السجلات لمجموعة البيانات الجدولية وفشل الملفات لمجموعة بيانات الملفات التي يجب تجاهلها أثناء المعالجة. إذا تجاوز عدد الأخطاء هذه القيمة، فسيتم إجهاض المهمة. حد الخطأ هو للإدخل بأكمله بدلا من طريقة الدفعة المصغرة الفردية المرسلة للتشغيل(). النطاق هو [-1، int.max]. -1 يشير إلى تجاهل جميع حالات الفشل أثناء المعالجة
- mini_batch_error_threshold
- int
يجب تجاهل عدد حالات فشل معالجة الدفعات المصغرة
- task
- RunFunction
المهمة المتوازية
- mini_batch_size
- str
بالنسبة لإدخال FileDataset، هذا الحقل هو عدد الملفات التي يمكن للبرنامج النصي للمستخدم معالجتها في استدعاء تشغيل واحد(). بالنسبة لإدخال TabularDataset، هذا الحقل هو الحجم التقريبي للبيانات التي يمكن للبرنامج النصي للمستخدم معالجتها في استدعاء تشغيل واحد(). قيم المثال هي 1024 و1024 كيلوبايت و10 ميغابايت و1 غيغابايت. (القيمة الافتراضية الاختيارية هي 10 ملفات ل FileDataset و1 ميغابايت ل TabularDataset.) يمكن تعيين هذه القيمة من خلال PipelineParameter.
- partition_keys
- List
المفاتيح المستخدمة لتقسيم مجموعة البيانات إلى دفعات صغيرة. إذا تم تحديدها، فسيتم تقسيم البيانات بنفس المفتاح إلى نفس الدفعة المصغرة. إذا تم تحديد كل من partition_keys mini_batch_size، فستدخل مفاتيح الأقسام حيز التنفيذ. يجب أن تكون المدخلات (المدخلات) مجموعات بيانات مقسمة، ويجب أن تكون partition_keys مجموعة فرعية من مفاتيح كل مجموعة بيانات إدخال حتى يعمل هذا
- input_data
- str
بيانات الإدخال.
- inputs
- Dict
إملاء من المدخلات المستخدمة من قبل هذا المتوازي.
- outputs
- Dict
مخرجات هذا المتوازي
- instance_count
- int
العدد الاختياري للمثيلات أو العقد المستخدمة من قبل هدف الحساب. الإعدادات الافتراضية إلى 1
- instance_type
- str
نوع اختياري من الأجهزة الظاهرية المستخدمة كما هو مدعوم من قبل هدف الحساب..
- docker_args
- str
وسيطات إضافية لتمريرها إلى أمر تشغيل Docker. سيؤدي ذلك إلى تجاوز أي معلمات تم تعيينها بالفعل بواسطة النظام، أو في هذا القسم. هذه المعلمة مدعومة فقط أنواع حساب التعلم الآلي من Microsoft Azure.
- shm_size
- str
حجم كتلة الذاكرة المشتركة لحاوية docker. يجب أن يكون هذا بتنسيق (رقم)(وحدة) حيث يكون الرقم أكبر من 0 ويمكن أن تكون الوحدة واحدة من b(بايت) أو k(كيلوبايت) أو m(ميغابايت) أو g(غيغابايت).
- identity
- Union[ <xref:azure.ai.ml._restclient.v2022_02_01_preview.models.ManagedIdentity>, <xref:azure.ai.ml._restclient.v2022_02_01_preview.models.AmlToken>]
الهوية التي ستستخدمها مهمة التدريب أثناء التشغيل على الحساب.
- is_deterministic
- bool
حدد ما إذا كان المتوازي سيعيد نفس الإخراج نظرا لنفس الإدخال. إذا كان المتوازي (المكون) محددا، عند استخدامه كعقدة/خطوة في البنية الأساسية لبرنامج ربط العمليات التجارية، فسيعيد استخدام النتائج من مهمة سابقة تم إرسالها في مساحة العمل الحالية التي لها نفس المدخلات والإعدادات. في هذه الحالة، لن تستخدم هذه الخطوة أي مورد حساب. الإعدادات الافتراضية إلى True، حدد is_deterministic=False إذا كنت ترغب في تجنب سلوك إعادة الاستخدام هذا، الإعدادات الافتراضية إلى True.
المرتجعات
العقدة المتوازية
نوع الإرجاع
الملاحظات
لاستخدام parallel_run_function:
إنشاء كائن <xref:azure.ai.ml.entities._builders.Parallel> لتحديد كيفية تنفيذ التشغيل المتوازي، مع معلمات للتحكم في حجم الدفعة، وعدد العقد لكل هدف حساب، ومرجع إلى برنامج Python النصي المخصص.
إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية باستخدام الكائن المتوازي كدالة. يحدد المدخلات والمخرجات للخطوة.
Sumbit البنية الأساسية لبرنامج ربط العمليات التجارية لتشغيلها.
Azure SDK for Python
الملاحظات
https://aka.ms/ContentUserFeedback.
قريبًا: خلال عام 2024، سنتخلص تدريجيًا من GitHub Issues بوصفها آلية إرسال ملاحظات للمحتوى ونستبدلها بنظام ملاحظات جديد. لمزيد من المعلومات، راجعإرسال الملاحظات وعرضها المتعلقة بـ