ClassificationJob الفصل
تكوين مهمة تصنيف AutoML.
تهيئة مهمة تصنيف AutoML جديدة.
- توريث
-
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabularClassificationJob
الدالمنشئ
ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)
المعلمات
- featurization
- Optional[TabularFeaturizationSettings]
إعدادات التمييز. الإعدادات الافتراضية إلى بلا.
- limits
- Optional[TabularLimitSettings]
تحديد الإعدادات. الإعدادات الافتراضية إلى بلا.
- training
- Optional[TrainingSettings]
إعدادات التدريب. الإعدادات الافتراضية إلى بلا.
- featurization
- Optional[TabularFeaturizationSettings]
إعدادات التمييز. الإعدادات الافتراضية إلى بلا.
- limits
- Optional[TabularLimitSettings]
حدود الإعدادات. الإعدادات الافتراضية إلى بلا.
- training
- Optional[TrainingSettings]
إعدادات التدريب. الإعدادات الافتراضية إلى بلا.
الأساليب
dump |
تفريغ محتوى المهمة في ملف بتنسيق YAML. |
set_data |
تعريف تكوين البيانات. |
set_featurization |
تعريف تكوين هندسة الميزات. |
set_limits |
تعيين حدود للوظيفة. |
set_training |
أسلوب تكوين الإعدادات ذات الصلة بالتدريب. |
dump
تفريغ محتوى المهمة في ملف بتنسيق YAML.
dump(dest: str | PathLike | IO, **kwargs) -> None
المعلمات
المسار المحلي أو دفق الملف لكتابة محتوى YAML إليه. إذا كان dest مسار ملف، فسيتم إنشاء ملف جديد. إذا كان dest ملفا مفتوحا، فستتم كتابة الملف مباشرة.
- kwargs
- dict
وسيطات إضافية لتمريرها إلى مسلسل YAML.
استثناءات
يرفع إذا كان dest هو مسار ملف والملف موجود بالفعل.
يرفع إذا كان dest ملفا مفتوحا وكان الملف غير قابل للكتابة.
set_data
تعريف تكوين البيانات.
set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None
المعلمات
- training_data
- Input
بيانات التدريب.
- target_column_name
- str
اسم العمود للعمود الهدف.
استثناءات
يرفع إذا كان dest هو مسار ملف والملف موجود بالفعل.
يرفع إذا كان dest ملفا مفتوحا وكان الملف غير قابل للكتابة.
set_featurization
تعريف تكوين هندسة الميزات.
set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None
المعلمات
- blocked_transformers
- Optional[List[Union[BlockedTransformers, str]]]
قائمة بأسماء المحولات التي سيتم حظرها أثناء التمييز، يتم تعيينها افتراضيا إلى بلا
قاموس لأسماء الأعمدة وأنواع الميزات المستخدمة لتحديث الغرض من العمود ، يتم تعيينه افتراضيا إلى بلا
ثلاثة أحرف رمز ISO 639-3 للغة (اللغات) المضمنة في مجموعة البيانات. يتم دعم لغات أخرى غير الإنجليزية فقط إذا كنت تستخدم الحوسبة التي تدعم GPU. يجب استخدام language_code "mul" إذا كانت مجموعة البيانات تحتوي على لغات متعددة. للعثور على رموز ISO 639-3 للغات مختلفة، يرجى الرجوع إلى https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes، الإعدادات الافتراضية إلى بلا
- transformer_params
- Optional[Dict[str, List[ColumnTransformer]]]
قاموس المحول ومعلمات التخصيص المقابلة ، والإعدادات الافتراضية إلى بلا
ما إذا كنت تريد تضمين أساليب هندسة الميزات المستندة إلى DNN، الإعدادات الافتراضية إلى بلا
استثناءات
يرفع إذا كان dest هو مسار ملف والملف موجود بالفعل.
يرفع إذا كان dest ملفا مفتوحا وكان الملف غير قابل للكتابة.
set_limits
تعيين حدود للوظيفة.
set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
المعلمات
ما إذا كنت تريد تمكين الإنهاء المبكر إذا لم تتحسن النتيجة على المدى القصير، يتم تعيينها افتراضيا إلى None.
منطق الإيقاف المبكر:
لا يوجد توقف مبكر لأول 20 تكرارا (معالم).
تبدأ نافذة الإيقاف المبكر في التكرار الحادي والعشرين وتبحث عن التكرارات early_stopping_n_iters
(معين حاليا على 10). وهذا يعني أن التكرار الأول حيث يمكن أن يحدث التوقف هو 31.
لا يزال AutoML يقوم بجدولة 2 تكرارات بعد الإيقاف المبكر، مما قد يؤدي إلى درجات أعلى.
يتم تشغيل الإيقاف المبكر إذا كانت القيمة المطلقة لأفضل درجة محسوبة هي نفسها في الماضي
early_stopping_n_iters التكرارات، أي إذا لم يكن هناك تحسن في درجة التكرارات early_stopping_n_iters.
درجة الهدف للتجربة. تنتهي التجربة بعد الوصول إلى هذه النتيجة. إذا لم يتم تحديدها (بدون معايير)، يتم تشغيل التجربة حتى لا يتم إحراز أي تقدم إضافي على المقياس الأساسي. لمزيد من المعلومات حول معايير الخروج، راجع هذه المقالة ، الإعدادات الافتراضية إلى بلا
هذا هو الحد الأقصى لعدد التكرارات التي سيتم تنفيذها بالتوازي. القيمة الافتراضية هي 1.
- تدعم مجموعات AmlCompute تكرارا واحدا يعمل لكل عقدة.
بالنسبة لعمليات التشغيل الأصلية لتجربة AutoML المتعددة التي يتم تنفيذها بالتوازي على مجموعة AmlCompute واحدة، يجب أن يكون مجموع max_concurrent_trials
القيم لجميع التجارب أقل من أو يساوي الحد الأقصى لعدد العقد. وإلا، سيتم وضع عمليات التشغيل في قائمة الانتظار حتى تتوفر العقد.
- يدعم DSVM تكرارات متعددة لكل عقدة.
max_concurrent_trials
ان
يكون أقل من أو يساوي عدد الذاكرات الأساسية على DSVM. بالنسبة للتجارب المتعددة التي يتم تشغيلها بالتوازي على DSVM واحد، يجب أن يكون مجموع max_concurrent_trials
القيم لجميع التجارب أقل من أو يساوي الحد الأقصى لعدد العقد.
- Databricks -
max_concurrent_trials
يجب أن يكون أقل من أو يساوي عدد
عقد العامل على Databricks.
max_concurrent_trials
لا ينطبق على عمليات التشغيل المحلية. سابقا، تمت تسمية concurrent_iterations
هذه المعلمة .
الحد الأقصى لعدد مؤشرات الترابط التي يجب استخدامها لتكرار تدريب معين. القيم المقبولة:
أكبر من 1 وأقل من أو يساوي الحد الأقصى لعدد الذاكرات الأساسية على هدف الحساب.
يساوي -1، مما يعني استخدام جميع الذاكرات الأساسية الممكنة لكل تكرار لكل تشغيل تابع.
يساوي 1، الافتراضي.
[تجريبي] الحد الأقصى لعدد العقد التي يجب استخدامها للتدريب الموزع.
للتنبؤ، يتم تدريب كل نموذج باستخدام عقد max(2, int(max_nodes / max_concurrent_trials)).
للتصنيف/الانحدار، يتم تدريب كل نموذج باستخدام العقد max_nodes.
ملاحظة- هذه المعلمة في المعاينة العامة وقد تتغير في المستقبل.
العدد الإجمالي لمجموعات الخوارزمية والمعلمات المختلفة لاختبارها أثناء تجربة التعلم الآلي التلقائي. إذا لم يتم تحديده، يكون الافتراضي هو 1000 تكرار.
الحد الأقصى لمقدار الوقت بالدقائق التي يمكن أن تستغرقها جميع التكرارات مجتمعة قبل إنهاء التجربة. إذا لم يتم تحديدها، فإن مهلة التجربة الافتراضية هي 6 أيام. لتحديد مهلة أقل من ساعة واحدة أو مساوية لها، تأكد من أن حجم مجموعة البيانات ليس أكبر من 10,000,000 (عمود أوقات الصفوف) أو نتائج خطأ، يتم تعيينه افتراضيا إلى بلا
الحد الأقصى للوقت بالدقائق الذي يمكن تشغيل كل تكرار له قبل إنهائه. إذا لم يتم تحديدها، يتم استخدام قيمة شهر واحد أو 43200 دقيقة، يتم تعيينها افتراضيا إلى بلا
استثناءات
يرفع إذا كان dest هو مسار ملف والملف موجود بالفعل.
يرفع إذا كان dest ملفا مفتوحا وكان الملف غير قابل للكتابة.
set_training
أسلوب تكوين الإعدادات ذات الصلة بالتدريب.
set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None
المعلمات
ما إذا كنت تريد تمكين أو تعطيل فرض النماذج المتوافقة مع ONNX. الافتراضي هو False. لمزيد من المعلومات حول Open Neural Network Exchange (ONNX) والتعلم الآلي من Microsoft Azure، راجع هذه المقالة.
ما إذا كنت تريد تضمين نماذج تستند إلى DNN أثناء تحديد النموذج. ومع ذلك، الافتراضي هو True لمهام DNN NLP، وهو False لجميع مهام AutoML الأخرى.
ما إذا كنت تريد تمكين شرح أفضل نموذج AutoML في نهاية جميع تكرارات تدريب AutoML. لمزيد من المعلومات، راجع قابلية التفسير: تفسيرات النموذج في التعلم الآلي التلقائي. ، الإعدادات الافتراضية إلى بلا
ما إذا كنت تريد تمكين/تعطيل تكرار StackEnsemble. إذا تم تعيين علامة enable_onnx_compatible_models ، فسيتم تعطيل تكرار StackEnsemble. وبالمثل، بالنسبة لمهام Timeseries، سيتم تعطيل تكرار StackEnsemble بشكل افتراضي، لتجنب مخاطر الإفراط في الإعداد بسبب مجموعة التدريب الصغيرة المستخدمة في ملاءمة متعلم التعريف. لمزيد من المعلومات حول الفرق، راجع تكوين المجموعة ، الإعدادات الافتراضية إلى بلا
ما إذا كان يجب تمكين/تعطيل تكرار VotingEnsemble. لمزيد من المعلومات حول الفرق، راجع تكوين المجموعة ، الإعدادات الافتراضية إلى بلا
- stack_ensemble_settings
- Optional[StackEnsembleSettings]
إعدادات تكرار StackEnsemble، الإعدادات الافتراضية إلى بلا
أثناء إنشاء نموذج VotingEnsemble و StackEnsemble، يتم تنزيل نماذج متعددة مزودة من عمليات التشغيل الفرعية السابقة. تكوين هذه المعلمة بقيمة أعلى من 300 ثانية، إذا كانت هناك حاجة إلى مزيد من الوقت، يتم تعيينها افتراضيا إلى بلا
قائمة بأسماء النماذج للبحث عن تجربة. إذا لم يتم تحديدها، فسيتم استخدام جميع النماذج المدعومة للمهمة مطروحا منها أي نماذج TensorFlow محددة أو blocked_training_algorithms
مهملة، افتراضية إلى بلا
قائمة الخوارزميات التي يجب تجاهلها لتجربة ما، يتم تعيينها افتراضيا إلى بلا
- training_mode
- Optional[Union[str, TabularTrainingMode]]
[تجريبي] وضع التدريب المراد استخدامه. القيم المحتملة هي-
موزع- يتيح التدريب الموزع للخوارزميات المدعومة.
non_distributed- يعطل التدريب الموزع.
تلقائي- حاليا، هو نفس non_distributed. في المستقبل، قد يتغير هذا.
ملاحظة: هذه المعلمة في المعاينة العامة وقد تتغير في المستقبل.
استثناءات
يرفع إذا كان dest هو مسار ملف والملف موجود بالفعل.
يرفع إذا كان dest ملفا مفتوحا وكان الملف غير قابل للكتابة.
السمات
base_path
creation_context
featurization
احصل على إعدادات التمييز الجدولي لمهمة AutoML.
المرتجعات
إعدادات التمييز الجدولي لوظيفة AutoML
نوع الإرجاع
id
معرف المورد.
المرتجعات
المعرف العمومي للمورد، معرف Azure Resource Manager (ARM).
نوع الإرجاع
inputs
limits
احصل على الحدود الجدولية لمهمة AutoML.
المرتجعات
الحدود الجدولية لوظيفة AutoML
نوع الإرجاع
log_files
ملفات إخراج الوظيفة.
المرتجعات
قاموس أسماء السجلات وعناوين URL.
نوع الإرجاع
log_verbosity
احصل على إسهاب السجل لمهمة AutoML.
المرتجعات
إسهاب السجل لوظيفة AutoML
نوع الإرجاع
outputs
primary_metric
المقياس الأساسي الذي يجب استخدامه للتحسين.
المرتجعات
المقياس الأساسي الذي يجب استخدامه للتحسين.
نوع الإرجاع
status
حالة الوظيفة.
تتضمن القيم الشائعة التي تم إرجاعها "قيد التشغيل" و"مكتمل" و"فشل". جميع القيم المحتملة هي:
NotStarted - هذه حالة مؤقتة تكون فيها كائنات التشغيل من جانب العميل قبل إرسال السحابة.
البدء - بدأ التشغيل في المعالجة في السحابة. لدى المتصل معرف تشغيل في هذه المرحلة.
التوفير - يتم إنشاء حساب عند الطلب لتقديم وظيفة معينة.
التحضير - يتم إعداد بيئة التشغيل وهي في إحدى مرحلتين:
بناء صورة Docker
إعداد بيئة conda
في قائمة الانتظار - يتم وضع المهمة في قائمة الانتظار على هدف الحساب. على سبيل المثال، في BatchAI، تكون المهمة في حالة قائمة الانتظار
أثناء انتظار أن تكون جميع العقد المطلوبة جاهزة.
قيد التشغيل - بدأت المهمة في التشغيل على هدف الحساب.
إنهاء - اكتمل تنفيذ التعليمات البرمجية للمستخدم، والتشغيل في مراحل ما بعد المعالجة.
CancelRequested - تم طلب الإلغاء للوظيفة.
مكتمل - اكتمل التشغيل بنجاح. يتضمن ذلك كلا من تنفيذ التعليمات البرمجية للمستخدم وتشغيله
مراحل ما بعد المعالجة.
فشل - فشل التشغيل. عادة ما توفر الخاصية Error أثناء التشغيل تفاصيل حول السبب.
تم الإلغاء - يتبع طلب إلغاء ويشير إلى أن التشغيل قد تم إلغاؤه بنجاح الآن.
NotResponding - بالنسبة إلى عمليات التشغيل التي تم تمكين Heartbeats فيها، لم يتم إرسال رسالة كشف أخطاء الاتصال مؤخرا.
المرتجعات
حالة الوظيفة.
نوع الإرجاع
studio_url
نقطة نهاية استوديو التعلم الآلي من Microsoft Azure.
المرتجعات
عنوان URL لصفحة تفاصيل الوظيفة.
نوع الإرجاع
task_type
الحصول على نوع المهمة.
المرتجعات
نوع المهمة المراد تشغيلها. تتضمن القيم المحتملة: "التصنيف"، و"الانحدار"، و"التنبؤ".
نوع الإرجاع
test_data
training
إعدادات التدريب لمهمة تصنيف AutoML.
المرتجعات
إعدادات التدريب المستخدمة لمهمة تصنيف AutoML.
نوع الإرجاع
training_data
type
validation_data
Azure SDK for Python
الملاحظات
https://aka.ms/ContentUserFeedback.
قريبًا: خلال عام 2024، سنتخلص تدريجيًا من GitHub Issues بوصفها آلية إرسال ملاحظات للمحتوى ونستبدلها بنظام ملاحظات جديد. لمزيد من المعلومات، راجعإرسال الملاحظات وعرضها المتعلقة بـ