مرجع واجهة برمجة تطبيقات الفسيفساء AutoML Python

توضح هذه المقالة واجهة برمجة تطبيقات Python AutoML الفسيفساء، التي توفر طرقا لبدء التصنيف والانحدار والتنبؤ بتشغيل AutoML. كل استدعاء أسلوب يدرب مجموعة من النماذج وينشئ دفتر ملاحظات تجريبيا لكل نموذج.

لمزيد من المعلومات حول تطبيق الفسيفساء AutoML، بما في ذلك خيار واجهة المستخدم ذات التعليمات البرمجية المنخفضة، راجع ما هو AutoML الفسيفساء؟.

تصنيف

يقوم databricks.automl.classify الأسلوب بتكوين تشغيل AutoML الفسيفساء لتدريب نموذج تصنيف.

إشعار

تم max_trials إهمال المعلمة في Databricks Runtime 10.4 ML وهي غير مدعومة في Databricks Runtime 11.0 ML وما فوق. يستخدم timeout_minutes للتحكم في مدة تشغيل AutoML.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

تصنيف المعلمات

اسم المعلمة النوع ‏‏الوصف
dataset str، ، pandas.DataFrame، pyspark.DataFramepyspark.sql.DataFrame اسم جدول الإدخال أو DataFrame الذي يحتوي على ميزات التدريب والهدف. يمكن أن يكون اسم الجدول بتنسيق "<database_name>.<>table_name" أو "<schema_name>.<>table_name" لجداول كتالوج Unity غير.
target_col str اسم العمود للتسمية الهدف.
primary_metric str المقياس المستخدم لتقييم أداء النموذج وترتيبه.

المقاييس المدعومة للتراجع: "r2" (افتراضي)، "mae"، "rmse"، "mse"

المقاييس المدعومة للتصنيف: "f1" (افتراضي)، "log_loss"، "الدقة"، "الدقة"، "roc_auc"
data_dir str تنسيق dbfs:/<folder-name> اختياري. مسار DBFS المستخدم لتخزين مجموعة بيانات التدريب. هذا المسار مرئي لكل من عقد برنامج التشغيل والعامل.

توصي Databricks بترك هذا الحقل فارغا، بحيث يمكن ل AutoML حفظ مجموعة بيانات التدريب كأداة MLflow.

إذا تم تحديد مسار مخصص، لا ترث مجموعة البيانات أذونات الوصول لتجربة AutoML.
experiment_dir str اختياري. المسار إلى الدليل في مساحة العمل لحفظ دفاتر الملاحظات والتجارب التي تم إنشاؤها.

الافتراضي: /Users/<username>/databricks_automl/
experiment_name str اختياري. اسم تجربة MLflow التي ينشئها AutoML.

الافتراضي: يتم إنشاء الاسم تلقائيا.
exclude_cols List[str] اختياري. قائمة الأعمدة المراد تجاهلها أثناء عمليات حساب AutoML.

الافتراضي: []
exclude_frameworks List[str] اختياري. قائمة أطر عمل الخوارزمية التي يجب ألا يأخذها AutoML في الاعتبار أثناء تطويره للنماذج. القيم المحتملة: قائمة فارغة أو واحدة أو أكثر من "sklearn" أو "lightgbm" أو "xgboost".

الافتراضي: [] (يتم النظر في جميع أطر العمل)
feature_store_lookups List[Dict] اختياري. قائمة القواميس التي تمثل ميزات من مخزن الميزات لزيادة البيانات. المفاتيح الصالحة في كل قاموس هي:

- table_name (str): مطلوب. اسم جدول الميزات.
- lookup_key (قائمة أو سلسلة): مطلوب. اسم (أسماء) الأعمدة لاستخدامها كمفتاح عند الانضمام إلى جدول الميزات بالبيانات التي تم تمريرها في المعلمة dataset . يجب أن يتطابق ترتيب أسماء الأعمدة مع ترتيب المفاتيح الأساسية لجدول الميزات.
- timestamp_lookup_key(str): مطلوب إذا كان الجدول المحدد جدول ميزات سلسلة زمنية. اسم العمود المراد استخدامه عند إجراء بحث في نقطة زمنية على جدول الميزات مع البيانات التي تم تمريرها في المعلمة dataset .

الافتراضي: []
imputers Dict[str, Union[str, Dict[str, Any]]] اختياري. القاموس حيث كل مفتاح هو اسم عمود، وكل قيمة هي سلسلة أو قاموس يصف استراتيجية الإسناد. إذا تم تحديدها كسلسلة، يجب أن تكون القيمة واحدة من "mean" أو "median" أو "most_frequent". لتسجيل قيمة معروفة، حدد القيمة كقاموس {"strategy": "constant", "fill_value": <desired value>}. يمكنك أيضا تحديد خيارات السلسلة كقواميس، على سبيل المثال {"strategy": "mean"}.

إذا لم يتم توفير استراتيجية إسناد لعمود، يحدد AutoML استراتيجية افتراضية استنادا إلى نوع العمود والمحتوى. إذا قمت بتحديد أسلوب غير افتراضي للاعتداء، لا يقوم AutoML بإجراء الكشف عن النوع الدلالي.

الافتراضي: {}
pos_label Union[int, bool, str] (التصنيف فقط) الفئة الإيجابية. هذا مفيد لحساب مقاييس مثل الدقة والاستدعاء. يجب تحديد فقط لمشاكل التصنيف الثنائي.
time_col str متوفر في Databricks Runtime 10.1 ML وما فوق.

اختياري. اسم العمود لعمود وقت.

إذا تم توفيرها، يحاول AutoML تقسيم مجموعة البيانات إلى مجموعات التدريب والتحقق من الصحة والاختبار بشكل زمني، باستخدام أقدم النقاط كبيانات تدريب وأحدث النقاط كمجموعة اختبار.

أنواع الأعمدة المقبولة هي الطابع الزمني والعدد الصحيح. مع Databricks Runtime 10.2 ML وما فوق، يتم أيضا دعم أعمدة السلسلة.

إذا كان نوع العمود سلسلة، يحاول AutoML تحويله إلى طابع زمني باستخدام الكشف الدلالي. إذا فشل التحويل، يفشل تشغيل AutoML.
split_col str اختياري. اسم العمود لعمود منقسم. متوفر فقط في Databricks Runtime 15.3 ML والإصدارات الأحدث لسير عمل API. إذا تم توفيرها، يحاول AutoML تقسيم مجموعات التدريب/التحقق/الاختبار حسب القيم المحددة من قبل المستخدم، ويتم استبعاد هذا العمود تلقائيا من ميزات التدريب.

نوع العمود المقبول هو سلسلة. يجب أن تكون قيمة كل إدخال في هذا العمود واحدة مما يلي: "train" أو "validate" أو "test".
sample_weight_col str متوفر في Databricks Runtime 15.4 ML والإصدارات الأحدث لتصنيف مهام سير عمل واجهة برمجة التطبيقات.

اختياري. اسم العمود في مجموعة البيانات التي تحتوي على نماذج الأوزان لكل صف. يدعم التصنيف أوزان العينة لكل فئة. تضبط هذه الأوزان أهمية كل فئة أثناء تدريب النموذج. يجب أن يكون لكل عينة داخل فئة نفس وزن العينة ويجب أن تكون الأوزان قيما عشرية أو عدد صحيح غير سالبة، تتراوح بين 0 و10000. تعتبر الفئات ذات أوزان العينات الأعلى أكثر أهمية، وتؤثر تأثيرا أكبر على خوارزمية التعلم. إذا لم يتم تحديد هذا العمود، فمن المفترض أن يكون لكل الفئات وزن متساو.
max_trials int اختياري. الحد الأقصى لعدد الإصدارات التجريبية التي سيتم تشغيلها. تتوفر هذه المعلمة في Databricks Runtime 10.5 ML وما دونه، ولكنها مهملة بدءا من Databricks Runtime 10.3 ML. في Databricks Runtime 11.0 ML وما فوق، هذه المعلمة غير مدعومة.

الافتراضي: 20

إذا timeout_minutes=None، يقوم AutoML بتشغيل الحد الأقصى لعدد الإصدارات التجريبية.
timeout_minutes int اختياري. الحد الأقصى للوقت لانتظار اكتمال إصدارات AutoML التجريبية. تسمح المهلات الأطول ل AutoML بتشغيل المزيد من التجارب وتحديد نموذج بدقة أفضل.

الافتراضي: 120 دقيقة

الحد الأدنى للقيمة: 5 دقائق

يتم الإبلاغ عن خطأ إذا كانت المهلة قصيرة جدا للسماح بإكمال إصدار تجريبي واحد على الأقل.

التراجع

يقوم databricks.automl.regress الأسلوب بتكوين تشغيل AutoML لتدريب نموذج انحدار. يقوم هذا الأسلوب بإرجاع AutoMLSummary.

إشعار

تم max_trials إهمال المعلمة في Databricks Runtime 10.4 ML وهي غير مدعومة في Databricks Runtime 11.0 ML وما فوق. يستخدم timeout_minutes للتحكم في مدة تشغيل AutoML.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

معلمات التراجع

اسم المعلمة النوع ‏‏الوصف
dataset str، ، pandas.DataFrame، pyspark.DataFramepyspark.sql.DataFrame اسم جدول الإدخال أو DataFrame الذي يحتوي على ميزات التدريب والهدف. يمكن أن يكون اسم الجدول بتنسيق "<database_name>.<>table_name" أو "<schema_name>.<>table_name" لجداول كتالوج Unity غير.
target_col str اسم العمود للتسمية الهدف.
primary_metric str المقياس المستخدم لتقييم أداء النموذج وترتيبه.

المقاييس المدعومة للتراجع: "r2" (افتراضي)، "mae"، "rmse"، "mse"

المقاييس المدعومة للتصنيف: "f1" (افتراضي)، "log_loss"، "الدقة"، "الدقة"، "roc_auc"
data_dir str تنسيق dbfs:/<folder-name> اختياري. مسار DBFS المستخدم لتخزين مجموعة بيانات التدريب. هذا المسار مرئي لكل من عقد برنامج التشغيل والعامل.

توصي Databricks بترك هذا الحقل فارغا، بحيث يمكن ل AutoML حفظ مجموعة بيانات التدريب كأداة MLflow.

إذا تم تحديد مسار مخصص، لا ترث مجموعة البيانات أذونات الوصول لتجربة AutoML.
experiment_dir str اختياري. المسار إلى الدليل في مساحة العمل لحفظ دفاتر الملاحظات والتجارب التي تم إنشاؤها.

الافتراضي: /Users/<username>/databricks_automl/
experiment_name str اختياري. اسم تجربة MLflow التي ينشئها AutoML.

الافتراضي: يتم إنشاء الاسم تلقائيا.
exclude_cols List[str] اختياري. قائمة الأعمدة المراد تجاهلها أثناء عمليات حساب AutoML.

الافتراضي: []
exclude_frameworks List[str] اختياري. قائمة أطر عمل الخوارزمية التي يجب ألا يأخذها AutoML في الاعتبار أثناء تطويره للنماذج. القيم المحتملة: قائمة فارغة أو واحدة أو أكثر من "sklearn" أو "lightgbm" أو "xgboost".

الافتراضي: [] (يتم النظر في جميع أطر العمل)
feature_store_lookups List[Dict] اختياري. قائمة القواميس التي تمثل ميزات من مخزن الميزات لزيادة البيانات. المفاتيح الصالحة في كل قاموس هي:

- table_name (str): مطلوب. اسم جدول الميزات.
- lookup_key (قائمة أو سلسلة): مطلوب. اسم (أسماء) الأعمدة لاستخدامها كمفتاح عند الانضمام إلى جدول الميزات بالبيانات التي تم تمريرها في المعلمة dataset . يجب أن يتطابق ترتيب أسماء الأعمدة مع ترتيب المفاتيح الأساسية لجدول الميزات.
- timestamp_lookup_key(str): مطلوب إذا كان الجدول المحدد جدول ميزات سلسلة زمنية. اسم العمود المراد استخدامه عند إجراء بحث في نقطة زمنية على جدول الميزات مع البيانات التي تم تمريرها في المعلمة dataset .

الافتراضي: []
imputers Dict[str, Union[str, Dict[str, Any]]] اختياري. القاموس حيث كل مفتاح هو اسم عمود، وكل قيمة هي سلسلة أو قاموس يصف استراتيجية الإسناد. إذا تم تحديدها كسلسلة، يجب أن تكون القيمة واحدة من "mean" أو "median" أو "most_frequent". لتسجيل قيمة معروفة، حدد القيمة كقاموس {"strategy": "constant", "fill_value": <desired value>}. يمكنك أيضا تحديد خيارات السلسلة كقواميس، على سبيل المثال {"strategy": "mean"}.

إذا لم يتم توفير استراتيجية إسناد لعمود، يحدد AutoML استراتيجية افتراضية استنادا إلى نوع العمود والمحتوى. إذا قمت بتحديد أسلوب غير افتراضي للاعتداء، لا يقوم AutoML بإجراء الكشف عن النوع الدلالي.

الافتراضي: {}
time_col str متوفر في Databricks Runtime 10.1 ML وما فوق.

اختياري. اسم العمود لعمود وقت.

إذا تم توفيرها، يحاول AutoML تقسيم مجموعة البيانات إلى مجموعات التدريب والتحقق من الصحة والاختبار بشكل زمني، باستخدام أقدم النقاط كبيانات تدريب وأحدث النقاط كمجموعة اختبار.

أنواع الأعمدة المقبولة هي الطابع الزمني والعدد الصحيح. مع Databricks Runtime 10.2 ML وما فوق، يتم أيضا دعم أعمدة السلسلة.

إذا كان نوع العمود سلسلة، يحاول AutoML تحويله إلى طابع زمني باستخدام الكشف الدلالي. إذا فشل التحويل، يفشل تشغيل AutoML.
split_col str اختياري. اسم العمود لعمود منقسم. متوفر فقط في Databricks Runtime 15.3 ML والإصدارات الأحدث لسير عمل API. إذا تم توفيرها، يحاول AutoML تقسيم مجموعات التدريب/التحقق/الاختبار حسب القيم المحددة من قبل المستخدم، ويتم استبعاد هذا العمود تلقائيا من ميزات التدريب.

نوع العمود المقبول هو سلسلة. يجب أن تكون قيمة كل إدخال في هذا العمود واحدة مما يلي: "train" أو "validate" أو "test".
sample_weight_col str متوفر في Databricks Runtime 15.3 ML وما فوق لسير عمل واجهة برمجة تطبيقات الانحدار.

اختياري. اسم العمود في مجموعة البيانات التي تحتوي على نماذج الأوزان لكل صف. تضبط هذه الأوزان أهمية كل صف أثناء تدريب النموذج. يجب أن تكون الأوزان قيما عشرية أو عدد صحيح غير سالبة، تتراوح بين 0 و10000. تعتبر الصفوف ذات أوزان العينات الأعلى أكثر أهمية، وتؤثر تأثيرا أكبر على خوارزمية التعلم. إذا لم يتم تحديد هذا العمود، فمن المفترض أن يكون لكل الصفوف وزن متساو.
max_trials int اختياري. الحد الأقصى لعدد الإصدارات التجريبية التي سيتم تشغيلها. تتوفر هذه المعلمة في Databricks Runtime 10.5 ML وما دونه، ولكنها مهملة بدءا من Databricks Runtime 10.3 ML. في Databricks Runtime 11.0 ML وما فوق، هذه المعلمة غير مدعومة.

الافتراضي: 20

إذا timeout_minutes=None، يقوم AutoML بتشغيل الحد الأقصى لعدد الإصدارات التجريبية.
timeout_minutes int اختياري. الحد الأقصى للوقت لانتظار اكتمال إصدارات AutoML التجريبية. تسمح المهلات الأطول ل AutoML بتشغيل المزيد من التجارب وتحديد نموذج بدقة أفضل.

الافتراضي: 120 دقيقة

الحد الأدنى للقيمة: 5 دقائق

يتم الإبلاغ عن خطأ إذا كانت المهلة قصيرة جدا للسماح بإكمال إصدار تجريبي واحد على الأقل.

التنبؤ

يقوم databricks.automl.forecast الأسلوب بتكوين تشغيل AutoML لتدريب نموذج تنبؤ. يقوم هذا الأسلوب بإرجاع AutoMLSummary. لاستخدام AUTO-ARIMA، يجب أن يكون للسلسلة الزمنية تكرار منتظم (أي، يجب أن يكون الفاصل الزمني بين أي نقطتين هو نفسه طوال السلسلة الزمنية). يجب أن يتطابق التردد مع وحدة التردد المحددة في استدعاء واجهة برمجة التطبيقات. يعالج AutoML خطوات الوقت المفقودة عن طريق ملء تلك القيم بالقيمة السابقة.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

معلمات التنبؤ

اسم المعلمة النوع ‏‏الوصف
dataset str، ، pandas.DataFrame، pyspark.DataFramepyspark.sql.DataFrame اسم جدول الإدخال أو DataFrame الذي يحتوي على ميزات التدريب والهدف.

يمكن أن يكون اسم الجدول بتنسيق ".." أو "." لجداول كتالوج Unity غير
target_col str اسم العمود للتسمية الهدف.
time_col str اسم عمود الوقت للتنبؤ.
primary_metric str المقياس المستخدم لتقييم أداء النموذج وترتيبه.

المقاييس المدعومة: "smape" (افتراضي) أو "mse" أو "rmse" أو "mae" أو "mdape".
country_code str متوفر في Databricks Runtime 12.0 ML وما فوق. مدعوم فقط من قبل نموذج التنبؤ النبي.

اختياري. رمز البلد المكون من حرفين الذي يشير إلى عطلات البلد التي يجب أن يستخدمها نموذج التنبؤ. لتجاهل أيام العطل، قم بتعيين هذه المعلمة إلى سلسلة فارغة ("").

البلدان المدعومة.

الافتراضي: الولايات المتحدة (عطلات الولايات المتحدة).
frequency str تكرار السلسلة الزمنية للتنبؤ. هذه هي الفترة التي من المتوقع أن تحدث بها الأحداث. الإعداد الافتراضي هو "D" أو البيانات اليومية. تأكد من تغيير الإعداد إذا كان لبياناتك تكرار مختلف.

القيم الممكنة:

"W" (أسابيع)

"D" / "days" / "day"

"hours" / "hour" / "hr" / "h"

"m" / "minute" / "min" / "minutes" / "T"

"S" / "seconds" / "sec" / "second"

يتوفر ما يلي فقط مع Databricks Runtime 12.0 ML وما فوق:

"M" / "month" / "months"

"Q" / "quarter" / "quarter"

"Y" / "year" / "years"

الافتراضي: "D"
horizon int عدد الفترات المستقبلية التي يجب إرجاع التنبؤات لها.

الوحدات هي تكرار السلسلة الزمنية.

الافتراضي: 1
data_dir str تنسيق dbfs:/<folder-name> اختياري. مسار DBFS المستخدم لتخزين مجموعة بيانات التدريب. هذا المسار مرئي لكل من عقد برنامج التشغيل والعامل.

توصي Databricks بترك هذا الحقل فارغا، بحيث يمكن ل AutoML حفظ مجموعة بيانات التدريب كأداة MLflow.

إذا تم تحديد مسار مخصص، لا ترث مجموعة البيانات أذونات الوصول لتجربة AutoML.
experiment_dir str اختياري. المسار إلى الدليل في مساحة العمل لحفظ دفاتر الملاحظات والتجارب التي تم إنشاؤها.

الافتراضي: /Users/<username>/databricks_automl/
experiment_name str اختياري. اسم تجربة MLflow التي ينشئها AutoML.

الافتراضي: يتم إنشاء الاسم تلقائيا.
exclude_frameworks List[str] اختياري. قائمة أطر عمل الخوارزمية التي يجب ألا يأخذها AutoML في الاعتبار أثناء تطويره للنماذج. القيم المحتملة: قائمة فارغة، أو قائمة واحدة أو أكثر من "النبي" أو "arima".

الافتراضي: [] (يتم النظر في جميع أطر العمل)
feature_store_lookups List[Dict] اختياري. قائمة القواميس التي تمثل ميزات من Feature Store لزيادة البيانات المشتركة. المفاتيح الصالحة في كل قاموس هي:

- table_name (str): مطلوب. اسم جدول الميزات.
- lookup_key (قائمة أو سلسلة): مطلوب. اسم (أسماء) الأعمدة لاستخدامها كمفتاح عند الانضمام إلى جدول الميزات بالبيانات التي تم تمريرها في المعلمة dataset . يجب أن يتطابق ترتيب أسماء الأعمدة مع ترتيب المفاتيح الأساسية لجدول الميزات.
- timestamp_lookup_key(str): مطلوب إذا كان الجدول المحدد جدول ميزات سلسلة زمنية. اسم العمود المراد استخدامه عند إجراء بحث في نقطة زمنية على جدول الميزات مع البيانات التي تم تمريرها في المعلمة dataset .

الافتراضي: []
identity_col Union[str, list] اختياري. الأعمدة (الأعمدة) التي تحدد السلسلة الزمنية للتنبؤ متعدد السلاسل. مجموعات AutoML حسب هذه الأعمدة والعمود الزمني للتنبؤ.
sample_weight_col str متوفر في Databricks Runtime 16.0 ML وما فوق. فقط لسير العمل متعدد السلاسل الزمنية.

اختياري. تحديد العمود في مجموعة البيانات التي تحتوي على نماذج أوزان. تشير هذه الأوزان إلى الأهمية النسبية لكل سلسلة زمنية أثناء تدريب النموذج وتقييمه.

السلاسل الزمنية ذات الأوزان الأعلى لها تأثير أكبر على النموذج. إذا لم يتم توفيرها، يتم التعامل مع جميع السلاسل الزمنية بنفس الوزن.

يجب أن يكون لجميع الصفوف التي تنتمي إلى نفس السلسلة الزمنية نفس الوزن.

يجب أن تكون الأوزان قيما غير سالبة، إما عشرية أو أعداد صحيحة، وأن تكون بين 0 و10000.
output_database str اختياري. إذا تم توفيره، يحفظ AutoML تنبؤات أفضل نموذج إلى جدول جديد في قاعدة البيانات المحددة.

الافتراضي: لا يتم حفظ التنبؤات.
timeout_minutes int اختياري. الحد الأقصى للوقت لانتظار اكتمال إصدارات AutoML التجريبية. تسمح المهلات الأطول ل AutoML بتشغيل المزيد من التجارب وتحديد نموذج بدقة أفضل.

الافتراضي: 120 دقيقة

الحد الأدنى للقيمة: 5 دقائق

يتم الإبلاغ عن خطأ إذا كانت المهلة قصيرة جدا للسماح بإكمال إصدار تجريبي واحد على الأقل.

استيراد دفتر الملاحظات

يستورد databricks.automl.import_notebook الأسلوب دفتر ملاحظات تم حفظه كأداة MLflow. يقوم هذا الأسلوب بإرجاع ImportNotebookResult.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
المعلمات النوع ‏‏الوصف
artifact_uri str URI الخاص بأداة MLflow التي تحتوي على دفتر الملاحظات التجريبي.
path str المسار في مساحة عمل Databricks حيث يجب استيراد دفتر الملاحظات. يجب أن يكون هذا مسارا مطلقا. سيتم إنشاء الدليل إذا لم يكن موجودا.
overwrite bool ما إذا كنت تريد الكتابة فوق دفتر الملاحظات إذا كان موجودا بالفعل. إنه False افتراضي.

مثال استيراد دفتر الملاحظات

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

كائن ملخص لتشغيل AutoML يصف المقاييس والمعلمات والتفاصيل الأخرى لكل من الإصدارات التجريبية. يمكنك أيضا استخدام هذا الكائن لتحميل النموذج المدرب بواسطة إصدار تجريبي معين.

الخاصية نوع ‏‏الوصف
experiment mlflow.entities.Experiment تجربة MLflow المستخدمة لتسجيل التجارب.
trials List[TrialInfo] قائمة كائنات معلومات تجريبية تحتوي على معلومات حول جميع الإصدارات التجريبية التي تم تشغيلها.
best_trial TrialInfo كائن TrialInfo يحتوي على معلومات حول الإصدار التجريبي الذي أدى إلى أفضل درجة مرجحة للمقياس الأساسي.
metric_distribution str توزيع الدرجات المرجحة للمقياس الأساسي عبر جميع التجارب.
output_table_name str يستخدم مع التنبؤ فقط وفقط إذا تم توفير output_database.

اسم الجدول في output_database يحتوي على تنبؤات النموذج.

TrialInfo

كائن ملخص لكل إصدار تجريبي فردي.

الخاصية نوع ‏‏الوصف
notebook_path Optional[str] المسار إلى دفتر الملاحظات الذي تم إنشاؤه لهذا الإصدار التجريبي في مساحة العمل.

للتصنيف والانحدار، يتم تعيين هذه القيمة فقط للحصول على أفضل تجربة، بينما تم تعيين القيمة لجميع الإصدارات التجريبية الأخرى على None.

للتنبؤ، هذه القيمة موجودة لجميع الإصدارات التجريبية.
notebook_url Optional[str] عنوان URL لدفتر الملاحظات الذي تم إنشاؤه لهذا الإصدار التجريبي.

للتصنيف والانحدار، يتم تعيين هذه القيمة فقط للحصول على أفضل تجربة، بينما تم تعيين القيمة لجميع الإصدارات التجريبية الأخرى على None.

للتنبؤ، هذه القيمة موجودة لجميع الإصدارات التجريبية.
artifact_uri Optional[str] MLflow artifact URI لدفتر الملاحظات الذي تم إنشاؤه.
mlflow_run_id str معرف تشغيل MLflow المقترن بهذا التشغيل التجريبي.
metrics Dict[str, float] المقاييس التي تم تسجيلها في MLflow لهذا الإصدار التجريبي.
params Dict[str, str] المعلمات التي تم تسجيلها في MLflow التي تم استخدامها لهذا الإصدار التجريبي.
model_path str عنوان URL المصطنع MLflow للنموذج المدرب في هذا الإصدار التجريبي.
model_description str وصف مختصر للنموذج والمقاييس الفائقة المستخدمة لتدريب هذا النموذج.
duration str مدة التدريب بالدقائق.
preprocessors str وصف المعالجات المسبقة التي يتم تشغيلها قبل تدريب النموذج.
evaluation_metric_score float درجة المقياس الأساسي، التي تم تقييمها لمجموعة بيانات التحقق من الصحة.

TrialInfo لديه أسلوب لتحميل النموذج الذي تم إنشاؤه للإصدار التجريبي.

الطريقة ‏‏الوصف
load_model() قم بتحميل النموذج الذي تم إنشاؤه في هذا الإصدار التجريبي، مسجلا كأداة MLflow.

ImportNotebookResult

الخاصية نوع ‏‏الوصف
path str المسار في مساحة عمل Databricks حيث يجب استيراد دفتر الملاحظات. يجب أن يكون هذا مسارا مطلقا. سيتم إنشاء الدليل إذا لم يكن موجودا.
url str URI الخاص بأداة MLflow التي تحتوي على دفتر الملاحظات التجريبي.