مرجع واجهة برمجة تطبيقات الفسيفساء AutoML Python
توضح هذه المقالة واجهة برمجة تطبيقات Python AutoML الفسيفساء، التي توفر طرقا لبدء التصنيف والانحدار والتنبؤ بتشغيل AutoML. كل استدعاء أسلوب يدرب مجموعة من النماذج وينشئ دفتر ملاحظات تجريبيا لكل نموذج.
لمزيد من المعلومات حول تطبيق الفسيفساء AutoML، بما في ذلك خيار واجهة المستخدم ذات التعليمات البرمجية المنخفضة، راجع ما هو AutoML الفسيفساء؟.
تصنيف
يقوم databricks.automl.classify
الأسلوب بتكوين تشغيل AutoML الفسيفساء لتدريب نموذج تصنيف.
إشعار
تم max_trials
إهمال المعلمة في Databricks Runtime 10.4 ML وهي غير مدعومة في Databricks Runtime 11.0 ML وما فوق. يستخدم timeout_minutes
للتحكم في مدة تشغيل AutoML.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
تصنيف المعلمات
اسم المعلمة | النوع | الوصف |
---|---|---|
dataset |
str ، ، pandas.DataFrame ، pyspark.DataFrame pyspark.sql.DataFrame |
اسم جدول الإدخال أو DataFrame الذي يحتوي على ميزات التدريب والهدف. يمكن أن يكون اسم الجدول بتنسيق "<database_name>.<>table_name" أو "<schema_name>.<>table_name" لجداول كتالوج Unity غير. |
target_col |
str |
اسم العمود للتسمية الهدف. |
primary_metric |
str |
المقياس المستخدم لتقييم أداء النموذج وترتيبه. المقاييس المدعومة للتراجع: "r2" (افتراضي)، "mae"، "rmse"، "mse" المقاييس المدعومة للتصنيف: "f1" (افتراضي)، "log_loss"، "الدقة"، "الدقة"، "roc_auc" |
data_dir |
str تنسيق dbfs:/<folder-name> |
اختياري. مسار DBFS المستخدم لتخزين مجموعة بيانات التدريب. هذا المسار مرئي لكل من عقد برنامج التشغيل والعامل. توصي Databricks بترك هذا الحقل فارغا، بحيث يمكن ل AutoML حفظ مجموعة بيانات التدريب كأداة MLflow. إذا تم تحديد مسار مخصص، لا ترث مجموعة البيانات أذونات الوصول لتجربة AutoML. |
experiment_dir |
str |
اختياري. المسار إلى الدليل في مساحة العمل لحفظ دفاتر الملاحظات والتجارب التي تم إنشاؤها. الافتراضي: /Users/<username>/databricks_automl/ |
experiment_name |
str |
اختياري. اسم تجربة MLflow التي ينشئها AutoML. الافتراضي: يتم إنشاء الاسم تلقائيا. |
exclude_cols |
List[str] |
اختياري. قائمة الأعمدة المراد تجاهلها أثناء عمليات حساب AutoML. الافتراضي: [] |
exclude_frameworks |
List[str] |
اختياري. قائمة أطر عمل الخوارزمية التي يجب ألا يأخذها AutoML في الاعتبار أثناء تطويره للنماذج. القيم المحتملة: قائمة فارغة أو واحدة أو أكثر من "sklearn" أو "lightgbm" أو "xgboost". الافتراضي: [] (يتم النظر في جميع أطر العمل) |
feature_store_lookups |
List[Dict] |
اختياري. قائمة القواميس التي تمثل ميزات من مخزن الميزات لزيادة البيانات. المفاتيح الصالحة في كل قاموس هي: - table_name (str): مطلوب. اسم جدول الميزات.- lookup_key (قائمة أو سلسلة): مطلوب. اسم (أسماء) الأعمدة لاستخدامها كمفتاح عند الانضمام إلى جدول الميزات بالبيانات التي تم تمريرها في المعلمة dataset . يجب أن يتطابق ترتيب أسماء الأعمدة مع ترتيب المفاتيح الأساسية لجدول الميزات.- timestamp_lookup_key (str): مطلوب إذا كان الجدول المحدد جدول ميزات سلسلة زمنية. اسم العمود المراد استخدامه عند إجراء بحث في نقطة زمنية على جدول الميزات مع البيانات التي تم تمريرها في المعلمة dataset .الافتراضي: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
اختياري. القاموس حيث كل مفتاح هو اسم عمود، وكل قيمة هي سلسلة أو قاموس يصف استراتيجية الإسناد. إذا تم تحديدها كسلسلة، يجب أن تكون القيمة واحدة من "mean" أو "median" أو "most_frequent". لتسجيل قيمة معروفة، حدد القيمة كقاموس {"strategy": "constant", "fill_value": <desired value>} . يمكنك أيضا تحديد خيارات السلسلة كقواميس، على سبيل المثال {"strategy": "mean"} .إذا لم يتم توفير استراتيجية إسناد لعمود، يحدد AutoML استراتيجية افتراضية استنادا إلى نوع العمود والمحتوى. إذا قمت بتحديد أسلوب غير افتراضي للاعتداء، لا يقوم AutoML بإجراء الكشف عن النوع الدلالي. الافتراضي: {} |
pos_label |
Union[int, bool, str] |
(التصنيف فقط) الفئة الإيجابية. هذا مفيد لحساب مقاييس مثل الدقة والاستدعاء. يجب تحديد فقط لمشاكل التصنيف الثنائي. |
time_col |
str |
متوفر في Databricks Runtime 10.1 ML وما فوق. اختياري. اسم العمود لعمود وقت. إذا تم توفيرها، يحاول AutoML تقسيم مجموعة البيانات إلى مجموعات التدريب والتحقق من الصحة والاختبار بشكل زمني، باستخدام أقدم النقاط كبيانات تدريب وأحدث النقاط كمجموعة اختبار. أنواع الأعمدة المقبولة هي الطابع الزمني والعدد الصحيح. مع Databricks Runtime 10.2 ML وما فوق، يتم أيضا دعم أعمدة السلسلة. إذا كان نوع العمود سلسلة، يحاول AutoML تحويله إلى طابع زمني باستخدام الكشف الدلالي. إذا فشل التحويل، يفشل تشغيل AutoML. |
split_col |
str |
اختياري. اسم العمود لعمود منقسم. متوفر فقط في Databricks Runtime 15.3 ML والإصدارات الأحدث لسير عمل API. إذا تم توفيرها، يحاول AutoML تقسيم مجموعات التدريب/التحقق/الاختبار حسب القيم المحددة من قبل المستخدم، ويتم استبعاد هذا العمود تلقائيا من ميزات التدريب. نوع العمود المقبول هو سلسلة. يجب أن تكون قيمة كل إدخال في هذا العمود واحدة مما يلي: "train" أو "validate" أو "test". |
sample_weight_col |
str |
متوفر في Databricks Runtime 15.4 ML والإصدارات الأحدث لتصنيف مهام سير عمل واجهة برمجة التطبيقات. اختياري. اسم العمود في مجموعة البيانات التي تحتوي على نماذج الأوزان لكل صف. يدعم التصنيف أوزان العينة لكل فئة. تضبط هذه الأوزان أهمية كل فئة أثناء تدريب النموذج. يجب أن يكون لكل عينة داخل فئة نفس وزن العينة ويجب أن تكون الأوزان قيما عشرية أو عدد صحيح غير سالبة، تتراوح بين 0 و10000. تعتبر الفئات ذات أوزان العينات الأعلى أكثر أهمية، وتؤثر تأثيرا أكبر على خوارزمية التعلم. إذا لم يتم تحديد هذا العمود، فمن المفترض أن يكون لكل الفئات وزن متساو. |
max_trials |
int |
اختياري. الحد الأقصى لعدد الإصدارات التجريبية التي سيتم تشغيلها. تتوفر هذه المعلمة في Databricks Runtime 10.5 ML وما دونه، ولكنها مهملة بدءا من Databricks Runtime 10.3 ML. في Databricks Runtime 11.0 ML وما فوق، هذه المعلمة غير مدعومة. الافتراضي: 20 إذا timeout_minutes=None، يقوم AutoML بتشغيل الحد الأقصى لعدد الإصدارات التجريبية. |
timeout_minutes |
int |
اختياري. الحد الأقصى للوقت لانتظار اكتمال إصدارات AutoML التجريبية. تسمح المهلات الأطول ل AutoML بتشغيل المزيد من التجارب وتحديد نموذج بدقة أفضل. الافتراضي: 120 دقيقة الحد الأدنى للقيمة: 5 دقائق يتم الإبلاغ عن خطأ إذا كانت المهلة قصيرة جدا للسماح بإكمال إصدار تجريبي واحد على الأقل. |
التراجع
يقوم databricks.automl.regress
الأسلوب بتكوين تشغيل AutoML لتدريب نموذج انحدار. يقوم هذا الأسلوب بإرجاع AutoMLSummary.
إشعار
تم max_trials
إهمال المعلمة في Databricks Runtime 10.4 ML وهي غير مدعومة في Databricks Runtime 11.0 ML وما فوق. يستخدم timeout_minutes
للتحكم في مدة تشغيل AutoML.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
معلمات التراجع
اسم المعلمة | النوع | الوصف |
---|---|---|
dataset |
str ، ، pandas.DataFrame ، pyspark.DataFrame pyspark.sql.DataFrame |
اسم جدول الإدخال أو DataFrame الذي يحتوي على ميزات التدريب والهدف. يمكن أن يكون اسم الجدول بتنسيق "<database_name>.<>table_name" أو "<schema_name>.<>table_name" لجداول كتالوج Unity غير. |
target_col |
str |
اسم العمود للتسمية الهدف. |
primary_metric |
str |
المقياس المستخدم لتقييم أداء النموذج وترتيبه. المقاييس المدعومة للتراجع: "r2" (افتراضي)، "mae"، "rmse"، "mse" المقاييس المدعومة للتصنيف: "f1" (افتراضي)، "log_loss"، "الدقة"، "الدقة"، "roc_auc" |
data_dir |
str تنسيق dbfs:/<folder-name> |
اختياري. مسار DBFS المستخدم لتخزين مجموعة بيانات التدريب. هذا المسار مرئي لكل من عقد برنامج التشغيل والعامل. توصي Databricks بترك هذا الحقل فارغا، بحيث يمكن ل AutoML حفظ مجموعة بيانات التدريب كأداة MLflow. إذا تم تحديد مسار مخصص، لا ترث مجموعة البيانات أذونات الوصول لتجربة AutoML. |
experiment_dir |
str |
اختياري. المسار إلى الدليل في مساحة العمل لحفظ دفاتر الملاحظات والتجارب التي تم إنشاؤها. الافتراضي: /Users/<username>/databricks_automl/ |
experiment_name |
str |
اختياري. اسم تجربة MLflow التي ينشئها AutoML. الافتراضي: يتم إنشاء الاسم تلقائيا. |
exclude_cols |
List[str] |
اختياري. قائمة الأعمدة المراد تجاهلها أثناء عمليات حساب AutoML. الافتراضي: [] |
exclude_frameworks |
List[str] |
اختياري. قائمة أطر عمل الخوارزمية التي يجب ألا يأخذها AutoML في الاعتبار أثناء تطويره للنماذج. القيم المحتملة: قائمة فارغة أو واحدة أو أكثر من "sklearn" أو "lightgbm" أو "xgboost". الافتراضي: [] (يتم النظر في جميع أطر العمل) |
feature_store_lookups |
List[Dict] |
اختياري. قائمة القواميس التي تمثل ميزات من مخزن الميزات لزيادة البيانات. المفاتيح الصالحة في كل قاموس هي: - table_name (str): مطلوب. اسم جدول الميزات.- lookup_key (قائمة أو سلسلة): مطلوب. اسم (أسماء) الأعمدة لاستخدامها كمفتاح عند الانضمام إلى جدول الميزات بالبيانات التي تم تمريرها في المعلمة dataset . يجب أن يتطابق ترتيب أسماء الأعمدة مع ترتيب المفاتيح الأساسية لجدول الميزات.- timestamp_lookup_key (str): مطلوب إذا كان الجدول المحدد جدول ميزات سلسلة زمنية. اسم العمود المراد استخدامه عند إجراء بحث في نقطة زمنية على جدول الميزات مع البيانات التي تم تمريرها في المعلمة dataset .الافتراضي: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
اختياري. القاموس حيث كل مفتاح هو اسم عمود، وكل قيمة هي سلسلة أو قاموس يصف استراتيجية الإسناد. إذا تم تحديدها كسلسلة، يجب أن تكون القيمة واحدة من "mean" أو "median" أو "most_frequent". لتسجيل قيمة معروفة، حدد القيمة كقاموس {"strategy": "constant", "fill_value": <desired value>} . يمكنك أيضا تحديد خيارات السلسلة كقواميس، على سبيل المثال {"strategy": "mean"} .إذا لم يتم توفير استراتيجية إسناد لعمود، يحدد AutoML استراتيجية افتراضية استنادا إلى نوع العمود والمحتوى. إذا قمت بتحديد أسلوب غير افتراضي للاعتداء، لا يقوم AutoML بإجراء الكشف عن النوع الدلالي. الافتراضي: {} |
time_col |
str |
متوفر في Databricks Runtime 10.1 ML وما فوق. اختياري. اسم العمود لعمود وقت. إذا تم توفيرها، يحاول AutoML تقسيم مجموعة البيانات إلى مجموعات التدريب والتحقق من الصحة والاختبار بشكل زمني، باستخدام أقدم النقاط كبيانات تدريب وأحدث النقاط كمجموعة اختبار. أنواع الأعمدة المقبولة هي الطابع الزمني والعدد الصحيح. مع Databricks Runtime 10.2 ML وما فوق، يتم أيضا دعم أعمدة السلسلة. إذا كان نوع العمود سلسلة، يحاول AutoML تحويله إلى طابع زمني باستخدام الكشف الدلالي. إذا فشل التحويل، يفشل تشغيل AutoML. |
split_col |
str |
اختياري. اسم العمود لعمود منقسم. متوفر فقط في Databricks Runtime 15.3 ML والإصدارات الأحدث لسير عمل API. إذا تم توفيرها، يحاول AutoML تقسيم مجموعات التدريب/التحقق/الاختبار حسب القيم المحددة من قبل المستخدم، ويتم استبعاد هذا العمود تلقائيا من ميزات التدريب. نوع العمود المقبول هو سلسلة. يجب أن تكون قيمة كل إدخال في هذا العمود واحدة مما يلي: "train" أو "validate" أو "test". |
sample_weight_col |
str |
متوفر في Databricks Runtime 15.3 ML وما فوق لسير عمل واجهة برمجة تطبيقات الانحدار. اختياري. اسم العمود في مجموعة البيانات التي تحتوي على نماذج الأوزان لكل صف. تضبط هذه الأوزان أهمية كل صف أثناء تدريب النموذج. يجب أن تكون الأوزان قيما عشرية أو عدد صحيح غير سالبة، تتراوح بين 0 و10000. تعتبر الصفوف ذات أوزان العينات الأعلى أكثر أهمية، وتؤثر تأثيرا أكبر على خوارزمية التعلم. إذا لم يتم تحديد هذا العمود، فمن المفترض أن يكون لكل الصفوف وزن متساو. |
max_trials |
int |
اختياري. الحد الأقصى لعدد الإصدارات التجريبية التي سيتم تشغيلها. تتوفر هذه المعلمة في Databricks Runtime 10.5 ML وما دونه، ولكنها مهملة بدءا من Databricks Runtime 10.3 ML. في Databricks Runtime 11.0 ML وما فوق، هذه المعلمة غير مدعومة. الافتراضي: 20 إذا timeout_minutes=None، يقوم AutoML بتشغيل الحد الأقصى لعدد الإصدارات التجريبية. |
timeout_minutes |
int |
اختياري. الحد الأقصى للوقت لانتظار اكتمال إصدارات AutoML التجريبية. تسمح المهلات الأطول ل AutoML بتشغيل المزيد من التجارب وتحديد نموذج بدقة أفضل. الافتراضي: 120 دقيقة الحد الأدنى للقيمة: 5 دقائق يتم الإبلاغ عن خطأ إذا كانت المهلة قصيرة جدا للسماح بإكمال إصدار تجريبي واحد على الأقل. |
التنبؤ
يقوم databricks.automl.forecast
الأسلوب بتكوين تشغيل AutoML لتدريب نموذج تنبؤ. يقوم هذا الأسلوب بإرجاع AutoMLSummary.
لاستخدام AUTO-ARIMA، يجب أن يكون للسلسلة الزمنية تكرار منتظم (أي، يجب أن يكون الفاصل الزمني بين أي نقطتين هو نفسه طوال السلسلة الزمنية). يجب أن يتطابق التردد مع وحدة التردد المحددة في استدعاء واجهة برمجة التطبيقات. يعالج AutoML خطوات الوقت المفقودة عن طريق ملء تلك القيم بالقيمة السابقة.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
معلمات التنبؤ
اسم المعلمة | النوع | الوصف |
---|---|---|
dataset |
str ، ، pandas.DataFrame ، pyspark.DataFrame pyspark.sql.DataFrame |
اسم جدول الإدخال أو DataFrame الذي يحتوي على ميزات التدريب والهدف. يمكن أن يكون اسم الجدول بتنسيق ".." أو "." لجداول كتالوج Unity غير |
target_col |
str |
اسم العمود للتسمية الهدف. |
time_col |
str |
اسم عمود الوقت للتنبؤ. |
primary_metric |
str |
المقياس المستخدم لتقييم أداء النموذج وترتيبه. المقاييس المدعومة: "smape" (افتراضي) أو "mse" أو "rmse" أو "mae" أو "mdape". |
country_code |
str |
متوفر في Databricks Runtime 12.0 ML وما فوق. مدعوم فقط من قبل نموذج التنبؤ النبي. اختياري. رمز البلد المكون من حرفين الذي يشير إلى عطلات البلد التي يجب أن يستخدمها نموذج التنبؤ. لتجاهل أيام العطل، قم بتعيين هذه المعلمة إلى سلسلة فارغة (""). البلدان المدعومة. الافتراضي: الولايات المتحدة (عطلات الولايات المتحدة). |
frequency |
str |
تكرار السلسلة الزمنية للتنبؤ. هذه هي الفترة التي من المتوقع أن تحدث بها الأحداث. الإعداد الافتراضي هو "D" أو البيانات اليومية. تأكد من تغيير الإعداد إذا كان لبياناتك تكرار مختلف. القيم الممكنة: "W" (أسابيع) "D" / "days" / "day" "hours" / "hour" / "hr" / "h" "m" / "minute" / "min" / "minutes" / "T" "S" / "seconds" / "sec" / "second" يتوفر ما يلي فقط مع Databricks Runtime 12.0 ML وما فوق: "M" / "month" / "months" "Q" / "quarter" / "quarter" "Y" / "year" / "years" الافتراضي: "D" |
horizon |
int |
عدد الفترات المستقبلية التي يجب إرجاع التنبؤات لها. الوحدات هي تكرار السلسلة الزمنية. الافتراضي: 1 |
data_dir |
str تنسيق dbfs:/<folder-name> |
اختياري. مسار DBFS المستخدم لتخزين مجموعة بيانات التدريب. هذا المسار مرئي لكل من عقد برنامج التشغيل والعامل. توصي Databricks بترك هذا الحقل فارغا، بحيث يمكن ل AutoML حفظ مجموعة بيانات التدريب كأداة MLflow. إذا تم تحديد مسار مخصص، لا ترث مجموعة البيانات أذونات الوصول لتجربة AutoML. |
experiment_dir |
str |
اختياري. المسار إلى الدليل في مساحة العمل لحفظ دفاتر الملاحظات والتجارب التي تم إنشاؤها. الافتراضي: /Users/<username>/databricks_automl/ |
experiment_name |
str |
اختياري. اسم تجربة MLflow التي ينشئها AutoML. الافتراضي: يتم إنشاء الاسم تلقائيا. |
exclude_frameworks |
List[str] |
اختياري. قائمة أطر عمل الخوارزمية التي يجب ألا يأخذها AutoML في الاعتبار أثناء تطويره للنماذج. القيم المحتملة: قائمة فارغة، أو قائمة واحدة أو أكثر من "النبي" أو "arima". الافتراضي: [] (يتم النظر في جميع أطر العمل) |
feature_store_lookups |
List[Dict] |
اختياري. قائمة القواميس التي تمثل ميزات من Feature Store لزيادة البيانات المشتركة. المفاتيح الصالحة في كل قاموس هي: - table_name (str): مطلوب. اسم جدول الميزات.- lookup_key (قائمة أو سلسلة): مطلوب. اسم (أسماء) الأعمدة لاستخدامها كمفتاح عند الانضمام إلى جدول الميزات بالبيانات التي تم تمريرها في المعلمة dataset . يجب أن يتطابق ترتيب أسماء الأعمدة مع ترتيب المفاتيح الأساسية لجدول الميزات.- timestamp_lookup_key (str): مطلوب إذا كان الجدول المحدد جدول ميزات سلسلة زمنية. اسم العمود المراد استخدامه عند إجراء بحث في نقطة زمنية على جدول الميزات مع البيانات التي تم تمريرها في المعلمة dataset .الافتراضي: [] |
identity_col |
Union[str, list] |
اختياري. الأعمدة (الأعمدة) التي تحدد السلسلة الزمنية للتنبؤ متعدد السلاسل. مجموعات AutoML حسب هذه الأعمدة والعمود الزمني للتنبؤ. |
sample_weight_col |
str |
متوفر في Databricks Runtime 16.0 ML وما فوق. فقط لسير العمل متعدد السلاسل الزمنية. اختياري. تحديد العمود في مجموعة البيانات التي تحتوي على نماذج أوزان. تشير هذه الأوزان إلى الأهمية النسبية لكل سلسلة زمنية أثناء تدريب النموذج وتقييمه. السلاسل الزمنية ذات الأوزان الأعلى لها تأثير أكبر على النموذج. إذا لم يتم توفيرها، يتم التعامل مع جميع السلاسل الزمنية بنفس الوزن. يجب أن يكون لجميع الصفوف التي تنتمي إلى نفس السلسلة الزمنية نفس الوزن. يجب أن تكون الأوزان قيما غير سالبة، إما عشرية أو أعداد صحيحة، وأن تكون بين 0 و10000. |
output_database |
str |
اختياري. إذا تم توفيره، يحفظ AutoML تنبؤات أفضل نموذج إلى جدول جديد في قاعدة البيانات المحددة. الافتراضي: لا يتم حفظ التنبؤات. |
timeout_minutes |
int |
اختياري. الحد الأقصى للوقت لانتظار اكتمال إصدارات AutoML التجريبية. تسمح المهلات الأطول ل AutoML بتشغيل المزيد من التجارب وتحديد نموذج بدقة أفضل. الافتراضي: 120 دقيقة الحد الأدنى للقيمة: 5 دقائق يتم الإبلاغ عن خطأ إذا كانت المهلة قصيرة جدا للسماح بإكمال إصدار تجريبي واحد على الأقل. |
استيراد دفتر الملاحظات
يستورد databricks.automl.import_notebook
الأسلوب دفتر ملاحظات تم حفظه كأداة MLflow. يقوم هذا الأسلوب بإرجاع ImportNotebookResult.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
المعلمات | النوع | الوصف |
---|---|---|
artifact_uri |
str |
URI الخاص بأداة MLflow التي تحتوي على دفتر الملاحظات التجريبي. |
path |
str |
المسار في مساحة عمل Databricks حيث يجب استيراد دفتر الملاحظات. يجب أن يكون هذا مسارا مطلقا. سيتم إنشاء الدليل إذا لم يكن موجودا. |
overwrite |
bool |
ما إذا كنت تريد الكتابة فوق دفتر الملاحظات إذا كان موجودا بالفعل. إنه False افتراضي. |
مثال استيراد دفتر الملاحظات
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
كائن ملخص لتشغيل AutoML يصف المقاييس والمعلمات والتفاصيل الأخرى لكل من الإصدارات التجريبية. يمكنك أيضا استخدام هذا الكائن لتحميل النموذج المدرب بواسطة إصدار تجريبي معين.
الخاصية | نوع | الوصف |
---|---|---|
experiment |
mlflow.entities.Experiment |
تجربة MLflow المستخدمة لتسجيل التجارب. |
trials |
List[TrialInfo] |
قائمة كائنات معلومات تجريبية تحتوي على معلومات حول جميع الإصدارات التجريبية التي تم تشغيلها. |
best_trial |
TrialInfo |
كائن TrialInfo يحتوي على معلومات حول الإصدار التجريبي الذي أدى إلى أفضل درجة مرجحة للمقياس الأساسي. |
metric_distribution |
str |
توزيع الدرجات المرجحة للمقياس الأساسي عبر جميع التجارب. |
output_table_name |
str |
يستخدم مع التنبؤ فقط وفقط إذا تم توفير output_database. اسم الجدول في output_database يحتوي على تنبؤات النموذج. |
TrialInfo
كائن ملخص لكل إصدار تجريبي فردي.
الخاصية | نوع | الوصف |
---|---|---|
notebook_path |
Optional[str] |
المسار إلى دفتر الملاحظات الذي تم إنشاؤه لهذا الإصدار التجريبي في مساحة العمل. للتصنيف والانحدار، يتم تعيين هذه القيمة فقط للحصول على أفضل تجربة، بينما تم تعيين القيمة لجميع الإصدارات التجريبية الأخرى على None .للتنبؤ، هذه القيمة موجودة لجميع الإصدارات التجريبية. |
notebook_url |
Optional[str] |
عنوان URL لدفتر الملاحظات الذي تم إنشاؤه لهذا الإصدار التجريبي. للتصنيف والانحدار، يتم تعيين هذه القيمة فقط للحصول على أفضل تجربة، بينما تم تعيين القيمة لجميع الإصدارات التجريبية الأخرى على None .للتنبؤ، هذه القيمة موجودة لجميع الإصدارات التجريبية. |
artifact_uri |
Optional[str] |
MLflow artifact URI لدفتر الملاحظات الذي تم إنشاؤه. |
mlflow_run_id |
str |
معرف تشغيل MLflow المقترن بهذا التشغيل التجريبي. |
metrics |
Dict[str, float] |
المقاييس التي تم تسجيلها في MLflow لهذا الإصدار التجريبي. |
params |
Dict[str, str] |
المعلمات التي تم تسجيلها في MLflow التي تم استخدامها لهذا الإصدار التجريبي. |
model_path |
str |
عنوان URL المصطنع MLflow للنموذج المدرب في هذا الإصدار التجريبي. |
model_description |
str |
وصف مختصر للنموذج والمقاييس الفائقة المستخدمة لتدريب هذا النموذج. |
duration |
str |
مدة التدريب بالدقائق. |
preprocessors |
str |
وصف المعالجات المسبقة التي يتم تشغيلها قبل تدريب النموذج. |
evaluation_metric_score |
float |
درجة المقياس الأساسي، التي تم تقييمها لمجموعة بيانات التحقق من الصحة. |
TrialInfo
لديه أسلوب لتحميل النموذج الذي تم إنشاؤه للإصدار التجريبي.
الطريقة | الوصف |
---|---|
load_model() |
قم بتحميل النموذج الذي تم إنشاؤه في هذا الإصدار التجريبي، مسجلا كأداة MLflow. |
ImportNotebookResult
الخاصية | نوع | الوصف |
---|---|---|
path |
str |
المسار في مساحة عمل Databricks حيث يجب استيراد دفتر الملاحظات. يجب أن يكون هذا مسارا مطلقا. سيتم إنشاء الدليل إذا لم يكن موجودا. |
url |
str |
URI الخاص بأداة MLflow التي تحتوي على دفتر الملاحظات التجريبي. |