Bagikan melalui


Referensi API Python Mosaic AutoML

Artikel ini menjelaskan API Python Mosaic AutoML, yang menyediakan metode untuk memulai klasifikasi, regresi, dan prakiraan eksekusi AutoML. Setiap metode memanggil melatih sekumpulan model dan menghasilkan buku catatan percobaan untuk setiap model.

Untuk informasi selengkapnya tentang Mosaic AutoML, termasuk opsi antarmuka pengguna kode rendah, lihat Apa itu Mosaic AutoML?.

Klasifikasikan

Metode ini databricks.automl.classify mengonfigurasi eksekusi Mosaic AutoML untuk melatih model klasifikasi.

Catatan

Parameter max_trials tidak digunakan lagi dalam Databricks Runtime 10.4 ML dan tidak didukung di Databricks Runtime 11.0 ML ke atas. Gunakan timeout_minutes untuk mengontrol durasi menjalankan AutoML.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Mengklasifikasikan parameter

Nama Parameter Tipe Deskripsi
dataset str, , pandas.DataFramepyspark.DataFrame,pyspark.sql.DataFrame Masukkan nama tabel atau DataFrame yang berisi fitur dan target pelatihan. Nama tabel dapat dalam format "<database_name>.<>table_name" atau "<schema_name>.<>table_name" untuk tabel Katalog non Unity.
target_col str Nama kolom untuk label target.
primary_metric str Metrik yang digunakan untuk mengevaluasi dan memberi peringkat performa model.

Metrik yang didukung untuk regresi: "r2" (default), "mae", "rmse", "mse"

Metrik yang didukung untuk klasifikasi: "f1" (default), "log_loss", "presisi", "akurasi", "roc_auc"
data_dir str format dbfs:/<folder-name> Opsional. Jalur DBFS yang digunakan untuk menyimpan himpunan data pelatihan. Jalur ini terlihat oleh node driver dan pekerja.

Databricks merekomendasikan agar bidang ini kosong, sehingga AutoML dapat menyimpan himpunan data pelatihan sebagai artefak MLflow.

Jika jalur kustom ditentukan, himpunan data tidak mewarisi izin akses eksperimen AutoML.
experiment_dir str Opsional. Jalur ke direktori di ruang kerja untuk menyimpan buku catatan dan eksperimen yang dihasilkan.

Default: /Users/<username>/databricks_automl/
experiment_name str Opsional. Nama untuk eksperimen MLflow yang dibuat AutoML.

Default: Nama dibuat secara otomatis.
exclude_cols List[str] Opsional. Daftar kolom yang akan diabaikan selama perhitungan AutoML.

(Default)
exclude_frameworks List[str] Opsional. Daftar kerangka kerja algoritma yang tidak boleh dipertimbangkan AutoML saat mengembangkan model. Nilai yang mungkin: daftar kosong, atau satu atau lebih dari "sklearn", "lightgbm", "xgboost".

Default: [] (semua kerangka kerja dipertimbangkan)
feature_store_lookups List[Dict] Opsional. Daftar kamus yang mewakili fitur dari Penyimpanan Fitur untuk augmentasi data. Kunci yang valid di setiap kamus adalah:

- table_name (str): Diperlukan. Nama tabel fitur.
- lookup_key (daftar atau str): Diperlukan. Nama kolom yang akan digunakan sebagai kunci saat menggabungkan tabel fitur dengan data yang diteruskan dalam dataset param. Urutan nama kolom harus cocok dengan urutan kunci utama tabel fitur.
- timestamp_lookup_key (str): Diperlukan jika tabel yang ditentukan adalah tabel fitur rangkaian waktu. Nama kolom yang akan digunakan saat melakukan pencarian titik waktu pada tabel fitur dengan data yang diteruskan dalam dataset param.

(Default)
imputers Dict[str, Union[str, Dict[str, Any]]] Opsional. Kamus di mana setiap kunci adalah nama kolom, dan setiap nilai adalah string atau kamus yang menjelaskan strategi imputasi. Jika ditentukan sebagai untai (karakter), nilai harus salah satu dari "mean", "median", atau "most_frequent". Untuk melakukan impute dengan nilai yang diketahui, tentukan nilai sebagai kamus {"strategy": "constant", "fill_value": <desired value>}. Anda juga dapat menentukan opsi string sebagai kamus, misalnya {"strategy": "mean"}.

Jika tidak ada strategi imputasi yang disediakan untuk kolom, AutoML memilih strategi default berdasarkan jenis kolom dan konten. Jika Anda menetapkan metode imputasi non-default, AutoML tidak melakukan deteksi jenis semantik.

Default: {}
pos_label Union[int, bool, str] (Khusus klasifikasi) Kelas positif. Hal ini berguna untuk menghitung metrik seperti presisi dan pengenalan. Hanya boleh ditentukan untuk masalah klasifikasi biner.
time_col str Tersedia untuk Azure Machine Learning Runtime Databricks 10.1 ke atas.

Opsional. Nama kolom untuk kolom waktu.

Jika disediakan, AutoML mencoba membagi himpunan data menjadi set pelatihan, validasi, dan pengujian secara kronologis, menggunakan poin paling awal sebagai data pelatihan dan poin terbaru sebagai himpunan tes.

Jenis kolom yang diterima adalah stempel waktu dan bilangan bulat. Dengan Runtime Databricks 10.2 ML ke atas, kolom untai (karakter) juga didukung.

Jika jenis kolom adalah untai (karakter), AutoML mencoba mengonversinya menjadi stempel waktu menggunakan deteksi semantik. Jika konversi gagal, menjalankan AutoML gagal.
split_col str Opsional. Nama kolom untuk kolom terpisah. Hanya tersedia di Databricks Runtime 15.3 ML ke atas untuk alur kerja API. Jika disediakan, AutoML mencoba memisahkan rangkaian pelatihan/validasi/pengujian berdasarkan nilai yang ditentukan pengguna, dan kolom ini secara otomatis dikecualikan dari fitur pelatihan.

Jenis kolom yang diterima adalah string. Nilai setiap entri dalam kolom ini harus salah satu dari yang berikut: "train", "validate", atau "test".
sample_weight_col str Tersedia di Databricks Runtime 15.4 ML ke atas untuk alur kerja API klasifikasi.

Opsional. Nama kolom dalam himpunan data yang berisi bobot sampel untuk setiap baris. Klasifikasi mendukung bobot sampel per kelas. Bobot ini menyesuaikan pentingnya setiap kelas selama pelatihan model. Setiap sampel dalam kelas harus memiliki berat dan bobot sampel yang sama harus berupa nilai desimal atau bilangan bulat non-negatif, mulai dari 0 hingga 10.000. Kelas dengan bobot sampel yang lebih tinggi dianggap lebih penting, dan memiliki pengaruh yang lebih besar pada algoritma pembelajaran. Jika kolom ini tidak ditentukan, semua kelas diasumsikan memiliki bobot yang sama.
max_trials int Opsional. Jumlah maksimum uji coba yang akan dijalankan. Parameter ini tersedia pada Databricks Runtime 10.5 ML ke bawah, tetapi tidak digunakan lagi mulai dari Databricks Runtime 10.3 ML. Pada Databricks Runtime 11.0 ML ke atas, parameter ini tidak didukung.

Default: 20

Jika timeout_minutes=None, AutoML menjalankan jumlah uji coba maksimum.
timeout_minutes int Opsional. Waktu maksimum untuk menunggu uji coba AutoML selesai. Batas waktu yang lebih lama memungkinkan AutoML untuk menjalankan lebih banyak uji coba dan mengidentifikasi model dengan akurasi yang lebih baik.

Default: 120 menit

Nilai minimum: 5 menit

Kesalahan dilaporkan jika batas waktu terlalu singkat untuk memungkinkan setidaknya satu percobaan selesai.

Kemunculan

Metode ini databricks.automl.regress mengonfigurasi eksekusi AutoML untuk melatih model regresi. Metode ini mengembalikan AutoMLSummary.

Catatan

Parameter max_trials tidak digunakan lagi dalam Databricks Runtime 10.4 ML dan tidak didukung di Databricks Runtime 11.0 ML ke atas. Gunakan timeout_minutes untuk mengontrol durasi menjalankan AutoML.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parameter regresi

Nama Parameter Tipe Deskripsi
dataset str, , pandas.DataFramepyspark.DataFrame,pyspark.sql.DataFrame Masukkan nama tabel atau DataFrame yang berisi fitur dan target pelatihan. Nama tabel dapat dalam format "<database_name>.<>table_name" atau "<schema_name>.<>table_name" untuk tabel Katalog non Unity.
target_col str Nama kolom untuk label target.
primary_metric str Metrik yang digunakan untuk mengevaluasi dan memberi peringkat performa model.

Metrik yang didukung untuk regresi: "r2" (default), "mae", "rmse", "mse"

Metrik yang didukung untuk klasifikasi: "f1" (default), "log_loss", "presisi", "akurasi", "roc_auc"
data_dir str format dbfs:/<folder-name> Opsional. Jalur DBFS yang digunakan untuk menyimpan himpunan data pelatihan. Jalur ini terlihat oleh node driver dan pekerja.

Databricks merekomendasikan agar bidang ini kosong, sehingga AutoML dapat menyimpan himpunan data pelatihan sebagai artefak MLflow.

Jika jalur kustom ditentukan, himpunan data tidak mewarisi izin akses eksperimen AutoML.
experiment_dir str Opsional. Jalur ke direktori di ruang kerja untuk menyimpan buku catatan dan eksperimen yang dihasilkan.

Default: /Users/<username>/databricks_automl/
experiment_name str Opsional. Nama untuk eksperimen MLflow yang dibuat AutoML.

Default: Nama dibuat secara otomatis.
exclude_cols List[str] Opsional. Daftar kolom yang akan diabaikan selama perhitungan AutoML.

(Default)
exclude_frameworks List[str] Opsional. Daftar kerangka kerja algoritma yang tidak boleh dipertimbangkan AutoML saat mengembangkan model. Nilai yang mungkin: daftar kosong, atau satu atau lebih dari "sklearn", "lightgbm", "xgboost".

Default: [] (semua kerangka kerja dipertimbangkan)
feature_store_lookups List[Dict] Opsional. Daftar kamus yang mewakili fitur dari Penyimpanan Fitur untuk augmentasi data. Kunci yang valid di setiap kamus adalah:

- table_name (str): Diperlukan. Nama tabel fitur.
- lookup_key (daftar atau str): Diperlukan. Nama kolom yang akan digunakan sebagai kunci saat menggabungkan tabel fitur dengan data yang diteruskan dalam dataset param. Urutan nama kolom harus cocok dengan urutan kunci utama tabel fitur.
- timestamp_lookup_key (str): Diperlukan jika tabel yang ditentukan adalah tabel fitur rangkaian waktu. Nama kolom yang akan digunakan saat melakukan pencarian titik waktu pada tabel fitur dengan data yang diteruskan dalam dataset param.

(Default)
imputers Dict[str, Union[str, Dict[str, Any]]] Opsional. Kamus di mana setiap kunci adalah nama kolom, dan setiap nilai adalah string atau kamus yang menjelaskan strategi imputasi. Jika ditentukan sebagai untai (karakter), nilai harus salah satu dari "mean", "median", atau "most_frequent". Untuk melakukan impute dengan nilai yang diketahui, tentukan nilai sebagai kamus {"strategy": "constant", "fill_value": <desired value>}. Anda juga dapat menentukan opsi string sebagai kamus, misalnya {"strategy": "mean"}.

Jika tidak ada strategi imputasi yang disediakan untuk kolom, AutoML memilih strategi default berdasarkan jenis kolom dan konten. Jika Anda menetapkan metode imputasi non-default, AutoML tidak melakukan deteksi jenis semantik.

Default: {}
time_col str Tersedia untuk Azure Machine Learning Runtime Databricks 10.1 ke atas.

Opsional. Nama kolom untuk kolom waktu.

Jika disediakan, AutoML mencoba membagi himpunan data menjadi set pelatihan, validasi, dan pengujian secara kronologis, menggunakan poin paling awal sebagai data pelatihan dan poin terbaru sebagai himpunan tes.

Jenis kolom yang diterima adalah stempel waktu dan bilangan bulat. Dengan Runtime Databricks 10.2 ML ke atas, kolom untai (karakter) juga didukung.

Jika jenis kolom adalah untai (karakter), AutoML mencoba mengonversinya menjadi stempel waktu menggunakan deteksi semantik. Jika konversi gagal, menjalankan AutoML gagal.
split_col str Opsional. Nama kolom untuk kolom terpisah. Hanya tersedia di Databricks Runtime 15.3 ML ke atas untuk alur kerja API. Jika disediakan, AutoML mencoba memisahkan rangkaian pelatihan/validasi/pengujian berdasarkan nilai yang ditentukan pengguna, dan kolom ini secara otomatis dikecualikan dari fitur pelatihan.

Jenis kolom yang diterima adalah string. Nilai setiap entri dalam kolom ini harus salah satu dari yang berikut: "train", "validate", atau "test".
sample_weight_col str Tersedia di Databricks Runtime 15.3 ML ke atas untuk alur kerja API regresi.

Opsional. Nama kolom dalam himpunan data yang berisi bobot sampel untuk setiap baris. Bobot ini menyesuaikan pentingnya setiap baris selama pelatihan model. Bobot harus berupa nilai desimal atau bilangan bulat non-negatif, mulai dari 0 hingga 10.000. Baris dengan bobot sampel yang lebih tinggi dianggap lebih penting, dan memiliki pengaruh yang lebih besar pada algoritma pembelajaran. Jika kolom ini tidak ditentukan, semua baris diasumsikan memiliki bobot yang sama.
max_trials int Opsional. Jumlah maksimum uji coba yang akan dijalankan. Parameter ini tersedia pada Databricks Runtime 10.5 ML ke bawah, tetapi tidak digunakan lagi mulai dari Databricks Runtime 10.3 ML. Pada Databricks Runtime 11.0 ML ke atas, parameter ini tidak didukung.

Default: 20

Jika timeout_minutes=None, AutoML menjalankan jumlah uji coba maksimum.
timeout_minutes int Opsional. Waktu maksimum untuk menunggu uji coba AutoML selesai. Batas waktu yang lebih lama memungkinkan AutoML untuk menjalankan lebih banyak uji coba dan mengidentifikasi model dengan akurasi yang lebih baik.

Default: 120 menit

Nilai minimum: 5 menit

Kesalahan dilaporkan jika batas waktu terlalu singkat untuk memungkinkan setidaknya satu percobaan selesai.

Prakiraan

Metode ini databricks.automl.forecast mengonfigurasi eksekusi AutoML untuk melatih model prakiraan. Metode ini mengembalikan AutoMLSummary. Untuk menggunakan Auto-ARIMA, deret waktu harus memiliki frekuensi reguler (yaitu, interval antara dua titik harus sama sepanjang deret waktu). Frekuensi harus cocok dengan unit frekuensi yang ditentukan dalam panggilan API. AutoML menangani langkah-langkah waktu yang hilang dengan mengisi nilai-nilai tersebut dengan nilai sebelumnya.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parameter prakiraan

Nama Parameter Tipe Deskripsi
dataset str, , pandas.DataFramepyspark.DataFrame,pyspark.sql.DataFrame Masukkan nama tabel atau DataFrame yang berisi fitur dan target pelatihan.

Nama tabel dapat dalam format ".." atau "." untuk tabel Katalog non Unity
target_col str Nama kolom untuk label target.
time_col str Nama kolom waktu untuk prakiraan.
primary_metric str Metrik yang digunakan untuk mengevaluasi dan memberi peringkat performa model.

Metrik yang didukung: "smape" (default), "mse", "rmse", "mae", atau "mdape".
country_code str Tersedia di Databricks Runtime 12.0 ML ke atas. Hanya didukung oleh model prakiraan Nabi.

Opsional. Kode negara dua huruf yang menunjukkan hari libur negara mana yang harus digunakan model prakiraan. Untuk mengabaikan hari libur, atur parameter ini ke string kosong ("").

Negara yang didukung.

Default: AS (Amerika Serikat hari libur).
frequency str Frekuensi deret waktu untuk prakiraan. Ini adalah periode di mana peristiwa diperkirakan akan terjadi. Pengaturan defaultnya adalah "D" atau data harian. Pastikan untuk mengubah pengaturan jika data Anda memiliki frekuensi yang berbeda.

Nilai yang mungkin:

“W” (Minggu)

“D” / “hari” / “hari”

“jam” / “jam” / “jm” / “j”

“m” / “menit” / “min” / “menit” / “T”

“S” / “detik” / “dtk” / “detik”

Berikut ini hanya tersedia dengan Databricks Runtime 12.0 ML ke atas:

"M" / "bulan" / "bulan"

"Q" / "quarter" / "quarters"

"Y" / "tahun" / "tahun"

Default: “D”
horizon int Jumlah periode ke depan yang prakiraannya harus dikembalikan.

Unitnya adalah frekuensi deret waktu.

Default: 1
data_dir str format dbfs:/<folder-name> Opsional. Jalur DBFS yang digunakan untuk menyimpan himpunan data pelatihan. Jalur ini terlihat oleh node driver dan pekerja.

Databricks merekomendasikan agar bidang ini kosong, sehingga AutoML dapat menyimpan himpunan data pelatihan sebagai artefak MLflow.

Jika jalur kustom ditentukan, himpunan data tidak mewarisi izin akses eksperimen AutoML.
experiment_dir str Opsional. Jalur ke direktori di ruang kerja untuk menyimpan buku catatan dan eksperimen yang dihasilkan.

Default: /Users/<username>/databricks_automl/
experiment_name str Opsional. Nama untuk eksperimen MLflow yang dibuat AutoML.

Default: Nama dibuat secara otomatis.
exclude_frameworks List[str] Opsional. Daftar kerangka kerja algoritma yang tidak boleh dipertimbangkan AutoML saat mengembangkan model. Nilai-nilai yang mungkin: daftar kosong, atau satu atau lebih dari “nabi”, “arima”.

Default: [] (semua kerangka kerja dipertimbangkan)
feature_store_lookups List[Dict] Opsional. Daftar kamus yang mewakili fitur dari Penyimpanan Fitur untuk augmentasi data kovariat. Kunci yang valid di setiap kamus adalah:

- table_name (str): Diperlukan. Nama tabel fitur.
- lookup_key (daftar atau str): Diperlukan. Nama kolom yang akan digunakan sebagai kunci saat menggabungkan tabel fitur dengan data yang diteruskan dalam dataset param. Urutan nama kolom harus cocok dengan urutan kunci utama tabel fitur.
- timestamp_lookup_key (str): Diperlukan jika tabel yang ditentukan adalah tabel fitur rangkaian waktu. Nama kolom yang akan digunakan saat melakukan pencarian titik waktu pada tabel fitur dengan data yang diteruskan dalam dataset param.

(Default)
identity_col Union[str, list] Opsional. Kolom yang mengidentifikasi rangkaian waktu untuk prakiraan multi-seri. Grup AutoML menurut kolom ini dan kolom waktu untuk prakiraan.
sample_weight_col str Tersedia di Databricks Runtime 16.0 ML ke atas. Hanya untuk alur kerja multi-rangkaian waktu.

Opsional. Menentukan kolom dalam himpunan data yang berisi bobot sampel. Bobot ini menunjukkan kepentingan relatif dari setiap rangkaian waktu selama pelatihan dan evaluasi model.

Rangkaian waktu dengan bobot yang lebih tinggi memiliki pengaruh yang lebih besar pada model. Jika tidak disediakan, semua rangkaian waktu diperlakukan dengan berat yang sama.

Semua baris milik rangkaian waktu yang sama harus memiliki bobot yang sama.

Bobot harus berupa nilai non-negatif, baik desimal atau bilangan bulat, dan antara 0 dan 10.000.
output_database str Opsional. Jika disediakan, AutoML menyimpan prediksi model terbaik ke tabel baru dalam database yang ditentukan.

Default: Prediksi tidak disimpan.
timeout_minutes int Opsional. Waktu maksimum untuk menunggu uji coba AutoML selesai. Batas waktu yang lebih lama memungkinkan AutoML untuk menjalankan lebih banyak uji coba dan mengidentifikasi model dengan akurasi yang lebih baik.

Default: 120 menit

Nilai minimum: 5 menit

Kesalahan dilaporkan jika batas waktu terlalu singkat untuk memungkinkan setidaknya satu percobaan selesai.

Mengimpor notebook

Metode databricks.automl.import_notebook mengimpor buku catatan yang telah disimpan sebagai artefak MLflow. Metode ini mengembalikan ImportNotebookResult.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Parameter Tipe Deskripsi
artifact_uri str URI artefak MLflow yang berisi buku catatan percobaan.
path str Jalur di ruang kerja Databricks tempat buku catatan harus diimpor. Ini harus menjadi jalur absolut. Direktori akan dibuat jika tidak ada.
overwrite bool Apakah akan menimpa buku catatan jika sudah ada. Itu False diatur secara default.

Contoh impor buku catatan

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Objek ringkasan untuk menjalankan AutoML yang menjelaskan metrik, parameter, dan detail lainnya untuk setiap uji coba. Anda juga menggunakan objek ini untuk memuat model yang dilatih oleh uji coba tertentu.

Properti Tipe Deskripsi
experiment mlflow.entities.Experiment Eksperimen MLflow digunakan untuk mencatat uji coba.
trials List[TrialInfo] Daftar objek TrialInfo yang berisi informasi tentang semua uji coba yang dijalankan.
best_trial TrialInfo Objek TrialInfo yang berisi informasi tentang uji coba yang menghasilkan skor tertimbang terbaik untuk metrik utama.
metric_distribution str Distribusi skor tertimbang untuk metrik utama di semua uji coba.
output_table_name str Digunakan hanya dengan prakiraan dan hanya jika output_database disediakan.

Nama tabel dalam output_database yang berisi prediksi model.

TrialInfo

Objek ringkasan untuk setiap uji coba individual.

Properti Tipe Deskripsi
notebook_path Optional[str] Jalur ke notebook yang dihasilkan untuk uji coba ini di ruang kerja.

Untuk klasifikasi dan regresi, nilai ini diatur hanya untuk uji coba terbaik, sementara semua uji coba lainnya memiliki nilai yang diatur ke None.

Untuk prakiraan, nilai ini ada untuk semua uji coba.
notebook_url Optional[str] URL notebook yang dihasilkan untuk uji coba ini.

Untuk klasifikasi dan regresi, nilai ini diatur hanya untuk uji coba terbaik, sementara semua uji coba lainnya memiliki nilai yang diatur ke None.

Untuk prakiraan, nilai ini ada untuk semua uji coba.
artifact_uri Optional[str] URI artefak MLflow untuk notebook yang dihasilkan.
mlflow_run_id str ID run MLflow yang terkait dengan uji coba ini.
metrics Dict[str, float] Metrik masuk MLflow untuk uji coba ini.
params Dict[str, str] Parameter masuk ke MLflow yang digunakan untuk uji coba ini.
model_path str URL artefak MLflow dari model yang dilatih dalam uji coba ini.
model_description str Deskripsi singkat tentang model dan hiperparameter yang digunakan untuk melatih model ini.
duration str Durasi pelatihan dalam hitungan menit.
preprocessors str Deskripsi preprocessors berjalan sebelum melatih model.
evaluation_metric_score float Skor metrik utama, dievaluasi untuk himpunan data validasi.

TrialInfo memiliki metode untuk memuat model yang dihasilkan untuk uji coba.

Metode Deskripsi
load_model() Muat model yang dihasilkan dalam uji coba ini, dicatat sebagai artefak MLflow.

ImportNotebookResult

Properti Tipe Deskripsi
path str Jalur di ruang kerja Databricks tempat buku catatan harus diimpor. Ini harus menjadi jalur absolut. Direktori akan dibuat jika tidak ada.
url str URI artefak MLflow yang berisi buku catatan percobaan.