Referensi API Python Mosaic AutoML
Artikel ini menjelaskan API Python Mosaic AutoML, yang menyediakan metode untuk memulai klasifikasi, regresi, dan prakiraan eksekusi AutoML. Setiap metode memanggil melatih sekumpulan model dan menghasilkan buku catatan percobaan untuk setiap model.
Untuk informasi selengkapnya tentang Mosaic AutoML, termasuk opsi antarmuka pengguna kode rendah, lihat Apa itu Mosaic AutoML?.
Klasifikasikan
Metode ini databricks.automl.classify
mengonfigurasi eksekusi Mosaic AutoML untuk melatih model klasifikasi.
Catatan
Parameter max_trials
tidak digunakan lagi dalam Databricks Runtime 10.4 ML dan tidak didukung di Databricks Runtime 11.0 ML ke atas. Gunakan timeout_minutes
untuk mengontrol durasi menjalankan AutoML.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Mengklasifikasikan parameter
Nama Parameter | Tipe | Deskripsi |
---|---|---|
dataset |
str , , pandas.DataFrame pyspark.DataFrame ,pyspark.sql.DataFrame |
Masukkan nama tabel atau DataFrame yang berisi fitur dan target pelatihan. Nama tabel dapat dalam format "<database_name>.<>table_name" atau "<schema_name>.<>table_name" untuk tabel Katalog non Unity. |
target_col |
str |
Nama kolom untuk label target. |
primary_metric |
str |
Metrik yang digunakan untuk mengevaluasi dan memberi peringkat performa model. Metrik yang didukung untuk regresi: "r2" (default), "mae", "rmse", "mse" Metrik yang didukung untuk klasifikasi: "f1" (default), "log_loss", "presisi", "akurasi", "roc_auc" |
data_dir |
str format dbfs:/<folder-name> |
Opsional. Jalur DBFS yang digunakan untuk menyimpan himpunan data pelatihan. Jalur ini terlihat oleh node driver dan pekerja. Databricks merekomendasikan agar bidang ini kosong, sehingga AutoML dapat menyimpan himpunan data pelatihan sebagai artefak MLflow. Jika jalur kustom ditentukan, himpunan data tidak mewarisi izin akses eksperimen AutoML. |
experiment_dir |
str |
Opsional. Jalur ke direktori di ruang kerja untuk menyimpan buku catatan dan eksperimen yang dihasilkan. Default: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opsional. Nama untuk eksperimen MLflow yang dibuat AutoML. Default: Nama dibuat secara otomatis. |
exclude_cols |
List[str] |
Opsional. Daftar kolom yang akan diabaikan selama perhitungan AutoML. (Default) |
exclude_frameworks |
List[str] |
Opsional. Daftar kerangka kerja algoritma yang tidak boleh dipertimbangkan AutoML saat mengembangkan model. Nilai yang mungkin: daftar kosong, atau satu atau lebih dari "sklearn", "lightgbm", "xgboost". Default: [] (semua kerangka kerja dipertimbangkan) |
feature_store_lookups |
List[Dict] |
Opsional. Daftar kamus yang mewakili fitur dari Penyimpanan Fitur untuk augmentasi data. Kunci yang valid di setiap kamus adalah: - table_name (str): Diperlukan. Nama tabel fitur.- lookup_key (daftar atau str): Diperlukan. Nama kolom yang akan digunakan sebagai kunci saat menggabungkan tabel fitur dengan data yang diteruskan dalam dataset param. Urutan nama kolom harus cocok dengan urutan kunci utama tabel fitur.- timestamp_lookup_key (str): Diperlukan jika tabel yang ditentukan adalah tabel fitur rangkaian waktu. Nama kolom yang akan digunakan saat melakukan pencarian titik waktu pada tabel fitur dengan data yang diteruskan dalam dataset param.(Default) |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Opsional. Kamus di mana setiap kunci adalah nama kolom, dan setiap nilai adalah string atau kamus yang menjelaskan strategi imputasi. Jika ditentukan sebagai untai (karakter), nilai harus salah satu dari "mean", "median", atau "most_frequent". Untuk melakukan impute dengan nilai yang diketahui, tentukan nilai sebagai kamus {"strategy": "constant", "fill_value": <desired value>} . Anda juga dapat menentukan opsi string sebagai kamus, misalnya {"strategy": "mean"} .Jika tidak ada strategi imputasi yang disediakan untuk kolom, AutoML memilih strategi default berdasarkan jenis kolom dan konten. Jika Anda menetapkan metode imputasi non-default, AutoML tidak melakukan deteksi jenis semantik. Default: {} |
pos_label |
Union[int, bool, str] |
(Khusus klasifikasi) Kelas positif. Hal ini berguna untuk menghitung metrik seperti presisi dan pengenalan. Hanya boleh ditentukan untuk masalah klasifikasi biner. |
time_col |
str |
Tersedia untuk Azure Machine Learning Runtime Databricks 10.1 ke atas. Opsional. Nama kolom untuk kolom waktu. Jika disediakan, AutoML mencoba membagi himpunan data menjadi set pelatihan, validasi, dan pengujian secara kronologis, menggunakan poin paling awal sebagai data pelatihan dan poin terbaru sebagai himpunan tes. Jenis kolom yang diterima adalah stempel waktu dan bilangan bulat. Dengan Runtime Databricks 10.2 ML ke atas, kolom untai (karakter) juga didukung. Jika jenis kolom adalah untai (karakter), AutoML mencoba mengonversinya menjadi stempel waktu menggunakan deteksi semantik. Jika konversi gagal, menjalankan AutoML gagal. |
split_col |
str |
Opsional. Nama kolom untuk kolom terpisah. Hanya tersedia di Databricks Runtime 15.3 ML ke atas untuk alur kerja API. Jika disediakan, AutoML mencoba memisahkan rangkaian pelatihan/validasi/pengujian berdasarkan nilai yang ditentukan pengguna, dan kolom ini secara otomatis dikecualikan dari fitur pelatihan. Jenis kolom yang diterima adalah string. Nilai setiap entri dalam kolom ini harus salah satu dari yang berikut: "train", "validate", atau "test". |
sample_weight_col |
str |
Tersedia di Databricks Runtime 15.4 ML ke atas untuk alur kerja API klasifikasi. Opsional. Nama kolom dalam himpunan data yang berisi bobot sampel untuk setiap baris. Klasifikasi mendukung bobot sampel per kelas. Bobot ini menyesuaikan pentingnya setiap kelas selama pelatihan model. Setiap sampel dalam kelas harus memiliki berat dan bobot sampel yang sama harus berupa nilai desimal atau bilangan bulat non-negatif, mulai dari 0 hingga 10.000. Kelas dengan bobot sampel yang lebih tinggi dianggap lebih penting, dan memiliki pengaruh yang lebih besar pada algoritma pembelajaran. Jika kolom ini tidak ditentukan, semua kelas diasumsikan memiliki bobot yang sama. |
max_trials |
int |
Opsional. Jumlah maksimum uji coba yang akan dijalankan. Parameter ini tersedia pada Databricks Runtime 10.5 ML ke bawah, tetapi tidak digunakan lagi mulai dari Databricks Runtime 10.3 ML. Pada Databricks Runtime 11.0 ML ke atas, parameter ini tidak didukung. Default: 20 Jika timeout_minutes=None, AutoML menjalankan jumlah uji coba maksimum. |
timeout_minutes |
int |
Opsional. Waktu maksimum untuk menunggu uji coba AutoML selesai. Batas waktu yang lebih lama memungkinkan AutoML untuk menjalankan lebih banyak uji coba dan mengidentifikasi model dengan akurasi yang lebih baik. Default: 120 menit Nilai minimum: 5 menit Kesalahan dilaporkan jika batas waktu terlalu singkat untuk memungkinkan setidaknya satu percobaan selesai. |
Kemunculan
Metode ini databricks.automl.regress
mengonfigurasi eksekusi AutoML untuk melatih model regresi. Metode ini mengembalikan AutoMLSummary.
Catatan
Parameter max_trials
tidak digunakan lagi dalam Databricks Runtime 10.4 ML dan tidak didukung di Databricks Runtime 11.0 ML ke atas. Gunakan timeout_minutes
untuk mengontrol durasi menjalankan AutoML.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parameter regresi
Nama Parameter | Tipe | Deskripsi |
---|---|---|
dataset |
str , , pandas.DataFrame pyspark.DataFrame ,pyspark.sql.DataFrame |
Masukkan nama tabel atau DataFrame yang berisi fitur dan target pelatihan. Nama tabel dapat dalam format "<database_name>.<>table_name" atau "<schema_name>.<>table_name" untuk tabel Katalog non Unity. |
target_col |
str |
Nama kolom untuk label target. |
primary_metric |
str |
Metrik yang digunakan untuk mengevaluasi dan memberi peringkat performa model. Metrik yang didukung untuk regresi: "r2" (default), "mae", "rmse", "mse" Metrik yang didukung untuk klasifikasi: "f1" (default), "log_loss", "presisi", "akurasi", "roc_auc" |
data_dir |
str format dbfs:/<folder-name> |
Opsional. Jalur DBFS yang digunakan untuk menyimpan himpunan data pelatihan. Jalur ini terlihat oleh node driver dan pekerja. Databricks merekomendasikan agar bidang ini kosong, sehingga AutoML dapat menyimpan himpunan data pelatihan sebagai artefak MLflow. Jika jalur kustom ditentukan, himpunan data tidak mewarisi izin akses eksperimen AutoML. |
experiment_dir |
str |
Opsional. Jalur ke direktori di ruang kerja untuk menyimpan buku catatan dan eksperimen yang dihasilkan. Default: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opsional. Nama untuk eksperimen MLflow yang dibuat AutoML. Default: Nama dibuat secara otomatis. |
exclude_cols |
List[str] |
Opsional. Daftar kolom yang akan diabaikan selama perhitungan AutoML. (Default) |
exclude_frameworks |
List[str] |
Opsional. Daftar kerangka kerja algoritma yang tidak boleh dipertimbangkan AutoML saat mengembangkan model. Nilai yang mungkin: daftar kosong, atau satu atau lebih dari "sklearn", "lightgbm", "xgboost". Default: [] (semua kerangka kerja dipertimbangkan) |
feature_store_lookups |
List[Dict] |
Opsional. Daftar kamus yang mewakili fitur dari Penyimpanan Fitur untuk augmentasi data. Kunci yang valid di setiap kamus adalah: - table_name (str): Diperlukan. Nama tabel fitur.- lookup_key (daftar atau str): Diperlukan. Nama kolom yang akan digunakan sebagai kunci saat menggabungkan tabel fitur dengan data yang diteruskan dalam dataset param. Urutan nama kolom harus cocok dengan urutan kunci utama tabel fitur.- timestamp_lookup_key (str): Diperlukan jika tabel yang ditentukan adalah tabel fitur rangkaian waktu. Nama kolom yang akan digunakan saat melakukan pencarian titik waktu pada tabel fitur dengan data yang diteruskan dalam dataset param.(Default) |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
Opsional. Kamus di mana setiap kunci adalah nama kolom, dan setiap nilai adalah string atau kamus yang menjelaskan strategi imputasi. Jika ditentukan sebagai untai (karakter), nilai harus salah satu dari "mean", "median", atau "most_frequent". Untuk melakukan impute dengan nilai yang diketahui, tentukan nilai sebagai kamus {"strategy": "constant", "fill_value": <desired value>} . Anda juga dapat menentukan opsi string sebagai kamus, misalnya {"strategy": "mean"} .Jika tidak ada strategi imputasi yang disediakan untuk kolom, AutoML memilih strategi default berdasarkan jenis kolom dan konten. Jika Anda menetapkan metode imputasi non-default, AutoML tidak melakukan deteksi jenis semantik. Default: {} |
time_col |
str |
Tersedia untuk Azure Machine Learning Runtime Databricks 10.1 ke atas. Opsional. Nama kolom untuk kolom waktu. Jika disediakan, AutoML mencoba membagi himpunan data menjadi set pelatihan, validasi, dan pengujian secara kronologis, menggunakan poin paling awal sebagai data pelatihan dan poin terbaru sebagai himpunan tes. Jenis kolom yang diterima adalah stempel waktu dan bilangan bulat. Dengan Runtime Databricks 10.2 ML ke atas, kolom untai (karakter) juga didukung. Jika jenis kolom adalah untai (karakter), AutoML mencoba mengonversinya menjadi stempel waktu menggunakan deteksi semantik. Jika konversi gagal, menjalankan AutoML gagal. |
split_col |
str |
Opsional. Nama kolom untuk kolom terpisah. Hanya tersedia di Databricks Runtime 15.3 ML ke atas untuk alur kerja API. Jika disediakan, AutoML mencoba memisahkan rangkaian pelatihan/validasi/pengujian berdasarkan nilai yang ditentukan pengguna, dan kolom ini secara otomatis dikecualikan dari fitur pelatihan. Jenis kolom yang diterima adalah string. Nilai setiap entri dalam kolom ini harus salah satu dari yang berikut: "train", "validate", atau "test". |
sample_weight_col |
str |
Tersedia di Databricks Runtime 15.3 ML ke atas untuk alur kerja API regresi. Opsional. Nama kolom dalam himpunan data yang berisi bobot sampel untuk setiap baris. Bobot ini menyesuaikan pentingnya setiap baris selama pelatihan model. Bobot harus berupa nilai desimal atau bilangan bulat non-negatif, mulai dari 0 hingga 10.000. Baris dengan bobot sampel yang lebih tinggi dianggap lebih penting, dan memiliki pengaruh yang lebih besar pada algoritma pembelajaran. Jika kolom ini tidak ditentukan, semua baris diasumsikan memiliki bobot yang sama. |
max_trials |
int |
Opsional. Jumlah maksimum uji coba yang akan dijalankan. Parameter ini tersedia pada Databricks Runtime 10.5 ML ke bawah, tetapi tidak digunakan lagi mulai dari Databricks Runtime 10.3 ML. Pada Databricks Runtime 11.0 ML ke atas, parameter ini tidak didukung. Default: 20 Jika timeout_minutes=None, AutoML menjalankan jumlah uji coba maksimum. |
timeout_minutes |
int |
Opsional. Waktu maksimum untuk menunggu uji coba AutoML selesai. Batas waktu yang lebih lama memungkinkan AutoML untuk menjalankan lebih banyak uji coba dan mengidentifikasi model dengan akurasi yang lebih baik. Default: 120 menit Nilai minimum: 5 menit Kesalahan dilaporkan jika batas waktu terlalu singkat untuk memungkinkan setidaknya satu percobaan selesai. |
Prakiraan
Metode ini databricks.automl.forecast
mengonfigurasi eksekusi AutoML untuk melatih model prakiraan. Metode ini mengembalikan AutoMLSummary.
Untuk menggunakan Auto-ARIMA, deret waktu harus memiliki frekuensi reguler (yaitu, interval antara dua titik harus sama sepanjang deret waktu). Frekuensi harus cocok dengan unit frekuensi yang ditentukan dalam panggilan API. AutoML menangani langkah-langkah waktu yang hilang dengan mengisi nilai-nilai tersebut dengan nilai sebelumnya.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parameter prakiraan
Nama Parameter | Tipe | Deskripsi |
---|---|---|
dataset |
str , , pandas.DataFrame pyspark.DataFrame ,pyspark.sql.DataFrame |
Masukkan nama tabel atau DataFrame yang berisi fitur dan target pelatihan. Nama tabel dapat dalam format ".." atau "." untuk tabel Katalog non Unity |
target_col |
str |
Nama kolom untuk label target. |
time_col |
str |
Nama kolom waktu untuk prakiraan. |
primary_metric |
str |
Metrik yang digunakan untuk mengevaluasi dan memberi peringkat performa model. Metrik yang didukung: "smape" (default), "mse", "rmse", "mae", atau "mdape". |
country_code |
str |
Tersedia di Databricks Runtime 12.0 ML ke atas. Hanya didukung oleh model prakiraan Nabi. Opsional. Kode negara dua huruf yang menunjukkan hari libur negara mana yang harus digunakan model prakiraan. Untuk mengabaikan hari libur, atur parameter ini ke string kosong (""). Negara yang didukung. Default: AS (Amerika Serikat hari libur). |
frequency |
str |
Frekuensi deret waktu untuk prakiraan. Ini adalah periode di mana peristiwa diperkirakan akan terjadi. Pengaturan defaultnya adalah "D" atau data harian. Pastikan untuk mengubah pengaturan jika data Anda memiliki frekuensi yang berbeda. Nilai yang mungkin: “W” (Minggu) “D” / “hari” / “hari” “jam” / “jam” / “jm” / “j” “m” / “menit” / “min” / “menit” / “T” “S” / “detik” / “dtk” / “detik” Berikut ini hanya tersedia dengan Databricks Runtime 12.0 ML ke atas: "M" / "bulan" / "bulan" "Q" / "quarter" / "quarters" "Y" / "tahun" / "tahun" Default: “D” |
horizon |
int |
Jumlah periode ke depan yang prakiraannya harus dikembalikan. Unitnya adalah frekuensi deret waktu. Default: 1 |
data_dir |
str format dbfs:/<folder-name> |
Opsional. Jalur DBFS yang digunakan untuk menyimpan himpunan data pelatihan. Jalur ini terlihat oleh node driver dan pekerja. Databricks merekomendasikan agar bidang ini kosong, sehingga AutoML dapat menyimpan himpunan data pelatihan sebagai artefak MLflow. Jika jalur kustom ditentukan, himpunan data tidak mewarisi izin akses eksperimen AutoML. |
experiment_dir |
str |
Opsional. Jalur ke direktori di ruang kerja untuk menyimpan buku catatan dan eksperimen yang dihasilkan. Default: /Users/<username>/databricks_automl/ |
experiment_name |
str |
Opsional. Nama untuk eksperimen MLflow yang dibuat AutoML. Default: Nama dibuat secara otomatis. |
exclude_frameworks |
List[str] |
Opsional. Daftar kerangka kerja algoritma yang tidak boleh dipertimbangkan AutoML saat mengembangkan model. Nilai-nilai yang mungkin: daftar kosong, atau satu atau lebih dari “nabi”, “arima”. Default: [] (semua kerangka kerja dipertimbangkan) |
feature_store_lookups |
List[Dict] |
Opsional. Daftar kamus yang mewakili fitur dari Penyimpanan Fitur untuk augmentasi data kovariat. Kunci yang valid di setiap kamus adalah: - table_name (str): Diperlukan. Nama tabel fitur.- lookup_key (daftar atau str): Diperlukan. Nama kolom yang akan digunakan sebagai kunci saat menggabungkan tabel fitur dengan data yang diteruskan dalam dataset param. Urutan nama kolom harus cocok dengan urutan kunci utama tabel fitur.- timestamp_lookup_key (str): Diperlukan jika tabel yang ditentukan adalah tabel fitur rangkaian waktu. Nama kolom yang akan digunakan saat melakukan pencarian titik waktu pada tabel fitur dengan data yang diteruskan dalam dataset param.(Default) |
identity_col |
Union[str, list] |
Opsional. Kolom yang mengidentifikasi rangkaian waktu untuk prakiraan multi-seri. Grup AutoML menurut kolom ini dan kolom waktu untuk prakiraan. |
sample_weight_col |
str |
Tersedia di Databricks Runtime 16.0 ML ke atas. Hanya untuk alur kerja multi-rangkaian waktu. Opsional. Menentukan kolom dalam himpunan data yang berisi bobot sampel. Bobot ini menunjukkan kepentingan relatif dari setiap rangkaian waktu selama pelatihan dan evaluasi model. Rangkaian waktu dengan bobot yang lebih tinggi memiliki pengaruh yang lebih besar pada model. Jika tidak disediakan, semua rangkaian waktu diperlakukan dengan berat yang sama. Semua baris milik rangkaian waktu yang sama harus memiliki bobot yang sama. Bobot harus berupa nilai non-negatif, baik desimal atau bilangan bulat, dan antara 0 dan 10.000. |
output_database |
str |
Opsional. Jika disediakan, AutoML menyimpan prediksi model terbaik ke tabel baru dalam database yang ditentukan. Default: Prediksi tidak disimpan. |
timeout_minutes |
int |
Opsional. Waktu maksimum untuk menunggu uji coba AutoML selesai. Batas waktu yang lebih lama memungkinkan AutoML untuk menjalankan lebih banyak uji coba dan mengidentifikasi model dengan akurasi yang lebih baik. Default: 120 menit Nilai minimum: 5 menit Kesalahan dilaporkan jika batas waktu terlalu singkat untuk memungkinkan setidaknya satu percobaan selesai. |
Mengimpor notebook
Metode databricks.automl.import_notebook
mengimpor buku catatan yang telah disimpan sebagai artefak MLflow. Metode ini mengembalikan ImportNotebookResult.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Parameter | Tipe | Deskripsi |
---|---|---|
artifact_uri |
str |
URI artefak MLflow yang berisi buku catatan percobaan. |
path |
str |
Jalur di ruang kerja Databricks tempat buku catatan harus diimpor. Ini harus menjadi jalur absolut. Direktori akan dibuat jika tidak ada. |
overwrite |
bool |
Apakah akan menimpa buku catatan jika sudah ada. Itu False diatur secara default. |
Contoh impor buku catatan
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Objek ringkasan untuk menjalankan AutoML yang menjelaskan metrik, parameter, dan detail lainnya untuk setiap uji coba. Anda juga menggunakan objek ini untuk memuat model yang dilatih oleh uji coba tertentu.
Properti | Tipe | Deskripsi |
---|---|---|
experiment |
mlflow.entities.Experiment |
Eksperimen MLflow digunakan untuk mencatat uji coba. |
trials |
List[TrialInfo] |
Daftar objek TrialInfo yang berisi informasi tentang semua uji coba yang dijalankan. |
best_trial |
TrialInfo |
Objek TrialInfo yang berisi informasi tentang uji coba yang menghasilkan skor tertimbang terbaik untuk metrik utama. |
metric_distribution |
str |
Distribusi skor tertimbang untuk metrik utama di semua uji coba. |
output_table_name |
str |
Digunakan hanya dengan prakiraan dan hanya jika output_database disediakan. Nama tabel dalam output_database yang berisi prediksi model. |
TrialInfo
Objek ringkasan untuk setiap uji coba individual.
Properti | Tipe | Deskripsi |
---|---|---|
notebook_path |
Optional[str] |
Jalur ke notebook yang dihasilkan untuk uji coba ini di ruang kerja. Untuk klasifikasi dan regresi, nilai ini diatur hanya untuk uji coba terbaik, sementara semua uji coba lainnya memiliki nilai yang diatur ke None .Untuk prakiraan, nilai ini ada untuk semua uji coba. |
notebook_url |
Optional[str] |
URL notebook yang dihasilkan untuk uji coba ini. Untuk klasifikasi dan regresi, nilai ini diatur hanya untuk uji coba terbaik, sementara semua uji coba lainnya memiliki nilai yang diatur ke None .Untuk prakiraan, nilai ini ada untuk semua uji coba. |
artifact_uri |
Optional[str] |
URI artefak MLflow untuk notebook yang dihasilkan. |
mlflow_run_id |
str |
ID run MLflow yang terkait dengan uji coba ini. |
metrics |
Dict[str, float] |
Metrik masuk MLflow untuk uji coba ini. |
params |
Dict[str, str] |
Parameter masuk ke MLflow yang digunakan untuk uji coba ini. |
model_path |
str |
URL artefak MLflow dari model yang dilatih dalam uji coba ini. |
model_description |
str |
Deskripsi singkat tentang model dan hiperparameter yang digunakan untuk melatih model ini. |
duration |
str |
Durasi pelatihan dalam hitungan menit. |
preprocessors |
str |
Deskripsi preprocessors berjalan sebelum melatih model. |
evaluation_metric_score |
float |
Skor metrik utama, dievaluasi untuk himpunan data validasi. |
TrialInfo
memiliki metode untuk memuat model yang dihasilkan untuk uji coba.
Metode | Deskripsi |
---|---|
load_model() |
Muat model yang dihasilkan dalam uji coba ini, dicatat sebagai artefak MLflow. |
ImportNotebookResult
Properti | Tipe | Deskripsi |
---|---|---|
path |
str |
Jalur di ruang kerja Databricks tempat buku catatan harus diimpor. Ini harus menjadi jalur absolut. Direktori akan dibuat jika tidak ada. |
url |
str |
URI artefak MLflow yang berisi buku catatan percobaan. |