Azure Databricks AutoML Python API başvurusu
Bu makalede, AutoML çalıştırmalarını sınıflandırmaya, regresyona ve tahmin etmeye yönelik yöntemler sağlayan Azure Databricks AutoML Python API'si açıklanmaktadır. Her yöntem çağrısı bir model kümesi eğitir ve her model için bir deneme not defteri oluşturur.
Düşük kodlu kullanıcı arabirimi seçeneği de dahil olmak üzere AutoML hakkında daha fazla bilgi için bkz . AutoML nedir?.
Sınıflandırma
yöntemi, databricks.automl.classify
sınıflandırma modelini eğitmek için bir AutoML çalıştırması yapılandırıyor.
Not
max_trials
Parametresi Databricks Runtime 10.4 ML'de kullanım dışıdır ve Databricks Runtime 11.0 ML ve üzeri sürümleri için desteklenmez. AutoML çalıştırmasının süresini denetlemek için kullanın timeout_minutes
.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
data_dir: Optional[str] = None,
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
pos_label: Optional[Union[int, bool, str] = None, # <DBR> 11.1 ML and above
primary_metric: str = "f1",
time_col: Optional[str] = None,
timeout_minutes: Optional[int] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
) -> AutoMLSummary
Parametreleri sınıflandırma
Parametre adı | Type | Açıklama |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame , pyspark.sql.DataFrame |
Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame. Tablo adı "<database_name> biçiminde olabilir.<>table_name" veya "<schema_name>.<>Unity Kataloğu olmayan tablolar için table_name". |
target_col |
str |
Hedef etiketin sütun adı. |
data_dir |
str biçim dbfs:/<folder-name> |
isteğe bağlı. Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de çalışan düğümleri tarafından görülebilir. Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir. Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz. |
exclude_cols |
List[str] |
isteğe bağlı. AutoML hesaplamaları sırasında yoksayılan sütunların listesi. Varsayılan: [] |
exclude_frameworks |
List[str] |
isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş liste veya bir veya daha fazla "sklearn", "lightgbm", "xgboost". Varsayılan: [] (tüm çerçeveler dikkate alınır) |
experiment_dir |
str |
isteğe bağlı. Oluşturulan not defterlerini ve denemeleri kaydetmek için çalışma alanında dizinin yolu. Varsayılan: /Users/<username>/databricks_automl/ |
experiment_name |
str |
isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı. Varsayılan: Ad otomatik olarak oluşturulur. |
feature_store_lookups |
List[Dict] |
isteğe bağlı. Veri artırma için Özellik Deposu'ndan özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır: - table_name (str): Gerekli. Özellik tablosunun adı.- lookup_key (liste veya str): Gerekli. Özellik tablosunu parametrede dataset geçirilen verilerle birleştirirken anahtar olarak kullanılacak sütun adları. Sütun adlarının sırası, özellik tablosunun birincil anahtarlarının sırasıyla eşleşmelidir.- timestamp_lookup_key (str): Belirtilen tablo bir zaman serisi özellik tablosuysa gereklidir. Parametrede geçirilen dataset verilerle özellik tablosunda belirli bir noktaya arama gerçekleştirirken kullanılacak sütun adı.Varsayılan: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
isteğe bağlı. Her anahtarın bir sütun adı olduğu ve her değerin imputation stratejisini açıklayan bir dize veya sözlük olduğu sözlük. Dize olarak belirtilirse, değer "ortalama", "ortanca" veya "most_frequent" olmalıdır. Bilinen bir değerle açma/kapatma yapmak için değerini sözlük {"strategy": "constant", "fill_value": <desired value>} olarak belirtin. Dize seçeneklerini sözlük olarak da belirtebilirsiniz, örneğin {"strategy": "mean"} .Bir sütun için herhangi bir imputation stratejisi sağlanmazsa, AutoML sütun türüne ve içeriğine göre varsayılan bir strateji seçer. Varsayılan olmayan bir imputation yöntemi belirtirseniz, AutoML anlamsal tür algılaması gerçekleştirmez. Varsayılan: {} |
max_trials |
int |
isteğe bağlı. Çalıştırılacak en fazla deneme sayısı. Bu parametre Databricks Runtime 10.5 ML ve altında kullanılabilir, ancak Databricks Runtime 10.3 ML'den başlayarak kullanım dışıdır. Databricks Runtime 11.0 ML ve üzerinde bu parametre desteklenmez. Varsayılan: 20 timeout_minutes=Hiçbiri ise AutoML en fazla deneme sayısını çalıştırır. |
pos_label |
Union[int, bool, str] |
(Yalnızca sınıflandırma) Pozitif sınıf. Bu, duyarlık ve geri çekme gibi ölçümleri hesaplamak için kullanışlıdır. Yalnızca ikili sınıflandırma sorunları için belirtilmelidir. |
primary_metric |
str |
Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm. Regresyon için desteklenen ölçümler: "r2" (varsayılan), "mae", "rmse", "mse" Sınıflandırma için desteklenen ölçümler: "f1" (varsayılan), "log_loss", "duyarlık", "doğruluk", "roc_auc" |
split_col |
str |
isteğe bağlı. Bölünmüş sütunun sütun adı. Api iş akışları için yalnızca Databricks Runtime 15.3 ML ve üzerinde kullanılabilir. Sağlanırsa AutoML, eğitmeye/doğrulamaya/test kümelerine kullanıcı tarafından belirtilen değerlere göre bölmeyi dener ve bu sütun otomatik olarak eğitim özelliklerinin dışında tutulur. Kabul edilen sütun türü dizedir. Bu sütundaki her girdinin değeri şunlardan biri olmalıdır: "train", "validate" veya "test". |
time_col |
str |
Databricks Runtime 10.1 ML ve üzerinde kullanılabilir. isteğe bağlı. Saat sütunu için sütun adı. Sağlandıysa AutoML, eğitim verileri olarak en eski noktaları ve test kümesi olarak en son noktaları kullanarak veri kümesini kronolojik olarak eğitim, doğrulama ve test kümelerine bölmeye çalışır. Kabul edilen sütun türleri zaman damgası ve tamsayıdır. Databricks Runtime 10.2 ML ve üzeri ile dize sütunları da desteklenir. Sütun türü dizeyse, AutoML anlam algılamayı kullanarak bunu zaman damgasına dönüştürmeye çalışır. Dönüştürme başarısız olursa AutoML çalıştırması başarısız olur. |
timeout_minutes |
int |
isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar. Varsayılan: 120 dakika En düşük değer: 5 dakika Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir. |
sample_weight_col |
str |
Sınıflandırma API'leri iş akışları için Databricks Runtime 15.4 ML ve üzerinde kullanılabilir. isteğe bağlı. Her satır için örnek ağırlıkları içeren veri kümesindeki sütun adı. Sınıflandırma, sınıf başına örnek ağırlıklarını destekler. Bu ağırlıklar, model eğitimi sırasında her sınıfın önemini ayarlar. Bir sınıftaki her örnek aynı örnek ağırlığına sahip olmalı ve ağırlıklar negatif olmayan ondalık veya tamsayı değerleri olmalıdır ve 0 ile 10.000 arasında olmalıdır. Daha yüksek örnek ağırlıklarına sahip sınıflar daha önemli kabul edilir ve öğrenme algoritması üzerinde daha fazla etkiye sahiptir. Bu sütun belirtilmezse, tüm sınıfların eşit ağırlığa sahip olduğu varsayılır. |
Regresyon
yöntemi, databricks.automl.regress
regresyon modelini eğitmek için bir AutoML çalıştırması yapılandırıyor. Bu yöntem bir AutoMLSummary döndürür.
Not
max_trials
Parametresi Databricks Runtime 10.4 ML'de kullanım dışıdır ve Databricks Runtime 11.0 ML ve üzeri sürümleri için desteklenmez. AutoML çalıştırmasının süresini denetlemek için kullanın timeout_minutes
.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
data_dir: Optional[str] = None,
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
primary_metric: str = "r2",
time_col: Optional[str] = None,
timeout_minutes: Optional[int] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
) -> AutoMLSummary
Regresyon parametreleri
Parametre adı | Type | Açıklama |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame , pyspark.sql.DataFrame |
Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame. Tablo adı "<database_name> biçiminde olabilir.<>table_name" veya "<schema_name>.<>Unity Kataloğu olmayan tablolar için table_name". |
target_col |
str |
Hedef etiketin sütun adı. |
data_dir |
str biçim dbfs:/<folder-name> |
isteğe bağlı. Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de çalışan düğümleri tarafından görülebilir. Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir. Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz. |
exclude_cols |
List[str] |
isteğe bağlı. AutoML hesaplamaları sırasında yoksayılan sütunların listesi. Varsayılan: [] |
exclude_frameworks |
List[str] |
isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş liste veya bir veya daha fazla "sklearn", "lightgbm", "xgboost". Varsayılan: [] (tüm çerçeveler dikkate alınır) |
experiment_dir |
str |
isteğe bağlı. Oluşturulan not defterlerini ve denemeleri kaydetmek için çalışma alanında dizinin yolu. Varsayılan: /Users/<username>/databricks_automl/ |
experiment_name |
str |
isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı. Varsayılan: Ad otomatik olarak oluşturulur. |
feature_store_lookups |
List[Dict] |
isteğe bağlı. Veri artırma için Özellik Deposu'ndan özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır: - table_name (str): Gerekli. Özellik tablosunun adı.- lookup_key (liste veya str): Gerekli. Özellik tablosunu parametrede dataset geçirilen verilerle birleştirirken anahtar olarak kullanılacak sütun adları. Sütun adlarının sırası, özellik tablosunun birincil anahtarlarının sırasıyla eşleşmelidir.- timestamp_lookup_key (str): Belirtilen tablo bir zaman serisi özellik tablosuysa gereklidir. Parametrede geçirilen dataset verilerle özellik tablosunda belirli bir noktaya arama gerçekleştirirken kullanılacak sütun adı.Varsayılan: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
isteğe bağlı. Her anahtarın bir sütun adı olduğu ve her değerin imputation stratejisini açıklayan bir dize veya sözlük olduğu sözlük. Dize olarak belirtilirse, değer "ortalama", "ortanca" veya "most_frequent" olmalıdır. Bilinen bir değerle açma/kapatma yapmak için değerini sözlük {"strategy": "constant", "fill_value": <desired value>} olarak belirtin. Dize seçeneklerini sözlük olarak da belirtebilirsiniz, örneğin {"strategy": "mean"} .Bir sütun için herhangi bir imputation stratejisi sağlanmazsa, AutoML sütun türüne ve içeriğine göre varsayılan bir strateji seçer. Varsayılan olmayan bir imputation yöntemi belirtirseniz, AutoML anlamsal tür algılaması gerçekleştirmez. Varsayılan: {} |
max_trials |
int |
isteğe bağlı. Çalıştırılacak en fazla deneme sayısı. Bu parametre Databricks Runtime 10.5 ML ve altında kullanılabilir, ancak Databricks Runtime 10.3 ML'den başlayarak kullanım dışıdır. Databricks Runtime 11.0 ML ve üzerinde bu parametre desteklenmez. Varsayılan: 20 timeout_minutes=Hiçbiri ise AutoML en fazla deneme sayısını çalıştırır. |
pos_label |
Union[int, bool, str] |
(Yalnızca sınıflandırma) Pozitif sınıf. Bu, duyarlık ve geri çekme gibi ölçümleri hesaplamak için kullanışlıdır. Yalnızca ikili sınıflandırma sorunları için belirtilmelidir. |
primary_metric |
str |
Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm. Regresyon için desteklenen ölçümler: "r2" (varsayılan), "mae", "rmse", "mse" Sınıflandırma için desteklenen ölçümler: "f1" (varsayılan), "log_loss", "duyarlık", "doğruluk", "roc_auc" |
split_col |
str |
isteğe bağlı. Bölünmüş sütunun sütun adı. Api iş akışları için yalnızca Databricks Runtime 15.3 ML ve üzerinde kullanılabilir. Sağlanırsa AutoML, eğitmeye/doğrulamaya/test kümelerine kullanıcı tarafından belirtilen değerlere göre bölmeyi dener ve bu sütun otomatik olarak eğitim özelliklerinin dışında tutulur. Kabul edilen sütun türü dizedir. Bu sütundaki her girdinin değeri şunlardan biri olmalıdır: "train", "validate" veya "test". |
time_col |
str |
Databricks Runtime 10.1 ML ve üzerinde kullanılabilir. isteğe bağlı. Saat sütunu için sütun adı. Sağlandıysa AutoML, eğitim verileri olarak en eski noktaları ve test kümesi olarak en son noktaları kullanarak veri kümesini kronolojik olarak eğitim, doğrulama ve test kümelerine bölmeye çalışır. Kabul edilen sütun türleri zaman damgası ve tamsayıdır. Databricks Runtime 10.2 ML ve üzeri ile dize sütunları da desteklenir. Sütun türü dizeyse, AutoML anlam algılamayı kullanarak bunu zaman damgasına dönüştürmeye çalışır. Dönüştürme başarısız olursa AutoML çalıştırması başarısız olur. |
timeout_minutes |
int |
isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar. Varsayılan: 120 dakika En düşük değer: 5 dakika Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir. |
sample_weight_col |
str |
Databricks Runtime 15.3 ML ve üzerinde regresyon API'leri iş akışları için kullanılabilir. isteğe bağlı. Her satır için örnek ağırlıkları içeren veri kümesindeki sütun adı. Bu ağırlıklar, model eğitimi sırasında her satırın önemini ayarlar. Ağırlıklar, 0 ile 10.000 arasında negatif olmayan ondalık veya tamsayı değerleri olmalıdır. Örnek ağırlıkları daha yüksek olan satırlar daha önemli kabul edilir ve öğrenme algoritması üzerinde daha fazla etkiye sahiptir. Bu sütun belirtilmezse, tüm satırların eşit ağırlığa sahip olduğu varsayılır. |
Tahmin
yöntemi, databricks.automl.forecast
tahmin modelini eğiten bir AutoML çalıştırmasını yapılandırıyor. Bu yöntem bir AutoMLSummary döndürür.
Otomatik ARIMA'yı kullanmak için zaman serisinin düzenli bir sıklığı olmalıdır (diğer bir ifadeyle, iki nokta arasındaki aralık zaman serisi boyunca aynı olmalıdır). Sıklık, API çağrısında belirtilen sıklık birimiyle eşleşmelidir. AutoML, bu değerleri önceki değerle doldurarak eksik zaman adımlarını işler.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
country_code: str = "US", # <DBR> 12.0 ML and above
data_dir: Optional[str] = None,
exclude_frameworks: Optional[List[str]] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
frequency: str = "D",
horizon: int = 1,
identity_col: Optional[Union[str, List[str]]] = None,
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
primary_metric: str = "smape",
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Tahmin parametreleri
Parametre adı | Type | Açıklama |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame , pyspark.sql.DataFrame |
Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame. Tablo adı ".." biçiminde olabilir veya "." Unity Kataloğu olmayan tablolar için |
target_col |
str |
Hedef etiketin sütun adı. |
time_col |
str |
Tahmin için zaman sütununun adı. |
frequency |
str |
Tahmin için zaman serisi sıklığı. Bu, olayların gerçekleşmesinin beklendiği dönemdir. Varsayılan ayar "D" veya günlük verilerdir. Verilerinizin farklı bir sıklığı varsa ayarı değiştirdiğinizden emin olun. Olası değerler: "W" (hafta) "D" / "days" / "day" "hours" / "hour" / "hr" / "h" "m" / "minute" / "min" / "minutes" / "T" "S" / "seconds" / "sec" / "second" Aşağıdakiler yalnızca Databricks Runtime 12.0 ML ve üzeri sürümleriyle kullanılabilir: "M" / "ay" / "aylar" "Q" / "quarter" / "quarters" "Y" / "year" / "years" Varsayılan: "D" |
horizon |
int |
Geleceğe dönük tahminlerin döndürülmesi gereken dönem sayısı. Birimler zaman serisi sıklığıdır. Varsayılan: 1 |
data_dir |
str biçim dbfs:/<folder-name> |
isteğe bağlı. Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de çalışan düğümleri tarafından görülebilir. Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir. Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz. |
exclude_frameworks |
List[str] |
isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş liste veya bir veya daha fazla "kahin", "arima". Varsayılan: [] (tüm çerçeveler dikkate alınır) |
experiment_dir |
str |
isteğe bağlı. Oluşturulan not defterlerini ve denemeleri kaydetmek için çalışma alanında dizinin yolu. Varsayılan: /Users/<username>/databricks_automl/ |
experiment_name |
str |
isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı. Varsayılan: Ad otomatik olarak oluşturulur. |
feature_store_lookups |
List[Dict] |
isteğe bağlı. Birlikte değişken veri artırma için Özellik Deposu'ndan özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır: - table_name (str): Gerekli. Özellik tablosunun adı.- lookup_key (liste veya str): Gerekli. Özellik tablosunu parametrede dataset geçirilen verilerle birleştirirken anahtar olarak kullanılacak sütun adları. Sütun adlarının sırası, özellik tablosunun birincil anahtarlarının sırasıyla eşleşmelidir.- timestamp_lookup_key (str): Belirtilen tablo bir zaman serisi özellik tablosuysa gereklidir. Parametrede geçirilen dataset verilerle özellik tablosunda belirli bir noktaya arama gerçekleştirirken kullanılacak sütun adı.Varsayılan: [] |
identity_col |
Union[str, list] |
isteğe bağlı. Çok serili tahmin için zaman serisini tanımlayan sütun... AutoML, bu sütunlara ve tahmin için zaman sütununa göre gruplandırın. |
output_database |
str |
isteğe bağlı. Sağlandıysa, AutoML en iyi modelin tahminlerini belirtilen veritabanındaki yeni bir tabloya kaydeder. Varsayılan: Tahminler kaydedilmez. |
primary_metric |
str |
Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm. Desteklenen ölçümler: "smape" (varsayılan), "mse", "rmse", "mae" veya "mdape". |
timeout_minutes |
int |
isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar. Varsayılan: 120 dakika En düşük değer: 5 dakika Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir. |
country_code |
str |
Databricks Runtime 12.0 ML ve üzerinde kullanılabilir. Yalnızca Peygamber tahmin modeli tarafından desteklenir. isteğe bağlı. Tahmin modelinin hangi ülkenin tatillerini kullanması gerektiğini gösteren iki harfli ülke kodu. Tatilleri yoksaymak için bu parametreyi boş bir dize ("") olarak ayarlayın. Desteklenen ülkeler. Varsayılan: ABD (Birleşik Devletler tatiller). |
Not defterini içeri aktarma
yöntemi, databricks.automl.import_notebook
MLflow yapıtı olarak kaydedilmiş bir not defterini içeri aktarır. Bu yöntem bir ImportNotebookResult döndürür.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Parametreler | Type | Açıklama |
---|---|---|
artifact_uri |
str |
Deneme not defterini içeren MLflow yapıtı URI'sidir. |
path |
str |
Databricks çalışma alanında not defterinin içeri aktarılması gereken yol. Bu mutlak bir yol olmalıdır. Dizin yoksa oluşturulur. |
overwrite |
bool |
Zaten varsa not defterinin üzerine yazılıp yazılmayacağı. Varsayılan olarak budur False . |
Not defterini içeri aktarma örneği
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Denemelerin her biri için ölçümleri, parametreleri ve diğer ayrıntıları açıklayan bir AutoML çalıştırmasının özet nesnesi. Ayrıca bu nesneyi belirli bir deneme sürümü tarafından eğitilen modeli yüklemek için de kullanırsınız.
Özellik | Türü | Açıklama |
---|---|---|
experiment |
mlflow.entities.Experiment |
Denemeleri günlüğe kaydetmek için kullanılan MLflow denemesi. |
trials |
List[TrialInfo] |
Çalıştırılan tüm denemeler hakkında bilgi içeren TrialInfo nesnelerinin listesi. |
best_trial |
TrialInfo |
Birincil ölçüm için en iyi ağırlıklı puanla sonuçlanan deneme sürümü hakkında bilgi içeren bir TrialInfo nesnesi. |
metric_distribution |
str |
Birincil ölçüm için ağırlıklı puanların tüm denemelerde dağılımı. |
output_table_name |
str |
Yalnızca tahminle ve yalnızca output_database sağlandığında kullanılır. modelin tahminlerini içeren output_database tablosunun adı. |
TrialInfo
Her deneme için özet nesnesi.
Özellik | Türü | Açıklama |
---|---|---|
notebook_path |
Optional[str] |
Çalışma alanında bu deneme sürümü için oluşturulan not defterinin yolu. Sınıflandırma ve regresyon için bu değer yalnızca en iyi deneme için ayarlanırken diğer tüm denemelerde değeri olarak None ayarlanır.Tahmin için bu değer tüm denemelerde bulunur. |
notebook_url |
Optional[str] |
Bu deneme sürümü için oluşturulan not defterinin URL'si. Sınıflandırma ve regresyon için bu değer yalnızca en iyi deneme için ayarlanırken diğer tüm denemelerde değeri olarak None ayarlanır.Tahmin için bu değer tüm denemelerde bulunur. |
artifact_uri |
Optional[str] |
Oluşturulan not defteri için MLflow yapıt URI'si. |
mlflow_run_id |
str |
Bu deneme çalıştırmasıyla ilişkili MLflow çalıştırma kimliği. |
metrics |
Dict[str, float] |
Bu deneme için MLflow'da günlüğe kaydedilen ölçümler. |
params |
Dict[str, str] |
Bu deneme için kullanılan MLflow'da günlüğe kaydedilen parametreler. |
model_path |
str |
Bu deneme sürümünde eğitilen modelin MLflow yapıtı URL'si. |
model_description |
str |
Modelin ve bu modelin eğitimi için kullanılan hiper parametrelerin kısa açıklaması. |
duration |
str |
Dakika cinsinden eğitim süresi. |
preprocessors |
str |
Modeli eğitmeden önce çalıştırılacak ön işlemcilerin açıklaması. |
evaluation_metric_score |
float |
Doğrulama veri kümesi için değerlendirilen birincil ölçümün puanı. |
TrialInfo
deneme sürümü için oluşturulan modeli yüklemek için bir yönteme sahiptir.
Metot | Açıklama |
---|---|
load_model() |
MLflow yapıtı olarak günlüğe kaydedilen bu denemede oluşturulan modeli yükleyin. |
ImportNotebookResult
Özellik | Türü | Açıklama |
---|---|---|
path |
str |
Databricks çalışma alanında not defterinin içeri aktarılması gereken yol. Bu mutlak bir yol olmalıdır. Dizin yoksa oluşturulur. |
url |
str |
Deneme not defterini içeren MLflow yapıtı URI'sidir. |