Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede, AutoML çalıştırmalarını sınıflandırmaya, regresyona ve tahmin etmeye yönelik yöntemler sağlayan AutoML Python API'si açıklanmaktadır. Her yöntem çağrısı bir model kümesi eğitir ve her model için bir deneme not defteri oluşturur.
Düşük kodlu kullanıcı arabirimi seçeneği de dahil olmak üzere AutoML hakkında daha fazla bilgi için bkz . AutoML nedir?.
Sınıflandırma
databricks.automl.classify
yöntemi, bir sınıflandırma modeli eğitmek için bir AutoML çalıştırmasını yapılandırır.
Not
max_trials
Parametresi Databricks Runtime 10.4 ML'de kullanım dışıdır ve Databricks Runtime 11.0 ML ve üzeri sürümleri için desteklenmez. AutoML çalıştırmasının süresini denetlemek için kullanın timeout_minutes
.
databricks.automl.classify(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "f1",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
pos_label: Optional[Union[int, bool, str]] = None, # <DBR> 11.1 ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None # <DBR> 15.4 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Parametreleri sınıflandırma
Parametre adı | Tür / Tip | Açıklama |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame , pyspark.sql.DataFrame |
Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame. Tablo adı "<database_name> biçiminde olabilir.<>table_name" veya "<schema_name>.<>Unity Kataloğu olmayan tablolar için table_name". |
target_col |
str |
Hedef etiketin sütun adı. |
primary_metric |
str |
Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm. Regresyon için desteklenen ölçümler: "r2" (varsayılan), "mae", "rmse", "mse" Sınıflandırma için desteklenen ölçümler: "f1" (varsayılan), "log_loss", "duyarlık", "doğruluk", "roc_auc" |
data_dir |
str formatı dbfs:/<folder-name> |
isteğe bağlı.
Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de işçi düğümleri için görülebilir. Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir. Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz. |
experiment_dir |
str |
isteğe bağlı. Not defterlerinin ve deneylerin kaydedileceği çalışma alanındaki dizinin yolu. Gruba atanmış bir işlem kaynağı kullanıyorsanız, bunu grubun yazma iznine sahip olduğu bir klasör olarak ayarlayın. Varsayılan: /Users/<username>/databricks_automl/ |
experiment_name |
str |
isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı. Varsayılan: Ad otomatik olarak oluşturulur. |
exclude_cols |
List[str] |
isteğe bağlı. AutoML hesaplamaları sırasında görmezden gelinen sütunların listesi. Varsayılan: [] |
exclude_frameworks |
List[str] |
isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş bir liste veya "sklearn", "lightgbm", "xgboost" gibi bir veya daha fazlası. Varsayılan: [] (tüm çerçeveler dikkate alınır) |
feature_store_lookups |
List[Dict] |
isteğe bağlı. Veri artırma için Özellik Deposu'ndan özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır:
Varsayılan: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
isteğe bağlı. Her bir anahtarın sütun adı olduğu ve her bir değerin tahmin stratejisini açıklayan bir string veya tanım olduğu sözlük. Dize olarak belirtilirse, değer "ortalama", "ortanca" veya "most_frequent" olmalıdır. Bilinen bir değeri atamak için, değeri bir sözlük {"strategy": "constant", "fill_value": <desired value>} olarak belirtin. Dize seçeneklerini sözlük olarak da belirtebilirsiniz, örneğin {"strategy": "mean"} .Bir sütun için herhangi bir imputation stratejisi sağlanmazsa, AutoML sütun türüne ve içeriğine göre varsayılan bir strateji seçer. Varsayılan olmayan bir imputation yöntemi belirtirseniz, AutoML anlamsal tür algılaması gerçekleştirmez. Varsayılan: {} |
pos_label |
Union[int, bool, str] |
(Yalnızca sınıflandırma) Pozitif sınıf. Bu, duyarlık ve geri çekme gibi ölçümleri hesaplamak için kullanışlıdır. Yalnızca ikili sınıflandırma sorunları için belirtilmelidir. |
time_col |
str |
Databricks Runtime 10.1 ML ve üzerinde kullanılabilir. isteğe bağlı. Saat sütunu için sütun adı. Sağlandıysa AutoML, eğitim verileri olarak en eski noktaları ve test kümesi olarak en son noktaları kullanarak veri kümesini kronolojik olarak eğitim, doğrulama ve test kümelerine bölmeye çalışır. Kabul edilen sütun türleri zaman damgası ve tamsayıdır. Databricks Runtime 10.2 ML ve üzeri ile dize sütunları da desteklenir. Sütun türü dizeyse, AutoML anlam algılamayı kullanarak bunu zaman damgasına dönüştürmeye çalışır. Dönüştürme başarısız olursa AutoML çalıştırması başarısız olur. |
split_col |
str |
isteğe bağlı. Bölünmüş sütun için sütun adı. Api iş akışları için yalnızca Databricks Runtime 15.3 ML ve üzerinde kullanılabilir. Sağlanırsa AutoML, eğitmeye/doğrulamaya/test kümelerine kullanıcı tarafından belirtilen değerlere göre bölmeyi dener ve bu sütun otomatik olarak eğitim özelliklerinin dışında tutulur. Kabul edilen sütun türü dizedir. Bu sütundaki her girdinin değeri şunlardan biri olmalıdır: "train", "validate" veya "test". |
sample_weight_col |
str |
Sınıflandırma API'leri iş akışları için Databricks Runtime 15.4 ML ve üzerinde kullanılabilir. isteğe bağlı. Her satır için örnek ağırlıkları içeren veri kümesindeki sütun adı. Sınıflandırma, sınıf başına örnek ağırlıklarını destekler. Bu ağırlıklar, model eğitimi sırasında her sınıfın önemini ayarlar. Bir sınıftaki her örnek aynı örnek ağırlığına sahip olmalı ve ağırlıklar negatif olmayan ondalık veya tamsayı değerleri olmalıdır ve 0 ile 10.000 arasında olmalıdır. Daha yüksek örnek ağırlıklarına sahip sınıflar daha önemli kabul edilir ve öğrenme algoritması üzerinde daha fazla etkiye sahiptir. Bu sütun belirtilmezse, tüm sınıfların eşit ağırlığa sahip olduğu varsayılır. |
max_trials |
int |
isteğe bağlı. Çalıştırılacak en fazla deneme sayısı. Bu parametre Databricks Runtime 10.5 ML ve altında kullanılabilir, ancak Databricks Runtime 10.3 ML'den başlayarak kullanım dışıdır. Databricks Runtime 11.0 ML ve üzerinde bu parametre desteklenmez. Varsayılan: 20 timeout_minutes=None olduğunda, AutoML en fazla deneme sayısını gerçekleştirir. |
timeout_minutes |
int |
isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar. Varsayılan: 120 dakika En düşük değer: 5 dakika Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir. |
Regresyon
Bu databricks.automl.regress
yöntemi, regresyon modelini eğitmek için bir AutoML çalışmasını yapılandırır. Bu yöntem bir AutoMLSummary döndürür.
Not
max_trials
Parametresi Databricks Runtime 10.4 ML'de kullanım dışıdır ve Databricks Runtime 11.0 ML ve üzeri sürümleri için desteklenmez. AutoML çalıştırmasının süresini denetlemek için kullanın timeout_minutes
.
databricks.automl.regress(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
primary_metric: str = "r2",
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None, # <DBR> 10.4 LTS ML and above
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_cols: Optional[List[str]] = None, # <DBR> 10.3 ML and above
exclude_frameworks: Optional[List[str]] = None, # <DBR> 10.3 ML and above
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 11.3 LTS ML and above
imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
time_col: Optional[str] = None,
split_col: Optional[str] = None, # <DBR> 15.3 ML and above
sample_weight_col: Optional[str] = None, # <DBR> 15.3 ML and above
max_trials: Optional[int] = None, # <DBR> 10.5 ML and below
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Regresyon parametreleri
Parametre adı | Tür / Tip | Açıklama |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame , pyspark.sql.DataFrame |
Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame. Tablo adı "<database_name> biçiminde olabilir.<>table_name" veya "<schema_name>.<>Unity Kataloğu olmayan tablolar için table_name". |
target_col |
str |
Hedef etiketin sütun adı. |
primary_metric |
str |
Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm. Regresyon için desteklenen ölçümler: "r2" (varsayılan), "mae", "rmse", "mse" Sınıflandırma için desteklenen ölçümler: "f1" (varsayılan), "log_loss", "duyarlık", "doğruluk", "roc_auc" |
data_dir |
str formatı dbfs:/<folder-name> |
isteğe bağlı.
Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de işçi düğümleri için görülebilir. Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir. Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz. |
experiment_dir |
str |
isteğe bağlı. Not defterlerinin ve deneylerin kaydedileceği çalışma alanındaki dizinin yolu. Varsayılan: /Users/<username>/databricks_automl/ |
experiment_name |
str |
isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı. Varsayılan: Ad otomatik olarak oluşturulur. |
exclude_cols |
List[str] |
isteğe bağlı. AutoML hesaplamaları sırasında görmezden gelinen sütunların listesi. Varsayılan: [] |
exclude_frameworks |
List[str] |
isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş bir liste veya "sklearn", "lightgbm", "xgboost" gibi bir veya daha fazlası. Varsayılan: [] (tüm çerçeveler dikkate alınır) |
feature_store_lookups |
List[Dict] |
isteğe bağlı. Veri artırma için Özellik Deposu'ndan özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır:
Varsayılan: [] |
imputers |
Dict[str, Union[str, Dict[str, Any]]] |
isteğe bağlı. Her bir anahtarın sütun adı olduğu ve her bir değerin tahmin stratejisini açıklayan bir string veya tanım olduğu sözlük. Dize olarak belirtilirse, değer "ortalama", "ortanca" veya "most_frequent" olmalıdır. Bilinen bir değeri atamak için, değeri bir sözlük {"strategy": "constant", "fill_value": <desired value>} olarak belirtin. Dize seçeneklerini sözlük olarak da belirtebilirsiniz, örneğin {"strategy": "mean"} .Bir sütun için herhangi bir imputation stratejisi sağlanmazsa, AutoML sütun türüne ve içeriğine göre varsayılan bir strateji seçer. Varsayılan olmayan bir imputation yöntemi belirtirseniz, AutoML anlamsal tür algılaması gerçekleştirmez. Varsayılan: {} |
time_col |
str |
Databricks Runtime 10.1 ML ve üzerinde kullanılabilir. isteğe bağlı. Saat sütunu için sütun adı. Sağlandıysa AutoML, eğitim verileri olarak en eski noktaları ve test kümesi olarak en son noktaları kullanarak veri kümesini kronolojik olarak eğitim, doğrulama ve test kümelerine bölmeye çalışır. Kabul edilen sütun türleri zaman damgası ve tamsayıdır. Databricks Runtime 10.2 ML ve üzeri ile dize sütunları da desteklenir. Sütun türü dizeyse, AutoML anlam algılamayı kullanarak bunu zaman damgasına dönüştürmeye çalışır. Dönüştürme başarısız olursa AutoML çalıştırması başarısız olur. |
split_col |
str |
isteğe bağlı. Bölünmüş sütun için sütun adı. Api iş akışları için yalnızca Databricks Runtime 15.3 ML ve üzerinde kullanılabilir. Sağlanırsa AutoML, eğitmeye/doğrulamaya/test kümelerine kullanıcı tarafından belirtilen değerlere göre bölmeyi dener ve bu sütun otomatik olarak eğitim özelliklerinin dışında tutulur. Kabul edilen sütun türü dizedir. Bu sütundaki her girdinin değeri şunlardan biri olmalıdır: "train", "validate" veya "test". |
sample_weight_col |
str |
Databricks Runtime 15.3 ML ve üzerinde regresyon API'leri iş akışları için kullanılabilir. isteğe bağlı. Her satır için örnek ağırlıkları içeren veri kümesindeki sütun adı. Bu ağırlıklar, model eğitimi sırasında her satırın önemini ayarlar. Ağırlıklar, 0 ile 10.000 arasında negatif olmayan ondalık veya tamsayı değerleri olmalıdır. Örnek ağırlıkları daha yüksek olan satırlar daha önemli kabul edilir ve öğrenme algoritması üzerinde daha fazla etkiye sahiptir. Bu sütun belirtilmezse, tüm satırların eşit ağırlığa sahip olduğu varsayılır. |
max_trials |
int |
isteğe bağlı. Çalıştırılacak en fazla deneme sayısı. Bu parametre Databricks Runtime 10.5 ML ve altında kullanılabilir, ancak Databricks Runtime 10.3 ML'den başlayarak kullanım dışıdır. Databricks Runtime 11.0 ML ve üzerinde bu parametre desteklenmez. Varsayılan: 20 timeout_minutes=None olduğunda, AutoML en fazla deneme sayısını gerçekleştirir. |
timeout_minutes |
int |
isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar. Varsayılan: 120 dakika En düşük değer: 5 dakika Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir. |
Tahmin
databricks.automl.forecast
yöntemi, bir tahmin modelini eğitmek için bir AutoML çalıştırmasını yapılandırır. Bu yöntem bir AutoMLSummary döndürür.
Otomatik ARIMA'yı kullanmak için zaman serisinin düzenli bir sıklığı olmalıdır (diğer bir ifadeyle, iki nokta arasındaki aralık zaman serisi boyunca aynı olmalıdır). Sıklık, API çağrısında belirtilen sıklık birimiyle eşleşmelidir. AutoML, bu değerleri önceki değerle doldurarak eksik zaman adımlarını işler.
databricks.automl.forecast(
dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
*,
target_col: str,
time_col: str,
primary_metric: str = "smape",
country_code: str = "US", # <DBR> 12.0 ML and above
frequency: str = "D",
horizon: int = 1,
data_dir: Optional[str] = None,
experiment_dir: Optional[str] = None,
experiment_name: Optional[str] = None, # <DBR> 12.1 ML and above
exclude_frameworks: Optional[List[str]] = None,
feature_store_lookups: Optional[List[Dict]] = None, # <DBR> 12.2 LTS ML and above
identity_col: Optional[Union[str, List[str]]] = None,
sample_weight_col: Optional[str] = None, # <DBR> 16.0 ML and above
output_database: Optional[str] = None, # <DBR> 10.5 ML and above
timeout_minutes: Optional[int] = None,
) -> AutoMLSummary
Tahmin parametreleri
Parametre adı | Tür / Tip | Açıklama |
---|---|---|
dataset |
str , pandas.DataFrame , pyspark.DataFrame , pyspark.sql.DataFrame |
Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame. Tablo adı ".." biçiminde olabilir veya "." Unity Kataloğu olmayan tablolar için |
target_col |
str |
Hedef etiketin sütun adı. |
time_col |
str |
Tahmin için zaman sütununun adı. |
primary_metric |
str |
Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm. Desteklenen ölçümler: "smape" (varsayılan), "mse", "rmse", "mae" veya "mdape". |
country_code |
str |
Databricks Runtime 12.0 ML ve üzerinde kullanılabilir. Yalnızca Prophet tahmin modeli tarafından desteklenir. isteğe bağlı. Tahmin modelinin hangi ülkenin tatillerini kullanması gerektiğini gösteren iki harfli ülke kodu. Tatilleri yoksaymak için bu parametreyi boş bir metin ("") olarak ayarlayın. Desteklenen ülkeler. Varsayılan: ABD (Birleşik Devletler tatiller). |
frequency |
str |
Tahmin için zaman serisi sıklığı. Bu, olayların gerçekleşmesinin beklendiği dönemdir. Varsayılan ayar "D" veya günlük verilerdir. Verilerinizin farklı bir sıklığı varsa ayarı değiştirdiğinizden emin olun. Olası değerler: "W" (haftalar) "D" / "günler" / "gün" "saatler" / "saat" / "sa" / "s" "m" / "dakika" / "dk" / "dakikalar" / "T" "S" / "saniye" / "sn" / "saniye" Aşağıdakiler yalnızca Databricks Runtime 12.0 ML ve üzeri sürümleriyle kullanılabilir: "M" / "ay" / "aylar" "Q" / "çeyrek" / "çeyrekler" "Y" / "yıl" / "yıllar" Varsayılan: "D" |
horizon |
int |
Geleceğe dönük tahminlerin sunulacağı dönem sayısı. Birimler zaman serisi sıklığıdır. Varsayılan: 1 |
data_dir |
str formatı dbfs:/<folder-name> |
isteğe bağlı.
Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de işçi düğümleri için görülebilir. Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir. Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz. |
experiment_dir |
str |
isteğe bağlı. Not defterlerinin ve deneylerin kaydedileceği çalışma alanındaki dizinin yolu. Varsayılan: /Users/<username>/databricks_automl/ |
experiment_name |
str |
isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı. Varsayılan: Ad otomatik olarak oluşturulur. |
exclude_frameworks |
List[str] |
isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş bir liste veya "kahin", "arima" gibi bir ya da daha fazla öğe. Varsayılan: [] (tüm çerçeveler dikkate alınır) |
feature_store_lookups |
List[Dict] |
isteğe bağlı. Özellik Deposu'ndan kovaryant veri artırma için özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır:
Varsayılan: [] |
identity_col |
Union[str, list] |
isteğe bağlı. Çok serili tahmin için zaman serisini tanımlayan sütun... AutoML, tahmin için bu sütunlar ve zaman sütunu ile gruplandırır. |
sample_weight_col |
str |
Databricks Runtime 16.0 ML ve üzerinde kullanılabilir. Yalnızca çoklu zaman serisi iş akışları için. isteğe bağlı. Veri kümesindeki örnek ağırlıkları içeren sütunu belirtir. Bu ağırlıklar, model eğitimi ve değerlendirmesi sırasında her zaman serisinin göreli önemini gösterir. Daha yüksek ağırlıklara sahip zaman serisi model üzerinde daha fazla etkiye sahiptir. Sağlanmazsa, tüm zaman serileri eşit ağırlıkla ele alınır. Aynı zaman serisine ait tüm satırlar aynı ağırlığa sahip olmalıdır. Ağırlıklar negatif olmayan değerler( ondalıklar veya tamsayılar) ve 0 ile 10.000 arasında olmalıdır. |
output_database |
str |
isteğe bağlı. Sağlandıysa, AutoML en iyi modelin tahminlerini belirtilen veritabanındaki yeni bir tabloya kaydeder. Varsayılan: Tahminler kaydedilmez. |
timeout_minutes |
int |
isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar. Varsayılan: 120 dakika En düşük değer: 5 dakika Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir. |
Not defterini içeri aktarma
databricks.automl.import_notebook
yöntemi, bir MLflow yapıtı olarak kaydedilmiş bir not defterini içeriye aktarır. Bu yöntem bir ImportNotebookResult döndürür.
databricks.automl.import_notebook(
artifact_uri: str,
path: str,
overwrite: bool = False
) -> ImportNotebookResult:
Parametreler | Tür / Tip | Açıklama |
---|---|---|
artifact_uri |
str |
MLflow artefaktının, deneme not defterini içeren URI'si. |
path |
str |
Databricks çalışma alanında not defterinin içeri aktarılması gereken yol. Bu mutlak bir yol olmalıdır. Eğer dizin mevcut değilse oluşturulacaktır. |
overwrite |
bool |
Zaten mevcutsa not defterinin üzerine yazılıp yazılmayacağını belirtin. Varsayılan olarak budur False . |
Not defterini içeri aktarma örneği
summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)
AutoMLSummary
Denemelerin her biri için ölçümleri, parametreleri ve diğer ayrıntıları açıklayan bir AutoML çalıştırmasının özet nesnesi. Ayrıca bu nesneyi belirli bir deneme sürümü tarafından eğitilen modeli yüklemek için de kullanırsınız.
Özellik | Tür / Tip | Açıklama |
---|---|---|
experiment |
mlflow.entities.Experiment |
Denemelerin kaydedilmesi için kullanılan MLflow deneyi. |
trials |
List[TrialInfo] |
Çalıştırılan tüm denemeler hakkında bilgi içeren TrialInfo nesnelerinin listesi. |
best_trial |
TrialInfo |
Birincil metriğe göre en iyi ağırlıklı puanı veren denemeyle ilgili bilgileri içeren bir TrialInfo nesnesi. |
metric_distribution |
str |
Birincil ölçüm için ağırlıklı puanların tüm denemelerde dağılımı. |
output_table_name |
str |
Yalnızca tahminle ve yalnızca output_database sağlandığında kullanılır. modelin tahminlerini içeren output_database tablosunun adı. |
TrialInfo
Her bir bireysel deneme için özet nesnesi.
Özellik | Tür / Tip | Açıklama |
---|---|---|
notebook_path |
Optional[str] |
Çalışma alanında bu deneme sürümü için oluşturulan not defterinin yolu. Sınıflandırma ve regresyon için bu değer yalnızca en iyi deneme için ayarlanırken diğer tüm denemelerde değeri olarak None ayarlanır.Tahmin için bu değer tüm denemelerde bulunur. |
notebook_url |
Optional[str] |
Bu deneme sürümü için oluşturulan not defterinin URL'si. Sınıflandırma ve regresyon için bu değer yalnızca en iyi deneme için ayarlanırken diğer tüm denemelerde değeri olarak None ayarlanır.Tahmin için bu değer tüm denemelerde bulunur. |
artifact_uri |
Optional[str] |
Oluşturulan not defteri için MLflow nesne URI'si. |
mlflow_run_id |
str |
Bu deneme çalıştırmasıyla ilişkili MLflow çalıştırma kimliği. |
metrics |
Dict[str, float] |
Bu deneme için MLflow'da kaydedilen ölçümler. |
params |
Dict[str, str] |
MLflow'da bu deneme için kullanılan ve günlüğe kaydedilen parametreler. |
model_path |
str |
Bu deneme sürümünde eğitilen modelin MLflow yapıtı URL'si. |
model_description |
str |
Modelin ve bu modelin eğitimi için kullanılan hiper parametrelerin kısa açıklaması. |
duration |
str |
Dakika cinsinden eğitim süresi. |
preprocessors |
str |
Modeli eğitmeden önce çalıştırılacak ön işlemcilerin açıklaması. |
evaluation_metric_score |
float |
Doğrulama veri kümesi için değerlendirilen birincil ölçümün puanı. |
TrialInfo
deneme sürümü için oluşturulan modeli yüklemek için bir yönteme sahiptir.
Metot | Açıklama |
---|---|
load_model() |
MLflow yapıtı olarak günlüğe kaydedilen bu denemede oluşturulan modeli yükleyin. |
ImportNotebookResult
Özellik | Tür / Tip | Açıklama |
---|---|---|
path |
str |
Databricks çalışma alanında not defterinin içeri aktarılması gereken yol. Bu mutlak bir yol olmalıdır. Eğer dizin mevcut değilse oluşturulacaktır. |
url |
str |
MLflow artefaktının, deneme not defterini içeren URI'si. |