Aracılığıyla paylaş


AutoML Python API başvurusu

Bu makalede, AutoML çalıştırmalarını sınıflandırmaya, regresyona ve tahmin etmeye yönelik yöntemler sağlayan AutoML Python API'si açıklanmaktadır. Her yöntem çağrısı bir model kümesi eğitir ve her model için bir deneme not defteri oluşturur.

Düşük kodlu kullanıcı arabirimi seçeneği de dahil olmak üzere AutoML hakkında daha fazla bilgi için bkz . AutoML nedir?.

Sınıflandırma

databricks.automl.classify yöntemi, bir sınıflandırma modeli eğitmek için bir AutoML çalıştırmasını yapılandırır.

Not

max_trials Parametresi Databricks Runtime 10.4 ML'de kullanım dışıdır ve Databricks Runtime 11.0 ML ve üzeri sürümleri için desteklenmez. AutoML çalıştırmasının süresini denetlemek için kullanın timeout_minutes .

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Parametreleri sınıflandırma

Parametre adı Tür / Tip Açıklama
dataset str, pandas.DataFrame, pyspark.DataFrame, pyspark.sql.DataFrame Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame. Tablo adı "<database_name> biçiminde olabilir.<>table_name" veya "<schema_name>.<>Unity Kataloğu olmayan tablolar için table_name".
target_col str Hedef etiketin sütun adı.
primary_metric str Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm.
Regresyon için desteklenen ölçümler: "r2" (varsayılan), "mae", "rmse", "mse"
Sınıflandırma için desteklenen ölçümler: "f1" (varsayılan), "log_loss", "duyarlık", "doğruluk", "roc_auc"
data_dir str formatı dbfs:/<folder-name> isteğe bağlı. Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de işçi düğümleri için görülebilir.
Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir.
Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz.
experiment_dir str isteğe bağlı. Not defterlerinin ve deneylerin kaydedileceği çalışma alanındaki dizinin yolu. Gruba atanmış bir işlem kaynağı kullanıyorsanız, bunu grubun yazma iznine sahip olduğu bir klasör olarak ayarlayın.
Varsayılan: /Users/<username>/databricks_automl/
experiment_name str isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı.
Varsayılan: Ad otomatik olarak oluşturulur.
exclude_cols List[str] isteğe bağlı. AutoML hesaplamaları sırasında görmezden gelinen sütunların listesi.
Varsayılan: []
exclude_frameworks List[str] isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş bir liste veya "sklearn", "lightgbm", "xgboost" gibi bir veya daha fazlası.
Varsayılan: [] (tüm çerçeveler dikkate alınır)
feature_store_lookups List[Dict] isteğe bağlı. Veri artırma için Özellik Deposu'ndan özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır:
  • table_name (str): Gerekli. Özellik tablosunun adı.
  • lookup_key (liste veya str): Gerekli. Özellik tablosunu parametrede dataset geçirilen verilerle birleştirirken anahtar olarak kullanılacak sütun adları. Sütun adlarının sırası, özellik tablosunun birincil anahtarlarının sırasıyla eşleşmelidir.
  • timestamp_lookup_key (str): Belirtilen tablo bir zaman serisi özellik tablosuise gereklidir. Parametredeki dataset verilerle özellik tablosunda anlık arama gerçekleştirirken kullanılacak sütun adı.

Varsayılan: []
imputers Dict[str, Union[str, Dict[str, Any]]] isteğe bağlı. Her bir anahtarın sütun adı olduğu ve her bir değerin tahmin stratejisini açıklayan bir string veya tanım olduğu sözlük. Dize olarak belirtilirse, değer "ortalama", "ortanca" veya "most_frequent" olmalıdır. Bilinen bir değeri atamak için, değeri bir sözlük {"strategy": "constant", "fill_value": <desired value>} olarak belirtin. Dize seçeneklerini sözlük olarak da belirtebilirsiniz, örneğin {"strategy": "mean"}.
Bir sütun için herhangi bir imputation stratejisi sağlanmazsa, AutoML sütun türüne ve içeriğine göre varsayılan bir strateji seçer. Varsayılan olmayan bir imputation yöntemi belirtirseniz, AutoML anlamsal tür algılaması gerçekleştirmez.
Varsayılan: {}
pos_label Union[int, bool, str] (Yalnızca sınıflandırma) Pozitif sınıf. Bu, duyarlık ve geri çekme gibi ölçümleri hesaplamak için kullanışlıdır. Yalnızca ikili sınıflandırma sorunları için belirtilmelidir.
time_col str Databricks Runtime 10.1 ML ve üzerinde kullanılabilir.
isteğe bağlı. Saat sütunu için sütun adı.
Sağlandıysa AutoML, eğitim verileri olarak en eski noktaları ve test kümesi olarak en son noktaları kullanarak veri kümesini kronolojik olarak eğitim, doğrulama ve test kümelerine bölmeye çalışır.
Kabul edilen sütun türleri zaman damgası ve tamsayıdır. Databricks Runtime 10.2 ML ve üzeri ile dize sütunları da desteklenir.
Sütun türü dizeyse, AutoML anlam algılamayı kullanarak bunu zaman damgasına dönüştürmeye çalışır. Dönüştürme başarısız olursa AutoML çalıştırması başarısız olur.
split_col str isteğe bağlı. Bölünmüş sütun için sütun adı. Api iş akışları için yalnızca Databricks Runtime 15.3 ML ve üzerinde kullanılabilir. Sağlanırsa AutoML, eğitmeye/doğrulamaya/test kümelerine kullanıcı tarafından belirtilen değerlere göre bölmeyi dener ve bu sütun otomatik olarak eğitim özelliklerinin dışında tutulur.
Kabul edilen sütun türü dizedir. Bu sütundaki her girdinin değeri şunlardan biri olmalıdır: "train", "validate" veya "test".
sample_weight_col str Sınıflandırma API'leri iş akışları için Databricks Runtime 15.4 ML ve üzerinde kullanılabilir.
isteğe bağlı. Her satır için örnek ağırlıkları içeren veri kümesindeki sütun adı. Sınıflandırma, sınıf başına örnek ağırlıklarını destekler. Bu ağırlıklar, model eğitimi sırasında her sınıfın önemini ayarlar. Bir sınıftaki her örnek aynı örnek ağırlığına sahip olmalı ve ağırlıklar negatif olmayan ondalık veya tamsayı değerleri olmalıdır ve 0 ile 10.000 arasında olmalıdır. Daha yüksek örnek ağırlıklarına sahip sınıflar daha önemli kabul edilir ve öğrenme algoritması üzerinde daha fazla etkiye sahiptir. Bu sütun belirtilmezse, tüm sınıfların eşit ağırlığa sahip olduğu varsayılır.
max_trials int isteğe bağlı. Çalıştırılacak en fazla deneme sayısı. Bu parametre Databricks Runtime 10.5 ML ve altında kullanılabilir, ancak Databricks Runtime 10.3 ML'den başlayarak kullanım dışıdır. Databricks Runtime 11.0 ML ve üzerinde bu parametre desteklenmez.
Varsayılan: 20
timeout_minutes=None olduğunda, AutoML en fazla deneme sayısını gerçekleştirir.
timeout_minutes int isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar.
Varsayılan: 120 dakika
En düşük değer: 5 dakika
Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir.

Regresyon

Bu databricks.automl.regress yöntemi, regresyon modelini eğitmek için bir AutoML çalışmasını yapılandırır. Bu yöntem bir AutoMLSummary döndürür.

Not

max_trials Parametresi Databricks Runtime 10.4 ML'de kullanım dışıdır ve Databricks Runtime 11.0 ML ve üzeri sürümleri için desteklenmez. AutoML çalıştırmasının süresini denetlemek için kullanın timeout_minutes .

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Regresyon parametreleri

Parametre adı Tür / Tip Açıklama
dataset str, pandas.DataFrame, pyspark.DataFrame, pyspark.sql.DataFrame Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame. Tablo adı "<database_name> biçiminde olabilir.<>table_name" veya "<schema_name>.<>Unity Kataloğu olmayan tablolar için table_name".
target_col str Hedef etiketin sütun adı.
primary_metric str Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm.
Regresyon için desteklenen ölçümler: "r2" (varsayılan), "mae", "rmse", "mse"
Sınıflandırma için desteklenen ölçümler: "f1" (varsayılan), "log_loss", "duyarlık", "doğruluk", "roc_auc"
data_dir str formatı dbfs:/<folder-name> isteğe bağlı. Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de işçi düğümleri için görülebilir.
Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir.
Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz.
experiment_dir str isteğe bağlı. Not defterlerinin ve deneylerin kaydedileceği çalışma alanındaki dizinin yolu.
Varsayılan: /Users/<username>/databricks_automl/
experiment_name str isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı.
Varsayılan: Ad otomatik olarak oluşturulur.
exclude_cols List[str] isteğe bağlı. AutoML hesaplamaları sırasında görmezden gelinen sütunların listesi.
Varsayılan: []
exclude_frameworks List[str] isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş bir liste veya "sklearn", "lightgbm", "xgboost" gibi bir veya daha fazlası.
Varsayılan: [] (tüm çerçeveler dikkate alınır)
feature_store_lookups List[Dict] isteğe bağlı. Veri artırma için Özellik Deposu'ndan özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır:
  • table_name (str): Gerekli. Özellik tablosunun adı.
  • lookup_key (liste veya str): Gerekli. Özellik tablosunu parametrede dataset geçirilen verilerle birleştirirken anahtar olarak kullanılacak sütun adları. Sütun adlarının sırası, özellik tablosunun birincil anahtarlarının sırasıyla eşleşmelidir.
  • timestamp_lookup_key (str): Belirtilen tablo bir zaman serisi özellik tablosuise gereklidir. Parametredeki dataset verilerle özellik tablosunda anlık arama gerçekleştirirken kullanılacak sütun adı.

Varsayılan: []
imputers Dict[str, Union[str, Dict[str, Any]]] isteğe bağlı. Her bir anahtarın sütun adı olduğu ve her bir değerin tahmin stratejisini açıklayan bir string veya tanım olduğu sözlük. Dize olarak belirtilirse, değer "ortalama", "ortanca" veya "most_frequent" olmalıdır. Bilinen bir değeri atamak için, değeri bir sözlük {"strategy": "constant", "fill_value": <desired value>} olarak belirtin. Dize seçeneklerini sözlük olarak da belirtebilirsiniz, örneğin {"strategy": "mean"}.
Bir sütun için herhangi bir imputation stratejisi sağlanmazsa, AutoML sütun türüne ve içeriğine göre varsayılan bir strateji seçer. Varsayılan olmayan bir imputation yöntemi belirtirseniz, AutoML anlamsal tür algılaması gerçekleştirmez.
Varsayılan: {}
time_col str Databricks Runtime 10.1 ML ve üzerinde kullanılabilir.
isteğe bağlı. Saat sütunu için sütun adı.
Sağlandıysa AutoML, eğitim verileri olarak en eski noktaları ve test kümesi olarak en son noktaları kullanarak veri kümesini kronolojik olarak eğitim, doğrulama ve test kümelerine bölmeye çalışır.
Kabul edilen sütun türleri zaman damgası ve tamsayıdır. Databricks Runtime 10.2 ML ve üzeri ile dize sütunları da desteklenir.
Sütun türü dizeyse, AutoML anlam algılamayı kullanarak bunu zaman damgasına dönüştürmeye çalışır. Dönüştürme başarısız olursa AutoML çalıştırması başarısız olur.
split_col str isteğe bağlı. Bölünmüş sütun için sütun adı. Api iş akışları için yalnızca Databricks Runtime 15.3 ML ve üzerinde kullanılabilir. Sağlanırsa AutoML, eğitmeye/doğrulamaya/test kümelerine kullanıcı tarafından belirtilen değerlere göre bölmeyi dener ve bu sütun otomatik olarak eğitim özelliklerinin dışında tutulur.
Kabul edilen sütun türü dizedir. Bu sütundaki her girdinin değeri şunlardan biri olmalıdır: "train", "validate" veya "test".
sample_weight_col str Databricks Runtime 15.3 ML ve üzerinde regresyon API'leri iş akışları için kullanılabilir.
isteğe bağlı. Her satır için örnek ağırlıkları içeren veri kümesindeki sütun adı. Bu ağırlıklar, model eğitimi sırasında her satırın önemini ayarlar. Ağırlıklar, 0 ile 10.000 arasında negatif olmayan ondalık veya tamsayı değerleri olmalıdır. Örnek ağırlıkları daha yüksek olan satırlar daha önemli kabul edilir ve öğrenme algoritması üzerinde daha fazla etkiye sahiptir. Bu sütun belirtilmezse, tüm satırların eşit ağırlığa sahip olduğu varsayılır.
max_trials int isteğe bağlı. Çalıştırılacak en fazla deneme sayısı. Bu parametre Databricks Runtime 10.5 ML ve altında kullanılabilir, ancak Databricks Runtime 10.3 ML'den başlayarak kullanım dışıdır. Databricks Runtime 11.0 ML ve üzerinde bu parametre desteklenmez.
Varsayılan: 20
timeout_minutes=None olduğunda, AutoML en fazla deneme sayısını gerçekleştirir.
timeout_minutes int isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar.
Varsayılan: 120 dakika
En düşük değer: 5 dakika
Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir.

Tahmin

databricks.automl.forecast yöntemi, bir tahmin modelini eğitmek için bir AutoML çalıştırmasını yapılandırır. Bu yöntem bir AutoMLSummary döndürür. Otomatik ARIMA'yı kullanmak için zaman serisinin düzenli bir sıklığı olmalıdır (diğer bir ifadeyle, iki nokta arasındaki aralık zaman serisi boyunca aynı olmalıdır). Sıklık, API çağrısında belirtilen sıklık birimiyle eşleşmelidir. AutoML, bu değerleri önceki değerle doldurarak eksik zaman adımlarını işler.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Tahmin parametreleri

Parametre adı Tür / Tip Açıklama
dataset str, pandas.DataFrame, pyspark.DataFrame, pyspark.sql.DataFrame Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame.
Tablo adı ".." biçiminde olabilir veya "." Unity Kataloğu olmayan tablolar için
target_col str Hedef etiketin sütun adı.
time_col str Tahmin için zaman sütununun adı.
primary_metric str Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm.
Desteklenen ölçümler: "smape" (varsayılan), "mse", "rmse", "mae" veya "mdape".
country_code str Databricks Runtime 12.0 ML ve üzerinde kullanılabilir. Yalnızca Prophet tahmin modeli tarafından desteklenir.
isteğe bağlı. Tahmin modelinin hangi ülkenin tatillerini kullanması gerektiğini gösteren iki harfli ülke kodu. Tatilleri yoksaymak için bu parametreyi boş bir metin ("") olarak ayarlayın.
Desteklenen ülkeler.
Varsayılan: ABD (Birleşik Devletler tatiller).
frequency str Tahmin için zaman serisi sıklığı. Bu, olayların gerçekleşmesinin beklendiği dönemdir. Varsayılan ayar "D" veya günlük verilerdir. Verilerinizin farklı bir sıklığı varsa ayarı değiştirdiğinizden emin olun.
Olası değerler:
"W" (haftalar)
"D" / "günler" / "gün"
"saatler" / "saat" / "sa" / "s"
"m" / "dakika" / "dk" / "dakikalar" / "T"
"S" / "saniye" / "sn" / "saniye"
Aşağıdakiler yalnızca Databricks Runtime 12.0 ML ve üzeri sürümleriyle kullanılabilir:
"M" / "ay" / "aylar"
"Q" / "çeyrek" / "çeyrekler"
"Y" / "yıl" / "yıllar"
Varsayılan: "D"
horizon int Geleceğe dönük tahminlerin sunulacağı dönem sayısı.
Birimler zaman serisi sıklığıdır.
Varsayılan: 1
data_dir str formatı dbfs:/<folder-name> isteğe bağlı. Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de işçi düğümleri için görülebilir.
Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir.
Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz.
experiment_dir str isteğe bağlı. Not defterlerinin ve deneylerin kaydedileceği çalışma alanındaki dizinin yolu.
Varsayılan: /Users/<username>/databricks_automl/
experiment_name str isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı.
Varsayılan: Ad otomatik olarak oluşturulur.
exclude_frameworks List[str] isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş bir liste veya "kahin", "arima" gibi bir ya da daha fazla öğe.
Varsayılan: [] (tüm çerçeveler dikkate alınır)
feature_store_lookups List[Dict] isteğe bağlı. Özellik Deposu'ndan kovaryant veri artırma için özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır:
  • table_name (str): Gerekli. Özellik tablosunun adı.
  • lookup_key (liste veya str): Gerekli. Özellik tablosunu parametrede dataset geçirilen verilerle birleştirirken anahtar olarak kullanılacak sütun adları. Sütun adlarının sırası, özellik tablosunun birincil anahtarlarının sırasıyla eşleşmelidir.
  • timestamp_lookup_key (str): Belirtilen tablo bir zaman serisi özellik tablosuise gereklidir. Parametredeki dataset verilerle özellik tablosunda anlık arama gerçekleştirirken kullanılacak sütun adı.

Varsayılan: []
identity_col Union[str, list] isteğe bağlı. Çok serili tahmin için zaman serisini tanımlayan sütun... AutoML, tahmin için bu sütunlar ve zaman sütunu ile gruplandırır.
sample_weight_col str Databricks Runtime 16.0 ML ve üzerinde kullanılabilir. Yalnızca çoklu zaman serisi iş akışları için.
isteğe bağlı. Veri kümesindeki örnek ağırlıkları içeren sütunu belirtir. Bu ağırlıklar, model eğitimi ve değerlendirmesi sırasında her zaman serisinin göreli önemini gösterir.
Daha yüksek ağırlıklara sahip zaman serisi model üzerinde daha fazla etkiye sahiptir. Sağlanmazsa, tüm zaman serileri eşit ağırlıkla ele alınır.
Aynı zaman serisine ait tüm satırlar aynı ağırlığa sahip olmalıdır.
Ağırlıklar negatif olmayan değerler( ondalıklar veya tamsayılar) ve 0 ile 10.000 arasında olmalıdır.
output_database str isteğe bağlı. Sağlandıysa, AutoML en iyi modelin tahminlerini belirtilen veritabanındaki yeni bir tabloya kaydeder.
Varsayılan: Tahminler kaydedilmez.
timeout_minutes int isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar.
Varsayılan: 120 dakika
En düşük değer: 5 dakika
Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir.

Not defterini içeri aktarma

databricks.automl.import_notebook yöntemi, bir MLflow yapıtı olarak kaydedilmiş bir not defterini içeriye aktarır. Bu yöntem bir ImportNotebookResult döndürür.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Parametreler Tür / Tip Açıklama
artifact_uri str MLflow artefaktının, deneme not defterini içeren URI'si.
path str Databricks çalışma alanında not defterinin içeri aktarılması gereken yol. Bu mutlak bir yol olmalıdır. Eğer dizin mevcut değilse oluşturulacaktır.
overwrite bool Zaten mevcutsa not defterinin üzerine yazılıp yazılmayacağını belirtin. Varsayılan olarak budur False .

Not defterini içeri aktarma örneği

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Denemelerin her biri için ölçümleri, parametreleri ve diğer ayrıntıları açıklayan bir AutoML çalıştırmasının özet nesnesi. Ayrıca bu nesneyi belirli bir deneme sürümü tarafından eğitilen modeli yüklemek için de kullanırsınız.

Özellik Tür / Tip Açıklama
experiment mlflow.entities.Experiment Denemelerin kaydedilmesi için kullanılan MLflow deneyi.
trials List[TrialInfo] Çalıştırılan tüm denemeler hakkında bilgi içeren TrialInfo nesnelerinin listesi.
best_trial TrialInfo Birincil metriğe göre en iyi ağırlıklı puanı veren denemeyle ilgili bilgileri içeren bir TrialInfo nesnesi.
metric_distribution str Birincil ölçüm için ağırlıklı puanların tüm denemelerde dağılımı.
output_table_name str Yalnızca tahminle ve yalnızca output_database sağlandığında kullanılır.
modelin tahminlerini içeren output_database tablosunun adı.

TrialInfo

Her bir bireysel deneme için özet nesnesi.

Özellik Tür / Tip Açıklama
notebook_path Optional[str] Çalışma alanında bu deneme sürümü için oluşturulan not defterinin yolu.
Sınıflandırma ve regresyon için bu değer yalnızca en iyi deneme için ayarlanırken diğer tüm denemelerde değeri olarak Noneayarlanır.
Tahmin için bu değer tüm denemelerde bulunur.
notebook_url Optional[str] Bu deneme sürümü için oluşturulan not defterinin URL'si.
Sınıflandırma ve regresyon için bu değer yalnızca en iyi deneme için ayarlanırken diğer tüm denemelerde değeri olarak Noneayarlanır.
Tahmin için bu değer tüm denemelerde bulunur.
artifact_uri Optional[str] Oluşturulan not defteri için MLflow nesne URI'si.
mlflow_run_id str Bu deneme çalıştırmasıyla ilişkili MLflow çalıştırma kimliği.
metrics Dict[str, float] Bu deneme için MLflow'da kaydedilen ölçümler.
params Dict[str, str] MLflow'da bu deneme için kullanılan ve günlüğe kaydedilen parametreler.
model_path str Bu deneme sürümünde eğitilen modelin MLflow yapıtı URL'si.
model_description str Modelin ve bu modelin eğitimi için kullanılan hiper parametrelerin kısa açıklaması.
duration str Dakika cinsinden eğitim süresi.
preprocessors str Modeli eğitmeden önce çalıştırılacak ön işlemcilerin açıklaması.
evaluation_metric_score float Doğrulama veri kümesi için değerlendirilen birincil ölçümün puanı.

TrialInfo deneme sürümü için oluşturulan modeli yüklemek için bir yönteme sahiptir.

Metot Açıklama
load_model() MLflow yapıtı olarak günlüğe kaydedilen bu denemede oluşturulan modeli yükleyin.

ImportNotebookResult

Özellik Tür / Tip Açıklama
path str Databricks çalışma alanında not defterinin içeri aktarılması gereken yol. Bu mutlak bir yol olmalıdır. Eğer dizin mevcut değilse oluşturulacaktır.
url str MLflow artefaktının, deneme not defterini içeren URI'si.