Aracılığıyla paylaş


Azure Databricks AutoML Python API başvurusu

Bu makalede, AutoML çalıştırmalarını sınıflandırmaya, regresyona ve tahmin etmeye yönelik yöntemler sağlayan Azure Databricks AutoML Python API'si açıklanmaktadır. Her yöntem çağrısı bir model kümesi eğitir ve her model için bir deneme not defteri oluşturur.

Düşük kodlu kullanıcı arabirimi seçeneği de dahil olmak üzere AutoML hakkında daha fazla bilgi için bkz . AutoML nedir?.

Sınıflandırma

yöntemi, databricks.automl.classify sınıflandırma modelini eğitmek için bir AutoML çalıştırması yapılandırıyor.

Not

max_trials Parametresi Databricks Runtime 10.4 ML'de kullanım dışıdır ve Databricks Runtime 11.0 ML ve üzeri sürümleri için desteklenmez. AutoML çalıştırmasının süresini denetlemek için kullanın timeout_minutes .

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  data_dir: Optional[str] = None,
  exclude_cols: Optional[List[str]] = None,                      # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  pos_label: Optional[Union[int, bool, str] = None,                 # <DBR> 11.1 ML and above
  primary_metric: str = "f1",
  time_col: Optional[str] = None,
  timeout_minutes: Optional[int] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
) -> AutoMLSummary

Parametreleri sınıflandırma

Parametre adı Type Açıklama
dataset str, pandas.DataFrame, pyspark.DataFrame, pyspark.sql.DataFrame Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame. Tablo adı "<database_name> biçiminde olabilir.<>table_name" veya "<schema_name>.<>Unity Kataloğu olmayan tablolar için table_name".
target_col str Hedef etiketin sütun adı.
data_dir str biçim dbfs:/<folder-name> isteğe bağlı. Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de çalışan düğümleri tarafından görülebilir.

Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir.

Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz.
exclude_cols List[str] isteğe bağlı. AutoML hesaplamaları sırasında yoksayılan sütunların listesi.

Varsayılan: []
exclude_frameworks List[str] isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş liste veya bir veya daha fazla "sklearn", "lightgbm", "xgboost".

Varsayılan: [] (tüm çerçeveler dikkate alınır)
experiment_dir str isteğe bağlı. Oluşturulan not defterlerini ve denemeleri kaydetmek için çalışma alanında dizinin yolu.

Varsayılan: /Users/<username>/databricks_automl/
experiment_name str isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı.

Varsayılan: Ad otomatik olarak oluşturulur.
feature_store_lookups List[Dict] isteğe bağlı. Veri artırma için Özellik Deposu'ndan özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır:

- table_name (str): Gerekli. Özellik tablosunun adı.
- lookup_key (liste veya str): Gerekli. Özellik tablosunu parametrede dataset geçirilen verilerle birleştirirken anahtar olarak kullanılacak sütun adları. Sütun adlarının sırası, özellik tablosunun birincil anahtarlarının sırasıyla eşleşmelidir.
- timestamp_lookup_key (str): Belirtilen tablo bir zaman serisi özellik tablosuysa gereklidir. Parametrede geçirilen dataset verilerle özellik tablosunda belirli bir noktaya arama gerçekleştirirken kullanılacak sütun adı.

Varsayılan: []
imputers Dict[str, Union[str, Dict[str, Any]]] isteğe bağlı. Her anahtarın bir sütun adı olduğu ve her değerin imputation stratejisini açıklayan bir dize veya sözlük olduğu sözlük. Dize olarak belirtilirse, değer "ortalama", "ortanca" veya "most_frequent" olmalıdır. Bilinen bir değerle açma/kapatma yapmak için değerini sözlük {"strategy": "constant", "fill_value": <desired value>}olarak belirtin. Dize seçeneklerini sözlük olarak da belirtebilirsiniz, örneğin {"strategy": "mean"}.

Bir sütun için herhangi bir imputation stratejisi sağlanmazsa, AutoML sütun türüne ve içeriğine göre varsayılan bir strateji seçer. Varsayılan olmayan bir imputation yöntemi belirtirseniz, AutoML anlamsal tür algılaması gerçekleştirmez.

Varsayılan: {}
max_trials int isteğe bağlı. Çalıştırılacak en fazla deneme sayısı. Bu parametre Databricks Runtime 10.5 ML ve altında kullanılabilir, ancak Databricks Runtime 10.3 ML'den başlayarak kullanım dışıdır. Databricks Runtime 11.0 ML ve üzerinde bu parametre desteklenmez.

Varsayılan: 20

timeout_minutes=Hiçbiri ise AutoML en fazla deneme sayısını çalıştırır.
pos_label Union[int, bool, str] (Yalnızca sınıflandırma) Pozitif sınıf. Bu, duyarlık ve geri çekme gibi ölçümleri hesaplamak için kullanışlıdır. Yalnızca ikili sınıflandırma sorunları için belirtilmelidir.
primary_metric str Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm.

Regresyon için desteklenen ölçümler: "r2" (varsayılan), "mae", "rmse", "mse"

Sınıflandırma için desteklenen ölçümler: "f1" (varsayılan), "log_loss", "duyarlık", "doğruluk", "roc_auc"
split_col str isteğe bağlı. Bölünmüş sütunun sütun adı. Api iş akışları için yalnızca Databricks Runtime 15.3 ML ve üzerinde kullanılabilir. Sağlanırsa AutoML, eğitmeye/doğrulamaya/test kümelerine kullanıcı tarafından belirtilen değerlere göre bölmeyi dener ve bu sütun otomatik olarak eğitim özelliklerinin dışında tutulur.

Kabul edilen sütun türü dizedir. Bu sütundaki her girdinin değeri şunlardan biri olmalıdır: "train", "validate" veya "test".
time_col str Databricks Runtime 10.1 ML ve üzerinde kullanılabilir.

isteğe bağlı. Saat sütunu için sütun adı.

Sağlandıysa AutoML, eğitim verileri olarak en eski noktaları ve test kümesi olarak en son noktaları kullanarak veri kümesini kronolojik olarak eğitim, doğrulama ve test kümelerine bölmeye çalışır.

Kabul edilen sütun türleri zaman damgası ve tamsayıdır. Databricks Runtime 10.2 ML ve üzeri ile dize sütunları da desteklenir.

Sütun türü dizeyse, AutoML anlam algılamayı kullanarak bunu zaman damgasına dönüştürmeye çalışır. Dönüştürme başarısız olursa AutoML çalıştırması başarısız olur.
timeout_minutes int isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar.

Varsayılan: 120 dakika

En düşük değer: 5 dakika

Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir.
sample_weight_col str Sınıflandırma API'leri iş akışları için Databricks Runtime 15.4 ML ve üzerinde kullanılabilir.

isteğe bağlı. Her satır için örnek ağırlıkları içeren veri kümesindeki sütun adı. Sınıflandırma, sınıf başına örnek ağırlıklarını destekler. Bu ağırlıklar, model eğitimi sırasında her sınıfın önemini ayarlar. Bir sınıftaki her örnek aynı örnek ağırlığına sahip olmalı ve ağırlıklar negatif olmayan ondalık veya tamsayı değerleri olmalıdır ve 0 ile 10.000 arasında olmalıdır. Daha yüksek örnek ağırlıklarına sahip sınıflar daha önemli kabul edilir ve öğrenme algoritması üzerinde daha fazla etkiye sahiptir. Bu sütun belirtilmezse, tüm sınıfların eşit ağırlığa sahip olduğu varsayılır.

Regresyon

yöntemi, databricks.automl.regress regresyon modelini eğitmek için bir AutoML çalıştırması yapılandırıyor. Bu yöntem bir AutoMLSummary döndürür.

Not

max_trials Parametresi Databricks Runtime 10.4 ML'de kullanım dışıdır ve Databricks Runtime 11.0 ML ve üzeri sürümleri için desteklenmez. AutoML çalıştırmasının süresini denetlemek için kullanın timeout_minutes .

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  data_dir: Optional[str] = None,
  exclude_cols: Optional[List[str]] = None,                      # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  primary_metric: str = "r2",
  time_col: Optional[str] = None,
  timeout_minutes: Optional[int] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
) -> AutoMLSummary

Regresyon parametreleri

Parametre adı Type Açıklama
dataset str, pandas.DataFrame, pyspark.DataFrame, pyspark.sql.DataFrame Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame. Tablo adı "<database_name> biçiminde olabilir.<>table_name" veya "<schema_name>.<>Unity Kataloğu olmayan tablolar için table_name".
target_col str Hedef etiketin sütun adı.
data_dir str biçim dbfs:/<folder-name> isteğe bağlı. Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de çalışan düğümleri tarafından görülebilir.

Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir.

Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz.
exclude_cols List[str] isteğe bağlı. AutoML hesaplamaları sırasında yoksayılan sütunların listesi.

Varsayılan: []
exclude_frameworks List[str] isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş liste veya bir veya daha fazla "sklearn", "lightgbm", "xgboost".

Varsayılan: [] (tüm çerçeveler dikkate alınır)
experiment_dir str isteğe bağlı. Oluşturulan not defterlerini ve denemeleri kaydetmek için çalışma alanında dizinin yolu.

Varsayılan: /Users/<username>/databricks_automl/
experiment_name str isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı.

Varsayılan: Ad otomatik olarak oluşturulur.
feature_store_lookups List[Dict] isteğe bağlı. Veri artırma için Özellik Deposu'ndan özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır:

- table_name (str): Gerekli. Özellik tablosunun adı.
- lookup_key (liste veya str): Gerekli. Özellik tablosunu parametrede dataset geçirilen verilerle birleştirirken anahtar olarak kullanılacak sütun adları. Sütun adlarının sırası, özellik tablosunun birincil anahtarlarının sırasıyla eşleşmelidir.
- timestamp_lookup_key (str): Belirtilen tablo bir zaman serisi özellik tablosuysa gereklidir. Parametrede geçirilen dataset verilerle özellik tablosunda belirli bir noktaya arama gerçekleştirirken kullanılacak sütun adı.

Varsayılan: []
imputers Dict[str, Union[str, Dict[str, Any]]] isteğe bağlı. Her anahtarın bir sütun adı olduğu ve her değerin imputation stratejisini açıklayan bir dize veya sözlük olduğu sözlük. Dize olarak belirtilirse, değer "ortalama", "ortanca" veya "most_frequent" olmalıdır. Bilinen bir değerle açma/kapatma yapmak için değerini sözlük {"strategy": "constant", "fill_value": <desired value>}olarak belirtin. Dize seçeneklerini sözlük olarak da belirtebilirsiniz, örneğin {"strategy": "mean"}.

Bir sütun için herhangi bir imputation stratejisi sağlanmazsa, AutoML sütun türüne ve içeriğine göre varsayılan bir strateji seçer. Varsayılan olmayan bir imputation yöntemi belirtirseniz, AutoML anlamsal tür algılaması gerçekleştirmez.

Varsayılan: {}
max_trials int isteğe bağlı. Çalıştırılacak en fazla deneme sayısı. Bu parametre Databricks Runtime 10.5 ML ve altında kullanılabilir, ancak Databricks Runtime 10.3 ML'den başlayarak kullanım dışıdır. Databricks Runtime 11.0 ML ve üzerinde bu parametre desteklenmez.

Varsayılan: 20

timeout_minutes=Hiçbiri ise AutoML en fazla deneme sayısını çalıştırır.
pos_label Union[int, bool, str] (Yalnızca sınıflandırma) Pozitif sınıf. Bu, duyarlık ve geri çekme gibi ölçümleri hesaplamak için kullanışlıdır. Yalnızca ikili sınıflandırma sorunları için belirtilmelidir.
primary_metric str Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm.

Regresyon için desteklenen ölçümler: "r2" (varsayılan), "mae", "rmse", "mse"

Sınıflandırma için desteklenen ölçümler: "f1" (varsayılan), "log_loss", "duyarlık", "doğruluk", "roc_auc"
split_col str isteğe bağlı. Bölünmüş sütunun sütun adı. Api iş akışları için yalnızca Databricks Runtime 15.3 ML ve üzerinde kullanılabilir. Sağlanırsa AutoML, eğitmeye/doğrulamaya/test kümelerine kullanıcı tarafından belirtilen değerlere göre bölmeyi dener ve bu sütun otomatik olarak eğitim özelliklerinin dışında tutulur.

Kabul edilen sütun türü dizedir. Bu sütundaki her girdinin değeri şunlardan biri olmalıdır: "train", "validate" veya "test".
time_col str Databricks Runtime 10.1 ML ve üzerinde kullanılabilir.

isteğe bağlı. Saat sütunu için sütun adı.

Sağlandıysa AutoML, eğitim verileri olarak en eski noktaları ve test kümesi olarak en son noktaları kullanarak veri kümesini kronolojik olarak eğitim, doğrulama ve test kümelerine bölmeye çalışır.

Kabul edilen sütun türleri zaman damgası ve tamsayıdır. Databricks Runtime 10.2 ML ve üzeri ile dize sütunları da desteklenir.

Sütun türü dizeyse, AutoML anlam algılamayı kullanarak bunu zaman damgasına dönüştürmeye çalışır. Dönüştürme başarısız olursa AutoML çalıştırması başarısız olur.
timeout_minutes int isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar.

Varsayılan: 120 dakika

En düşük değer: 5 dakika

Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir.
sample_weight_col str Databricks Runtime 15.3 ML ve üzerinde regresyon API'leri iş akışları için kullanılabilir.

isteğe bağlı. Her satır için örnek ağırlıkları içeren veri kümesindeki sütun adı. Bu ağırlıklar, model eğitimi sırasında her satırın önemini ayarlar. Ağırlıklar, 0 ile 10.000 arasında negatif olmayan ondalık veya tamsayı değerleri olmalıdır. Örnek ağırlıkları daha yüksek olan satırlar daha önemli kabul edilir ve öğrenme algoritması üzerinde daha fazla etkiye sahiptir. Bu sütun belirtilmezse, tüm satırların eşit ağırlığa sahip olduğu varsayılır.

Tahmin

yöntemi, databricks.automl.forecast tahmin modelini eğiten bir AutoML çalıştırmasını yapılandırıyor. Bu yöntem bir AutoMLSummary döndürür. Otomatik ARIMA'yı kullanmak için zaman serisinin düzenli bir sıklığı olmalıdır (diğer bir ifadeyle, iki nokta arasındaki aralık zaman serisi boyunca aynı olmalıdır). Sıklık, API çağrısında belirtilen sıklık birimiyle eşleşmelidir. AutoML, bu değerleri önceki değerle doldurarak eksik zaman adımlarını işler.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  data_dir: Optional[str] = None,
  exclude_frameworks: Optional[List[str]] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  frequency: str = "D",
  horizon: int = 1,
  identity_col: Optional[Union[str, List[str]]] = None,
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  primary_metric: str = "smape",
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Tahmin parametreleri

Parametre adı Type Açıklama
dataset str, pandas.DataFrame, pyspark.DataFrame, pyspark.sql.DataFrame Eğitim özellikleri ve hedefi içeren giriş tablosu adı veya DataFrame.

Tablo adı ".." biçiminde olabilir veya "." Unity Kataloğu olmayan tablolar için
target_col str Hedef etiketin sütun adı.
time_col str Tahmin için zaman sütununun adı.
frequency str Tahmin için zaman serisi sıklığı. Bu, olayların gerçekleşmesinin beklendiği dönemdir. Varsayılan ayar "D" veya günlük verilerdir. Verilerinizin farklı bir sıklığı varsa ayarı değiştirdiğinizden emin olun.

Olası değerler:

"W" (hafta)

"D" / "days" / "day"

"hours" / "hour" / "hr" / "h"

"m" / "minute" / "min" / "minutes" / "T"

"S" / "seconds" / "sec" / "second"

Aşağıdakiler yalnızca Databricks Runtime 12.0 ML ve üzeri sürümleriyle kullanılabilir:

"M" / "ay" / "aylar"

"Q" / "quarter" / "quarters"

"Y" / "year" / "years"

Varsayılan: "D"
horizon int Geleceğe dönük tahminlerin döndürülmesi gereken dönem sayısı.

Birimler zaman serisi sıklığıdır.

Varsayılan: 1
data_dir str biçim dbfs:/<folder-name> isteğe bağlı. Eğitim veri kümesini depolamak için kullanılan DBFS yolu. Bu yol hem sürücü hem de çalışan düğümleri tarafından görülebilir.

Databricks, AutoML'nin eğitim veri kümesini MLflow yapıtı olarak kaydedebilmesi için bu alanı boş bırakmanızı önerir.

Özel bir yol belirtilirse, veri kümesi AutoML denemesinin erişim izinlerini devralmaz.
exclude_frameworks List[str] isteğe bağlı. AutoML'nin model geliştirirken dikkate almaması gereken algoritma çerçevelerinin listesi. Olası değerler: boş liste veya bir veya daha fazla "kahin", "arima".

Varsayılan: [] (tüm çerçeveler dikkate alınır)
experiment_dir str isteğe bağlı. Oluşturulan not defterlerini ve denemeleri kaydetmek için çalışma alanında dizinin yolu.

Varsayılan: /Users/<username>/databricks_automl/
experiment_name str isteğe bağlı. AutoML'nin oluşturduğu MLflow denemesinin adı.

Varsayılan: Ad otomatik olarak oluşturulur.
feature_store_lookups List[Dict] isteğe bağlı. Birlikte değişken veri artırma için Özellik Deposu'ndan özellikleri temsil eden sözlüklerin listesi. Her sözlükte geçerli anahtarlar şunlardır:

- table_name (str): Gerekli. Özellik tablosunun adı.
- lookup_key (liste veya str): Gerekli. Özellik tablosunu parametrede dataset geçirilen verilerle birleştirirken anahtar olarak kullanılacak sütun adları. Sütun adlarının sırası, özellik tablosunun birincil anahtarlarının sırasıyla eşleşmelidir.
- timestamp_lookup_key (str): Belirtilen tablo bir zaman serisi özellik tablosuysa gereklidir. Parametrede geçirilen dataset verilerle özellik tablosunda belirli bir noktaya arama gerçekleştirirken kullanılacak sütun adı.

Varsayılan: []
identity_col Union[str, list] isteğe bağlı. Çok serili tahmin için zaman serisini tanımlayan sütun... AutoML, bu sütunlara ve tahmin için zaman sütununa göre gruplandırın.
output_database str isteğe bağlı. Sağlandıysa, AutoML en iyi modelin tahminlerini belirtilen veritabanındaki yeni bir tabloya kaydeder.

Varsayılan: Tahminler kaydedilmez.
primary_metric str Model performansını değerlendirmek ve derecelendirmek için kullanılan ölçüm.

Desteklenen ölçümler: "smape" (varsayılan), "mse", "rmse", "mae" veya "mdape".
timeout_minutes int isteğe bağlı. AutoML denemelerinin tamamlanmasını bekleme süresi üst sınırı. Daha uzun zaman aşımları AutoML'nin daha fazla deneme çalıştırmasına ve modeli daha iyi doğrulukla tanımlamasına olanak sağlar.

Varsayılan: 120 dakika

En düşük değer: 5 dakika

Zaman aşımı en az bir denemenin tamamlanmasına izin veremeyecek kadar kısaysa bir hata bildirilir.
country_code str Databricks Runtime 12.0 ML ve üzerinde kullanılabilir. Yalnızca Peygamber tahmin modeli tarafından desteklenir.

isteğe bağlı. Tahmin modelinin hangi ülkenin tatillerini kullanması gerektiğini gösteren iki harfli ülke kodu. Tatilleri yoksaymak için bu parametreyi boş bir dize ("") olarak ayarlayın.

Desteklenen ülkeler.

Varsayılan: ABD (Birleşik Devletler tatiller).

Not defterini içeri aktarma

yöntemi, databricks.automl.import_notebook MLflow yapıtı olarak kaydedilmiş bir not defterini içeri aktarır. Bu yöntem bir ImportNotebookResult döndürür.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
Parametreler Type Açıklama
artifact_uri str Deneme not defterini içeren MLflow yapıtı URI'sidir.
path str Databricks çalışma alanında not defterinin içeri aktarılması gereken yol. Bu mutlak bir yol olmalıdır. Dizin yoksa oluşturulur.
overwrite bool Zaten varsa not defterinin üzerine yazılıp yazılmayacağı. Varsayılan olarak budur False .

Not defterini içeri aktarma örneği

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

Denemelerin her biri için ölçümleri, parametreleri ve diğer ayrıntıları açıklayan bir AutoML çalıştırmasının özet nesnesi. Ayrıca bu nesneyi belirli bir deneme sürümü tarafından eğitilen modeli yüklemek için de kullanırsınız.

Özellik Türü Açıklama
experiment mlflow.entities.Experiment Denemeleri günlüğe kaydetmek için kullanılan MLflow denemesi.
trials List[TrialInfo] Çalıştırılan tüm denemeler hakkında bilgi içeren TrialInfo nesnelerinin listesi.
best_trial TrialInfo Birincil ölçüm için en iyi ağırlıklı puanla sonuçlanan deneme sürümü hakkında bilgi içeren bir TrialInfo nesnesi.
metric_distribution str Birincil ölçüm için ağırlıklı puanların tüm denemelerde dağılımı.
output_table_name str Yalnızca tahminle ve yalnızca output_database sağlandığında kullanılır.

modelin tahminlerini içeren output_database tablosunun adı.

TrialInfo

Her deneme için özet nesnesi.

Özellik Türü Açıklama
notebook_path Optional[str] Çalışma alanında bu deneme sürümü için oluşturulan not defterinin yolu.

Sınıflandırma ve regresyon için bu değer yalnızca en iyi deneme için ayarlanırken diğer tüm denemelerde değeri olarak Noneayarlanır.

Tahmin için bu değer tüm denemelerde bulunur.
notebook_url Optional[str] Bu deneme sürümü için oluşturulan not defterinin URL'si.

Sınıflandırma ve regresyon için bu değer yalnızca en iyi deneme için ayarlanırken diğer tüm denemelerde değeri olarak Noneayarlanır.

Tahmin için bu değer tüm denemelerde bulunur.
artifact_uri Optional[str] Oluşturulan not defteri için MLflow yapıt URI'si.
mlflow_run_id str Bu deneme çalıştırmasıyla ilişkili MLflow çalıştırma kimliği.
metrics Dict[str, float] Bu deneme için MLflow'da günlüğe kaydedilen ölçümler.
params Dict[str, str] Bu deneme için kullanılan MLflow'da günlüğe kaydedilen parametreler.
model_path str Bu deneme sürümünde eğitilen modelin MLflow yapıtı URL'si.
model_description str Modelin ve bu modelin eğitimi için kullanılan hiper parametrelerin kısa açıklaması.
duration str Dakika cinsinden eğitim süresi.
preprocessors str Modeli eğitmeden önce çalıştırılacak ön işlemcilerin açıklaması.
evaluation_metric_score float Doğrulama veri kümesi için değerlendirilen birincil ölçümün puanı.

TrialInfo deneme sürümü için oluşturulan modeli yüklemek için bir yönteme sahiptir.

Metot Açıklama
load_model() MLflow yapıtı olarak günlüğe kaydedilen bu denemede oluşturulan modeli yükleyin.

ImportNotebookResult

Özellik Türü Açıklama
path str Databricks çalışma alanında not defterinin içeri aktarılması gereken yol. Bu mutlak bir yol olmalıdır. Dizin yoksa oluşturulur.
url str Deneme not defterini içeren MLflow yapıtı URI'sidir.