Udostępnij za pośrednictwem


Co to jest rozwiązanie AutoML?

Rozwiązanie AutoML usługi Databricks upraszcza proces stosowania uczenia maszynowego do zestawów danych, automatycznie wyszukując najlepszy algorytm i konfigurację hiperparametrów.

Podaj zestaw danych i określ typ problemu z uczeniem maszynowym, a następnie rozwiązanie AutoML wykonuje następujące czynności:

  1. Czyści i przygotowuje dane.
  2. Organizuje trenowanie modelu rozproszonego i dostrajanie hiperparametrów w wielu algorytmach.
  3. Znajduje najlepszy model przy użyciu algorytmów oceny typu open source z biblioteki scikit-learn, xgboost, LightGBM, Proroka i ARIMA.
  4. Przedstawia wyniki. Rozwiązanie AutoML generuje również notesy kodu źródłowego dla każdej wersji próbnej, co umożliwia przeglądanie, odtwarzanie i modyfikowanie kodu zgodnie z potrzebami.

Rozpocznij pracę z eksperymentami automatycznego uczenia maszynowego za pomocą interfejsu użytkownika z małą ilością kodu lub interfejsu API języka Python.

Wymagania

  • Databricks Runtime 9.1 ML lub nowszy. W przypadku wersji ogólnodostępnej (GA) środowisko Databricks Runtime 10.4 LTS ML lub nowsze.
    • W przypadku prognozowania szeregów czasowych środowisko Databricks Runtime 10.0 ML lub nowsze.
    • W przypadku środowiska Databricks Runtime 9.1 LTS ML i nowszego rozwiązanie AutoML zależy od databricks-automl-runtime pakietu, który zawiera składniki przydatne poza rozwiązaniem AutoML, a także pomaga uprościć notesy generowane przez trenowanie rozwiązania AutoML. databricks-automl-runtime jest dostępny w interfejsie PyPI.
  • W klastrze nie powinny być zainstalowane żadne dodatkowe biblioteki inne niż te wstępnie zainstalowane w środowisku Databricks Runtime for Machine Learning.
    • Wszelkie modyfikacje (usuwanie, uaktualnienia lub obniżanie wersji) do istniejących wersji bibliotek powoduje błędy uruchamiania z powodu niezgodności.
  • Rozwiązanie AutoML jest niezgodne z klastrami trybu dostępu współdzielonego.
  • Aby używać wykazu aparatu Unity z rozwiązaniem AutoML, tryb dostępu klastra musi być pojedynczym użytkownikiem i musi być wyznaczonym pojedynczym użytkownikiem klastra.
  • Aby uzyskać dostęp do plików w obszarze roboczym, musisz mieć otwarte porty sieciowe 1017 i 1021 dla eksperymentów rozwiązania AutoML. Aby otworzyć te porty lub potwierdzić, że są otwarte, przejrzyj konfigurację zapory sieci VPN w chmurze i reguły grupy zabezpieczeń lub skontaktuj się z lokalnym administratorem chmury. Aby uzyskać dodatkowe informacje na temat konfiguracji i wdrażania obszaru roboczego, zobacz Tworzenie obszaru roboczego.

Algorytmy automatycznego uczenia maszynowego

Rozwiązanie Databricks AutoML trenuje i ocenia modele na podstawie algorytmów w poniższej tabeli.

Uwaga

W przypadku modeli klasyfikacji i regresji drzewo decyzyjne, lasy losowe, regresja logistyczna i regresja liniowa z algorytmami spadku gradientu stochastycznego są oparte na technologii scikit-learn.

Modele klasyfikacji Modele regresji Modele prognozowania
Drzewa decyzyjne Drzewa decyzyjne Prorok
Lasy losowe Lasy losowe Auto-ARIMA (dostępne w środowisku Databricks Runtime 10.3 ML i nowszym).
Regresja logistyczna Regresja liniowa ze spadkiem gradientu stochastycznego
XGBoost XGBoost
LightGBM LightGBM

Generowanie notesu w wersji próbnej

Rozwiązanie AutoML generuje notesy kodu źródłowego za wersjami próbnymi, dzięki czemu można przeglądać, odtwarzać i modyfikować kod zgodnie z potrzebami.

W przypadku eksperymentów prognozowania notesy generowane automatycznie są automatycznie importowane do obszaru roboczego dla wszystkich prób eksperymentu.

W przypadku eksperymentów dotyczących klasyfikacji i regresji notesy generowane automatycznie na potrzeby eksploracji danych i najlepszej wersji próbnej w eksperymencie są automatycznie importowane do obszaru roboczego. Wygenerowane notesy dla innych prób eksperymentów są zapisywane jako artefakty MLflow w systemie dbFS zamiast automatycznie importowane do obszaru roboczego. W przypadku wszystkich wersji próbnych oprócz najlepszej wersji próbnej notebook_path zestaw i notebook_url w interfejsie TrialInfo API języka Python nie jest ustawiony. Jeśli chcesz użyć tych notesów, możesz ręcznie zaimportować je do obszaru roboczego przy użyciu interfejsu użytkownika eksperymentu rozwiązania AutoML lub interfejsu databricks.automl.import_notebook API języka Python.

Jeśli używasz tylko notesu eksploracji danych lub notesu najlepszej wersji próbnej wygenerowanego przez rozwiązanie AutoML, kolumna Źródło w interfejsie użytkownika eksperymentu rozwiązania AutoML zawiera link do wygenerowanego notesu w celu uzyskania najlepszej wersji próbnej.

Jeśli używasz innych wygenerowanych notesów w interfejsie użytkownika eksperymentu rozwiązania AutoML, nie są one automatycznie importowane do obszaru roboczego. Notesy można znaleźć, klikając poszczególne przebiegi platformy MLflow. Notes IPython jest zapisywany w sekcji Artifacts (Artefakty ) na stronie uruchamiania. Możesz pobrać ten notes i zaimportować go do obszaru roboczego, jeśli pobieranie artefaktów jest włączone przez administratorów obszaru roboczego.

Shapley values (SHAP) for model explainability (Shapley values) for model explainability (Shapley values( SHAP) for model explainability (Shaple

Uwaga

W przypadku usługi MLR 11.1 i nowszych wykresy SHAP nie są generowane, jeśli zestaw danych zawiera kolumnę datetime .

Notesy utworzone przez przebiegi regresji i klasyfikacji automatycznego uczenia maszynowego zawierają kod umożliwiający obliczenie wartości Shapley. Wartości shapley opierają się na teorii gier i szacują znaczenie każdej funkcji przewidywania modelu.

Notesy rozwiązania AutoML obliczają wartości Shapley przy użyciu pakietu SHAP. Ponieważ te obliczenia intensywnie korzystają z pamięci, obliczenia nie są domyślnie wykonywane.

Aby obliczyć i wyświetlić wartości Shapley:

  1. Przejdź do sekcji Ważność funkcji w notesie wersji próbnej wygenerowanej automatycznie przez uczenie maszynowe.
  2. Ustaw wartość shap_enabled = True.
  3. Uruchom ponownie notes.

Następne kroki