Freigeben über


Was ist AutoML?

Automatisiertes maschinelles Lernen von Databricks vereinfacht den Prozess der Anwendung des maschinellen Lernens auf Ihre Datasets, indem automatisch der beste Algorithmus und die beste Hyperparameterkonfiguration für Sie ermittelt werden.

Geben Sie Ihr Dataset und den Typ des ML-Problems an, und dann führt automatisiertes ML die folgenden Aktionen aus:

  1. Es bereinigt Ihre Daten und bereitet sie vor.
  2. Es orchestriert verteiltes Modelltraining und Hyperparameteroptimierung über mehrere Algorithmen hinweg.
  3. Es ermittelt das beste Modell mithilfe von Open Source-Auswertungsalgorithmen von scikit-learn, xgboost, LightGBM, Prophet und ARIMA.
  4. Es zeigt die Ergebnisse an. Automatisiertes ML generiert außerdem Quellcode-Notebooks für jeden Testlauf, sodass Sie den Code bei Bedarf überprüfen, reproduzieren und ändern können.

Sie können über eine Low-Code-Benutzeroberfläche oder die Python-API erste Schritte mit Experimenten für automatisiertes ML ausführen.

Anforderungen

  • Mindestens Databricks Runtime 9.1 ML. Für die GA-Version (allgemeine Verfügbarkeit), Databricks Runtime 10.4 LTS ML oder höher.
    • Für Zeitreihenvorhersagen Databricks Runtime 10.0 ML oder höher.
    • Bei Databricks Runtime 9.1 LTS ML und höher hängt automatisiertes ML vom Paket databricks-automl-runtime ab, das Komponenten enthält, die außerhalb von automatisiertem ML nützlich sind, und hilft auch dabei, die vom AutoML-Training generierten Notebooks zu vereinfachen. databricks-automl-runtime ist unter PyPI verfügbar.
  • Im Cluster können keine zusätzlichen Bibliotheken installiert werden, die nicht in der Databricks Runtime für Machine Learning vorinstalliert sind.
    • Jede Änderung (Entfernung, Upgrades oder Downgrades) an vorhandenen Bibliotheksversionen führt aufgrund von Inkompatibilität zu Ausführungsfehlern.
  • Automatisiertes ML ist nicht mit Clustern mit dem Zugriffsmodus „Freigegeben“ kompatibel.
  • Um Unity Catalog mit AutoML verwenden zu können, muss der Cluster-ZugriffsmodusEinzelbenutzer sein und Sie müssen der designierte Einzelbenutzer des Clusters sein.
  • Für den Zugriff auf Dateien in Ihrem Arbeitsbereich müssen Sie die Netzwerkports 1017 und 1021 für AutoML-Experimente öffnen. Um diese Ports zu öffnen oder zu bestätigen, dass sie offen sind, überprüfen Sie die Konfiguration Ihrer Cloud-VPN-Firewall und die Regeln für Sicherheitsgruppen, oder wenden Sie sich an Ihren lokalen Cloudadministrator. Weitere Informationen zur Konfiguration und Bereitstellung von Arbeitsbereichen finden Sie unter Erstellen eines Arbeitsbereichs.

AutoML-Algorithmen

Databricks AutoML trainiert und wertet Modelle basierend auf den Algorithmen in der folgenden Tabelle aus.

Hinweis

Für Klassifizierungs- und Regressionsmodelle basieren die Entscheidungsstruktur, zufällige Gesamtstrukturen, logistische Regression und lineare Regression mit stochastischen Gradientenabstiegsalgorithmen auf scikit-learn.

Klassifizierungsmodelle Regressionsmodelle Vorhersagemodelle
Entscheidungsstrukturen Entscheidungsstrukturen Prophet
Random Forests Random Forests Auto-ARIMA (Verfügbar in Databricks Runtime 10.3 ML und höher.)
Logistische Regression Lineare Regression mit stochastischem Gradientenverfahren
XGBoost XGBoost
LightGBM LightGBM

Generierung eines Testnotebooks

Automatisiertes ML generiert Notebooks des Quellcodes für Testläufe, damit Sie den Code bei Bedarf überprüfen, reproduzieren und ändern können.

Für Vorhersageexperimente werden vom automatisierten maschinellen Lernen (AutoML) generierte Notebooks für alle Testläufe Ihres Experiments automatisch in Ihren Arbeitsbereich importiert.

Für Klassifizierungs- und Regressionsexperimente werden von AutoML generierte Notebooks für die Datenuntersuchung und der beste Testlauf in Ihrem Experiment automatisch in Ihren Arbeitsbereich importiert. Für andere Experimenttestläufe generierte Notebooks werden als MLflow-Artefakte im DBFS gespeichert, anstatt sie automatisch in Ihren Arbeitsbereich zu importieren. Für alle Testläufe abgesehen vom besten Testlauf werden notebook_path und notebook_url in der TrialInfo-Python-API nicht festgelegt. Wenn Sie diese Notebooks verwenden müssen, können Sie sie manuell über die AutoML-Benutzeroberfläche für Experimente oder die Python-API databricks.automl.import_notebook in Ihren Arbeitsbereich importieren.

Wenn Sie nur das von AutoML generierte Notebook für die Datenuntersuchung oder das Notebook für den besten Testlauf verwenden, enthält die Spalte Quelle in der AutoML-Benutzeroberfläche für Experimente den Link zum generierten Notebook für den besten Testlauf.

Wenn Sie andere generierte Notebooks in der AutoML-Benutzeroberfläche für Experimente verwenden, werden diese nicht automatisch in den Arbeitsbereich importiert. Sie können die Notizbücher finden, indem Sie in jeder ausgeführten MLflow-Instanz klicken. Das IPython-Notizbuch wird im Abschnitt Artefakte der Ausführungsseite gespeichert. Sie können dieses Notizbuch herunterladen und in den Arbeitsbereich importieren, wenn das Herunterladen von Artefakten von Ihren Arbeitsbereichsadministratoren aktiviert wurde.

Shapley-Werte (SHAP) zur Modellerklärbarkeit

Hinweis

Bis MLR 11.1 werden keine SHAP-Plots generiert, wenn das Dataset eine Spalte vom Typ datetime enthält.

Die von den AutoML-Regressions- und Klassifizierungsausführungen erstellten Notebooks enthalten Code zur Berechnung der Shapley-Werte. Die Shapley-Werte basieren auf der Spieltheorie und schätzen die Bedeutung jedes Features für die Vorhersagen eines Modells.

AutoML-Notebooks berechnen Shapley-Werte mithilfe des SHAP-Pakets. Da diese Berechnungen äußerst arbeitsspeicherintensiv sind, werden sie nicht standardmäßig durchgeführt.

So berechnen Sie Shapley-Werte und zeigen Sie an

  1. Wechseln Sie zum Abschnitt Featurerelevanz in einem von AutoML generierten Testnotebook.
  2. Legen Sie shap_enabled = True fest.
  3. Führen Sie das Notebook erneut aus.

Nächste Schritte