Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
Dieser Abschnitt enthält Beispiele zum Trainieren von Machine Learning-Modellen in Azure Databricks mithilfe vieler gängiger Open-Source-Bibliotheken.
Sie können auch AutoML verwenden. Damit wird automatisch ein Dataset für das Modelltraining vorbereitet, eine Reihe von Testversionen mit Open-Source-Bibliotheken wie Scikit-learn und XGBoost ausgeführt und ein Python-Notebook mit dem Quellcode für jede Testausführung erstellt, damit Sie den Code überprüfen, reproduzieren und ändern können.
Beispiele für Machine Learning
| Paket | Notebook(s) | Features |
|---|---|---|
| scikit-learn | Machine Learning-Tutorial | Unity Catalog, Klassifizierungsmodell, MLflow, automatisierte Hyperparameteroptimierung mit Hyperopt und MLflow |
| scikit-learn | End-to-End-Beispiel | Unity Catalog, Klassifizierungsmodell, MLflow, automatisierte Hyperparameteroptimierung mit Hyperopt und MLflow, XGBoost |
| MLlib | MLlib-Beispiele | Binärklassifizierung, Entscheidungsstrukturen, GBT-Regression, strukturiertes Streaming, benutzerdefinierter Transformator |
| xgboost | XGBoost-Beispiele | Python, PySpark und Scala, Einzelknoten-Workloads und verteiltes Training |
Hyperparameter-Optimierungsbeispiele
Allgemeine Informationen zur Hyperparameteroptimierung in Azure Databricks finden Sie unter Hyperparameteroptimierung.
| Paket | Notebook | Features |
|---|---|---|
| Optuna | Erste Schritte mit Optuna | Optuna, verteiltes Optuna, Scikit-learn, MLflow |
| Hyperopt | Hyperopt (verteilt) | Hyperopt (verteilt), Scikit-learn, MLflow |
| Hyperopt | Vergleichen von Modellen | Verwenden von Hyperopt (verteilt) zum gleichzeitigen Durchsuchen des Hyperparameterraums für verschiedene Modelltypen |
| Hyperopt | Verteilte Trainingsalgorithmen und Hyperopt | Hyperopt, MLlib |
| Hyperopt | Hyperopt: bewährte Methoden | Bewährte Methoden für Datasets unterschiedlicher Größe |