通过


模型训练示例

本部分包括演示如何使用许多常用开源库在Azure Databricks上训练机器学习模型的示例。

还可以使用 AutoML(该数据集自动准备用于模型训练的数据集),使用 scikit-learn 和 XGBoost 等开源库执行一组试验,并为每个试用版运行创建一个具有源代码的Python笔记本,以便查看、重现和修改代码。

机器学习示例

软件包 笔记本 功能
scikit-learn 机器学习教程 Unity Catalog、分类模型、MLflow、使用 Hyperopt 和 MLflow 自动超参数优化
scikit-learn 端到端示例 Unity Catalog、分类模型、MLflow、使用 Hyperopt 和 MLflow 自动超参数优化、XGBoost
MLlib MLlib 示例 二元分类、决策树、GBT 回归、结构化流式处理、自定义转换器
xgboost XGBoost 示例 Python、PySpark 和 Scala、单节点工作负荷和分布式训练

超参数优化示例

有关Azure Databricks中超参数优化的一般信息,请参阅 Hyperparameter tuning

注释

不再维护 Hyperopt 的开源版本。

在 16.4 LTS ML 之后,机器学习 Databricks Runtime 中不包含 Hyperopt。 Azure Databricks建议将 Optuna 用于单节点优化,或将 RayTune 用于与弃用的 Hyperopt 分布式超参数优化功能类似的体验。 详细了解如何在 Azure Databricks 上使用 RayTune

软件包 Notebook 功能
Optuna Optuna 入门 Optuna、分布式 Optuna、scikit-learn、MLflow
Hyperopt 分布式 Hyperopt 分布式 hyperopt、scikit-learn、MLflow
Hyperopt 比较模型 使用分布式Hyperopt同时搜索不同模型类型的超参数空间
Hyperopt 分布式训练算法和 hyperopt Hyperopt、MLlib
Hyperopt Hyperopt 最佳做法 不同大小的数据集的最佳做法