本部分包括演示如何使用许多常用开源库在Azure Databricks上训练机器学习模型的示例。
还可以使用 AutoML(该数据集自动准备用于模型训练的数据集),使用 scikit-learn 和 XGBoost 等开源库执行一组试验,并为每个试用版运行创建一个具有源代码的Python笔记本,以便查看、重现和修改代码。
机器学习示例
| 软件包 | 笔记本 | 功能 |
|---|---|---|
| scikit-learn | 机器学习教程 | Unity Catalog、分类模型、MLflow、使用 Hyperopt 和 MLflow 自动超参数优化 |
| scikit-learn | 端到端示例 | Unity Catalog、分类模型、MLflow、使用 Hyperopt 和 MLflow 自动超参数优化、XGBoost |
| MLlib | MLlib 示例 | 二元分类、决策树、GBT 回归、结构化流式处理、自定义转换器 |
| xgboost | XGBoost 示例 | Python、PySpark 和 Scala、单节点工作负荷和分布式训练 |
超参数优化示例
有关Azure Databricks中超参数优化的一般信息,请参阅 Hyperparameter tuning。
注释
不再维护 Hyperopt 的开源版本。
在 16.4 LTS ML 之后,机器学习 Databricks Runtime 中不包含 Hyperopt。 Azure Databricks建议将 Optuna 用于单节点优化,或将 RayTune 用于与弃用的 Hyperopt 分布式超参数优化功能类似的体验。 详细了解如何在 Azure Databricks 上使用 RayTune。
| 软件包 | Notebook | 功能 |
|---|---|---|
| Optuna | Optuna 入门 | Optuna、分布式 Optuna、scikit-learn、MLflow |
| Hyperopt | 分布式 Hyperopt | 分布式 hyperopt、scikit-learn、MLflow |
| Hyperopt | 比较模型 | 使用分布式Hyperopt同时搜索不同模型类型的超参数空间 |
| Hyperopt | 分布式训练算法和 hyperopt | Hyperopt、MLlib |
| Hyperopt | Hyperopt 最佳做法 | 不同大小的数据集的最佳做法 |