深度学习
本文简要介绍了如何使用 PyTorch、Tensorflow 和分布式训练在 Azure Databricks 上开发和微调深度学习模型。 它还包含指向页面的链接,其中包含演示如何使用这些工具的示例笔记本。
- 有关优化 Azure Databricks 上深度学习工作流的一般准则,请参阅适用于 Azure Databricks 上深度学习的最佳做法。
- 有关在 Azure Databricks 上使用大语言模型和生成式 AI 的信息,请参阅:
PyTorch
PyTorch 包含在 Databricks Runtime ML 中,提供 GPU 加速张量计算和用于构建深度学习网络的高级功能。 可以使用 Databricks 上的 PyTorch 执行单节点训练或分布式训练。 请参阅 PyTorch。
TensorFlow
Databricks Runtime ML 包括 TensorFlow 和 TensorBoard,因此可以在不安装任何包的情况下使用这些库。 TensorFlow 支持在 CPU 上、GPU 上以及 GPU 群集上进行深度学习和常规数字计算。 TensorBoard 提供可视化工具,帮助你调试和优化机器学习和深度学习工作流。 有关单节点训练和分布式训练示例,请参阅 TensorFlow。
分布式训练
由于深度学习模型需要大量数据和计算,因此分布式训练非常重要。 有关使用与 Ray、TorchDistributor 和 DeepSpeed 的集成的分布式深度学习,请参阅分布式训练。
跟踪深度学习模型开发
跟踪仍然是 MLflow 生态系统的基石,对于深度学习的迭代性质尤其重要。 Databricks 使用 MLflow 跟踪深度学习训练运行和模型开发。 请参阅使用 MLflow 跟踪模型开发。