Глубокое обучение

В этой статье приводится краткое введение в использование PyTorch, Tensorflow и распределенное обучение для разработки и точной настройки моделей глубокого обучения в Azure Databricks. Она также содержит ссылки на страницы с примерами записных книжек, иллюстрирующих использование этих средств.

PyTorch

PyTorch входит в машинное обучение среды выполнения Databricks и предоставляет вычислительные функции с ускорением gpu и высокоуровневые функции для создания сетей глубокого обучения. Вы можете выполнять обучение с одним узлом или распределенное обучение с помощью PyTorch в Databricks. См. Раздел PyTorch.

TensorFlow

Машинное обучение среды выполнения Databricks включает TensorFlow и TensorBoard, поэтому эти библиотеки можно использовать без установки пакетов. TensorFlow поддерживает глубокое обучение и общие числовые вычисления на ЦП, GPU и кластерах GPU. TensorBoard предоставляет средства визуализации для отладки и оптимизации рабочих процессов машинного обучения и глубокого обучения. См . раздел TensorFlow для одного узла и примеров распределенного обучения.

Распределенное обучение

Так как модели глубокого обучения являются данными и вычислительными операциями, распределенное обучение может быть важным. Примеры распределенного глубокого обучения с помощью интеграции с Horovod, spark-tensorflow-distributorTorchDistributor и DeepSpeed см . в разделе "Распределенное обучение".

Отслеживание разработки моделей глубокого обучения

Отслеживание остается краеугольным камнем экосистемы MLflow и особенно жизненно важно для итеративной природы глубокого обучения. Databricks использует MLflow для отслеживания запусков глубокого обучения и разработки моделей. См. раздел "Отслеживание разработки моделей с помощью MLflow".