Deep Learning

Dieser Artikel enthält eine kurze Einführung in die Verwendung von PyTorch, Tensorflow und verteilten Trainings für die Entwicklung und Feinabstimmung von Deep Learning-Modellen in Azure Databricks. Er enthält auch Links zu Seiten mit Beispielnotebooks, die die Verwendung dieser Tools veranschaulichen.

PyTorch

PyTorch ist in Databricks Runtime ML enthalten und bietet GPU-beschleunigte Tensorberechnungen und allgemeine Funktionen zum Erstellen von Deep Learning-Netzwerken. Mit PyTorch können Sie ein Einzelknotentraining oder verteiltes Training auf Databricks durchführen. Siehe PyTorch.

TensorFlow

Databricks Runtime ML enthält TensorFlow und TensorBoard, sodass Sie diese Bibliotheken verwenden können, ohne Pakete zu installieren. TensorFlow unterstützt Deep Learning und allgemeine numerische Berechnungen für CPUs, GPUs und GPUs-Cluster. TensorBoard bietet Visualisierungstools, mit denen Sie Machine Learning- und Deep Learning-Workflows debuggen und optimieren können. Beispiele für ein Einzelknotentraining und verteiltes Training finden Sie unter TensorFlow.

Verteiltes Training

Da Deep Learning-Modelle daten- und rechenintensiv sind, kann die Verwendung von verteiltem Training wichtig sein. Beispiele für verteiltes Deep Learning mit Integrationen mit Horovod, spark-tensorflow-distributor, TorchDistributor und DeepSpeed finden Sie unter Verteiltes Training.

Nachverfolgen der Entwicklung von Deep Learning-Modellen

Die Nachverfolgung bleibt ein Eckpfeiler des MLflow-Ökosystems und ist insbesondere für die iterative Natur von Deep Learning wichtig. Databricks nutzt MLflow zum Nachverfolgen der Deep Learning-Trainingsausführungen und der Modellentwicklung. Siehe Nachverfolgen der Modellentwicklung mithilfe von MLflow.