Gegevens en omgeving voorbereiden voor ML en DL

In deze sectie wordt beschreven hoe u uw gegevens en uw Azure Databricks-omgeving voorbereidt op machine learning en deep learning.

Gegevens voorbereiden

De artikelen in deze sectie hebben betrekking op aspecten van het laden en voorbewerken van gegevens die specifiek zijn voor ML- en DL-toepassingen.

Omgeving voorbereiden

Databricks Runtime voor Machine Learning (Databricks Runtime ML) is een kant-en-klare omgeving die is geoptimaliseerd voor machine learning en gegevenswetenschap. Databricks Runtime ML omvat veel externe bibliotheken, inclusief TensorFlow, PyTorch, Horovod, scikit-learn en XGBoost en biedt extensies om prestaties te verbeteren, waaronder GPI-versnelling in XGBoost, verspreide deep learning met HorovodRunner en modelcheckpoints met een Databricks-bestandssysteem (DBFS) FUSE-koppeling.

Als u Databricks Runtime ML wilt gebruiken, selecteert u de ML-versie van de runtime wanneer u uw cluster maakt.

Notitie

Voor toegang tot gegevens in Unity Catalog voor machine learning-werkstromen moet de toegangsmodus voor het cluster één gebruiker zijn (toegewezen). Gedeelde clusters zijn niet compatibel met Databricks Runtime voor Machine Learning.

Bibliotheken installeren

U kunt extra bibliotheken installeren om een aangepaste omgeving te maken voor uw notebook of cluster.

  • Als u een bibliotheek beschikbaar wilt maken voor alle notebooks die op een cluster worden uitgevoerd, maakt u een clusterbibliotheek. U kunt ook een init-script gebruiken om bibliotheken op clusters te installeren bij het maken.
  • Als u een bibliotheek wilt installeren die alleen beschikbaar is voor een specifieke notebooksessie, gebruikt u Python-bibliotheken met notebookbereik.

GPU-clusters gebruiken

U kunt GPU-clusters maken om deep learning-taken te versnellen. Zie rekenkracht met GPU die is ingeschakeld voor GPU voor meer informatie over het maken van GPU-clusters in Azure Databricks. Databricks Runtime ML bevat stuurprogramma's voor GPU-hardware en NVIDIA-bibliotheken, zoals CUDA.