Adatok és környezet előkészítése az ml-hez és a DL-hez
Ez a szakasz bemutatja, hogyan készítheti elő az adatokat és az Azure Databricks-környezetet a gépi tanuláshoz és a mély tanuláshoz.
Adatok előkészítése
Az ebben a szakaszban található cikkek az ml- és DL-alkalmazásokra jellemző adatok betöltésének és előfeldolgozásának szempontjait ismertetik.
- Adatok betöltése gépi tanuláshoz és mély tanuláshoz
- Adatok előfeldolgozása gépi tanuláshoz és mély tanuláshoz
A környezet előkészítése
A Databricks Runtime for Machine Tanulás (Databricks Runtime ML) egy használatra kész környezet, amely gépi tanulásra és adatelemzésre van optimalizálva. A Databricks Runtime ML számos külső kódtárat tartalmaz, ezek közé tartozik például a TensorFlow, a PyTorch, a Horovod, a scikit-Learn és az XGBoost. Emellett a teljesítmény javítására szolgáló bővítményeket is biztosít, például GPU-gyorsítást az XGBoostban, elosztott mély tanulást a HorovodRunner használatával, valamint modell-ellenőrzőpont létrehozását egy Databricks File System (DBFS) FUSE-csatlakoztatás használatával.
A Databricks Runtime ML használatához válassza ki a futtatókörnyezet ML-verzióját a fürt létrehozásakor.
Feljegyzés
A Unity Katalógusban a gépi tanulási munkafolyamatok adatainak eléréséhez a fürt hozzáférési módjának egyetlen felhasználónak kell lennie (hozzárendelve). A megosztott fürtök nem kompatibilisek a Databricks Runtime for Machine Tanulás szolgáltatással.
Kódtárak telepítése
További kódtárakat is telepíthet, hogy egyéni környezetet hozzon létre a jegyzetfüzethez vagy a fürthöz.
- Ha elérhetővé szeretne tenni egy tárat a fürtön futó összes jegyzetfüzethez, hozzon létre egy fürttárat. Init-szkripttel is telepíthet kódtárakat fürtökre a létrehozáskor.
- Ha olyan kódtárat szeretne telepíteni, amely csak egy adott jegyzetfüzet-munkamenethez érhető el, használjon jegyzetfüzet-hatókörű Python-kódtárakat.
GPU-fürtök használata
GPU-fürtöket hozhat létre a mélytanulási feladatok felgyorsításához. Az Azure Databricks GPU-fürtök létrehozásával kapcsolatos információkért lásd a GPU-kompatibilis számítást. A Databricks Runtime ML GPU-hardverillesztőket és NVIDIA-kódtárakat tartalmaz (például CUDA).