Adatok és környezet előkészítése az ml-hez és a DL-hez

Cikk
03/19/2024

Ez a szakasz bemutatja, hogyan készítheti elő az adatokat és az Azure Databricks-környezetet a gépi tanuláshoz és a mély tanuláshoz.

Adatok előkészítése

Az ebben a szakaszban található cikkek az ml- és DL-alkalmazásokra jellemző adatok betöltésének és előfeldolgozásának szempontjait ismertetik.

A környezet előkészítése

A Databricks Runtime for Machine Tanulás (Databricks Runtime ML) egy használatra kész környezet, amely gépi tanulásra és adatelemzésre van optimalizálva. A Databricks Runtime ML számos külső kódtárat tartalmaz, ezek közé tartozik például a TensorFlow, a PyTorch, a Horovod, a scikit-Learn és az XGBoost. Emellett a teljesítmény javítására szolgáló bővítményeket is biztosít, például GPU-gyorsítást az XGBoostban, elosztott mély tanulást a HorovodRunner használatával, valamint modell-ellenőrzőpont létrehozását egy Databricks File System (DBFS) FUSE-csatlakoztatás használatával.

A Databricks Runtime ML használatához válassza ki a futtatókörnyezet ML-verzióját a fürt létrehozásakor.

Feljegyzés

A Unity Katalógusban a gépi tanulási munkafolyamatok adatainak eléréséhez a fürt hozzáférési módjának egyetlen felhasználónak kell lennie (hozzárendelve). A megosztott fürtök nem kompatibilisek a Databricks Runtime for Machine Tanulás szolgáltatással.

Kódtárak telepítése

További kódtárakat is telepíthet, hogy egyéni környezetet hozzon létre a jegyzetfüzethez vagy a fürthöz.

Ha elérhetővé szeretne tenni egy tárat a fürtön futó összes jegyzetfüzethez, hozzon létre egy fürttárat. Init-szkripttel is telepíthet kódtárakat fürtökre a létrehozáskor.
Ha olyan kódtárat szeretne telepíteni, amely csak egy adott jegyzetfüzet-munkamenethez érhető el, használjon jegyzetfüzet-hatókörű Python-kódtárakat.

GPU-fürtök használata

GPU-fürtöket hozhat létre a mélytanulási feladatok felgyorsításához. Az Azure Databricks GPU-fürtök létrehozásával kapcsolatos információkért lásd a GPU-kompatibilis számítást. A Databricks Runtime ML GPU-hardverillesztőket és NVIDIA-kódtárakat tartalmaz (például CUDA).

Share via

Adatok és környezet előkészítése az ml-hez és a DL-hez

Adatok előkészítése

A környezet előkészítése

Kódtárak telepítése

GPU-fürtök használata

További források