Elosztott betanítási algoritmusok használata a Hyperopttal

Cikk
07/16/2024

Feljegyzés

A Hyperopt nyílt forráskódú verzióját a továbbiakban nem tartjuk karban.

A Hyperopt már nincs előre telepítve a Databricks Runtime ML 17.0-s vagy újabb verziója esetén. Az Azure Databricks inkább az Optuna használatát javasolja a hasonló élmény és a naprakészebb hiperparaméter-finomhangolási algoritmusokhoz való hozzáférés érdekében.

A scikit-learnhez hasonló egygépes betanítási algoritmusok mellett a Hyperoptot elosztott betanítási algoritmusokkal is használhatja. Ebben a forgatókönyvben a Hyperopt különböző hiperparaméter-beállításokkal rendelkező próbaverziókat hoz létre az illesztőprogram-csomóponton. Az egyes próbaverziók az illesztőprogram-csomópontról lesznek végrehajtva, így hozzáférhet a teljes fürterőforrásokhoz. Ez a beállítás bármilyen elosztott gépi tanulási algoritmussal vagy kódtárral működik, beleértve az Apache Spark MLlib-et és a HorovodRunnert is.

Ha elosztott betanítási algoritmusokkal használja a Hyperoptot, ne adjon át argumentumot trials az osztálynak fmin(), és különösen ne használja az osztályt SparkTrials . SparkTrials olyan algoritmusok próbaverzióinak terjesztésére lett kialakítva, amelyek önmagukban nem elosztottak. Elosztott betanítási algoritmusokkal használja az alapértelmezett Trials osztályt, amely a fürtillesztőn fut. A Hyperopt kiértékeli az illesztőprogram-csomóponton található összes próbaverziót, hogy maga az ML-algoritmus kezdeményezhesse az elosztott betanítást.

Feljegyzés

Az Azure Databricks nem támogatja az MLflow-ba való automatikus naplózást az Trials osztálysal. Elosztott betanítási algoritmusok használatakor manuálisan kell meghívnia az MLflow-t a Hyperopt próbaidőszakainak naplózásához.

Példa jegyzetfüzetre: Hyperopt használata MLlib-algoritmusokkal

A példajegyzetfüzet bemutatja, hogyan hangolhatja az MLlib elosztott betanítási algoritmusait a Hyperopt használatával.

Hyperopt és MLlib elosztott betanítási jegyzetfüzet

Jegyzetfüzet beszerzése

Példa jegyzetfüzetre: A Hyperopt használata a HorovodRunnerrel

A HorovodRunner egy általános API, amely elosztott mélytanulási számítási feladatokat futtat a Databricksen. A HorovodRunner integrálja a Horovodot a Spark akadálymentes üzemmódjával, hogy nagyobb stabilitást biztosítson a Spark hosszan futó mélytanulási betanítási feladataihoz.

A példajegyzetfüzet bemutatja, hogyan hangolhat elosztott betanítást a Hyperopt használatával a HorovodRunneren alapuló mélytanuláshoz.

Hyperopt és HorovodRunner elosztott betanítási jegyzetfüzet