Elosztott betanítás

Az Azure Databricks azt javasolja, hogy ha lehetséges, egyetlen gépen tanítsa be a neurális hálózatokat. Ha a betanításhoz és a következtetésekhez elosztott kódot használ, az összetettebb, mint az egygépes kód, és lassabb is a kommunikációhoz kapcsolódó többletterhelés miatt. Akkor azonban érdemes lehet az elosztott betanítást és következtetést használni, ha a modell vagy az adatok túl nagyok ahhoz, hogy egyetlen gép memóriájában elférjenek. Ezekhez a számítási feladatokhoz a Databricks Runtime ML tartalmazza a TorchDistributort, a DeepSpeed forgalmazót és a Ray-csomagokat.

Az Azure Databricks elosztott betanítást is kínál a pyspark.ml.connect Modullal rendelkező Spark ML-modellekhez.

Feljegyzés

A Databricks nem javasolja többcsomópontos elosztott betanítás futtatását NC-sorozatú virtuális gépek használatával az alacsony csomópontközi hálózati teljesítmény miatt. Ehelyett használjon egy több GPU-csomópontot, vagy használjon más GPU virtuálisgép-méretet, például a NCasT4_v3 sorozatot, amely támogatja a gyorsított hálózatkezelést.

DeepSpeed forgalmazó

A DeepSpeed forgalmazó a TorchDistributorra épül, és ajánlott megoldás olyan ügyfelek számára, akik magasabb számítási teljesítményt igénylő modelleket használnak, de memóriakorlátok korlátozzák őket. A DeepSpeed a Microsoft által kifejlesztett nyílt forráskódú kódtár, amely optimalizált memóriahasználatot, csökkentett kommunikációs terhelést és fejlett folyamat-párhuzamosságot kínál. További információ az elosztott képzésről a DeepSpeed forgalmazójával

TorchDistributor

A TorchDistributor egy nyílt forráskódú modul a PySparkban, amely segít a felhasználóknak elosztott betanítást végezni a PyTorch-tal a Spark-fürtöiken, így Lehetővé teszi a PyTorch-betanítási feladatok Spark-feladatokként való elindítását. A motorháztető alatt inicializálja a környezetet és a kommunikációs csatornákat a feldolgozók között, és a CLI-paranccsal torch.distributed.run elosztott betanítást futtat a feldolgozó csomópontokon. További információ az elosztott betanításról a TorchDistributor használatával.

Rája

A Ray egy nyílt forráskódú keretrendszer, amely az ML-munkafolyamatok és AI-alkalmazások skálázására szolgáló párhuzamos számítási feldolgozásra specializálódott. Lásd : Mi az a Ray az Azure Databricksben?.

Spark ML

A modul használatával pyspark.ml.connect elosztott betanítást végezhet Spark ML-modellek betanításához és modellkövetkeztetés futtatásához. A Databricks Runtime 17.0-s vagy újabb verziója esetén a Spark ML alapértelmezés szerint engedélyezve van a Standard számítási erőforrásokban, így teljes fürt kezelése nélkül használhatja a Spark elosztott gépi tanulási képességeit. Lásd: Spark ML-modellek képzése a Databricks Connect használatával pyspark.ml.connect.

Visszajelzés

Hasznosnak találta ezt az oldalt?

Last updated on 2026-03-19