Megosztás a következőn keresztül:


Felhasználói útmutatók az AI futtatási környezethez

Fontos

Az egycsomópontos feladatokhoz készült AI-futtatókörnyezet nyilvános előzetes verzióban érhető el. A több GPU-s számítási feladatok elosztott betanítási API-ja a bétaverzióban marad.

Ez a lap a migrálási információkat, a példajegyzetfüzetekre mutató hivatkozásokat és a hibaelhárítási információkat tartalmazza.

Klasszikus GPU-számítási feladatok migrálása kiszolgáló nélkülire

Ha meglévő mélytanulási számítási feladatot helyez át egy klasszikus Databricks-fürtből (Databricks Runtime ML-vel) kiszolgáló nélkülire (AI-futtatókörnyezettel), kövesse az alábbi lépéseket:

  1. Cserélje le a fürtfüggő kódot. Távolítsa el a Spark-alapú elosztott betanításra (például TorchDistributor) mutató hivatkozásokat, és cserélje le őket a @distributed dekoratőrre a serverless_gpu.
  2. Az adatok betöltésének frissítése. Cserélje le a közvetlen DBFS elérési útvonalakat Unity Catalog-kötetek elérési útjaira (/Volumes/...). Cserélje le a helyi Spark DataFrame-műveleteket a Spark Connectre.
  3. Telepítse újra a függőségeket. Ne támaszkodj a Databricks Runtime ML előre telepített kódtáraira. Adjon hozzá explicit %pip install parancsokat az összes szükséges csomaghoz.
  4. Az ellenőrzőpont elérési útjainak frissítése. Ellenőrzőpontok áthelyezése DBFS-ből vagy helyi tárolóból Unity Catalog-kötetekbe (/Volumes/<catalog>/<schema>/<volume>/...).
  5. Frissítse az MLflow konfigurációját. Győződjön meg arról, hogy a kísérletnevek abszolút elérési utakat használnak, és konfigurálja a futtatási neveket úgy, hogy könnyen újra lehessen őket indítani.
  6. Először interaktívan tesztelje. A feladatként való ütemezés előtt ellenőrizze a munkaterhelést egy interaktív jegyzetfüzetben.

Használat és költségek nyomon követése

Az AI-futtatókörnyezet GPU-kiadásait a számlázható használati rendszer táblájának ()system.billing.usage lekérdezésével figyelheti. A következő lekérdezés a kiszolgáló nélküli GPU-számítási feladatok teljes használatát adja vissza:

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

A számlázható használati tábla sémájáról további információt a Számlázható használati rendszer táblahivatkozásában talál.

Az AI futási környezet GPU-óránként kiszámított díjai a Modellbetanítási termékkód alatt az alábbi árakon:

  • Igény szerinti H100: 7,00 USD/GPU óra (USA keleti régiója)
  • A10 igény szerint: 4,90 USD/GPU óra (USA keleti régiója)

Példajegyzetfüzetek

A következő példajegyzetfüzet-kategóriák érhetők el az első lépésekhez:

Kategória Leírás
Nagy nyelvi modellek (LLM-ek) Nagy nyelvi modellek finomhangolása, beleértve a paraméter-hatékony módszereket (LoRA, QLoRA)
Számítógépes látás Objektumészlelés, képbesorolás és egyéb CV-feladatok
Deep Learning-ajánló rendszerek Javaslati rendszerek létrehozása modern mélytanulási megközelítésekkel, például kéttornyú modellekkel
Klasszikus ML Hagyományos ml-feladatok, beleértve az XGBoost modell betanítását és az idősor előrejelzését
Több GPU-s elosztott betanítás Betanítás skálázása több GPU-ban a kiszolgáló nélküli GPU API használatával

A teljes listát az AI Runtime példajegyzetfüzetei között találja.

Hibaelhárítás

A Genie Code segíthet diagnosztizálni a kódtár telepítési hibáit, és javításokat javasolni. Lásd: A Genie Code használata számítási környezet hibáinak hibakereséséhez.

ValueError: a numpy.dtype mérete megváltozott, bináris kompatibilitást jelezhet. Elvárt érték: 96 a C fejlécből, de 88-at kapott a PyObject esetében.

A hiba általában akkor fordul elő, ha a függő csomag fordítása során használt NumPy-verziók és a futtatókörnyezetben jelenleg telepített NumPy-verzió nem egyezik. Ez az inkompatibilitás gyakran a NumPy C API-jának változásai miatt fordul elő, és különösen a NumPy 1.x és 2.x között észlelhető. Ez a hiba azt jelzi, hogy a jegyzetfüzetben telepített Python-csomag módosította a NumPy verzióját.

Ajánlott megoldás:

Ellenőrizze a NumPy verzióját a futtatókörnyezetben, és győződjön meg arról, hogy kompatibilis a csomagokkal. A 4. környezet és a 3. környezet kiszolgáló nélküli GPU-számítási kiadási megjegyzéseiben található információk az előre telepített Python-könyvtárakról. Ha a NumPy másik verziójától függ, adja hozzá ezt a függőséget a számítási környezethez.

A PyTorch nem találja a libcudnnn fájlt a fáklya telepítésekor

Ha másik verziót torchtelepít, a következő hibaüzenet jelenhet meg: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Ennek az az oka, hogy a fáklya csak a helyi útvonal cuDNN-kódtárát keresi.

Ajánlott megoldás:

Telepítse újra a függőségeket úgy, hogy --force-reinstall hozzáadása a torch telepítésekor történjen.

%pip install torch --force-reinstall