Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Fontos
Az egycsomópontos feladatokhoz készült AI-futtatókörnyezet nyilvános előzetes verzióban érhető el. A több GPU-s számítási feladatok elosztott betanítási API-ja a bétaverzióban marad.
Ez a lap a migrálási információkat, a példajegyzetfüzetekre mutató hivatkozásokat és a hibaelhárítási információkat tartalmazza.
Klasszikus GPU-számítási feladatok migrálása kiszolgáló nélkülire
Ha meglévő mélytanulási számítási feladatot helyez át egy klasszikus Databricks-fürtből (Databricks Runtime ML-vel) kiszolgáló nélkülire (AI-futtatókörnyezettel), kövesse az alábbi lépéseket:
- Cserélje le a fürtfüggő kódot. Távolítsa el a Spark-alapú elosztott betanításra (például
TorchDistributor) mutató hivatkozásokat, és cserélje le őket a@distributeddekoratőrre aserverless_gpu. - Az adatok betöltésének frissítése. Cserélje le a közvetlen DBFS elérési útvonalakat Unity Catalog-kötetek elérési útjaira (
/Volumes/...). Cserélje le a helyi Spark DataFrame-műveleteket a Spark Connectre. - Telepítse újra a függőségeket. Ne támaszkodj a Databricks Runtime ML előre telepített kódtáraira. Adjon hozzá explicit
%pip installparancsokat az összes szükséges csomaghoz. - Az ellenőrzőpont elérési útjainak frissítése. Ellenőrzőpontok áthelyezése DBFS-ből vagy helyi tárolóból Unity Catalog-kötetekbe (
/Volumes/<catalog>/<schema>/<volume>/...). - Frissítse az MLflow konfigurációját. Győződjön meg arról, hogy a kísérletnevek abszolút elérési utakat használnak, és konfigurálja a futtatási neveket úgy, hogy könnyen újra lehessen őket indítani.
- Először interaktívan tesztelje. A feladatként való ütemezés előtt ellenőrizze a munkaterhelést egy interaktív jegyzetfüzetben.
Használat és költségek nyomon követése
Az AI-futtatókörnyezet GPU-kiadásait a számlázható használati rendszer táblájának ()system.billing.usage lekérdezésével figyelheti. A következő lekérdezés a kiszolgáló nélküli GPU-számítási feladatok teljes használatát adja vissza:
SELECT
SUM(usage_quantity)
FROM
system.billing.usage
WHERE
product_features.serverless_gpu IS NOT NULL
A számlázható használati tábla sémájáról további információt a Számlázható használati rendszer táblahivatkozásában talál.
Az AI futási környezet GPU-óránként kiszámított díjai a Modellbetanítási termékkód alatt az alábbi árakon:
- Igény szerinti H100: 7,00 USD/GPU óra (USA keleti régiója)
- A10 igény szerint: 4,90 USD/GPU óra (USA keleti régiója)
Példajegyzetfüzetek
A következő példajegyzetfüzet-kategóriák érhetők el az első lépésekhez:
| Kategória | Leírás |
|---|---|
| Nagy nyelvi modellek (LLM-ek) | Nagy nyelvi modellek finomhangolása, beleértve a paraméter-hatékony módszereket (LoRA, QLoRA) |
| Számítógépes látás | Objektumészlelés, képbesorolás és egyéb CV-feladatok |
| Deep Learning-ajánló rendszerek | Javaslati rendszerek létrehozása modern mélytanulási megközelítésekkel, például kéttornyú modellekkel |
| Klasszikus ML | Hagyományos ml-feladatok, beleértve az XGBoost modell betanítását és az idősor előrejelzését |
| Több GPU-s elosztott betanítás | Betanítás skálázása több GPU-ban a kiszolgáló nélküli GPU API használatával |
A teljes listát az AI Runtime példajegyzetfüzetei között találja.
Hibaelhárítás
A Genie Code segíthet diagnosztizálni a kódtár telepítési hibáit, és javításokat javasolni. Lásd: A Genie Code használata számítási környezet hibáinak hibakereséséhez.
ValueError: a numpy.dtype mérete megváltozott, bináris kompatibilitást jelezhet. Elvárt érték: 96 a C fejlécből, de 88-at kapott a PyObject esetében.
A hiba általában akkor fordul elő, ha a függő csomag fordítása során használt NumPy-verziók és a futtatókörnyezetben jelenleg telepített NumPy-verzió nem egyezik. Ez az inkompatibilitás gyakran a NumPy C API-jának változásai miatt fordul elő, és különösen a NumPy 1.x és 2.x között észlelhető. Ez a hiba azt jelzi, hogy a jegyzetfüzetben telepített Python-csomag módosította a NumPy verzióját.
Ajánlott megoldás:
Ellenőrizze a NumPy verzióját a futtatókörnyezetben, és győződjön meg arról, hogy kompatibilis a csomagokkal. A 4. környezet és a 3. környezet kiszolgáló nélküli GPU-számítási kiadási megjegyzéseiben található információk az előre telepített Python-könyvtárakról. Ha a NumPy másik verziójától függ, adja hozzá ezt a függőséget a számítási környezethez.
A PyTorch nem találja a libcudnnn fájlt a fáklya telepítésekor
Ha másik verziót torchtelepít, a következő hibaüzenet jelenhet meg: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Ennek az az oka, hogy a fáklya csak a helyi útvonal cuDNN-kódtárát keresi.
Ajánlott megoldás:
Telepítse újra a függőségeket úgy, hogy --force-reinstall hozzáadása a torch telepítésekor történjen.
%pip install torch --force-reinstall