Megosztás a következőn keresztül:


Kiszolgáló nélküli GPU-k használata az Azure Container Apps-ben

Azure Container Apps igény szerint hozzáférést biztosít a GPU-khoz anélkül, hogy a mögöttes infrastruktúrát kellene kezelnie. Kiszolgáló nélküli szolgáltatásként csak a használatban lévő GPU-kért kell fizetnie. Ha engedélyezve van, az alkalmazáshoz használt GPU-k száma emelkedik, és az alkalmazás terhelési igényeinek megfelelően csökken. A kiszolgáló nélküli GPU-k lehetővé teszik a számítási feladatok zökkenőmentes futtatását automatikus skálázással, optimalizált hidegindítással, másodpercenkénti számlázással, használaton kívüli nullára skálázódással, és csökkentett működési terheléssel.

A kiszolgáló nélküli GPU-k csak a használatalapú számítási feladatok profiljai esetében támogatottak. A funkció nem támogatott csak fogyasztási környezetekben.

Feljegyzés

GPU-kvótákat kell kérnie a GPU-k eléréséhez. A GPU-kvóta iránti kérelmet ügyfélszolgálati eseten keresztül küldheti el.

Juttatások

A kiszolgáló nélküli GPU-k felgyorsítják az AI fejlesztését azáltal, hogy lehetővé teszik az alapvető AI-kódra való összpontosítást, és kevésbé az infrastruktúra kezelésére a GPU-k használatakor. Ez a funkció egy középső réteg lehetőséget biztosít az Foundry-modellkatalógus kiszolgáló nélküli API-k és a felügyelt számítási modellek üzemeltetési modelljei között.

A Container Apps kiszolgáló nélküli GPU-támogatása teljes körű adatszabályozást biztosít, mivel az adatok soha nem hagyják el a tároló határait, miközben továbbra is felügyelt, kiszolgáló nélküli platformot biztosítanak az alkalmazások létrehozásához.

Amikor kiszolgáló nélküli GPU-kat használ a Container Appsben, az alkalmazások a következőt kapják:

  • Skálázás nullára GPU-k: Az NVIDIA A100 és az NVIDIA T4 GPU automatikus kiszolgáló nélküli skálázásának támogatása.

  • Másodpercenkénti számlázás: Csak a használt GPU-számításért kell fizetnie.

  • Beépített adatszabályozás: Az adatok soha nem hagyják el a tároló határát.

  • Rugalmas számítási lehetőségek: Választhat az NVIDIA A100 vagy T4 GPU-típusok közül.

  • Középréteg a MI fejlesztéshez: Saját modell használata egy felügyelt, felhőalapú számítási platformon.

Gyakori forgatókönyvek

Az alábbi forgatókönyvek a kiszolgáló nélküli GPU-k gyakori használati eseteit ismertetik.

  • Valós idejű és kötegelt elemzés: Egyéni nyílt forráskódú modellek használata gyors indítási idővel, automatikus skálázással és másodperc alapú számlázási modellel. A kiszolgáló nélküli GPU-k ideálisak dinamikus alkalmazásokhoz. Csak a használt számításért kell fizetnie, és az alkalmazások automatikusan fel- és felskálázhatók az igények kielégítése érdekében.

  • Gépi tanulási forgatókönyvek: Jelentősen felgyorsíthatja azokat az alkalmazásokat, amelyek finomhangolt egyéni generatív AI-modelleket, mélytanulást, neurális hálózatokat vagy nagy léptékű adatelemzést implementálnak.

  • High-Performance Számítástechnika (HPC):A GPU-k használata olyan alkalmazások magas számítási igényeihez, amelyek összetett számításokat és szimulációkat, például tudományos számításokat, pénzügyi modellezést vagy időjárás-előrejelzést igényelnek.

  • Renderelés és vizualizáció: GPU-k használatával felgyorsíthatja a renderelési folyamatot, és valós idejű vizualizációt engedélyezhet 3D-s renderelést, képfeldolgozást vagy videoátkódolást igénylő alkalmazásokban.

  • Big Data Analytics: A GPU-k felgyorsíthatják a nagy adathalmazok adatfeldolgozását és elemzését.

Megfontolások

A kiszolgáló nélküli GPU-k használata során tartsa szem előtt az alábbi elemeket:

  • CUDA-verzió: A kiszolgáló nélküli GPU-k támogatják a legújabb CUDA-verziót.

  • Támogatási korlátozások:

    • Az alkalmazásban egyszerre csak egy tároló használhatja a GPU-t. Ha egy alkalmazásban több tároló is található, az első tároló hozzáférést kap a GPU-hoz.
    • Több alkalmazás is megoszthatja ugyanazt a GPU számítási feladatprofilt, de mindegyikhez saját replika szükséges.
    • A több- és tört GPU-replikák nem támogatottak.
    • Az alkalmazás első tárolója hozzáfér a GPU-hoz.
  • IP-címek: A használati GPU-k replikánként egy IP-címet használnak a saját virtuális hálózattal való integráció beállításakor.

Támogatott régiók

A kiszolgáló nélküli GPU-k a következő régiókban érhetők el:

Régió A100 T4
Ausztrália keleti régiója Igen Igen
Dél-Brazília Igen Igen
Közép-India Nem Igen
Közép-Kanada Igen Igen
USA keleti régiója Igen Igen
Közép-Franciaország Nem Igen
Észak-Olaszország Igen Igen
Kelet-Japán Nem Igen
USA északi középső régiója Nem Igen
USA déli középső régiója Nem Igen
Délkelet-Ázsia Nem Igen
Dél-India Nem Igen
Közép-Svédország Igen Igen
Nyugat-Európa1 Nem Igen
USA nyugati régiója Igen Igen
USA 2. nyugati régiója Nem Igen
USA 3. nyugati régiója Igen Igen

1 A T4 kiszolgáló nélküli GPU-számításiprofil nyugat-európai hozzáadásához létre kell hoznia egy új számítási feladatprofil-környezetet a régióban.

Kiszolgáló nélküli GPU-k használata

Amikor a Azure portálon keresztül hoz létre tárolóalkalmazást, beállíthatja a tárolót GPU-erőforrások használatára.

A létrehozási folyamat Tároló lapján adja meg a következő beállításokat:

  1. A Tárolóerőforrás-foglalás szakaszban jelölje be a GPU jelölőnégyzetet.

  2. A GPU típusához válassza az NVIDIA A100 vagy az NVIDIA T4 lehetőséget.

Kiszolgáló nélküli GPU számítási feladatprofil kezelése

A kiszolgáló nélküli GPU-k használatalapú GPU-számításiprofilokon futnak. A használati GPU számítási feladatprofilja ugyanúgy kezelhető, mint bármely más számítási feladatprofil. A számítási feladatprofilt a CLI vagy a Azure portálon kezelheti.

Kiszolgáló nélküli GPU-kvóta kérése

Feljegyzés

Azoknak az ügyfeleknek, akik nagyvállalati szerződéssel vagy használatalapú fizetéses módozattal rendelkeznek, alapértelmezés szerint engedélyezett az A100 és a T4 kvóta.

A szolgáltatás eléréséhez kiszolgáló nélküli GPU-kvótára van szüksége. A GPU-kvóta iránti kérelmet ügyfélszolgálati eseten keresztül küldheti el. A GPU-kvótakérelmek támogatási esetének megnyitásakor válassza a következő lehetőségeket:

  1. Nyissa meg Új támogatási kérés űrlapot a Azure portálon.

  2. Adja meg a következő értékeket az űrlapon:

    Ingatlan Érték
    Probléma típusa Szolgáltatási és előfizetési korlátok (kvóták) kiválasztása
    Subscription Válassza ki az előfizetését.
    Kvóta típusa Válassza a Container Apps lehetőséget.
  3. Válassza a Következőlehetőséget.

  4. A További részletek ablakban válassza az Enter details (Részletek megadása ) lehetőséget a kérelem részletei ablak megnyitásához.

    A Azure kvótakezelő rendszer részleteinek ablak.

  5. Kvótatípus esetén válassza a felügyelt környezetfogyasztás NCA100 GPU-jait vagy a felügyelt környezetfogyasztás T4 GPU-jait. Adja meg a többi értéket.

  6. Válassza a Mentés és folytatás lehetőséget.

  7. Töltse ki a további részleteket a További részletek ablakban.

  8. Válassza a Következőlehetőséget.

  9. Válassza a Create gombot.

A GPU hidegindításának javítása

Jelentősen javíthatja a hidegindítási időket, ha engedélyezi az összetevők streamelését, és nagy méretű fájlokat, például nagy nyelvi modelleket helyez el egy tároló csatoláson.

  • Artifact streamelés: Azure Container Registry képstreamelést kínál, ami jelentősen felgyorsíthatja a képindítási időket. Az artifactok streameléséhez prémium szintű Azure Container Registry-ben kell üzemeltetnie az Ön tárolólemezképeit.

  • Tároló csatlakozások: Csökkentse a hálózati késés hatásait azáltal, hogy nagyméretű fájlokat tárol az Azure tárfiókban, amely a tárolóalkalmazásához tartozik.

Foundry-modellek üzembe helyezése kiszolgáló nélküli GPU-kban (előzetes verzió)

Azure Container Apps kiszolgáló nélküli GPU-k mostantól nyilvános előzetes verzióban támogatják a Microsoft Foundry-modelleket. Az Öntödei modellek két üzembe helyezési lehetőséggel rendelkeznek:

Azure Container Apps kiszolgáló nélküli GPU kiegyensúlyozott üzembe helyezési lehetőséget kínál a kiszolgáló nélküli API-k és a felügyelt számítási feladatok között az Foundry-modellek üzembe helyezéséhez. Ez az opció igény szerinti, szerver nélküli skálázással, amely használaton kívül nullára húzódik, és megfelel az adatrezidencia igényeknek. A kiszolgáló nélküli GPU-k használatával az Foundry-modellek használatával rugalmasan futtathat minden támogatott modellt automatikus skálázással, másodpercenkénti fizetéses díjszabással, teljes adatszabályozással, a beépített vállalati hálózatkezeléssel és biztonsági támogatással.

A típus MLFLOW nyelvi modelljei támogatottak. A modellek listájának MLFLOW megtekintéséhez lépjen az azureml-beállításjegyzékben elérhető modellek listájára. A modellek megkereséséhez adjon hozzá egy szűrőt a modellekhez MLFLOW az alábbi lépésekkel:

  1. Válassza ki a Szűrő elemet.

  2. Válassza a Szűrő hozzáadása lehetőséget.

  3. A szűrőszabályhoz írja be a Type = MLFLOW értéket.

A Azure Container Apps adattárban felsorolt modellek esetében közvetlenül üzembe helyezheti őket kiszolgáló nélküli GPU-kban anélkül, hogy saját rendszerképet kellene létrehoznia a következő CLI-paranccsal:

az containerapp up \
  --name <CONTAINER_APP_NAME> \
  --location <LOCATION> \
  --resource-group <RESOURCE_GROUP_NAME> \
  --model-registry <MODEL_REGISTRY_NAME> \
  --model-name <MODEL_NAME> \
  --model-version <MODEL_VERSION>

A listában nem szereplő modellek esetében a következőkre van szükség:

  1. Töltse le a modellképhez tartozó GitHub sablont a Azure Container Apps adattárból.

  2. Módosítsa a score.py fájlt a modell típusának megfelelően. A pontozási szkript ( neve score.py) határozza meg, hogyan használhatja a modellt. Az alábbi példa bemutatja , hogyan használható egyéni score.py fájl.

  3. Készítse el a képet, és telepítse egy konténerregisztrációs tárolóba.

  4. Az előző CLI-paranccsal helyezze üzembe a modellt kiszolgáló nélküli GPU-kban, de adja meg a --image. Amikor a --model-registry, --model-name, és --model-version paramétereket használja, a rendszer a legfontosabb környezeti változókat úgy állítja be, hogy optimalizálja az alkalmazás hidegindítását.

Visszajelzés elküldése

Küldje el a problémákat a Azure Container Apps GitHub adattárba.

Következő lépések