Použití bezserverových grafických procesorů v Azure Container Apps

Azure Container Apps poskytuje přístup k grafickým procesorům na vyžádání, aniž byste museli spravovat základní infrastrukturu. Jako bezserverová funkce platíte jenom za gpu, které se používají. Pokud je tato možnost povolená, zvýší se počet grafických procesorů používaných pro vaši aplikaci a klesne tak, aby splňoval požadavky vaší aplikace na zatížení. Bezserverové GPU umožňují bezproblémové spuštění vašich úloh s automatickým škálováním, optimalizovaným studeným startem, účtováním po sekundách a snížením kapacity na nulu, když se nepoužívají, a snížením provozní režie.

Bezserverové gpu se podporují jenom pro profily úloh Consumption. Funkce není podporována pro prostředí určená pouze ke spotřebě.

Poznámka:

Pro přístup k grafickým procesorům musíte požádat kvóty GPU. Žádost o kvótu GPU můžete odeslat prostřednictvím případu zákaznické podpory.

Výhody

Bezserverové gpu urychlují vývoj umělé inteligence tím, že vám umožní soustředit se na základní kód AI a méně na správu infrastruktury při použití GPU. Tato funkce poskytuje možnost střední vrstvy mezi bezserverovými rozhraními API katalogu modelů Foundry a hostujícími modely na spravovaných výpočetních prostředcích.

Podpora bezserverového GPU služby Container Apps poskytuje úplné zásady správného řízení dat, protože vaše data nikdy neopustí hranice vašeho kontejneru a zároveň poskytuje spravovanou bezserverovou platformu, ze které se vytvářejí vaše aplikace.

Když v Container Apps používáte bezserverové grafické procesory, vaše aplikace získají tyto možnosti:

  • Škálování GPU na nulu: Podpora automatického serverless škálování GPU NVIDIA A100 a NVIDIA T4.

  • Fakturace za sekundu: Platíte jenom za výpočetní výkon GPU, který používáte.

  • Předdefinované zásady správného řízení dat: Vaše data nikdy neopustí hranice kontejneru.

  • Flexibilní výpočetní možnosti: Můžete si vybrat mezi typy GPU NVIDIA A100 nebo T4.

  • Střední vrstva pro vývoj umělé inteligence: Používání vlastního modelu na spravované bezserverové výpočetní platformě

Obvyklé scénáře

Následující scénáře popisují běžné případy použití bezserverových gpu.

  • Inferencing v reálném čase a dávkové zpracování: Používejte vlastní open-source modely s rychlými časy spuštění, automatickým škálováním a fakturačním modelem za sekundu. Bezserverové gpu jsou ideální pro dynamické aplikace. Platíte jenom za výpočetní prostředky, které používáte, a vaše aplikace se automaticky škáluje podle poptávky.

  • Scénáře strojového učení: Výrazně urychlí aplikace, které implementují jemně vyladěné vlastní modely AI, hluboké učení, neurální sítě nebo rozsáhlé analýzy dat.

  • High-Performance computing (HPC):: V aplikacích, které vyžadují složité výpočty a simulace, jako jsou vědecké výpočty, finanční modelování nebo předpověď počasí, používejte grafické procesory jako prostředky.

  • Vykreslování a vizualizace: Pomocí grafických procesorů můžete zrychlit proces vykreslování a povolit vizualizaci v reálném čase v aplikacích, které zahrnují 3D vykreslování, zpracování obrázků nebo překódování videa.

  • Analýza velkých objemů dat: Gpu můžou zrychlit zpracování a analýzu dat mezi obrovskými datovými sadami.

Úvahy

Při používání bezserverových grafických procesorů mějte na paměti následující položky:

  • Verze CUDA: Bezserverové gpu podporují nejnovější verzi CUDA. Podrobnosti o aktuálních verzích ovladačů a modulů runtime najdete v tématu Zásobník softwaru GPU.

  • Omezení podpory:

    • Gpu může současně používat jenom jeden kontejner v aplikaci. Pokud máte v aplikaci více kontejnerů, získá první kontejner přístup k GPU.
    • Stejný profil úlohy GPU může sdílet více aplikací, ale každý vyžaduje vlastní repliku.
    • Repliky pro vícečetné a dílčí GPU nejsou podporovány.
    • První kontejner ve vaší aplikaci získá přístup k GPU.
  • IP adresy: Spotřební GPU používají při nastavování integrace s vlastní virtuální sítí jednu IP adresu na repliku.

Softwarová vrstva GPU

Azure Container Apps pravidelně aktualizuje softwarový zásobník NVIDIA GPU tak, aby zahrnoval opravy zabezpečení, vylepšení výkonu a nové funkce.

Následující tabulka uvádí aktuální a nadcházející verze softwaru GPU poskytované platformou:

Součást Aktuální verze Nadcházející verze
Ovladač NVIDIA 570 580
Modul runtime CUDA poskytovaný platformou 12.x 13.x

Důležité

Platforma přechází na nadcházející verze uvedené v této tabulce. Zavedení začíná nejpozději 23. května 2026 a dokončí se během několika dnů, protože aktualizace se použijí v různých oblastech. Než se aktualizace projeví, ověřte funkčnost vaší aplikace v porovnání s nadcházejícími verzemi. Pokyny najdete v tématu Ověření aplikace.

Ověření aplikace

Když platforma aktualizuje sadu softwaru GPU, musíte ověřit, že vaše aplikace zůstane kompatibilní. Postup, který provedete, závisí na tom, jak image kontejneru využívá CUDA.

Pokud vaše aplikace dodává vlastní prostředí runtime CUDA (například pomocí připnutého základního obrazu CUDA):

  • Ověřte, že vaše aplikace funguje s aktuální verzí ovladače NVIDIA.
  • Nejsou vyžadovány žádné změny image kontejneru.

Pokud vaše aplikace využívá modul runtime CUDA poskytovaný platformou:

  • Ověřte, že vaše aplikace funguje s aktuální verzí ovladače NVIDIA a modulu runtime CUDA.
  • Pokud vaše aplikace ještě není kompatibilní s nejnovější verzí CUDA, připněte starší verzi CUDA do image kontejneru, abyste zachovali předchozí chování.

Zásady verzí

Verze softwaru GPU v Azure Container Apps bezserverových prostředích se řídí těmito principy:

  • Verze softwaru GPU jsou zdokumentované na hlavní nebo vedlejší úrovni rodiny (například CUDA 12.x nebo CUDA 13.x).
  • Verze oprav se spravují platformou a můžou se měnit bez předchozího upozornění.
  • Tato dokumentace se aktualizuje při plánovaných nebo zavedených přechodech významných verzí softwaru GPU.

Poznámka:

Informace o softwarovém zásobníku GPU v této části se vztahují pouze na bezserverové úlohy GPU. U vyhrazených úloh GPU se operační systém, včetně ovladače a modulu runtime CUDA, automaticky aktualizuje platforma.

Podporované oblasti

Bezserverové gpu jsou dostupné v následujících oblastech:

Región A100 T4
Austrálie – východ Ano Ano
Brazílie – jih Ano Ano
Indie – střed Ne Ano
Kanada – střed Ano Ano
USA – východ​ Ano Ano
Francie – střed Ne Ano
Itálie – sever Ano Ano
Japonsko – východ Ne Ano
Střed USA – sever Ne Ano
Střed USA – jih Ne Ano
Jihovýchodní Asie Ne Ano
Indie – jih Ne Ano
Švédsko – střed Ano Ano
Západní Evropa1 Ne Ano
USA – západ Ano Ano
USA – západ 2​ Ne Ano
USA – západ 3 Ano Ano

1 Pokud chcete přidat profil úloh GPU bez serveru T4 v oblasti Západní Evropa, musíte v oblasti vytvořit nové prostředí profilu úloh.

Použití bezserverových grafických procesorů

Když vytvoříte aplikaci typu kontejner prostřednictvím portálu Azure, můžete kontejner nastavit tak, aby používal prostředky GPU.

Na kartě Kontejner v procesu vytváření nastavte následující nastavení:

  1. V sekci Přidělení prostředků kontejneru vyberte možnost GPU.

  2. U typu GPU vyberte možnost NVIDIA A100 nebo NVIDIA T4.

Správa profilu úloh GPU bez serveru

Serverless GPU běží na profilech úloh GPU zaměřených na spotřebu. Profil úloh pro spotřebu GPU spravujete stejným způsobem jako jakýkoli jiný profil úlohy. Profil úlohy můžete spravovat pomocí CLI nebo portálu Azure.

Vyžádání kvóty gpu bez serveru

Poznámka:

Zákazníci se smlouvami Enterprise a zákazníky s průběžnými platbami mají ve výchozím nastavení povolenou kvótu A100 a T4.

Pro přístup k této funkci potřebujete bezserverovou kvótu GPU. Žádost o kvótu GPU můžete odeslat prostřednictvím případu zákaznické podpory. Při otevírání případu podpory pro žádost o kvótu GPU vyberte následující možnosti:

  1. Otevřete formulář Nový požadavek na podporu na portálu Azure.

  2. Do formuláře zadejte následující hodnoty:

    Vlastnictví Hodnota
    Typ problému Výběr limitů služby a předplatného (kvóty)
    Subscription Vyberte své předplatné.
    Typ kvóty Vyberte Kontejnerové aplikace.
  3. Vyberte Další.

  4. V okně Další podrobnosti vyberte Zadat podrobnosti a otevřete okno podrobností žádosti.

    Screenshot okna s podrobnostmi o systému správy kvót Azure.

  5. Jako typ kvóty vyberte Spravované prostředí Consumption NCA100 GPU nebo Spravované prostředí Consumption T4 GPU. Zadejte další hodnoty.

  6. Vyberte Uložit a pokračovat.

  7. Vyplňte zbytek relevantních podrobností v okně Další podrobnosti .

  8. Vyberte Další.

  9. Vyberte Vytvořit.

Vylepšení studeného startu GPU

Časy studeného startu můžete výrazně zlepšit povolením streamování artefaktů a umístěním velkých souborů, jako jsou velké jazykové modely, v úložném svazku.

  • Streamování artefaktů: Azure Container Registry nabízí streamování imagí, což může výrazně urychlit časy spuštění imagí. Pokud chcete použít streamování artefaktů, musíte hostovat image kontejneru v Azure Container Registry Premium.

  • Připojení úložiště: Snižte vliv latence sítě uložením velkých souborů do účtu úložiště Azure přidruženého k vaší aplikaci kontejneru.

Nasazení modelů Foundry do bezserverových grafických procesorů (Preview)

Azure Container Apps bezserverové GPU teď podporují modely Microsoft Foundry ve verzi Public Preview. Modely Foundry mají dvě možnosti nasazení:

Azure Container Apps bezserverové GPU nabízí vyváženou možnost nasazení mezi bezserverovými rozhraními API a spravovanými výpočetními prostředky pro nasazení modelů Foundry. Tato možnost je na vyžádání s bezserverovým škálováním přizpůsobeným tak, aby se při nečinnosti škálovalo na nulu, a zároveň vyhovuje potřebám rezidence dat. Díky bezserverovým grafickým procesorům vám používání modelů Foundry poskytuje flexibilitu při spouštění všech podporovaných modelů s automatickým škálováním, průběžnými platbami za sekundu, úplnými zásadami správného řízení dat, kompletní podporou podnikových sítí a zabezpečení.

Podporují se jazykové modely typu MLFLOW . Pokud chcete zobrazit seznam MLFLOW modelů, přejděte do seznamu modelů dostupných v registru azureml. Pokud chcete modely vyhledat, přidejte filtr pro MLFLOW modely pomocí následujícího postupu:

  1. Vyberte Filtr.

  2. Vyberte Přidat filtr.

  3. Jako pravidlo filtru zadejte Typ = MLFLOW.

U modelů uvedených v úložišti Azure Container Apps je můžete nasadit přímo do bezserverových grafických procesorů bez nutnosti vytvářet vlastní image pomocí následujícího příkazu rozhraní příkazového řádku:

az containerapp up \
  --name <CONTAINER_APP_NAME> \
  --location <LOCATION> \
  --resource-group <RESOURCE_GROUP_NAME> \
  --model-registry <MODEL_REGISTRY_NAME> \
  --model-name <MODEL_NAME> \
  --model-version <MODEL_VERSION>

Pro jakýkoli model, který není v tomto seznamu, musíte:

  1. Stáhněte si šablonu GitHub pro image modelu z úložiště Azure Container Apps.

  2. Upravte soubor score.py tak, aby odpovídal typu modelu. Bodovací skript (pojmenovaný score.py) definuje způsob interakce s modelem. Následující příklad ukazuje , jak použít vlastní score.py soubor.

  3. Sestavte image a nasaďte ji do registru kontejneru.

  4. Pomocí předchozího příkazu rozhraní příkazového řádku nasaďte model na bezserverové GPU, ale specifikujte --image. Když použijete parametry --model-registry, --model-name a --model-version, klíčové proměnné prostředí se nastaví tak, aby optimalizovaly studený start vaší aplikace.

Odeslat názor

Odešlete problémy do úložiště Azure Container Apps GitHub.

Další kroky