Provozní prostředí AI

Důležité

Modul runtime AI pro úlohy s jedním uzlem je ve verzi Public Preview. Distribuované trénovací rozhraní API pro úlohy s více GPU zůstává v beta verzi.

Přehled modulu runtime AI

AI Runtime je výpočetní nabídka v Databricks určená pro úlohy hlubokého učení a přináší podporu GPU pro Bezserverovou službu Databricks. AI Runtime můžete použít k trénování a vyladění vlastních modelů pomocí oblíbených architektur a získání špičkové efektivity, výkonu a kvality. Přehled toho, jak bezserverové výpočetní prostředí zapadá do architektury Databricks, najdete v tématu Architektura bezserverového pracovního prostoru.

Klíčové funkce

Plně spravovaná infrastruktura GPU – bezserverový, flexibilní přístup k grafickým procesorům a bez konfigurace clusteru, výběru ovladačů nebo zásad automatického škálování pro správu.
Modul runtime vyhrazený pro hluboké učení – Zvolte buď minimální výchozí základní prostředí pro maximální flexibilitu nad závislostmi, nebo plně funkční prostředí AI předem načtené s oblíbenými architekturami ML.
Nativní integrace mezi poznámkovými bloky, úlohami, katalogem Unity a MLflow pro bezproblémový vývoj, přístup k datům a sledování experimentů.

Možnosti hardwaru

Všechny akcelerátory modulu runtime AI zřizují jeden uzel. Počet GPU na daném uzlu závisí na typu akcelerátoru:

akcelerátor	GPU na uzel	Paměť GPU	Nejvhodnější pro	Distribuované trénování
1xA10	1	24 GB	Malé až střední úlohy STROJOVÉho učení a hlubokého učení, jako jsou klasické modely ML nebo jemné ladění menších jazykových modelů	Nepodporuje se (jeden GPU)
8xH100	8	80 GB na GPU	Rozsáhlé úlohy umělé inteligence, včetně trénování nebo vyladění masivních modelů nebo spouštění pokročilých úloh hlubokého učení	Podporováno – použití dekorátoru `@distributed` s `gpus=8`

Doporučené případy použití

Databricks doporučuje AI Runtime pro všechny případy použití vlastních modelů, které zahrnují hluboké učení, rozsáhlé klasické úlohy nebo GPU.

Například:

Vyladění LLM (LoRA, QLoRA, úplné vyladění)
Počítačové zpracování obrazu (rozpoznávání objektů, klasifikace obrázků)
Systémy pro doporučování založené na hlubokém učení
Posilované učení
Prognózování časových řad založených na hlubokém učení

Požadavky

Pracovní prostor v jedné z následujících Azure podporovaných oblastí:
- centralus
- eastus
- eastus2
- northcentralus
- westcentralus
- westus
- westus3

Omezení

AI Runtime podporuje pouze akcelerátory A10 a H100.
Modul runtime AI není podporovaný pro pracovní prostory profilů zabezpečení dodržování předpisů (například HIPAA nebo PCI). Zpracování regulovaných dat není podporováno.
Přidání závislostí pomocí panelu Prostředí není podporováno pro naplánované úlohy modulu runtime AI. Místo toho nainstalujte závislosti programově pomocí %pip install ve vašem poznámkovém bloku.
U pravidelně spouštěných úloh v prostředí AI Runtime není podporováno automatické obnovení pro nekompatibilní verze balíčků, které jsou přidruženy k vašemu poznámkovému bloku.
Maximální doba provozu pro úlohu je sedm dnů. Pro úlohy trénování modelu, které tento limit překročí, implementujte kontrolní bod a restartujte úlohu po dosažení maximálního běhu.
AI Runtime poskytuje přístup k prostředkům GPU na vyžádání. I když to vede ke snadnému, flexibilnímu přístupu k grafickým procesorům, můžou existovat období, kdy je kapacita ve vaší oblasti omezená nebo nedostupná.
AI Runtime využívá gpu napříč oblastmi v určitých případech v době vysoké poptávky. K takovému využití můžou být spojené náklady na výchozí přenos dat.

Připojit se k AI runtime

K AI Runtime se můžete interaktivně připojit z poznámkových bloků, plánovat poznámkové bloky jako opakované úlohy nebo programově vytvářet úlohy pomocí rozhraní API úloh a sad prostředků Databricks. Podrobné pokyny najdete v tématu Připojení k prostředí AI Runtime.

Nastavení prostředí

AI Runtime nabízí dvě spravovaná Python prostředí: minimální výchozí základní prostředí a plnohodnotné prostředí Databricks AI, které je předem načtené s oblíbenými architekturami ML, jako jsou PyTorch a Transformers. Podrobnosti o výběru prostředí, chování při ukládání do mezipaměti, importu vlastních modulů a známých omezení najdete v tématu Nastavení prostředí.

Načíst data

Pochopení fungování přístupu k datům v prostředí AI Runtime je nezbytné pro bezproblémové prostředí. Podrobnosti najdete v tématu Načtení dat v prostředí AI Runtime.

Distribuované trénování

Důležité

Tato funkce je v beta verzi. Správci pracovního prostoru můžou řídit přístup k této funkci ze stránky Previews . Viz Manage Azure Databricks preview.

AI Runtime podporuje distribuované trénování napříč několika GPU na jednom uzlu, ke kterému je notebook připojený. Pomocí dekorátoru @distributed z rozhraní API serverless_gpu Python (beta verze) můžete s minimální konfigurací spouštět úlohy s více GPU pomocí PyTorch DDP, FSDP nebo DeepSpeed. Podrobnosti najdete v tématu Úlohy s více GPU.

Sledování experimentů a pozorovatelnost

Informace o integraci MLflow, zobrazení protokolů a správě kontrolních bodů modelu najdete v tématu Sledování experimentů a pozorovatelnost.

Genie Code pro hluboké učení

Genie Code podporuje úlohy hlubokého učení v prostředí AI Runtime. Může vám pomoct s generováním trénovacího kódu, řešením chyb instalace knihovny, navrhováním optimalizací a laděním běžných problémů. Viz Použití kódu Genie pro datové vědy.

Guides

Informace o migraci z klasických úloh, například poznámkových bloků a řešení potíží, najdete v uživatelských příručkách k prostředí AI Runtime.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-04-21