Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Modul runtime AI pro úlohy s jedním uzlem je ve verzi Public Preview. Distribuované trénovací rozhraní API pro úlohy s více GPU zůstává v beta verzi.
Přehled modulu runtime AI
AI Runtime je výpočetní nabídka v Databricks určená pro úlohy hlubokého učení a přináší podporu GPU pro Bezserverovou službu Databricks. AI Runtime můžete použít k trénování a vyladění vlastních modelů pomocí oblíbených architektur a získání špičkové efektivity, výkonu a kvality. Přehled toho, jak bezserverové výpočetní prostředí zapadá do architektury Databricks, najdete v tématu Architektura bezserverového pracovního prostoru.
Klíčové funkce
- Plně spravovaná infrastruktura GPU – bezserverový, flexibilní přístup k grafickým procesorům a bez konfigurace clusteru, výběru ovladačů nebo zásad automatického škálování pro správu.
- Modul runtime vyhrazený pro hluboké učení – Zvolte buď minimální výchozí základní prostředí pro maximální flexibilitu nad závislostmi, nebo plně funkční prostředí AI předem načtené s oblíbenými architekturami ML.
- Nativní integrace mezi poznámkovými bloky, úlohami, katalogem Unity a MLflow pro bezproblémový vývoj, přístup k datům a sledování experimentů.
Možnosti hardwaru
Všechny akcelerátory modulu runtime AI zřizují jeden uzel. Počet GPU na daném uzlu závisí na typu akcelerátoru:
| akcelerátor | GPU na uzel | Paměť GPU | Nejvhodnější pro | Distribuované trénování |
|---|---|---|---|---|
| 1xA10 | 1 | 24 GB | Malé až střední úlohy STROJOVÉho učení a hlubokého učení, jako jsou klasické modely ML nebo jemné ladění menších jazykových modelů | Nepodporuje se (jeden GPU) |
| 8xH100 | 8 | 80 GB na GPU | Rozsáhlé úlohy umělé inteligence, včetně trénování nebo vyladění masivních modelů nebo spouštění pokročilých úloh hlubokého učení | Podporováno – použití dekorátoru @distributed s gpus=8 |
Doporučené případy použití
Databricks doporučuje AI Runtime pro všechny případy použití vlastních modelů, které zahrnují hluboké učení, rozsáhlé klasické úlohy nebo GPU.
Například:
- Vyladění LLM (LoRA, QLoRA, úplné vyladění)
- Počítačové zpracování obrazu (rozpoznávání objektů, klasifikace obrázků)
- Systémy pro doporučování založené na hlubokém učení
- Posilované učení
- Prognózování časových řad založených na hlubokém učení
Požadavky
- Pracovní prostor v jedné z následujících Azure podporovaných oblastí:
centraluseastuseastus2northcentraluswestcentraluswestuswestus3
Omezení
- AI Runtime podporuje pouze akcelerátory A10 a H100.
- Modul runtime AI není podporovaný pro pracovní prostory profilů zabezpečení dodržování předpisů (například HIPAA nebo PCI). Zpracování regulovaných dat není podporováno.
- Přidání závislostí pomocí panelu Prostředí není podporováno pro naplánované úlohy modulu runtime AI. Místo toho nainstalujte závislosti programově pomocí
%pip installve vašem poznámkovém bloku. - U pravidelně spouštěných úloh v prostředí AI Runtime není podporováno automatické obnovení pro nekompatibilní verze balíčků, které jsou přidruženy k vašemu poznámkovému bloku.
- Maximální doba provozu pro úlohu je sedm dnů. Pro úlohy trénování modelu, které tento limit překročí, implementujte kontrolní bod a restartujte úlohu po dosažení maximálního běhu.
- AI Runtime poskytuje přístup k prostředkům GPU na vyžádání. I když to vede ke snadnému, flexibilnímu přístupu k grafickým procesorům, můžou existovat období, kdy je kapacita ve vaší oblasti omezená nebo nedostupná.
- AI Runtime využívá gpu napříč oblastmi v určitých případech v době vysoké poptávky. K takovému využití můžou být spojené náklady na výchozí přenos dat.
Připojit se k AI runtime
K AI Runtime se můžete interaktivně připojit z poznámkových bloků, plánovat poznámkové bloky jako opakované úlohy nebo programově vytvářet úlohy pomocí rozhraní API úloh a sad prostředků Databricks. Podrobné pokyny najdete v tématu Připojení k prostředí AI Runtime.
Nastavení prostředí
AI Runtime nabízí dvě spravovaná Python prostředí: minimální výchozí základní prostředí a plnohodnotné prostředí Databricks AI, které je předem načtené s oblíbenými architekturami ML, jako jsou PyTorch a Transformers. Podrobnosti o výběru prostředí, chování při ukládání do mezipaměti, importu vlastních modulů a známých omezení najdete v tématu Nastavení prostředí.
Načíst data
Pochopení fungování přístupu k datům v prostředí AI Runtime je nezbytné pro bezproblémové prostředí. Podrobnosti najdete v tématu Načtení dat v prostředí AI Runtime.
Distribuované trénování
Důležité
Tato funkce je v beta verzi. Správci pracovního prostoru můžou řídit přístup k této funkci ze stránky Previews . Viz Manage Azure Databricks preview.
AI Runtime podporuje distribuované trénování napříč několika GPU na jednom uzlu, ke kterému je notebook připojený. Pomocí dekorátoru @distributed z rozhraní API serverless_gpu Python (beta verze) můžete s minimální konfigurací spouštět úlohy s více GPU pomocí PyTorch DDP, FSDP nebo DeepSpeed. Podrobnosti najdete v tématu Úlohy s více GPU.
Sledování experimentů a pozorovatelnost
Informace o integraci MLflow, zobrazení protokolů a správě kontrolních bodů modelu najdete v tématu Sledování experimentů a pozorovatelnost.
Genie Code pro hluboké učení
Genie Code podporuje úlohy hlubokého učení v prostředí AI Runtime. Může vám pomoct s generováním trénovacího kódu, řešením chyb instalace knihovny, navrhováním optimalizací a laděním běžných problémů. Viz Použití kódu Genie pro datové vědy.
Guides
Informace o migraci z klasických úloh, například poznámkových bloků a řešení potíží, najdete v uživatelských příručkách k prostředí AI Runtime.