Provozní prostředí AI

Důležité

Modul runtime AI pro úlohy s jedním uzlem je ve verzi Public Preview. Distribuované trénovací rozhraní API pro úlohy s více GPU zůstává v beta verzi.

Přehled modulu runtime AI

AI Runtime je výpočetní nabídka v Databricks určená pro úlohy hlubokého učení a přináší podporu GPU pro Bezserverovou službu Databricks. AI Runtime můžete použít k trénování a vyladění vlastních modelů pomocí oblíbených architektur a získání špičkové efektivity, výkonu a kvality. Přehled toho, jak bezserverové výpočetní prostředí zapadá do architektury Databricks, najdete v tématu Architektura bezserverového pracovního prostoru.

Klíčové funkce

  • Plně spravovaná infrastruktura GPU – bezserverový, flexibilní přístup k grafickým procesorům a bez konfigurace clusteru, výběru ovladačů nebo zásad automatického škálování pro správu.
  • Modul runtime vyhrazený pro hluboké učení – Zvolte buď minimální výchozí základní prostředí pro maximální flexibilitu nad závislostmi, nebo plně funkční prostředí AI předem načtené s oblíbenými architekturami ML.
  • Nativní integrace mezi poznámkovými bloky, úlohami, katalogem Unity a MLflow pro bezproblémový vývoj, přístup k datům a sledování experimentů.

Možnosti hardwaru

Všechny akcelerátory modulu runtime AI zřizují jeden uzel. Počet GPU na daném uzlu závisí na typu akcelerátoru:

akcelerátor GPU na uzel Paměť GPU Nejvhodnější pro Distribuované trénování
1xA10 1 24 GB Malé až střední úlohy STROJOVÉho učení a hlubokého učení, jako jsou klasické modely ML nebo jemné ladění menších jazykových modelů Nepodporuje se (jeden GPU)
8xH100 8 80 GB na GPU Rozsáhlé úlohy umělé inteligence, včetně trénování nebo vyladění masivních modelů nebo spouštění pokročilých úloh hlubokého učení Podporováno – použití dekorátoru @distributed s gpus=8

Databricks doporučuje AI Runtime pro všechny případy použití vlastních modelů, které zahrnují hluboké učení, rozsáhlé klasické úlohy nebo GPU.

Například:

  • Vyladění LLM (LoRA, QLoRA, úplné vyladění)
  • Počítačové zpracování obrazu (rozpoznávání objektů, klasifikace obrázků)
  • Systémy pro doporučování založené na hlubokém učení
  • Posilované učení
  • Prognózování časových řad založených na hlubokém učení

Požadavky

  • Pracovní prostor v jedné z následujících Azure podporovaných oblastí:
    • centralus
    • eastus
    • eastus2
    • northcentralus
    • westcentralus
    • westus
    • westus3

Omezení

  • AI Runtime podporuje pouze akcelerátory A10 a H100.
  • Modul runtime AI není podporovaný pro pracovní prostory profilů zabezpečení dodržování předpisů (například HIPAA nebo PCI). Zpracování regulovaných dat není podporováno.
  • Přidání závislostí pomocí panelu Prostředí není podporováno pro naplánované úlohy modulu runtime AI. Místo toho nainstalujte závislosti programově pomocí %pip install ve vašem poznámkovém bloku.
  • U pravidelně spouštěných úloh v prostředí AI Runtime není podporováno automatické obnovení pro nekompatibilní verze balíčků, které jsou přidruženy k vašemu poznámkovému bloku.
  • Maximální doba provozu pro úlohu je sedm dnů. Pro úlohy trénování modelu, které tento limit překročí, implementujte kontrolní bod a restartujte úlohu po dosažení maximálního běhu.
  • AI Runtime poskytuje přístup k prostředkům GPU na vyžádání. I když to vede ke snadnému, flexibilnímu přístupu k grafickým procesorům, můžou existovat období, kdy je kapacita ve vaší oblasti omezená nebo nedostupná.
  • AI Runtime využívá gpu napříč oblastmi v určitých případech v době vysoké poptávky. K takovému využití můžou být spojené náklady na výchozí přenos dat.

Připojit se k AI runtime

K AI Runtime se můžete interaktivně připojit z poznámkových bloků, plánovat poznámkové bloky jako opakované úlohy nebo programově vytvářet úlohy pomocí rozhraní API úloh a sad prostředků Databricks. Podrobné pokyny najdete v tématu Připojení k prostředí AI Runtime.

Nastavení prostředí

AI Runtime nabízí dvě spravovaná Python prostředí: minimální výchozí základní prostředí a plnohodnotné prostředí Databricks AI, které je předem načtené s oblíbenými architekturami ML, jako jsou PyTorch a Transformers. Podrobnosti o výběru prostředí, chování při ukládání do mezipaměti, importu vlastních modulů a známých omezení najdete v tématu Nastavení prostředí.

Načíst data

Pochopení fungování přístupu k datům v prostředí AI Runtime je nezbytné pro bezproblémové prostředí. Podrobnosti najdete v tématu Načtení dat v prostředí AI Runtime.

Distribuované trénování

Důležité

Tato funkce je v beta verzi. Správci pracovního prostoru můžou řídit přístup k této funkci ze stránky Previews . Viz Manage Azure Databricks preview.

AI Runtime podporuje distribuované trénování napříč několika GPU na jednom uzlu, ke kterému je notebook připojený. Pomocí dekorátoru @distributed z rozhraní API serverless_gpu Python (beta verze) můžete s minimální konfigurací spouštět úlohy s více GPU pomocí PyTorch DDP, FSDP nebo DeepSpeed. Podrobnosti najdete v tématu Úlohy s více GPU.

Sledování experimentů a pozorovatelnost

Informace o integraci MLflow, zobrazení protokolů a správě kontrolních bodů modelu najdete v tématu Sledování experimentů a pozorovatelnost.

Genie Code pro hluboké učení

Genie Code podporuje úlohy hlubokého učení v prostředí AI Runtime. Může vám pomoct s generováním trénovacího kódu, řešením chyb instalace knihovny, navrhováním optimalizací a laděním běžných problémů. Viz Použití kódu Genie pro datové vědy.

Guides

Informace o migraci z klasických úloh, například poznámkových bloků a řešení potíží, najdete v uživatelských příručkách k prostředí AI Runtime.