Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tato stránka popisuje modul Runtime Databricks pro Machine Learning a poskytuje pokyny k vytvoření klasického výpočetního prostředku, který ho používá.
Co je Databricks Runtime pro Machine Learning?
Databricks Runtime pro Machine Learning (Databricks Runtime ML) automatizuje vytvoření výpočetního prostředku s předem vytvořenou infrastrukturou strojového učení a hlubokého učení, včetně nejběžnějších knihoven ML a DL.
Knihovny zahrnuté v Databricks Runtime ML
Databricks Runtime ML zahrnuje celou řadu oblíbených knihoven ML. Knihovny se aktualizují s každou verzí, aby zahrnovaly nové funkce a opravy.
Databricks určila podmnožinu podporovaných knihoven jako knihovny nejvyšší úrovně. Pro tyto knihovny poskytuje Databricks rychlejší tempo aktualizace a aktualizaci na nejnovější verze balíčků s každou verzí modulu runtime (blokování konfliktů závislostí). Databricks také poskytuje pokročilou podporu, testování a vložené optimalizace pro knihovny nejvyšší úrovně. Knihovny nejvyšší úrovně se přidávají nebo odebírají jenom s hlavními vydáními.
- Úplný seznam nejvyšších a dalších poskytovaných knihoven najdete v poznámkách k verzi pro Databricks Runtime ML.
- Informace o tom, jak často se knihovny aktualizují a kdy jsou knihovny zastaralé, najdete v tématu zásady údržby ML modulu databricks Runtime.
Můžete nainstalovat další knihovny a vytvořit vlastní prostředí pro váš poznámkový blok nebo výpočetní prostředek.
- Pokud chcete zpřístupnit knihovnu pro všechny poznámkové bloky spuštěné na výpočetním prostředku, vytvořte knihovnu s vymezeným výpočetním oborem. Inicializační skript můžete také použít k instalaci knihoven během vytváření výpočetních prostředků.
- Pokud chcete nainstalovat knihovnu, která je dostupná pouze pro konkrétní relaci poznámkového bloku, použijte Python knihovny omezené na poznámkový blok.
Vytvoření výpočetního prostředku pomocí Databricks Runtime pro ML
Pokud chcete vytvořit výpočetní prostředek, který používá Databricks Runtime pro ML, zaškrtněte políčko Strojové učení v uživatelském rozhraní pro vytváření výpočetních prostředků. Tím se automaticky nastaví režim přístupu na Dedicated s vaším účtem jako vyhrazený uživatel. Výpočetní prostředek můžete ručně přiřadit jinému uživateli nebo skupině v části Upřesnit v uživatelském rozhraní pro vytváření výpočetních prostředků.
Pro výpočetní prostředky založené na GPU vyberte typ instance s podporou GPU v rozevírací nabídce Typu pracovního procesu . Úplný seznam podporovaných typů GPU najdete v tématu Podporované typy instancí.
Photon a Databricks Runtime ML
Když vytvoříte výpočetní prostředek, na kterém běží Databricks Runtime 15.2 ML nebo novější, můžete povolit Photon. Photon zlepšuje výkon pro aplikace využívající Spark SQL, Spark DataFrames, vytváření funkcí, GraphFrames a xgboost4j. Neočekává se, že by se zlepšil výkon aplikací využívajících sady RDD Sparku, uživatelem definované soubory Pandas a jiné jazyky než JVM, jako je Python. Balíčky Pythonu, jako jsou XGBoost, PyTorch a TensorFlow, proto neuvidí vylepšení s Photon.
Rozhraní API Spark RDD a Spark MLlib mají omezenou kompatibilitu s Photonem. Při zpracování velkých datových sad pomocí sady Spark RDD nebo Spark MLlib může docházet k problémům s pamětí Sparku. Viz problémy s pamětí Sparku.
Režim výpočetního přístupu pro Databricks Runtime ML
Pokud chcete získat přístup k datům v Katalogu Unity na výpočetním prostředku, na kterém běží Databricks Runtime ML, musíte nastavit režim přístupu na Dedicated. Režim přístupu se automaticky nastaví v uživatelském rozhraní pro vytváření výpočetních prostředků, když zaškrtnete políčko Strojové učení .
Pokud má výpočetní prostředek režim vyhrazeného přístupu, může být prostředek přiřazen jednomu uživateli nebo skupině. Když je uživatel přiřazený ke skupině, oprávnění uživatele se automaticky sníží na oprávnění skupiny, což uživateli umožní bezpečně sdílet prostředek s ostatními členy skupiny.
Při použití vyhrazeného režimu přístupu jsou v Databricks Runtime 15.4 LTS ML a vyšší dostupné pouze následující funkce:
- jemně odstupňované řízení přístupu.
- Dotazování tabulek vytvořených pomocí deklarativních kanálů Sparku Lakeflow, včetně streamovaných tabulek a materializovaných zobrazení
Trénování modelů
Následující zdroje informací vám ukážou, jak trénovat modely strojového učení a AI na platformě Mosaic AI a Databricks Runtime pro Machine Learning.
Trénování modelu AI v systému Mosaic zjednodušuje a sjednocuje proces trénování a nasazování tradičních modelů STROJOVÉho učení prostřednictvím úloh jemného ladění modelů AutoML a základních modelů.
automatizované strojové učení
AutoML zjednodušuje proces použití strojového učení u datových sad tím, že automaticky vyhledá nejlepší algoritmus a konfiguraci hyperparametrů. AutoML nabízí uživatelské rozhraní bez kódu a také rozhraní PYTHON API.
Vyladění základního modelu
Vyladění základního modelu (nyní součástí trénování modelu AI v systému Mosaic AI) v Azure Databricks umožňuje přizpůsobit velké jazykové modely (LLM) pomocí vlastních dat. Tento proces zahrnuje vyladění trénování předem existujícího základního modelu, což výrazně snižuje objem dat, času a výpočetních prostředků požadovaných v porovnání s trénováním modelu od začátku. Mezi klíčové funkce patří:
- Vyladění instrukcí: Přizpůsobte model novým úkolům trénováním pomocí strukturovaných dat výzva-odpověď.
- Pokračování předběžného trénování: Vylepšete model o další textová data, abyste mohli přidat nové znalosti nebo se zaměřit na konkrétní doménu.
- Dokončení chatu: Trénování modelu v protokolech chatu za účelem zlepšení konverzačních schopností.
Příklady knihoven otevřeného softwaru
Podívejte se na příklady trénování strojového učení ze široké škály opensourcových knihoven strojového učení, včetně příkladů ladění hyperparametrů pomocí Optuna a Hyperoptu.
Hluboké učení
Podívejte se na příklady a osvědčené postupy pro distribuované trénování hlubokého učení pro vývoj a vyladění modelů hlubokého učení v Azure Databricks.
Doporučovatelé
Naučte se trénovat modely doporučení založené na hlubokém učení v Azure Databricks. V porovnání s tradičními modely doporučení můžou modely hlubokého učení dosáhnout vyšších výsledků kvality a škálovat na větší objemy dat.