Sdílet prostřednictvím


Běhové prostředí Databricks pro strojové učení

Tato stránka popisuje modul Runtime Databricks pro Machine Learning a poskytuje pokyny k vytvoření klasického výpočetního prostředku, který ho používá.

Co je Databricks Runtime pro Machine Learning?

Databricks Runtime pro Machine Learning (Databricks Runtime ML) automatizuje vytvoření výpočetního prostředku s předem vytvořenou infrastrukturou strojového učení a hlubokého učení, včetně nejběžnějších knihoven ML a DL.

Knihovny zahrnuté v Databricks Runtime ML

Databricks Runtime ML zahrnuje celou řadu oblíbených knihoven ML. Knihovny se aktualizují s každou verzí, aby zahrnovaly nové funkce a opravy.

Databricks určila podmnožinu podporovaných knihoven jako knihovny nejvyšší úrovně. Pro tyto knihovny poskytuje Databricks rychlejší tempo aktualizace a aktualizaci na nejnovější verze balíčků s každou verzí modulu runtime (blokování konfliktů závislostí). Databricks také poskytuje pokročilou podporu, testování a vložené optimalizace pro knihovny nejvyšší úrovně. Knihovny nejvyšší úrovně se přidávají nebo odebírají jenom s hlavními vydáními.

Můžete nainstalovat další knihovny a vytvořit vlastní prostředí pro váš poznámkový blok nebo výpočetní prostředek.

Vytvoření výpočetního prostředku pomocí Databricks Runtime pro ML

Pokud chcete vytvořit výpočetní prostředek, který používá Databricks Runtime pro ML, zaškrtněte políčko Strojové učení v uživatelském rozhraní pro vytváření výpočetních prostředků. Tím se automaticky nastaví režim přístupu na Dedicated s vaším účtem jako vyhrazený uživatel. Výpočetní prostředek můžete ručně přiřadit jinému uživateli nebo skupině v části Upřesnit v uživatelském rozhraní pro vytváření výpočetních prostředků.

Pro výpočetní prostředky založené na GPU vyberte typ instance s podporou GPU v rozevírací nabídce Typu pracovního procesu . Úplný seznam podporovaných typů GPU najdete v tématu Podporované typy instancí.

Photon a Databricks Runtime ML

Když vytvoříte výpočetní prostředek, na kterém běží Databricks Runtime 15.2 ML nebo novější, můžete povolit Photon. Photon zlepšuje výkon pro aplikace využívající Spark SQL, Spark DataFrames, vytváření funkcí, GraphFrames a xgboost4j. Neočekává se, že by se zlepšil výkon aplikací využívajících sady RDD Sparku, uživatelem definované soubory Pandas a jiné jazyky než JVM, jako je Python. Balíčky Pythonu, jako jsou XGBoost, PyTorch a TensorFlow, proto neuvidí vylepšení s Photon.

Rozhraní API Spark RDD a Spark MLlib mají omezenou kompatibilitu s Photonem. Při zpracování velkých datových sad pomocí sady Spark RDD nebo Spark MLlib může docházet k problémům s pamětí Sparku. Viz problémy s pamětí Sparku.

Režim výpočetního přístupu pro Databricks Runtime ML

Pokud chcete získat přístup k datům v Katalogu Unity na výpočetním prostředku, na kterém běží Databricks Runtime ML, musíte nastavit režim přístupu na Dedicated. Režim přístupu se automaticky nastaví v uživatelském rozhraní pro vytváření výpočetních prostředků, když zaškrtnete políčko Strojové učení .

Pokud má výpočetní prostředek režim vyhrazeného přístupu, může být prostředek přiřazen jednomu uživateli nebo skupině. Když je uživatel přiřazený ke skupině, oprávnění uživatele se automaticky sníží na oprávnění skupiny, což uživateli umožní bezpečně sdílet prostředek s ostatními členy skupiny.

Při použití vyhrazeného režimu přístupu jsou v Databricks Runtime 15.4 LTS ML a vyšší dostupné pouze následující funkce:

Trénování modelů

Následující zdroje informací vám ukážou, jak trénovat modely strojového učení a AI na platformě Mosaic AI a Databricks Runtime pro Machine Learning.

Trénování modelu AI v systému Mosaic zjednodušuje a sjednocuje proces trénování a nasazování tradičních modelů STROJOVÉho učení prostřednictvím úloh jemného ladění modelů AutoML a základních modelů.

automatizované strojové učení

AutoML zjednodušuje proces použití strojového učení u datových sad tím, že automaticky vyhledá nejlepší algoritmus a konfiguraci hyperparametrů. AutoML nabízí uživatelské rozhraní bez kódu a také rozhraní PYTHON API.

Vyladění základního modelu

Vyladění základního modelu (nyní součástí trénování modelu AI v systému Mosaic AI) v Azure Databricks umožňuje přizpůsobit velké jazykové modely (LLM) pomocí vlastních dat. Tento proces zahrnuje vyladění trénování předem existujícího základního modelu, což výrazně snižuje objem dat, času a výpočetních prostředků požadovaných v porovnání s trénováním modelu od začátku. Mezi klíčové funkce patří:

  • Vyladění instrukcí: Přizpůsobte model novým úkolům trénováním pomocí strukturovaných dat výzva-odpověď.
  • Pokračování předběžného trénování: Vylepšete model o další textová data, abyste mohli přidat nové znalosti nebo se zaměřit na konkrétní doménu.
  • Dokončení chatu: Trénování modelu v protokolech chatu za účelem zlepšení konverzačních schopností.

Příklady knihoven otevřeného softwaru

Podívejte se na příklady trénování strojového učení ze široké škály opensourcových knihoven strojového učení, včetně příkladů ladění hyperparametrů pomocí Optuna a Hyperoptu.

Hluboké učení

Podívejte se na příklady a osvědčené postupy pro distribuované trénování hlubokého učení pro vývoj a vyladění modelů hlubokého učení v Azure Databricks.

Doporučovatelé

Naučte se trénovat modely doporučení založené na hlubokém učení v Azure Databricks. V porovnání s tradičními modely doporučení můžou modely hlubokého učení dosáhnout vyšších výsledků kvality a škálovat na větší objemy dat.