Sdílet prostřednictvím


Běhové prostředí Databricks pro strojové učení

Tato stránka popisuje modul Runtime Databricks pro Machine Learning a poskytuje pokyny k vytvoření klasického výpočetního prostředku, který ho používá.

Co je Databricks Runtime pro Machine Learning?

Databricks Runtime pro Machine Learning (Databricks Runtime ML) automatizuje vytvoření výpočetního prostředku s předem vytvořenou infrastrukturou strojového učení a hlubokého učení, včetně nejběžnějších knihoven ML a DL.

Knihovny zahrnuté v Databricks Runtime ML

Databricks Runtime ML zahrnuje celou řadu oblíbených knihoven ML. Knihovny se aktualizují s každou verzí, aby zahrnovaly nové funkce a opravy.

Databricks určila podmnožinu podporovaných knihoven jako knihovny nejvyšší úrovně. Pro tyto knihovny poskytuje Databricks rychlejší tempo aktualizace a aktualizaci na nejnovější verze balíčků s každou verzí modulu runtime (blokování konfliktů závislostí). Databricks také poskytuje pokročilou podporu, testování a vložené optimalizace pro knihovny nejvyšší úrovně. Knihovny nejvyšší úrovně se přidávají nebo odebírají jenom s hlavními vydáními.

Můžete nainstalovat další knihovny a vytvořit vlastní prostředí pro váš poznámkový blok nebo výpočetní prostředek.

Vytvoření výpočetního prostředku pomocí Databricks Runtime pro ML

Pokud chcete vytvořit výpočetní prostředek, který používá Databricks Runtime pro ML, zaškrtněte políčko Strojové učení v uživatelském rozhraní pro vytváření výpočetních prostředků. Tím se automaticky nastaví režim přístupu na Dedicated s vaším účtem jako vyhrazený uživatel. Výpočetní prostředek můžete ručně přiřadit jinému uživateli nebo skupině v části Upřesnit v uživatelském rozhraní pro vytváření výpočetních prostředků.

Pro výpočetní prostředky založené na GPU vyberte typ instance s podporou GPU v rozevírací nabídce Typu pracovního procesu . Úplný seznam podporovaných typů GPU najdete v tématu Podporované typy instancí.

Photon a Databricks Runtime ML

Když vytvoříte výpočetní prostředek, na kterém běží Databricks Runtime 15.2 ML nebo novější, můžete povolit Photon. Photon zlepšuje výkon pro aplikace využívající Spark SQL, Spark DataFrames, vytváření funkcí, GraphFrames a xgboost4j. Neočekává se, že by se zlepšil výkon aplikací využívajících sady RDD Sparku, uživatelem definované soubory Pandas a jiné jazyky než JVM, jako je Python. Balíčky Pythonu, jako jsou XGBoost, PyTorch a TensorFlow, proto neuvidí vylepšení s Photon.

Rozhraní API Spark RDD a Spark MLlib mají omezenou kompatibilitu s Photonem. Při zpracování velkých datových sad pomocí sady Spark RDD nebo Spark MLlib může docházet k problémům s pamětí Sparku. Viz problémy s pamětí Sparku.

Režim výpočetního přístupu pro Databricks Runtime ML

Pokud chcete získat přístup k datům v Katalogu Unity na výpočetním prostředku, na kterém běží Databricks Runtime ML, musíte nastavit režim přístupu na Dedicated. Režim přístupu se automaticky nastaví v uživatelském rozhraní pro vytváření výpočetních prostředků, když zaškrtnete políčko Strojové učení .

Pokud má výpočetní prostředek režim vyhrazeného přístupu, může být prostředek přiřazen jednomu uživateli nebo skupině. Když je uživatel přiřazený ke skupině, oprávnění uživatele se automaticky sníží na oprávnění skupiny, což uživateli umožní bezpečně sdílet prostředek s ostatními členy skupiny.

Při použití vyhrazeného režimu přístupu jsou v Databricks Runtime 15.4 LTS ML a vyšší dostupné pouze následující funkce: