Příprava dat a prostředí pro ML a DL

Článek
03/01/2024

Tato část popisuje, jak připravit data a prostředí Azure Databricks pro strojové učení a hluboké učení.

Příprava dat

Články v této části popisují aspekty načítání a předběžného zpracování dat specifických pro aplikace ML a DL.

Příprava prostředí

Databricks Runtime pro machine Učení (Databricks Runtime ML) je připravené prostředí optimalizované pro strojové učení a datové vědy. Databricks Runtime ML zahrnuje celou řadu externích knihoven, včetně knihoven TensorFlow, PyTorch, Horovod, scikit-learn a XGBoost, a poskytuje rozšíření pro vylepšení výkonu, včetně akcelerace GPU v XGBoostu, distribuovaného hlubokého učení s využitím HorovodRunneru a vytváření kontrolních bodů modelu s využitím připojení FUSE DBFS (Databricks File System).

Pokud chcete použít Databricks Runtime ML, vyberte při vytváření clusteru verzi modulu runtime ML.

Poznámka:

Pokud chcete získat přístup k datům v katalogu Unity pro pracovní postupy strojového učení, musí být režim přístupu clusteru jeden uživatel (přiřazený). Sdílené clustery nejsou kompatibilní s modulem Databricks Runtime pro Učení počítače.

Instalace knihoven

Můžete nainstalovat další knihovny pro vytvoření vlastního prostředí pro váš poznámkový blok nebo cluster.

Pokud chcete zpřístupnit knihovnu pro všechny poznámkové bloky spuštěné v clusteru, vytvořte knihovnu clusteru. Inicializační skript můžete také použít k instalaci knihoven do clusterů při vytváření.
Pokud chcete nainstalovat knihovnu, která je dostupná jenom pro konkrétní relaci poznámkového bloku, použijte knihovny Pythonu s oborem poznámkového bloku.

Použití clusterů GPU

Můžete vytvářet clustery GPU, které urychlují úlohy hlubokého učení. Informace o vytváření clusterů GPU Azure Databricks najdete v tématu Výpočetní prostředky s podporou GPU. Modul Databricks Runtime ML zahrnuje ovladače hardwaru GPU a knihovny NVIDIA, jako je CUDA.

Příprava dat a prostředí pro ML a DL

Příprava dat

Příprava prostředí

Instalace knihoven

Použití clusterů GPU

Další materiály