Příprava dat a prostředí pro ML a DL

Tato část popisuje, jak připravit data a prostředí Azure Databricks pro strojové učení a hluboké učení.

Příprava dat

Články v této části popisují aspekty načítání a předběžného zpracování dat specifických pro aplikace ML a DL.

Příprava prostředí

Databricks Runtime pro machine Učení (Databricks Runtime ML) je připravené prostředí optimalizované pro strojové učení a datové vědy. Databricks Runtime ML zahrnuje celou řadu externích knihoven, včetně knihoven TensorFlow, PyTorch, Horovod, scikit-learn a XGBoost, a poskytuje rozšíření pro vylepšení výkonu, včetně akcelerace GPU v XGBoostu, distribuovaného hlubokého učení s využitím HorovodRunneru a vytváření kontrolních bodů modelu s využitím připojení FUSE DBFS (Databricks File System).

Pokud chcete použít Databricks Runtime ML, vyberte při vytváření clusteru verzi modulu runtime ML.

Poznámka:

Pokud chcete získat přístup k datům v katalogu Unity pro pracovní postupy strojového učení, musí být režim přístupu clusteru jeden uživatel (přiřazený). Sdílené clustery nejsou kompatibilní s modulem Databricks Runtime pro Učení počítače.

Instalace knihoven

Můžete nainstalovat další knihovny pro vytvoření vlastního prostředí pro váš poznámkový blok nebo cluster.

  • Pokud chcete zpřístupnit knihovnu pro všechny poznámkové bloky spuštěné v clusteru, vytvořte knihovnu clusteru. Inicializační skript můžete také použít k instalaci knihoven do clusterů při vytváření.
  • Pokud chcete nainstalovat knihovnu, která je dostupná jenom pro konkrétní relaci poznámkového bloku, použijte knihovny Pythonu s oborem poznámkového bloku.

Použití clusterů GPU

Můžete vytvářet clustery GPU, které urychlují úlohy hlubokého učení. Informace o vytváření clusterů GPU Azure Databricks najdete v tématu Výpočetní prostředky s podporou GPU. Modul Databricks Runtime ML zahrnuje ovladače hardwaru GPU a knihovny NVIDIA, jako je CUDA.