Příprava dat a prostředí pro ML a DL
Tato část popisuje, jak připravit data a prostředí Azure Databricks pro strojové učení a hluboké učení.
Příprava dat
Články v této části popisují aspekty načítání a předběžného zpracování dat specifických pro aplikace ML a DL.
- Načtení dat pro strojové učení a hluboké učení
- Předběžné zpracování dat pro strojové učení a hluboké učení
Příprava prostředí
Databricks Runtime pro machine Učení (Databricks Runtime ML) je připravené prostředí optimalizované pro strojové učení a datové vědy. Databricks Runtime ML zahrnuje celou řadu externích knihoven, včetně knihoven TensorFlow, PyTorch, Horovod, scikit-learn a XGBoost, a poskytuje rozšíření pro vylepšení výkonu, včetně akcelerace GPU v XGBoostu, distribuovaného hlubokého učení s využitím HorovodRunneru a vytváření kontrolních bodů modelu s využitím připojení FUSE DBFS (Databricks File System).
Pokud chcete použít Databricks Runtime ML, vyberte při vytváření clusteru verzi modulu runtime ML.
Poznámka:
Pokud chcete získat přístup k datům v katalogu Unity pro pracovní postupy strojového učení, musí být režim přístupu clusteru jeden uživatel (přiřazený). Sdílené clustery nejsou kompatibilní s modulem Databricks Runtime pro Učení počítače.
Instalace knihoven
Můžete nainstalovat další knihovny pro vytvoření vlastního prostředí pro váš poznámkový blok nebo cluster.
- Pokud chcete zpřístupnit knihovnu pro všechny poznámkové bloky spuštěné v clusteru, vytvořte knihovnu clusteru. Inicializační skript můžete také použít k instalaci knihoven do clusterů při vytváření.
- Pokud chcete nainstalovat knihovnu, která je dostupná jenom pro konkrétní relaci poznámkového bloku, použijte knihovny Pythonu s oborem poznámkového bloku.
Použití clusterů GPU
Můžete vytvářet clustery GPU, které urychlují úlohy hlubokého učení. Informace o vytváření clusterů GPU Azure Databricks najdete v tématu Výpočetní prostředky s podporou GPU. Modul Databricks Runtime ML zahrnuje ovladače hardwaru GPU a knihovny NVIDIA, jako je CUDA.