Подготовка данных и среды для машинного обучения и библиотеки DLL

В этом разделе описывается подготовка данных и среды Azure Databricks для машинного обучения и глубокого обучения.

Подготовка данных

В этой статье рассматриваются аспекты загрузки и предварительной обработки данных, относящиеся к приложениям машинного обучения и dll.

Подготовить среду

Databricks Runtime for Машинное обучение (Databricks Runtime ML) — это готовая среда, оптимизированная для машинного обучения и обработки и анализа данных. Databricks Runtime ML включает множество внешних библиотек, в том числе TensorFlow, PyTorch, Horovod, scikit-learn и XGBoost, а также предоставляет расширения для повышения производительности, включая ускорение GPU в XGBoost, распределенное глубокое обучение с использованием HorovodRunner и назначение контрольных точек модели с помощью подключения FUSE Databricks File System (DBFS).

Чтобы использовать Databricks Runtime ML, выберите версию ML для среды выполнения при создании кластера.

Примечание.

Чтобы получить доступ к данным в каталоге Unity для рабочих процессов машинного обучения, режим доступа для кластера должен быть одним пользователем (назначен). Общие кластеры несовместимы с Databricks Runtime для Машинного обучения.

Установка библиотек

Вы можете установить дополнительные библиотеки, чтобы создать пользовательскую среду для записной книжки или кластера.

Использование кластеров GPU

Кластеры GPU можно создавать для ускорения задач глубокого обучения. Сведения о создании кластеров GPU Azure Databricks см. в разделе вычислений с поддержкой GPU. Среда Databricks Runtime ML включает драйверы для оборудования GPU и библиотеки NVIDIA, например CUDA.