Подготовка данных и среды для машинного обучения и библиотеки DLL
В этом разделе описывается подготовка данных и среды Azure Databricks для машинного обучения и глубокого обучения.
Подготовка данных
В этой статье рассматриваются аспекты загрузки и предварительной обработки данных, относящиеся к приложениям машинного обучения и dll.
- Загрузка данных для машинного обучения и глубокого обучения
- Предварительная обработка данных для машинного обучения и глубокого обучения
Подготовить среду
Databricks Runtime for Машинное обучение (Databricks Runtime ML) — это готовая среда, оптимизированная для машинного обучения и обработки и анализа данных. Databricks Runtime ML включает множество внешних библиотек, в том числе TensorFlow, PyTorch, Horovod, scikit-learn и XGBoost, а также предоставляет расширения для повышения производительности, включая ускорение GPU в XGBoost, распределенное глубокое обучение с использованием HorovodRunner и назначение контрольных точек модели с помощью подключения FUSE Databricks File System (DBFS).
Чтобы использовать Databricks Runtime ML, выберите версию ML для среды выполнения при создании кластера.
Примечание.
Чтобы получить доступ к данным в каталоге Unity для рабочих процессов машинного обучения, режим доступа для кластера должен быть одним пользователем (назначен). Общие кластеры несовместимы с Databricks Runtime для Машинного обучения.
Установка библиотек
Вы можете установить дополнительные библиотеки, чтобы создать пользовательскую среду для записной книжки или кластера.
- Чтобы библиотека была доступна для всех записных книжек, работающих в кластере, создайте библиотеку кластера. Для установки библиотек на кластерах после создания также можно использовать скрипт инициализации.
- Чтобы установить библиотеку, доступную только для определенного сеанса записной книжки, используйте библиотеки Python с областью действия записной книжки.
Использование кластеров GPU
Кластеры GPU можно создавать для ускорения задач глубокого обучения. Сведения о создании кластеров GPU Azure Databricks см. в разделе вычислений с поддержкой GPU. Среда Databricks Runtime ML включает драйверы для оборудования GPU и библиотеки NVIDIA, например CUDA.