Перенос приложений данных в Azure Databricks

В этой статье приведены общие сведения о переносе существующих приложений данных в Azure Databricks. Azure Databricks предоставляет единый подход, позволяющий работать с данными из многих исходных систем на одной платформе.

Общие сведения о возможностях платформы см. в статье "Что такое Azure Databricks?".

Сведения о миграции между версиями среды выполнения Databricks см. в руководстве по миграции Databricks Runtime.

Перенос заданий ETL в Azure Databricks

Вы можете перенести задания Apache Spark, используемые для извлечения, преобразования и загрузки данных из локальных или облачных реализаций в Azure Databricks с помощью нескольких шагов. См. статью "Адаптация кода Apache Spark для Azure Databricks".

Azure Databricks расширяет функциональные возможности Spark SQL с предварительно настроенными открытый код интеграции, интеграции партнеров и предложениями корпоративных продуктов. Если рабочие нагрузки ETL записываются в SQL или Hive, вы можете перейти в Azure Databricks с минимальным рефакторингом. Дополнительные сведения о предложениях SQL Для Azure Databricks:

Инструкции по миграции из различных исходных систем в Azure Databricks см. в статье "Миграция конвейеров ETL в Azure Databricks".

Замена корпоративного хранилища данных на lakehouse

Azure Databricks обеспечивает оптимальную ценность и производительность при выравнивании рабочих нагрузок вокруг данных, хранящихся в lakehouse. Многие стеки корпоративных данных включают как озеро данных, так и хранилище корпоративных данных, а организации создают сложные рабочие процессы ETL, чтобы попытаться сохранить эти системы и данные в синхронизации. Lakehouse позволяет использовать те же данные, хранящиеся в озере данных, в запросах и системах, которые обычно используют отдельное хранилище данных. Дополнительные сведения о лейкхаусе см. в разделе "Что такое озеро данных?". Дополнительные сведения о хранилище данных в Databricks см. в статье "Что такое хранение данных в Azure Databricks?".

Миграция из корпоративного хранилища данных в lakehouse обычно включает снижение сложности архитектуры и рабочих процессов данных, но есть некоторые предостережения и рекомендации, которые следует учитывать при выполнении этой работы. См. раздел "Миграция хранилища данных" в databricks lakehouse.

Объединение рабочих нагрузок машинного обучения, обработки и анализа данных

Так как Lakehouse обеспечивает оптимизированный доступ к облачным файлам данных с помощью запросов таблиц или путей к файлам, вы можете выполнять машинное обучение, обработку и анализ данных в одной копии данных. Azure Databricks упрощает перемещение рабочих нагрузок из открытый код и собственных средств, а также поддерживает обновленные версии многих библиотек открытый код, используемых аналитиками и специалистами по обработке и анализу данных.

Рабочие нагрузки Pandas в записных книжках Jupyter можно синхронизировать и запускать с помощью папок Databricks Git. Azure Databricks обеспечивает встроенную поддержку pandas во всех версиях Среды выполнения Databricks и настраивает множество популярных библиотек машинного обучения и глубокого обучения в Databricks Runtime для Машинное обучение. При синхронизации локальных рабочих нагрузок с помощью файлов Git и рабочей области в папках Git можно использовать те же относительные пути для данных и пользовательских libaries, присутствующих в локальной среде.

Примечание.

По умолчанию Azure Databricks поддерживает .ipynb расширения для записных книжек Jupyter, синхронизированных с папками Databricks Git, но автоматически преобразует записные книжки Jupyter в записные книжки Databricks при импорте с пользовательским интерфейсом. Записные книжки Databricks сохраняются с .py расширением и поэтому могут жить параллельно с записными книжками Jupyter в репозитории Git.