Поделиться через


Перенос приложений данных в Azure Databricks

В этой статье приведены общие сведения о переносе существующих приложений данных в Azure Databricks. Azure Databricks предоставляет единый подход, позволяющий работать с данными из многих исходных систем на одной платформе.

Общие сведения о возможностях платформы см. в статье "Что такое Azure Databricks?".

Перенос заданий ETL в Azure Databricks

Вы можете перенести задания Apache Spark, используемые для извлечения, преобразования и загрузки данных из локальных или облачных реализаций в Azure Databricks с помощью нескольких шагов. См. Адаптируйте существующий код Apache Spark для Azure Databricks.

Azure Databricks расширяет функциональные возможности Spark SQL с предварительно настроенными интеграциями с открытым исходным кодом, интеграциями партнеров и предложениями корпоративных продуктов. Если ваши рабочие нагрузки ETL написаны на SQL или Hive, вы можете перенести их в Azure Databricks с минимальным рефакторингом. Узнайте больше о предложениях Azure Databricks SQL.

Инструкции по миграции из различных исходных систем в Azure Databricks см. в статье "Миграция конвейеров ETL в Azure Databricks".

Замените корпоративное хранилище данных на lakehouse.

Azure Databricks обеспечивает наилучшую эффективность и производительность при оптимизации рабочих нагрузок вокруг данных, хранящихся в озере данных (lakehouse). Многие стеки корпоративных данных включают как озеро данных, так и хранилище корпоративных данных, а организации создают сложные рабочие процессы ETL, чтобы попытаться сохранить эти системы и данные в синхронизации. Lakehouse позволяет использовать те же данные, хранящиеся в озере данных, в запросах и системах, которые обычно используют отдельное хранилище данных. Дополнительные сведения о лейкхаусе см. в разделе "Что такое озеро данных?". Дополнительные сведения о хранилище данных в Databricks см. в статье "Что такое хранение данных в Azure Databricks?".

Миграция из корпоративного хранилища данных в lakehouse обычно включает снижение сложности архитектуры и рабочих процессов данных, но есть некоторые предостережения и рекомендации, которые следует учитывать при выполнении этой работы. См. раздел «Перенос вашего хранилища данных в Databricks Lakehouse».

Объединение рабочих нагрузок машинного обучения, обработки и анализа данных

Так как Lakehouse обеспечивает оптимизированный доступ к облачным файлам данных с помощью запросов таблиц или путей к файлам, вы можете выполнять машинное обучение, обработку и анализ данных в одной копии данных. Azure Databricks упрощает перемещение рабочих нагрузок из средств с открытым исходным кодом и собственных средств, а также поддерживает обновленные версии многих библиотек с открытым исходным кодом, используемых аналитиками и специалистами для обработки и анализа данных.

Задачи Pandas в Jupyter ноутбуках можно синхронизировать и выполнять с использованием Git-папок Databricks. Azure Databricks обеспечивает встроенную поддержку pandas во всех версиях Databricks Runtime и настраивает многие популярные библиотеки для машинного и глубокого обучения в Databricks Runtime для машинного обучения. При синхронизации локальных рабочих нагрузок с помощью файлов рабочей области Git и в папках Gitможно использовать те же относительные пути для данных и пользовательских библиотек, присутствующих в локальной среде.

Примечание.

По умолчанию Azure Databricks поддерживает .ipynb расширения для записных книжек Jupyter, синхронизированных с папками Databricks Git, но автоматически преобразует записные книжки Jupyter в записные книжки Databricks при импорте с помощью пользовательского интерфейса. Записные книжки Databricks сохраняются с .py расширением и поэтому могут жить параллельно с записными книжками Jupyter в репозитории Git.