Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье приведены общие сведения о переносе существующих приложений данных в Azure Databricks. Azure Databricks предоставляет единый подход, позволяющий работать с данными из многих исходных систем на одной платформе.
Общие сведения о возможностях платформы см. в статье "Что такое Azure Databricks?".
Перенос заданий ETL в Azure Databricks
Вы можете перенести задания Apache Spark, используемые для извлечения, преобразования и загрузки данных из локальных или облачных реализаций в Azure Databricks с помощью нескольких шагов. См. Адаптируйте существующий код Apache Spark для Azure Databricks.
Azure Databricks расширяет функциональные возможности Spark SQL с предварительно настроенными интеграциями с открытым исходным кодом, интеграциями партнеров и предложениями корпоративных продуктов. Если ваши рабочие нагрузки ETL написаны на SQL или Hive, вы можете перенести их в Azure Databricks с минимальным рефакторингом. Узнайте больше о предложениях Azure Databricks SQL.
- Что такое хранилище данных в Azure Databricks?
- Декларативные конвейеры Lakeflow
- Что такое Databricks Partner Connect?
Инструкции по миграции из различных исходных систем в Azure Databricks см. в статье "Миграция конвейеров ETL в Azure Databricks".
Замените корпоративное хранилище данных на lakehouse.
Azure Databricks обеспечивает наилучшую эффективность и производительность при оптимизации рабочих нагрузок вокруг данных, хранящихся в озере данных (lakehouse). Многие стеки корпоративных данных включают как озеро данных, так и хранилище корпоративных данных, а организации создают сложные рабочие процессы ETL, чтобы попытаться сохранить эти системы и данные в синхронизации. Lakehouse позволяет использовать те же данные, хранящиеся в озере данных, в запросах и системах, которые обычно используют отдельное хранилище данных. Дополнительные сведения о лейкхаусе см. в разделе "Что такое озеро данных?". Дополнительные сведения о хранилище данных в Databricks см. в статье "Что такое хранение данных в Azure Databricks?".
Миграция из корпоративного хранилища данных в lakehouse обычно включает снижение сложности архитектуры и рабочих процессов данных, но есть некоторые предостережения и рекомендации, которые следует учитывать при выполнении этой работы. См. раздел «Перенос вашего хранилища данных в Databricks Lakehouse».
Объединение рабочих нагрузок машинного обучения, обработки и анализа данных
Так как Lakehouse обеспечивает оптимизированный доступ к облачным файлам данных с помощью запросов таблиц или путей к файлам, вы можете выполнять машинное обучение, обработку и анализ данных в одной копии данных. Azure Databricks упрощает перемещение рабочих нагрузок из средств с открытым исходным кодом и собственных средств, а также поддерживает обновленные версии многих библиотек с открытым исходным кодом, используемых аналитиками и специалистами для обработки и анализа данных.
Задачи Pandas в Jupyter ноутбуках можно синхронизировать и выполнять с использованием Git-папок Databricks. Azure Databricks обеспечивает встроенную поддержку pandas во всех версиях Databricks Runtime и настраивает многие популярные библиотеки для машинного и глубокого обучения в Databricks Runtime для машинного обучения. При синхронизации локальных рабочих нагрузок с помощью файлов рабочей области Git и в папках Gitможно использовать те же относительные пути для данных и пользовательских библиотек, присутствующих в локальной среде.
Примечание.
По умолчанию Azure Databricks поддерживает .ipynb
расширения для записных книжек Jupyter, синхронизированных с папками Databricks Git, но автоматически преобразует записные книжки Jupyter в записные книжки Databricks при импорте с помощью пользовательского интерфейса. Записные книжки Databricks сохраняются с .py
расширением и поэтому могут жить параллельно с записными книжками Jupyter в репозитории Git.