Поделиться через


Службы вычислений

Вычисления Azure Databricks относятся к выбору вычислительных ресурсов, доступных в рабочей области Azure Databricks. Пользователям нужен доступ к вычислениям для выполнения инженерии данных, обработки и анализа данных, таких как рабочие конвейеры ETL, потоковая аналитика, нерегламентированная аналитика и машинное обучение.

Пользователи могут подключаться к существующим вычислительным ресурсам или создавать новые вычисления, если у них есть соответствующие разрешения.

Вы можете просмотреть вычислительные ресурсы, к которых у вас есть доступ с помощью раздела вычислений рабочей области:

Страница вычислений всех целей в рабочей области Databricks

Типы вычислительных ресурсов

Это типы вычислений, доступные в Azure Databricks:

  • Бессерверные вычисления для записных книжек (общедоступная предварительная версия): масштабируемые вычислительные ресурсы, используемые для выполнения кода SQL и Python в записных книжках.

  • Бессерверные вычисления для рабочих процессов (общедоступная предварительная версия): масштабируемые вычислительные ресурсы, используемые для выполнения заданий Databricks без настройки и развертывания инфраструктуры.

  • Все назначение вычислений: подготовленные вычисления, используемые для анализа данных в записных книжках. Вы можете создать, завершить и перезапустить эти вычисления с помощью пользовательского интерфейса, интерфейса командной строки или REST API.

  • Вычисления заданий: подготовленные вычисления, используемые для выполнения автоматических заданий. Планировщик заданий Azure Databricks автоматически создает вычисления заданий всякий раз, когда задание настроено для запуска на новых вычислительных ресурсах. Вычисление завершается после завершения задания. Вы не можете перезапустить вычисление задания. См. статью "Использование вычислений Azure Databricks с заданиями".

  • Пулы экземпляров: вычисления с неактивными, готовыми к использованию экземплярами, используемыми для уменьшения времени запуска и автомасштабирования. Вы можете создать эти вычисления с помощью пользовательского интерфейса, интерфейса командной строки или REST API.

  • Бессерверные хранилища SQL: эластичные вычисления по запросу, используемые для выполнения команд SQL на объектах данных в редакторе SQL или интерактивных записных книжках. Вы можете создавать хранилища SQL с помощью пользовательского интерфейса, интерфейса командной строки или REST API.

  • Классические хранилища SQL: используется для выполнения команд SQL на объектах данных в редакторе SQL или интерактивных записных книжках. Вы можете создавать хранилища SQL с помощью пользовательского интерфейса, интерфейса командной строки или REST API.

В статьях этого раздела описывается, как работать с вычислительными ресурсами с помощью пользовательского интерфейса Azure Databricks. Дополнительные сведения см. в разделе "Что такое ИНТЕРФЕЙС командной строки Databricks" и справочник по REST API Databricks.

Databricks Runtime

Databricks Runtime — это набор основных компонентов, которые выполняются в вычислительных средах. Среда выполнения Databricks — это настраиваемый параметр во всех назначениях вычислений заданий, но автоматически выбранный в хранилищах SQL.

Каждая версия среды выполнения Databricks включает обновления, которые повышают удобство использования, производительность и безопасность аналитики больших данных. Среда выполнения Databricks в вычислительных ресурсах добавляет множество функций, в том числе:

  • Дельта Lake — уровень хранилища нового поколения, основанный на Apache Spark, который поддерживает транзакции ACID, оптимизированные макеты и индексы, а также усовершенствованный механизм выполнения для создания конвейеров данных. См. статью Сведения о Delta Lake.
  • Установлены библиотеки Java, Scala, Python и R.
  • Ubuntu и сопутствующие системные библиотеки.
  • Библиотеки GPU для кластеров с поддержкой GPU.
  • Службы Azure Databricks, которые интегрируются с другими компонентами платформы, такими как записные книжки, задания и управление кластерами.

Сведения о содержимом каждой из версий среды выполнения см. в заметках о выпуске.

Управление версиями среды выполнения

Регулярно выпускаются новые версии Databricks Runtime:

  • Версии долгосрочной поддержки обозначаются квалификатором LTS (например, 3.5 LTS). Для каждого основного выпуска мы объявляем "каноническую" версию функции, для которой мы предоставляем три полных года поддержки. Дополнительные сведения см. в разделе о жизненном цикле поддержки среды выполнения Databricks.
  • Основные версии характеризуются увеличением номера версии перед десятичной точкой (например, переход от 3.5 к 4.0). Они выпускаются при наличии значительных изменений, часть из которых могут не иметь обратной совместимости.
  • Версии с новыми функциями характеризуются увеличением номера версии после десятичной точкой (например, переход от 3.4 к 3.5). Каждый основной выпуск дополняется многими выпусками с новыми функциями. Выпуски компонентов всегда являются обратно совместимыми с предыдущими выпусками в их основном выпуске.

Что такое бессерверные вычисления?

Бессерверные вычислительные ресурсы повышают производительность, эффективность затрат и надежность следующим образом:

  • Производительность: облачные ресурсы управляются Azure Databricks, сокращают затраты на управление и предоставляют мгновенные вычислительные ресурсы для повышения производительности пользователей.
  • Эффективность. Бессерверные вычислительные ресурсы обеспечивают быстрое время запуска и масштабирования, минимизируя время простоя и обеспечивая оплату только используемых вычислительных ресурсов.
  • Надежность. Благодаря бессерверным вычислительным ресурсам, обработке емкости, безопасности, исправлению и обновлениям управляются автоматически, что устранит проблемы с политиками безопасности и нехваткой емкости.

Что такое бессерверные хранилища SQL?

Databricks SQL обеспечивает оптимальную цену и производительность с бессерверными хранилищами SQL. Основные преимущества бессерверных хранилищ по сравнению с профессиональными и классическими моделями:

  • Мгновенное и эластичное вычисление. Устраняет ожидание ресурсов инфраструктуры и избегает чрезмерной подготовки ресурсов во время пиков использования. Интеллектуальное управление рабочими нагрузками динамически обрабатывает масштабирование. Дополнительные сведения о интеллектуальном управлении рабочими нагрузками и других бессерверных функциях см . в типах хранилища SQL.
  • Минимальные затраты на управление ресурсами: управление емкостью, исправление, обновление и оптимизация производительности обрабатываются Azure Databricks, упрощают операции и приводят к прогнозируемой цене.
  • Снижение общей стоимости владения (TCO) — автоматическая подготовка и масштабирование ресурсов по мере необходимости помогает избежать чрезмерной подготовки и снижает время простоя, что снижает уровень TCO.