Поделиться через


Краткое руководство: развертывание управляемого кластера Apache Spark с Azure Databricks

Служба "Управляемый экземпляр Azure для Apache Cassandra" позволяет автоматизировать операции развертывания и масштабирования для управляемых решений Apache Cassandra с открытым кодом для центров обработки данных. Эта функция ускоряет гибридные сценарии и сокращает текущее обслуживание.

В этом кратком руководстве показано, как с помощью портала Azure создать полностью управляемый кластер Apache Spark в виртуальной сети Azure вашего Управляемого экземпляра Azure для кластера Apache Cassandra. Вы создаете кластер Spark в Azure Databricks. Позже вы можете создавать или присоединять записные книжки к кластеру, считывать данные из разных источников данных и анализировать аналитические сведения.

См. подробные инструкции по развертыванию Azure Databricks в виртуальной сети Azure (внедрение в виртуальную сеть).

Необходимые компоненты

Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.

Создание кластера Azure Databricks.

Выполните следующие действия, чтобы создать кластер Azure Databricks в виртуальной сети с Управляемым экземпляром Azure для Apache Cassandra:

  1. Войдите на портал Azure.

  2. На панели навигации слева найдите группы ресурсов. Перейдите в группу ресурсов, содержащую виртуальная сеть, в которой развернут управляемый экземпляр.

  3. Откройте ресурс виртуальной сети и запишите диапазон адресов:

    Снимок экрана: место для получения адресного пространства виртуальная сеть.

  4. В группе ресурсов выберите Добавить и введите в поле поиска Azure Databricks:

    Снимок экрана: поиск Azure Databricks.

  5. Выберите Создать, чтобы создать учетную запись Azure Databricks:

    Снимок экрана: предложение Azure Databricks с выбранной кнопкой

  6. Введите следующие значения:

    • Имя рабочей области Укажите имя рабочей области Databricks.
    • Регион обязательно выберите тот же регион, что и виртуальная сеть.
    • Ценовая категория "Стандартный", "Премиум" или "Пробная версия". Дополнительные сведения об этих ценовых категориях см. на странице цен на Databricks.

    Снимок экрана: диалоговое окно, в котором можно ввести имя рабочей области, регион и ценовую категорию для учетной записи Databricks.

  7. Затем выберите вкладку "Сеть" и введите следующие сведения:

    • Разверните рабочую область Azure Databricks в виртуальная сеть (виртуальная сеть) нажмите кнопку "Да".
    • виртуальная сеть В раскрывающемся списке выберите виртуальная сеть, где существует управляемый экземпляр.
    • Имя общедоступной подсети введите имя общедоступной подсети.
    • Диапазон CIDR общедоступной подсети введите диапазон IP-адресов для общедоступной подсети.
    • Имя частной подсети введите имя частной подсети.
    • Диапазон CIDR частной подсети введите диапазон IP-адресов для частной подсети.

    Чтобы избежать конфликтов диапазонов, убедитесь, что выбраны более высокие диапазоны. При необходимости используйте визуальный калькулятор подсетей, чтобы разделить диапазоны:

    Снимок экрана: калькулятор визуальной подсети с двумя выделенными одинаковыми сетевыми адресами.

    На следующем снимке экрана показан пример сведений на панели "Сеть".

    Снимок экрана: указанные имена общедоступных и частных подсетей.

  8. Выберите Просмотр и создание, а затем — Создать, чтобы развернуть рабочую область.

  9. После ее создания выберите Запуск рабочей области.

  10. Вы будете перенаправлены на портал Azure Databricks. На портале выберите Создать кластер.

  11. На панели Новый кластер примите значения по умолчанию для всех полей, кроме следующих:

    • Имя кластера введите имя кластера.
    • Версия среды выполнения Databricks рекомендуется выбрать среду выполнения Databricks версии 7.5 или более поздней для поддержки Spark 3.x.

    Снимок экрана: диалоговое окно

  12. Разверните пункт Дополнительные параметры и добавьте следующую конфигурацию. Обязательно замените IP-адреса и учетные данные узла:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Добавьте библиотеку соединителей Apache Spark Cassandra в кластер для подключения к собственным конечным точкам, а также к конечным точкам Cassandra в Azure Cosmos DB. В кластере выберите Библиотеки>Установить>Maven, а затем добавьте com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 в координаты Maven.

Снимок экрана, на котором показано поиск пакетов Maven в Databricks.

Очистка ресурсов

Если вы не планируете в дальнейшем использовать кластер с управляемым экземпляром, удалите его, выполнив следующие действия:

  1. В меню слева на портале Azure выберите Группы ресурсов.
  2. Выберите из списка группу ресурсов, созданную для этого краткого руководства.
  3. В области Обзор на странице группы ресурсов выберите Удалить группу ресурсов.
  4. В следующем окне введите имя группы ресурсов, которую требуется удалить, и щелкните Удалить.

Следующие шаги

Из этого краткого руководства вы узнали, как создать полностью управляемый кластер Apache Spark в виртуальной сети вашего Управляемого экземпляра Azure для кластера Apache Cassandra. Далее вы сможете узнать, как управлять ресурсами кластера и центра обработки данных: