Открытие записной книжки Jupyter Notebook в кластере HDInsight Spark

Завершено

После создания кластера HDInsight Spark можно выполнять интерактивные запросы и задания Spark SQL в кластере Apache Spark в Azure HDInsight. Для этого сначала необходимо создать записную книжку. Записная книжка — это интерактивный редактор, позволяющий инженерам данных и специалистам по обработке и анализу данных взаимодействовать с данными с помощью ряда языков. К ним относятся Python, SQL, Scala и другие. HDInsight поддерживает Jupyter, Zeppelin и Livy для взаимодействия с данными. Уровень взаимодействия зависит от вашей рабочей нагрузки.

Apache Spark в HDInsight поддерживает указанные ниже рабочие нагрузки.

Интерактивный анализ данных и бизнес-аналитика

С помощью записной книжки можно принимать неструктурированные или частично структурированные данные, а затем определять для них схему. Затем эту схему можно использовать для создания модели в таких средствах, как Power BI. Это позволит бизнес-пользователям выполнять анализ данных в записной книжке.

Машинное обучение Spark

Вы можете использовать записную книжку для создания приложений машинного обучения с помощью MLlib (библиотеки машинного обучения на основе Spark).

Потоковая передача и анализ данных в режиме реального времени в Spark

Кластеры Spark в HDInsight обладают широкой поддержкой для создания решений для аналитики в режиме реального времени. Поскольку в состав Spark уже входят соединители для приема данных из различных источников, таких как Flume, Kafka, Twitter, ZeroMQ или сокеты TCP, Spark в HDInsight позволяет реализовать первоклассную поддержку для приема данных из Центров событий Azure.

Создание записной книжки Jupyter

Чтобы создать записную книжку Jupyter Notebook на портале Azure, выполните указанные ниже действия.

  1. На портале в разделе Панели мониторинга кластера выберите Jupyter Notebook. При появлении запроса введите учетные данные для входа в кластер.

    Selecting your Jupyter Notebook in the Azure portal

  2. Чтобы создать записную книжку, выберите Создать> > PySpark.

    A screenshot of a Jupyter Notebook

  3. Будет создана и откроется записная книжка с именем Untitled (Untitled.pynb), в которой можно приступить к созданию заданий и выполнению запросов.