Запуск примера записной книжки с помощью Spark

Область применения: SQL Server 2019 (15.x)

Важно!

Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, а программное обеспечение будет продолжать поддерживаться через SQL Server накопительных обновлений до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.

В этом руководстве демонстрируется загрузка и запуск записной книжки Azure Data Studio в кластере больших данных SQL Server 2019. Такой подход позволяет специалистам по обработке и анализу данных выполнять код Python, R или Scala в кластере.

Совет

При необходимости вы можете скачать и выполнить скрипт, содержащий команды из этого руководства. См. инструкции в примерах Spark на сайте GitHub.

Предварительные требования

Скачивание файла с примером записной книжки

Чтобы загрузить файл с примером записной книжки spark-sql.ipynb в Azure Data Studio, выполните следующие инструкции.

  1. Откройте командную строку Bash (Linux) или Windows PowerShell.

  2. Перейдите в каталог, в который требуется скачать файл с примером записной книжки.

  3. Выполните следующую команду curl, чтобы скачать файл с записной книжкой с сайта GitHub:

    curl https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/spark/data-loading/transform-csv-files.ipynb -o transform-csv-files.ipynb
    

Открытие записной книжки

Выполните следующие действия, чтобы открыть файл с записной книжкой в Azure Data Studio:

  1. В Azure Data Studio установите подключение к главному экземпляру в кластере больших данных. Дополнительные сведения см. в разделе Подключение к кластеру больших данных.

  2. Дважды щелкните подключение шлюза HDFS/Spark в окне Серверы. Выберите Открыть записную книжку.

    Открытие записной книжки

  3. Дождитесь, пока будет заполнено поле Ядро и задан целевой контекст (Присоединить к). В поле Ядро укажите PySpark3, а в поле Присоединить к введите IP-адрес конечной точки вашего кластера больших данных.

    Заполнение полей

Важно!

В Azure Data Studio записные книжки Spark всех типов (Scala Spark, PySpark и Spark) обычно определяют некоторые важные переменные для сеансов Spark при первом выполнении ячейки. Это такие переменные, как spark, sc и sqlContext. При копировании логики из записных книжек для отправки пакета (например, в файл Python для запуска с помощью azdata bdc spark batch create) убедитесь, что эти переменные определены соответствующим образом.

Запуск ячеек записной книжки

Чтобы запустить любую ячейку записной книжки, нажмите расположенную слева от нее кнопку воспроизведения. После того как выполнение ячейки будет завершено, в записной книжке будут показаны результаты.

Запуск ячейки записной книжки

Последовательно запустите все ячейки в примере записной книжки. Дополнительные сведения об использовании записных книжек с Кластеры больших данных SQL Server см. в следующих статьях:

Дальнейшие действия

Дополнительные сведения о записных книжках: