Руководство. Использование записной книжки с Apache Spark для запроса базы данных KQL

Важно!

Microsoft Fabric находится в предварительной версии.

Записные книжки — это доступные для чтения документы, содержащие описания и результаты анализа данных, а также исполняемые документы, которые можно запускать для выполнения анализа данных. Из этой статьи вы узнаете, как использовать записную книжку Microsoft Fabric для чтения и записи данных в базу данных KQL с помощью Apache Spark. В этом руководстве используются предварительно созданные наборы данных и записные книжки как в аналитике в режиме реального времени, так и в средах Инжиниринг данных в Microsoft Fabric. Дополнительные сведения о записных книжках см. в статье Использование записных книжек Microsoft Fabric.

В частности, вы узнаете, как выполнять следующие задачи:

  • Создание базы данных KQL
  • Импорт записной книжки
  • Запись данных в базу данных KQL с помощью Apache Spark
  • Запрос данных из базы данных KQL

Предварительные требования

1. Создание базы данных KQL

  1. Откройте переключатель взаимодействия в нижней части области навигации и выберите Аналитика в режиме реального времени.

  2. Выберите плитку База данных KQL (предварительная версия).

    Снимок экрана: новая плитка базы данных KQL в Real-Time Analytics.

  3. В поле Имя базы данных KQL введите nycGreenTaxi, а затем выберите Создать.

    База данных KQL создана в контексте выбранной рабочей области.

  4. Скопируйте URI запроса из сведений о базе данных, карта на панели мониторинга базы данных, и вставьте его в другое место, например блокнот, для использования на следующем шаге.

    Снимок экрана: карта сведений о базе данных. Выделен параметр URI запроса с именем Копировать URI.

2. Скачайте записную книжку NYC GreenTaxi

Мы создали пример записной книжки, который позволяет выполнить все необходимые действия для загрузки данных в базу данных с помощью соединителя Spark.

  1. Откройте репозиторий примеров fabric на сайте GitHub, чтобы скачать записную книжку KQL NYC GreenTaxi.

    Снимок экрана: репозиторий GitHub с записной книжкой NYC GreenTaxi. Выделен параметр Необработанные.

  2. Сохраните записную книжку локально на устройстве.

    Примечание

    Записная книжка должна быть сохранена .ipynb в формате файла.

3. Импорт записной книжки

Остальная часть этого рабочего процесса выполняется в разделе Инжиниринг данных продукта и использует записную книжку Spark для загрузки и запроса данных в базе данных KQL.

  1. Откройте переключатель взаимодействия в нижней части области навигации и выберите Инжиниринг данных.

  2. Выберите Импорт записной книжки.

    Снимок экрана: параметры элементов в Инжиниринг данных. Выделен элемент с именем Импорт записной книжки.

  3. В окне Состояние импорта выберите Отправить.

    Снимок экрана: окно состояния импорта. Выделена кнопка

  4. Выберите записную книжку NYC GreenTaxi, загруженную на предыдущем шаге.

  5. После завершения импорта вернитесь в рабочую область, чтобы открыть эту записную книжку.

4. Получение данных

Чтобы запросить базу данных с помощью соединителя Spark, необходимо предоставить доступ на чтение и запись к контейнеру больших двоичных объектов NYC GreenTaxi.

Нажмите кнопку воспроизведения , чтобы запустить следующие ячейки, или выберите ячейку и нажмите клавиши SHIFT+ВВОД. Повторите этот шаг для каждой ячейки кода.

Примечание

Дождитесь появления отметки проверка завершения перед запуском следующей ячейки.

  1. Выполните следующую ячейку, чтобы разрешить доступ к контейнеру больших двоичных объектов NYC GreenTaxi.

    Снимок экрана: первая ячейка кода со сведениями о доступе к хранилищу.

  2. В KustoURI вставьте скопированный ранее URIзапроса вместо замещающего текста.

  3. Измените имя заполнителя базы данных на nycGreenTaxi.

  4. Измените имя таблицы-заполнителя на GreenTaxiData.

    Снимок экрана: вторая ячейка кода со сведениями о целевой базе данных. Выделены URI запроса, имя базы данных и имя таблицы.

  5. Запустите ячейку.

  6. Выполните следующую ячейку, чтобы записать данные в базу данных. Выполнение этого шага может занять несколько минут.

    Снимок экрана: третья ячейка кода с командой сопоставления таблиц и приема.

Теперь база данных содержит данные, загруженные в таблицу с именем GreenTaxiData.

5. Запуск записной книжки

Выполните оставшиеся две ячейки последовательно, чтобы запросить данные из таблицы. Результаты показывают 20 самых высоких и самых низких тарифов на такси и расстояний, зарегистрированных по году.

Снимок экрана: четвертая и пятая ячейки кода с результатами запроса.

6. Очистка ресурсов

Очистите созданные элементы, перейдя в рабочую область, в которой они были созданы.

  1. В рабочей области наведите указатель мыши на записную книжку, которую нужно удалить, и выберите меню Дополнительно [...] >Удалить.

    Снимок экрана: рабочая область с раскрывающимся меню записной книжки NYC GreenTaxi. Выделен параметр Delete (Удалить).

  2. Выберите команду Удалить. Вы не сможете восстановить записную книжку после ее удаления.

Дальнейшие действия