Руководство. Использование записной книжки с Apache Spark для запроса к базе данных KQL

Записные книжки — это доступные для чтения документы, содержащие описания и результаты анализа данных, а также исполняемые документы, которые можно запускать для выполнения анализа данных. Из этой статьи вы узнаете, как использовать записную книжку Microsoft Fabric для чтения и записи данных в базу данных KQL с помощью Apache Spark. В этом руководстве используются предварительно созданные наборы данных и записные книжки как в аналитике в реальном времени, так и в средах Инжиниринг данных в Microsoft Fabric. Дополнительные сведения о записных книжках см. в статье "Использование записных книжек Microsoft Fabric".

В частности, вы узнаете, как выполнять следующие задачи:

  • Создание базы данных KQL
  • Импорт записной книжки
  • Запись данных в базу данных KQL с помощью Apache Spark
  • Запрос данных из базы данных KQL

Необходимые компоненты

1. Создание базы данных KQL

  1. Откройте переключатель взаимодействия в нижней части области навигации и выберите "Аналитика в режиме реального времени".

  2. Выберите плитку базы данных KQL.

    Screenshot of new KQL database tile in Real-Time Analytics.

  3. В поле "Имя базы данных KQL" введите nycGreenTaxi, а затем нажмите кнопку "Создать".

    База данных KQL теперь создана в контексте выбранной рабочей области.

  4. Скопируйте URI запроса из сведений о базе данных карта на панели мониторинга базы данных и вставьте его где-то, например блокнот, для использования на следующем шаге.

     Screenshot of the database details card that shows the database details. The Query URI option titled Copy URI is highlighted.

2. Скачивание записной книжки NYC GreenTaxi

Мы создали пример записной книжки, которая выполняет все необходимые действия для загрузки данных в базу данных с помощью соединителя Spark.

  1. Откройте репозиторий примеров Fabric на GitHub, чтобы скачать записную книжку NYC GreenTaxi KQL.

    Screenshot of GitHub repository showing the NYC GreenTaxi notebook. The Raw option is highlighted.

  2. Сохраните записную книжку локально на устройстве.

    Примечание.

    Записная книжка должна быть сохранена .ipynb в формате файла.

3. Импорт записной книжки

Остальная часть этого рабочего процесса выполняется в разделе Инжиниринг данных продукта и использует записную книжку Spark для загрузки и запроса данных в базе данных KQL.

  1. Откройте переключатель интерфейса в нижней части области навигации и выберите Инжиниринг данных.

  2. Выберите "Импорт записной книжки".

    Screenshot of item options in Data Engineering. The item titled Import notebook is highlighted.

  3. В окне состояния импорта нажмите кнопку "Отправить".

    Screenshot of Import status window. The button titled Upload is highlighted.

  4. Выберите записную книжку NYC GreenTaxi, скачаемую на предыдущем шаге.

  5. После завершения импорта вернитесь в рабочую область, чтобы открыть эту записную книжку.

4. Получение данных

Чтобы запросить базу данных с помощью соединителя Spark, необходимо предоставить доступ на чтение и запись к контейнеру BLOB-объектов NYC GreenTaxi.

Нажмите кнопку воспроизведения , чтобы запустить следующие ячейки, или нажмите клавишу SHIFT+ВВОД. Повторите этот шаг для каждой ячейки кода.

Примечание.

Дождитесь появления метки завершения проверка перед выполнением следующей ячейки.

  1. Выполните следующую ячейку, чтобы включить доступ к контейнеру BLOB-объектов NYC GreenTaxi.

    Screenshot of first code cell showing storage access information.

  2. В KustoURI вставьте URI запроса, скопированный ранее вместо текста заполнителя.

  3. Измените имя заполнителя на nycGreenTaxi.

  4. Измените имя заполнителя на GreenTaxiData.

    Screenshot of second code cell showing the target database information. The Query URI, the database name, and the table name are highlighted.

  5. Запустите ячейку.

  6. Запустите следующую ячейку, чтобы записать данные в базу данных. Выполнение этого шага может занять несколько минут.

    Screenshot of third code cell showing table mapping and ingestion command.

Теперь база данных содержит данные, загруженные в таблицу с именем GreenTaxiData.

5. Запуск записной книжки

Запустите оставшиеся две ячейки последовательно, чтобы запросить данные из таблицы. В результатах показаны первые 20 самых высоких и низких тарифов на такси и расстояний, записанных в год.

Screenshot of fourth and fifth code cell showing the query results.

6. Очистка ресурсов

Очистите элементы, созданные путем перехода к рабочей области, в которой они были созданы.

  1. В рабочей области наведите указатель мыши на записную книжку, которую вы хотите удалить, выберите меню "Дополнительно" [...] >Удаление.

    Screenshot of workspace showing the drop-down menu of the NYC GreenTaxi notebook. The option titled Delete is highlighted.

  2. Выберите команду Удалить. Вы не можете восстановить записную книжку после его удаления.