Руководство. Использование записной книжки с Apache Spark для запроса базы данных KQL
Важно!
Microsoft Fabric находится в предварительной версии.
Записные книжки — это доступные для чтения документы, содержащие описания и результаты анализа данных, а также исполняемые документы, которые можно запускать для выполнения анализа данных. Из этой статьи вы узнаете, как использовать записную книжку Microsoft Fabric для чтения и записи данных в базу данных KQL с помощью Apache Spark. В этом руководстве используются предварительно созданные наборы данных и записные книжки как в аналитике в режиме реального времени, так и в средах Инжиниринг данных в Microsoft Fabric. Дополнительные сведения о записных книжках см. в статье Использование записных книжек Microsoft Fabric.
В частности, вы узнаете, как выполнять следующие задачи:
- Создание базы данных KQL
- Импорт записной книжки
- Запись данных в базу данных KQL с помощью Apache Spark
- Запрос данных из базы данных KQL
Предварительные требования
- Рабочая область с емкостью с поддержкой Microsoft Fabric
1. Создание базы данных KQL
Откройте переключатель взаимодействия в нижней части области навигации и выберите Аналитика в режиме реального времени.
Выберите плитку База данных KQL (предварительная версия).
В поле Имя базы данных KQL введите nycGreenTaxi, а затем выберите Создать.
База данных KQL создана в контексте выбранной рабочей области.
Скопируйте URI запроса из сведений о базе данных, карта на панели мониторинга базы данных, и вставьте его в другое место, например блокнот, для использования на следующем шаге.
2. Скачайте записную книжку NYC GreenTaxi
Мы создали пример записной книжки, который позволяет выполнить все необходимые действия для загрузки данных в базу данных с помощью соединителя Spark.
Откройте репозиторий примеров fabric на сайте GitHub, чтобы скачать записную книжку KQL NYC GreenTaxi.
Сохраните записную книжку локально на устройстве.
Примечание
Записная книжка должна быть сохранена
.ipynb
в формате файла.
3. Импорт записной книжки
Остальная часть этого рабочего процесса выполняется в разделе Инжиниринг данных продукта и использует записную книжку Spark для загрузки и запроса данных в базе данных KQL.
Откройте переключатель взаимодействия в нижней части области навигации и выберите Инжиниринг данных.
Выберите Импорт записной книжки.
В окне Состояние импорта выберите Отправить.
Выберите записную книжку NYC GreenTaxi, загруженную на предыдущем шаге.
После завершения импорта вернитесь в рабочую область, чтобы открыть эту записную книжку.
4. Получение данных
Чтобы запросить базу данных с помощью соединителя Spark, необходимо предоставить доступ на чтение и запись к контейнеру больших двоичных объектов NYC GreenTaxi.
Нажмите кнопку воспроизведения , чтобы запустить следующие ячейки, или выберите ячейку и нажмите клавиши SHIFT+ВВОД. Повторите этот шаг для каждой ячейки кода.
Примечание
Дождитесь появления отметки проверка завершения перед запуском следующей ячейки.
Выполните следующую ячейку, чтобы разрешить доступ к контейнеру больших двоичных объектов NYC GreenTaxi.
В KustoURI вставьте скопированный ранее URIзапроса вместо замещающего текста.
Измените имя заполнителя базы данных на nycGreenTaxi.
Измените имя таблицы-заполнителя на GreenTaxiData.
Запустите ячейку.
Выполните следующую ячейку, чтобы записать данные в базу данных. Выполнение этого шага может занять несколько минут.
Теперь база данных содержит данные, загруженные в таблицу с именем GreenTaxiData.
5. Запуск записной книжки
Выполните оставшиеся две ячейки последовательно, чтобы запросить данные из таблицы. Результаты показывают 20 самых высоких и самых низких тарифов на такси и расстояний, зарегистрированных по году.
6. Очистка ресурсов
Очистите созданные элементы, перейдя в рабочую область, в которой они были созданы.
В рабочей области наведите указатель мыши на записную книжку, которую нужно удалить, и выберите меню Дополнительно [...] >Удалить.
Выберите команду Удалить. Вы не сможете восстановить записную книжку после ее удаления.