Руководство. Создание Jupyter Notebook в Azure Cosmos DB для NoSQL для анализа и визуализации данных (предварительная версия)
ОБЛАСТЬ ПРИМЕНЕНИЯ: NoSQL
Важно!
Функция Jupyter Notebook в Azure Cosmos DB в настоящее время находится в состоянии предварительной версии и постепенно развертывается для всех клиентов с течением времени.
В этом руководстве описывается, как использовать функцию Записных книжек Jupyter в Azure Cosmos DB для импорта примера данных розничной торговли в учетную запись Azure Cosmos DB для NoSQL. Вы узнаете, как использовать магические команды Azure Cosmos DB для выполнения запросов, анализа данных и визуализации результатов.
Предварительные требования
- Существующая учетная запись Azure Cosmos DB для NoSQL.
- Если у вас есть подписка Azure, создайте новую учетную запись.
- Нет подписки Azure? Вы можете попробовать Azure Cosmos DB бесплатно , не требуя кредитной карты.
Создание записной книжки
В этом разделе вы создадите базу данных, контейнер Azure Cosmos и импортируете данные розничной торговли в контейнер.
Перейдите к учетной записи Azure Cosmos DB и откройте Data Explorer.
Щелкните Создать записную книжку.
В появившемся диалоговом окне подтверждения выберите Создать.
Примечание
Будет создана временная рабочая область, позволяющая работать с записными книжками Jupyter Notebook. По истечении срока действия сеанса все записные книжки в рабочей области будут удалены.
Выберите ядро, которое вы хотите использовать для записной книжки.
Совет
Теперь, когда новая записная книжка создана, можно переименовать ее на visualizeRetailData.ipynb.
Создание базы данных и контейнера с помощью пакета SDK
Начните с ячейки кода по умолчанию.
Импортируйте все пакеты, необходимые для работы с этим руководством.
import azure.cosmos from azure.cosmos.partition_key import PartitionKey
Создайте базу данных с именем RetailIngest с помощью встроенного пакета SDK.
database = cosmos_client.create_database_if_not_exists('RetailIngest')
Создайте контейнер с именем WebsiteMetrics с ключом секции
/CartID
.container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
Выберите Выполнить , чтобы создать базу данных и ресурс контейнера.
Импорт данных с помощью магических команд
Добавьте новую ячейку кода.
В ячейке кода добавьте следующую магическую команду, чтобы отправить в существующий контейнер данные JSON из этого URL-адреса: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
%%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
Выберите Выполнить активную ячейку , чтобы выполнить команду только в этой ячейке.
Примечание
Выполнение команды импорта должно занять 5–10 секунд.
Просмотрите выходные данные команды run. Убедитесь, что импортировано 2654 документа.
Documents successfully uploaded to WebsiteMetrics Total number of documents imported: Success: 2654 Failure: 0 Total time taken : 00:00:04 hours Total RUs consumed : 27309.660000001593
Визуализация данных
Создайте новую ячейку кода.
В ячейке кода используйте SQL-запрос для заполнения кадра данных Pandas.
%%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
Выберите Выполнить активную ячейку , чтобы выполнить команду только в этой ячейке.
Создайте новую ячейку кода.
В ячейке кода выведите первые 10 элементов из кадра данных.
df_cosmos.head(10)
Выберите Выполнить активную ячейку , чтобы выполнить команду только в этой ячейке.
Просмотрите выходные данные выполнения команды.
Действие ItemRevenue Страна или регион Элемент 0 Приобретено 19.99 Бывшая югославская Республика Македония Button-Up рубашка 1 Просмотрели 12,00 Папуа — Новая Гвинея Ожерелье 2 Просмотрели 25.00 Словакия (Словацкая Республика) Кардиган свитер 3 Приобретено 14.00 Сенегал Флип-флоп обувь 4 Просмотрели 50,00 Панама Джинсовые шорты 5 Просмотрели 14.00 Сенегал Флип-флоп обувь 6 Добавлено 14.00 Сенегал Флип-флоп обувь 7 Добавлено 50,00 Панама Джинсовые шорты 8 Приобретено 33 Палестинские территории Красный верхний 9 Просмотрели 30,00 Мальта Зеленый свитер Создайте новую ячейку кода.
В ячейке кода импортируйте пакет Pandas , чтобы настроить выходные данные кадра данных.
import pandas as pd pd.options.display.html.table_schema = True pd.options.display.max_rows = None df_cosmos.groupby("Item").size()
Выберите Выполнить активную ячейку , чтобы выполнить команду только в этой ячейке.
В выходных данных выберите параметр График , чтобы просмотреть другую визуализацию данных.
Сохранение записной книжки
В разделе Записные книжки откройте контекстное меню записной книжки, созданной для этого руководства, и выберите Скачать.
Совет
Чтобы сохранить работу навсегда, сохраните свои записные книжки в репозитории GitHub или скачайте записные книжки на локальный компьютер до завершения сеанса.