Руководство. Создание Jupyter Notebook в Azure Cosmos DB для NoSQL для анализа и визуализации данных (предварительная версия)

ОБЛАСТЬ ПРИМЕНЕНИЯ: NoSQL

Важно!

Функция Jupyter Notebook в Azure Cosmos DB в настоящее время находится в состоянии предварительной версии и постепенно развертывается для всех клиентов с течением времени.

В этом руководстве описывается, как использовать функцию Записных книжек Jupyter в Azure Cosmos DB для импорта примера данных розничной торговли в учетную запись Azure Cosmos DB для NoSQL. Вы узнаете, как использовать магические команды Azure Cosmos DB для выполнения запросов, анализа данных и визуализации результатов.

Предварительные требования

Создание записной книжки

В этом разделе вы создадите базу данных, контейнер Azure Cosmos и импортируете данные розничной торговли в контейнер.

  1. Перейдите к учетной записи Azure Cosmos DB и откройте Data Explorer.

  2. Щелкните Создать записную книжку.

    Снимок экрана: Data Explorer с выделенным параметром

  3. В появившемся диалоговом окне подтверждения выберите Создать.

    Примечание

    Будет создана временная рабочая область, позволяющая работать с записными книжками Jupyter Notebook. По истечении срока действия сеанса все записные книжки в рабочей области будут удалены.

  4. Выберите ядро, которое вы хотите использовать для записной книжки.

Совет

Теперь, когда новая записная книжка создана, можно переименовать ее на visualizeRetailData.ipynb.

Создание базы данных и контейнера с помощью пакета SDK

  1. Начните с ячейки кода по умолчанию.

  2. Импортируйте все пакеты, необходимые для работы с этим руководством.

    import azure.cosmos
    from azure.cosmos.partition_key import PartitionKey
    
  3. Создайте базу данных с именем RetailIngest с помощью встроенного пакета SDK.

    database = cosmos_client.create_database_if_not_exists('RetailIngest')
    
  4. Создайте контейнер с именем WebsiteMetrics с ключом секции /CartID.

    container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
    
  5. Выберите Выполнить , чтобы создать базу данных и ресурс контейнера.

    Снимок экрана: параметр

Импорт данных с помощью магических команд

  1. Добавьте новую ячейку кода.

  2. В ячейке кода добавьте следующую магическую команду, чтобы отправить в существующий контейнер данные JSON из этого URL-адреса: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json

    %%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
    
  3. Выберите Выполнить активную ячейку , чтобы выполнить команду только в этой ячейке.

    Снимок экрана: параметр

    Примечание

    Выполнение команды импорта должно занять 5–10 секунд.

  4. Просмотрите выходные данные команды run. Убедитесь, что импортировано 2654 документа.

    Documents successfully uploaded to WebsiteMetrics
    Total number of documents imported:
      Success: 2654
      Failure: 0
    Total time taken : 00:00:04 hours
    Total RUs consumed : 27309.660000001593
    

Визуализация данных

  1. Создайте новую ячейку кода.

  2. В ячейке кода используйте SQL-запрос для заполнения кадра данных Pandas.

    %%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos
    SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
    
  3. Выберите Выполнить активную ячейку , чтобы выполнить команду только в этой ячейке.

  4. Создайте новую ячейку кода.

  5. В ячейке кода выведите первые 10 элементов из кадра данных.

    df_cosmos.head(10)
    
  6. Выберите Выполнить активную ячейку , чтобы выполнить команду только в этой ячейке.

  7. Просмотрите выходные данные выполнения команды.

    Действие ItemRevenue Страна или регион Элемент
    0 Приобретено 19.99 Бывшая югославская Республика Македония Button-Up рубашка
    1 Просмотрели 12,00 Папуа — Новая Гвинея Ожерелье
    2 Просмотрели 25.00 Словакия (Словацкая Республика) Кардиган свитер
    3 Приобретено 14.00 Сенегал Флип-флоп обувь
    4 Просмотрели 50,00 Панама Джинсовые шорты
    5 Просмотрели 14.00 Сенегал Флип-флоп обувь
    6 Добавлено 14.00 Сенегал Флип-флоп обувь
    7 Добавлено 50,00 Панама Джинсовые шорты
    8 Приобретено 33 Палестинские территории Красный верхний
    9 Просмотрели 30,00 Мальта Зеленый свитер
  8. Создайте новую ячейку кода.

  9. В ячейке кода импортируйте пакет Pandas , чтобы настроить выходные данные кадра данных.

    import pandas as pd
    pd.options.display.html.table_schema = True
    pd.options.display.max_rows = None
    
    df_cosmos.groupby("Item").size()
    
  10. Выберите Выполнить активную ячейку , чтобы выполнить команду только в этой ячейке.

  11. В выходных данных выберите параметр График , чтобы просмотреть другую визуализацию данных.

    Снимок экрана: визуализация кадра данных Pandas для данных в виде графика.

Сохранение записной книжки

  1. В разделе Записные книжки откройте контекстное меню записной книжки, созданной для этого руководства, и выберите Скачать.

    Снимок экрана: контекстное меню записной книжки с параметром

    Совет

    Чтобы сохранить работу навсегда, сохраните свои записные книжки в репозитории GitHub или скачайте записные книжки на локальный компьютер до завершения сеанса.

Дальнейшие действия