Tutorial: Criar um Jupyter Notebook no Azure Cosmos DB for NoSQL para analisar e visualizar dados (versão prévia)

APLICA-SE A: NoSQL

Aviso

O recurso Jupyter Notebooks do Azure Cosmos DB será desativado em 30 de março de 2024. Não será possível usar notebooks Jupyter internos na conta do Azure Cosmos DB. Recomendamos usar o suporte do Visual Studio Code para notebooks Jupyter ou seu cliente preferido de notebooks.

Este tutorial mostra como usar o recurso Jupyter Notebooks do Azure Cosmos DB para importar dados de varejo de exemplo para uma conta do Azure Cosmos DB for NoSQL. Você verá como usar comandos magic do Azure Cosmos DB para executar consultas, analisar os dados e visualizar os resultados.

Pré-requisitos

Criar um novo notebook

Nesta seção, você criará o banco de dados Azure Cosmos e o contêiner e importará os dados de varejo para o contêiner.

  1. Vá até sua conta do Azure Cosmos DB e abra o Data Explorer.

  2. Selecione Novo Notebook.

    Screenshot of the Data Explorer with the 'New Notebook' option highlighted.

  3. Na caixa de diálogo de confirmação que é exibida, selecione Criar.

    Observação

    Um espaço de trabalho temporário será criado para que você trabalhe com Jupyter Notebooks. Quando a sessão expirar, os notebooks no espaço de trabalho serão removidos.

  4. Selecione o kernel que deseja usar para o notebook.

Dica

Após o notebook ser criado, você poderá renomeá-lo para algo como VisualizeRetailData.ipynb.

Criar um banco de dados e um contêiner usando o SDK

  1. Comece na célula de código padrão.

  2. Importe os pacotes necessários para este tutorial.

    import azure.cosmos
    from azure.cosmos.partition_key import PartitionKey
    
  3. Crie um banco de dados chamado RetailIngest usando o SDK interno.

    database = cosmos_client.create_database_if_not_exists('RetailIngest')
    
  4. Crie um contêiner chamado WebsiteMetrics com uma chave de partição /CartID.

    container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
    
  5. Selecione Executar para criar o banco de dados e o recurso de contêiner.

    Screenshot of the 'Run' option in the menu.

Importar dados usando comandos magic

  1. Adicione uma nova célula de código.

  2. Dentro da célula de código, adicione o seguinte comando magic para carregar no contêiner existente os dados JSON dessa URL: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json

    %%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
    
  3. Selecione Executar Célula Ativa para executar apenas o comando nesta célula específica.

    Screenshot of the 'Run Active Cell' option in the menu.

    Observação

    O comando de importação deve levar de 5 a 10 segundos para ser concluído.

  4. Observe a saída do comando de execução. Verifique se 2.654 documentos foram importados.

    Documents successfully uploaded to WebsiteMetrics
    Total number of documents imported:
      Success: 2654
      Failure: 0
    Total time taken : 00:00:04 hours
    Total RUs consumed : 27309.660000001593
    

Visualize seus dados

  1. Crie outra célula de código.

  2. Na célula de código, use uma consulta SQL para popular um DataFrame do Pandas.

    %%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos
    SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
    
  3. Selecione Executar Célula Ativa para executar apenas o comando nesta célula específica.

  4. Crie outra célula de código.

  5. Na célula de código, gere os 10 itens principais do dataframe.

    df_cosmos.head(10)
    
  6. Selecione Executar Célula Ativa para executar apenas o comando nesta célula específica.

  7. Observe a saída da execução do comando.

    Ação ItemRevenue País Item
    0 Comprado 19.99 Macedônia Camisa de botões
    1 Exibido 12,00 Papua Nova Guiné Colar
    2 Exibido 25,00 Eslováquia (República Eslovaca) Cardigã
    3 Comprado 14.00 Senegal Sandálias de dedo
    4 Exibido 50,00 Panamá Shorts jeans
    5 Exibido 14.00 Senegal Sandálias de dedo
    6 Adicionado 14.00 Senegal Sandálias de dedo
    7 Adicionado 50,00 Panamá Shorts jeans
    8 Comprado 33,00 Território Palestino Blusa vermelha
    9 Exibido 30,00 Malta Suéter verde
  8. Crie outra célula de código.

  9. Na célula de código, importe o pacote pandas para personalizar a saída do dataframe.

    import pandas as pd
    pd.options.display.html.table_schema = True
    pd.options.display.max_rows = None
    
    df_cosmos.groupby("Item").size()
    
  10. Selecione Executar Célula Ativa para executar apenas o comando nesta célula específica.

  11. Na saída, selecione a opção Gráfico de Linhas para exibir uma visualização diferente dos dados.

    Screenshot of the Pandas dataframe visualization for the data as a line chart.

Persistir o notebook

  1. Na seção Notebooks, abra o menu de contexto do notebook que você criou para este tutorial e selecione Baixar.

    Screenshot of the notebook context menu with the 'Download' option.

    Dica

    Para salvar o trabalho permanentemente, salve os notebooks em um repositório GitHub ou baixe-os no computador local antes do término da sessão.

Próximas etapas