Tutorial: Criar um Jupyter Notebook no Azure Cosmos DB para NoSQL para analisar e visualizar dados (visualização)

APLICA-SE A: NoSQL

Aviso

O recurso Jupyter Notebooks do Azure Cosmos DB será desativado em 30 de março de 2024; você não poderá usar blocos de anotações Jupyter internos da conta do Azure Cosmos DB. Recomendamos usar o suporte do Visual Studio Code para blocos de anotações Jupyter ou seu cliente de blocos de anotações preferido.

Este tutorial explica como usar o recurso Jupyter Notebooks do Azure Cosmos DB para importar dados de varejo de exemplo para uma conta do Azure Cosmos DB para NoSQL. Você verá como usar os comandos mágicos do Azure Cosmos DB para executar consultas, analisar os dados e visualizar os resultados.

Pré-requisitos

Criar um novo Notebook

Nesta seção, você criará o banco de dados do Azure Cosmos, o contêiner e importará os dados de varejo para o contêiner.

  1. Navegue até sua conta do Azure Cosmos DB e abra o Data Explorer.

  2. Selecione Novo Bloco de Notas.

    Screenshot of the Data Explorer with the 'New Notebook' option highlighted.

  3. Na caixa de diálogo de confirmação exibida, selecione Criar.

    Nota

    Um espaço de trabalho temporário será criado para permitir que você trabalhe com o Jupyter Notebooks. Quando a sessão expirar, todos os blocos de anotações no espaço de trabalho serão removidos.

  4. Selecione o kernel que deseja usar para o notebook.

Gorjeta

Agora que o novo bloco de anotações foi criado, você pode renomeá-lo para algo como VisualizeRetailData.ipynb.

Criar um banco de dados e um contêiner usando o SDK

  1. Comece na célula de código padrão.

  2. Importe todos os pacotes necessários para este tutorial.

    import azure.cosmos
    from azure.cosmos.partition_key import PartitionKey
    
  3. Crie um banco de dados chamado RetailIngest usando o SDK interno.

    database = cosmos_client.create_database_if_not_exists('RetailIngest')
    
  4. Crie um contêiner chamado WebsiteMetrics com uma chave de partição de /CartID.

    container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
    
  5. Selecione Executar para criar o recurso de banco de dados e contêiner.

    Screenshot of the 'Run' option in the menu.

Importar dados usando comandos mágicos

  1. Adicione uma nova célula de código.

  2. Dentro da célula de código, adicione o seguinte comando mágico para carregar, para o seu contêiner existente, os dados JSON desta url: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json

    %%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
    
  3. Selecione Executar célula ativa para executar apenas o comando nesta célula específica.

    Screenshot of the 'Run Active Cell' option in the menu.

    Nota

    O comando import deve levar de 5 a 10 segundos para ser concluído.

  4. Observe a saída do comando run. Garantir que 2.654 documentos foram importados.

    Documents successfully uploaded to WebsiteMetrics
    Total number of documents imported:
      Success: 2654
      Failure: 0
    Total time taken : 00:00:04 hours
    Total RUs consumed : 27309.660000001593
    

Visualizar os seus dados

  1. Crie outra nova célula de código.

  2. Na célula de código, use uma consulta SQL para preencher um Pandas DataFrame.

    %%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos
    SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
    
  3. Selecione Executar célula ativa para executar apenas o comando nesta célula específica.

  4. Crie outra nova célula de código.

  5. Na célula de código, produza os 10 principais itens do dataframe.

    df_cosmos.head(10)
    
  6. Selecione Executar célula ativa para executar apenas o comando nesta célula específica.

  7. Observe a saída da execução do comando.

    Ação ItemRevenue País Item
    0 Comprado 19.99 Macedónia Camisa de botão
    1 Visualizados 12.00 Papua-Nova Guiné Colar
    2 Visualizados 25.00 Eslováquia (República Eslovaca) Camisola Cardigan
    3 Comprado 14.00 Senegal Chinelos Sapatos
    4 Visualizados 50.00 Panamá Calções Denim
    5 Visualizados 14.00 Senegal Chinelos Sapatos
    6 Adicionada 14.00 Senegal Chinelos Sapatos
    7 Adicionada 50.00 Panamá Calções Denim
    8 Comprado 33.00 Autoridade Palestina Topo vermelho
    9 Visualizados 30,00 Malta Camisola Verde
  8. Crie outra nova célula de código.

  9. Na célula de código, importe o pacote pandas para personalizar a saída do dataframe.

    import pandas as pd
    pd.options.display.html.table_schema = True
    pd.options.display.max_rows = None
    
    df_cosmos.groupby("Item").size()
    
  10. Selecione Executar célula ativa para executar apenas o comando nesta célula específica.

  11. Na saída, selecione a opção Gráfico de linhas para exibir uma visualização diferente dos dados.

    Screenshot of the Pandas dataframe visualization for the data as a line chart.

Mantenha o seu bloco de notas

  1. Na seção Blocos de Anotações, abra o menu de contexto do bloco de anotações criado para este tutorial e selecione Baixar.

    Screenshot of the notebook context menu with the 'Download' option.

    Gorjeta

    Para salvar seu trabalho permanentemente, salve seus blocos de anotações em um repositório GitHub ou baixe os blocos de anotações em sua máquina local antes que a sessão termine.

Próximos passos