Tutorial: Creación de un cuaderno de Jupyter Notebook en Azure Cosmos DB for NoSQL para analizar y visualizar datos (versión preliminar)

SE APLICA A: NoSQL

Advertencia

La característica Jupyter Notebooks de Azure Cosmos DB se retirará el 30 de marzo de 2024. No podrá usar cuadernos de Jupyter Notebook integrados desde la cuenta de Azure Cosmos DB. Se recomienda usar compatibilidad de Visual Studio Code con cuadernos de Jupyter Notebook o el cliente de cuadernos preferido.

En este tutorial se explica cómo usar la característica cuadernos de Jupyter Notebook de Azure Cosmos DB para importar datos comerciales de ejemplo a una cuenta de Azure Cosmos DB for NoSQL. Verá cómo usar los comandos magic de Azure Cosmos DB para ejecutar consultas, analizar los datos y visualizar los resultados.

Prerrequisitos

Creación un nuevo cuaderno

En esta sección creará la base de datos y el contenedor de Azure Cosmos e importará los datos comerciales en el contenedor.

  1. Vaya a la cuenta de Azure Cosmos DB y abra el Explorador de datos.

  2. Seleccione Nuevo cuaderno.

    Screenshot of the Data Explorer with the 'New Notebook' option highlighted.

  3. En el cuadro de diálogo de confirmación que aparece, seleccione Crear.

    Nota:

    Se creará un área de trabajo temporal para permitirle trabajar con Jupyter Notebooks. Cuando expire la sesión, se quitarán los cuadernos del área de trabajo.

  4. Seleccione el kernel que desea usar para el cuaderno.

Sugerencia

Después de crear un nuevo cuaderno, puede cambiar su nombre a algo como VisualizeRetailData.ipynb.

Creación de una base de datos y un contenedor mediante el SDK

  1. Comience en la celda de código predeterminada.

  2. Importe los paquetes que necesite para este tutorial.

    import azure.cosmos
    from azure.cosmos.partition_key import PartitionKey
    
  3. Cree una base de datos denominada RetailIngest mediante el SDK integrado.

    database = cosmos_client.create_database_if_not_exists('RetailIngest')
    
  4. Cree un contenedor denominado WebsiteMetrics con una clave de partición de /CartID.

    container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
    
  5. Seleccione Ejecutar para crear la base de datos y el recurso de contenedor.

    Screenshot of the 'Run' option in the menu.

Importación de datos mediante comandos magic

  1. Añada una celda de código nueva.

  2. En la celda de código, agregue el siguiente comando magic para cargar, en el contenedor existente, los datos JSON de esta dirección URL: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json

    %%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
    
  3. Seleccione Ejecutar celda activa para ejecutar solo el comando en esta celda específica.

    Screenshot of the 'Run Active Cell' option in the menu.

    Nota:

    El comando Import debe tardar entre 5 y 10 segundos en completarse.

  4. Observe la salida del comando de ejecución. Asegúrese de que se importaron 2654 documentos.

    Documents successfully uploaded to WebsiteMetrics
    Total number of documents imported:
      Success: 2654
      Failure: 0
    Total time taken : 00:00:04 hours
    Total RUs consumed : 27309.660000001593
    

Visualización de los datos

  1. Cree otra nueva celda de código.

  2. En la celda de código, use una consulta SQL para rellenar un DataFrame de Pandas.

    %%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos
    SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
    
  3. Seleccione Ejecutar celda activa para ejecutar solo el comando en esta celda específica.

  4. Cree otra nueva celda de código.

  5. En la celda de código, genere los 10 elementos principales de la trama de datos.

    df_cosmos.head(10)
    
  6. Seleccione Ejecutar celda activa para ejecutar solo el comando en esta celda específica.

  7. Observe la salida de ejecución del comando.

    Acción ItemRevenue Country (País) Elemento
    0 Compradas 19,99 Macedonia del Norte Camisa con botones
    1 Visto 12.00 Papúa Nueva Guinea Collar
    2 Visto 25.00 Eslovaquia (República Eslovaca) Chaqueta de punto
    3 Compradas 14.00 Senegal Chanclas
    4 Visto 50,00 Panamá Pantalones cortos vaqueros
    5 Visto 14.00 Senegal Chanclas
    6 Se agregó 14.00 Senegal Chanclas
    7 Se agregó 50,00 Panamá Pantalones cortos vaqueros
    8 Compradas 33.00 Territorio de Palestina Top rojo
    9 Visto 30.00 Malta Suéter verde
  8. Cree otra nueva celda de código.

  9. En la celda de código, importe el paquete pandas para personalizar la salida de la trama de datos.

    import pandas as pd
    pd.options.display.html.table_schema = True
    pd.options.display.max_rows = None
    
    df_cosmos.groupby("Item").size()
    
  10. Seleccione Ejecutar celda activa para ejecutar solo el comando en esta celda específica.

  11. En la salida, seleccione la opción Gráfico de líneas para ver una visualización diferente de los datos.

    Screenshot of the Pandas dataframe visualization for the data as a line chart.

Conservar el cuaderno

  1. En la sección Cuadernos, abra el menú contextual del cuaderno que creó para este tutorial y seleccione Descargar.

    Screenshot of the notebook context menu with the 'Download' option.

    Sugerencia

    Para guardar el trabajo de forma permanente, guarde los cuadernos en un repositorio de GitHub o descargue los cuadernos en el equipo local antes de que finalice la sesión.

Pasos siguientes