Tutorial: Creación de un cuaderno de Jupyter Notebook en Azure Cosmos DB for NoSQL para analizar y visualizar datos (versión preliminar)
SE APLICA A: NoSQL
Advertencia
La característica Jupyter Notebooks de Azure Cosmos DB se retirará el 30 de marzo de 2024. No podrá usar cuadernos de Jupyter Notebook integrados desde la cuenta de Azure Cosmos DB. Se recomienda usar compatibilidad de Visual Studio Code con cuadernos de Jupyter Notebook o el cliente de cuadernos preferido.
En este tutorial se explica cómo usar la característica cuadernos de Jupyter Notebook de Azure Cosmos DB para importar datos comerciales de ejemplo a una cuenta de Azure Cosmos DB for NoSQL. Verá cómo usar los comandos magic de Azure Cosmos DB para ejecutar consultas, analizar los datos y visualizar los resultados.
Prerrequisitos
- Una cuenta existente de Azure Cosmos DB for NoSQL.
- Si tiene una suscripción de Azure, cree una nueva cuenta.
- ¿No tiene una suscripción de Azure? Puede probar Azure Cosmos DB de forma gratuita, sin necesidad de usar su tarjeta de crédito.
Creación un nuevo cuaderno
En esta sección creará la base de datos y el contenedor de Azure Cosmos e importará los datos comerciales en el contenedor.
Vaya a la cuenta de Azure Cosmos DB y abra el Explorador de datos.
Seleccione Nuevo cuaderno.
En el cuadro de diálogo de confirmación que aparece, seleccione Crear.
Nota:
Se creará un área de trabajo temporal para permitirle trabajar con Jupyter Notebooks. Cuando expire la sesión, se quitarán los cuadernos del área de trabajo.
Seleccione el kernel que desea usar para el cuaderno.
Sugerencia
Después de crear un nuevo cuaderno, puede cambiar su nombre a algo como VisualizeRetailData.ipynb.
Creación de una base de datos y un contenedor mediante el SDK
Comience en la celda de código predeterminada.
Importe los paquetes que necesite para este tutorial.
import azure.cosmos from azure.cosmos.partition_key import PartitionKey
Cree una base de datos denominada RetailIngest mediante el SDK integrado.
database = cosmos_client.create_database_if_not_exists('RetailIngest')
Cree un contenedor denominado WebsiteMetrics con una clave de partición de
/CartID
.container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
Seleccione Ejecutar para crear la base de datos y el recurso de contenedor.
Importación de datos mediante comandos magic
Añada una celda de código nueva.
En la celda de código, agregue el siguiente comando magic para cargar, en el contenedor existente, los datos JSON de esta dirección URL: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
%%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
Seleccione Ejecutar celda activa para ejecutar solo el comando en esta celda específica.
Nota:
El comando Import debe tardar entre 5 y 10 segundos en completarse.
Observe la salida del comando de ejecución. Asegúrese de que se importaron 2654 documentos.
Documents successfully uploaded to WebsiteMetrics Total number of documents imported: Success: 2654 Failure: 0 Total time taken : 00:00:04 hours Total RUs consumed : 27309.660000001593
Visualización de los datos
Cree otra nueva celda de código.
En la celda de código, use una consulta SQL para rellenar un DataFrame de Pandas.
%%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
Seleccione Ejecutar celda activa para ejecutar solo el comando en esta celda específica.
Cree otra nueva celda de código.
En la celda de código, genere los 10 elementos principales de la trama de datos.
df_cosmos.head(10)
Seleccione Ejecutar celda activa para ejecutar solo el comando en esta celda específica.
Observe la salida de ejecución del comando.
Acción ItemRevenue Country (País) Elemento 0 Compradas 19,99 Macedonia del Norte Camisa con botones 1 Visto 12.00 Papúa Nueva Guinea Collar 2 Visto 25.00 Eslovaquia (República Eslovaca) Chaqueta de punto 3 Compradas 14.00 Senegal Chanclas 4 Visto 50,00 Panamá Pantalones cortos vaqueros 5 Visto 14.00 Senegal Chanclas 6 Se agregó 14.00 Senegal Chanclas 7 Se agregó 50,00 Panamá Pantalones cortos vaqueros 8 Compradas 33.00 Territorio de Palestina Top rojo 9 Visto 30.00 Malta Suéter verde Cree otra nueva celda de código.
En la celda de código, importe el paquete pandas para personalizar la salida de la trama de datos.
import pandas as pd pd.options.display.html.table_schema = True pd.options.display.max_rows = None df_cosmos.groupby("Item").size()
Seleccione Ejecutar celda activa para ejecutar solo el comando en esta celda específica.
En la salida, seleccione la opción Gráfico de líneas para ver una visualización diferente de los datos.
Conservar el cuaderno
En la sección Cuadernos, abra el menú contextual del cuaderno que creó para este tutorial y seleccione Descargar.
Sugerencia
Para guardar el trabajo de forma permanente, guarde los cuadernos en un repositorio de GitHub o descargue los cuadernos en el equipo local antes de que finalice la sesión.