Delen via


Zelfstudie: Een Jupyter Notebook maken in Azure Cosmos DB for NoSQL om gegevens te analyseren en visualiseren (preview)

VAN TOEPASSING OP: NoSQL

Waarschuwing

De Jupyter Notebooks-functie van Azure Cosmos DB wordt op 30 maart 2024 buiten gebruik gesteld; U kunt geen ingebouwde Jupyter-notebooks gebruiken vanuit het Azure Cosmos DB-account. We raden u aan de ondersteuning van Visual Studio Code te gebruiken voor Jupyter-notebooks of de client van uw favoriete notebooks.

In deze zelfstudie wordt uitgelegd hoe u de Jupyter Notebooks-functie van Azure Cosmos DB gebruikt om voorbeelddetailgegevens te importeren in een Azure Cosmos DB for NoSQL-account. U ziet hoe u de magic-opdrachten van Azure Cosmos DB kunt gebruiken om query's uit te voeren, de gegevens te analyseren en de resultaten te visualiseren.

Vereisten

Een nieuwe notebook maken

In deze sectie maakt u de Azure Cosmos-database, -container en importeert u de retailgegevens in de container.

  1. Navigeer naar uw Azure Cosmos DB-account en open Data Explorer.

  2. Selecteer Nieuw notitieblok.

    Schermopname van Data Explorer met de optie Nieuw notitieblok gemarkeerd.

  3. Selecteer Maken in het bevestigingsdialoogvenster dat wordt weergegeven.

    Notitie

    Er wordt een tijdelijke werkruimte gemaakt waarmee u met Jupyter Notebooks kunt werken. Wanneer de sessie verloopt, worden notitieblokken in de werkruimte verwijderd.

  4. Selecteer de kernel die u wilt gebruiken voor het notebook.

Tip

Nu het nieuwe notitieblok is gemaakt, kunt u de naam ervan wijzigen in bijvoorbeeld VisualizeRetailData.ipynb.

Een database en container maken met behulp van de SDK

  1. Begin in de standaardcodecel.

  2. Importeer alle pakketten die u nodig hebt voor deze zelfstudie.

    import azure.cosmos
    from azure.cosmos.partition_key import PartitionKey
    
  3. Maak een database met de naam RetailIngest met behulp van de ingebouwde SDK.

    database = cosmos_client.create_database_if_not_exists('RetailIngest')
    
  4. Maak een container met de naam WebsiteMetrics met een partitiesleutel van /CartID.

    container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
    
  5. Selecteer Uitvoeren om de database en containerresource te maken.

    Schermopname van de optie Uitvoeren in het menu.

Gegevens importeren met magic-opdrachten

  1. Voeg een nieuwe codecel toe.

  2. Voeg in de codecel de volgende magic-opdracht toe om te uploaden naar uw bestaande container, de JSON-gegevens uit deze URL: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json

    %%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
    
  3. Selecteer Actieve cel uitvoeren om alleen de opdracht in deze specifieke cel uit te voeren.

    Schermopname van de optie Actieve cel uitvoeren in het menu.

    Notitie

    Het kan 5-10 seconden duren voordat de importopdracht is voltooid.

  4. Bekijk de uitvoer van de opdracht Uitvoeren. Zorg ervoor dat 2654 documenten zijn geïmporteerd.

    Documents successfully uploaded to WebsiteMetrics
    Total number of documents imported:
      Success: 2654
      Failure: 0
    Total time taken : 00:00:04 hours
    Total RUs consumed : 27309.660000001593
    

Uw gegevens visualiseren

  1. Maak nog een nieuwe codecel.

  2. Gebruik in de codecel een SQL-query om een Pandas DataFrame te vullen.

    %%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos
    SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
    
  3. Selecteer Actieve cel uitvoeren om alleen de opdracht in deze specifieke cel uit te voeren.

  4. Maak nog een nieuwe codecel.

  5. Voer in de codecel de tien belangrijkste items uit het dataframe uit.

    df_cosmos.head(10)
    
  6. Selecteer Actieve cel uitvoeren om alleen de opdracht in deze specifieke cel uit te voeren.

  7. Bekijk de uitvoer van het uitvoeren van de opdracht.

    Actie ItemRevenue Land/regio Artikel
    0 Ingekocht 19.99 Macedonië (FYROM) Button-Up Shirt
    1 Weergegeven 12,00 Papoea-Nieuw-Guinea Halssnoer
    2 Weergegeven 25.00 Slowakije (Slowaakse Republiek) Vest trui
    3 Ingekocht 14,00 Senegal Flop schoenen spiegelen
    4 Weergegeven 50.00 Panama Denim Shorts
    5 Weergegeven 14,00 Senegal Flop schoenen spiegelen
    6 Toegevoegd 14,00 Senegal Flop schoenen spiegelen
    7 Toegevoegd 50.00 Panama Denim Shorts
    8 Ingekocht 33,00 Palestijnse gebieden Rode bovenkant
    9 Weergegeven 30,00 Malta Groene trui
  8. Maak nog een nieuwe codecel.

  9. Importeer in de codecel het pandas-pakket om de uitvoer van het dataframe aan te passen.

    import pandas as pd
    pd.options.display.html.table_schema = True
    pd.options.display.max_rows = None
    
    df_cosmos.groupby("Item").size()
    
  10. Selecteer Actieve cel uitvoeren om alleen de opdracht in deze specifieke cel uit te voeren.

  11. Selecteer in de uitvoer de optie Lijndiagram om een andere visualisatie van de gegevens weer te geven.

    Schermopname van de Pandas-gegevensframevisualisatie voor de gegevens als een lijndiagram.

Uw notitieblok behouden

  1. Open in de sectie Notitieblokken het contextmenu voor het notitieblok dat u voor deze zelfstudie hebt gemaakt en selecteer Downloaden.

    Schermopname van het contextmenu van het notitieblok met de optie Downloaden.

    Tip

    Als u uw werk permanent wilt opslaan, slaat u uw notitieblokken op in een GitHub-opslagplaats of downloadt u de notebooks naar uw lokale computer voordat de sessie wordt beëindigd.

Volgende stappen