Oktatóanyag: Jupyter notebook létrehozása az Azure Cosmos DB for NoSQL-ben adatok elemzéséhez és vizualizációihoz (előzetes verzió)

A KÖVETKEZŐRE VONATKOZIK: NoSQL

Figyelmeztetés:

Az Azure Cosmos DB Jupyter Notebooks szolgáltatása 2024. március 30-án megszűnik; az Azure Cosmos DB-fiókból nem használhat beépített Jupyter-jegyzetfüzeteket. Javasoljuk, hogy használja a Visual Studio Code támogatását a Jupyter-notebookokhoz vagy az előnyben részesített jegyzetfüzet-ügyfélhez.

Ez az oktatóanyag bemutatja, hogyan használhatja az Azure Cosmos DB Jupyter Notebooks funkcióját kiskereskedelmi mintaadatok importálásához egy Azure Cosmos DB for NoSQL-fiókba. Megtudhatja, hogyan használhatja az Azure Cosmos DB mágikus parancsait lekérdezések futtatására, az adatok elemzésére és az eredmények megjelenítésére.

Előfeltételek

Új jegyzetfüzet létrehozása

Ebben a szakaszban létrehozza az Azure Cosmos-adatbázist, a tárolót, és importálja a kiskereskedelmi adatokat a tárolóba.

  1. Lépjen az Azure Cosmos DB-fiókjához, és nyissa meg az Adatkezelőt .

  2. Válassza az Új jegyzetfüzet lehetőséget.

    Screenshot of the Data Explorer with the 'New Notebook' option highlighted.

  3. A megjelenő megerősítési párbeszédpanelen válassza a Létrehozás lehetőséget.

    Megjegyzés:

    Létrejön egy ideiglenes munkaterület, amely lehetővé teszi a Jupyter Notebookok használatát. A munkamenet lejárata után a munkaterületen lévő jegyzetfüzetek törlődnek.

  4. Válassza ki a jegyzetfüzethez használni kívánt kernelt.

Tipp.

Most, hogy létrejött az új jegyzetfüzet, átnevezheti a VisualizeRetailData.ipynb fájlhoz hasonlóra.

Adatbázis és tároló létrehozása az SDK használatával

  1. Kezdje az alapértelmezett kódcellával.

  2. Importálja az oktatóanyaghoz szükséges csomagokat.

    import azure.cosmos
    from azure.cosmos.partition_key import PartitionKey
    
  3. Hozzon létre egy RetailIngest nevű adatbázist a beépített SDK használatával.

    database = cosmos_client.create_database_if_not_exists('RetailIngest')
    
  4. Hozzon létre egy WebsiteMetrics nevű tárolót a következő partíciókulccsal/CartID: .

    container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
    
  5. Válassza a Futtatás lehetőséget az adatbázis és a tárolóerőforrás létrehozásához.

    Screenshot of the 'Run' option in the menu.

Adatok importálása varázsparancsokkal

  1. Adjon hozzá egy új kódcellát.

  2. A kódcellában adja hozzá a következő magic parancsot a meglévő tárolóba való feltöltéshez a JSON-adatok ezen URL-címről: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json

    %%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
    
  3. Válassza az Aktív cella futtatása lehetőséget, ha csak ebben az adott cellában szeretné futtatni a parancsot.

    Screenshot of the 'Run Active Cell' option in the menu.

    Megjegyzés:

    Az importálási parancs végrehajtása 5–10 másodpercet vesz igénybe.

  4. Figyelje meg a futtatási parancs kimenetét. Győződjön meg arról, hogy 2654 dokumentum lett importálva.

    Documents successfully uploaded to WebsiteMetrics
    Total number of documents imported:
      Success: 2654
      Failure: 0
    Total time taken : 00:00:04 hours
    Total RUs consumed : 27309.660000001593
    

Adatok vizualizációja

  1. Hozzon létre egy másik új kódcellát.

  2. A kódcellában sql-lekérdezés használatával töltse fel a Pandas DataFrame-et.

    %%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos
    SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
    
  3. Válassza az Aktív cella futtatása lehetőséget, ha csak ebben az adott cellában szeretné futtatni a parancsot.

  4. Hozzon létre egy másik új kódcellát.

  5. A kódcellában adja ki a 10 legfontosabb elemet az adatkeretből.

    df_cosmos.head(10)
    
  6. Válassza az Aktív cella futtatása lehetőséget, ha csak ebben az adott cellában szeretné futtatni a parancsot.

  7. Figyelje meg a parancs futtatásának kimenetét.

    Action ItemRevenue Ország Cikk
    0 Vásárolt 19.99 Macedónia Gombos póló
    1 Megjelenítve 12.00 Pápua Új-Guinea Nyaklánc
    2 Megjelenítve 25.00 Szlovákia (Szlovák Köztársaság) Kardigán pulóver
    3 Vásárolt 14.00 Szenegál Papucs cipő
    4 Megjelenítve 50.00 Panama Denim Shorts
    5 Megjelenítve 14.00 Szenegál Papucs cipő
    6 Hozzáadva 14.00 Szenegál Papucs cipő
    7 Hozzáadva 50.00 Panama Denim Shorts
    8 Vásárolt 33,00 Palesztin területek Piros felül
    9 Megjelenítve 30.00 Málta Zöld pulóver
  8. Hozzon létre egy másik új kódcellát.

  9. A kódcellában importálja a pandas-csomagot az adatkeret kimenetének testreszabásához.

    import pandas as pd
    pd.options.display.html.table_schema = True
    pd.options.display.max_rows = None
    
    df_cosmos.groupby("Item").size()
    
  10. Válassza az Aktív cella futtatása lehetőséget, ha csak ebben az adott cellában szeretné futtatni a parancsot.

  11. A kimenetben válassza a Vonaldiagram lehetőséget az adatok eltérő vizualizációjának megtekintéséhez.

    Screenshot of the Pandas dataframe visualization for the data as a line chart.

A jegyzetfüzet megőrzése

  1. A Jegyzetfüzetek szakaszban nyissa meg az oktatóanyaghoz létrehozott jegyzetfüzet helyi menüjét, és válassza a Letöltés lehetőséget.

    Screenshot of the notebook context menu with the 'Download' option.

    Tipp.

    A munka végleges mentéséhez mentse a jegyzetfüzeteket egy GitHub-adattárba, vagy töltse le a jegyzetfüzeteket a helyi gépére a munkamenet vége előtt.

Következő lépések