Bagikan melalui


Tutorial: Membuat Jupyter Notebook untuk menganalisis data di akun Azure Cosmos DB for NoSQL Anda menggunakan notebook Jupyter Visual Studio Code

BERLAKU UNTUK: NoSQL

Tutorial ini menjelaskan cara menggunakan notebook Visual Studio Code Jupyter untuk berinteraksi dengan akun Azure Cosmos DB for NoSQL Anda. Anda akan melihat cara menyambungkan ke akun, mengimpor data, dan menjalankan kueri.

Prasyarat

Buat notebook baru

Di bagian ini, Anda akan membuat database Azure Cosmos, kontainer, dan mengimpor data ritel ke kontainer.

  1. Buka Visual Studio Code.
  2. Jalankan perintah Buat: Notebook Jupyter Baru dari Palet Perintah (Ctrl+Shift+P) atau buat file .ipynb baru di ruang kerja Anda.

Tip

Sekarang setelah buku catatan baru dibuat, Anda dapat menyimpannya dan menamainya seperti AnalyzeRetailData.ipynb.

Membuat database dan kontainer menggunakan SDK

  1. Mulai di sel kode default.

  2. Instal paket Azure.cosmos. Jalankan sel ini sebelum melanjutkan.

    %pip install azure.cosmos
    
  3. Impor paket apa pun yang Anda butuhkan untuk tutorial ini.

    import azure.cosmos
    from azure.cosmos.partition_key import PartitionKey
    from azure.cosmos import CosmosClient
    
  4. Buat instans baru CosmosClient.

    endpoint = "<FILL ME>"
    key = "<FILL ME>"
    cosmos_client = CosmosClient(url=endpoint, credential=key)
    
  5. Buat database bernama RetailIngest menggunakan SDK bawaan.

    database = cosmos_client.create_database_if_not_exists('RetailIngest')
    
  6. Buat kontainer bernama WebsiteMetrics dengan kunci partisi ./CartID

    container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
    
  7. Pilih Jalankan untuk membuat database dan sumber daya kontainer.

    Cuplikan layar buku catatan Jalankan sel di Jupyter Visual Studio Code.

Mengimpor data ke dalam kontainer

  1. Menambahkan sel kode baru

  2. Dalam sel kode, tambahkan kode berikut untuk mengunggah data dari url ini: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json.

        import urllib.request
        import json
    
        with urllib.request.urlopen("https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json") as url:
            docs = json.loads(url.read().decode())
    
        for doc in docs:
            container.upsert_item(doc)
    
  3. Jalankan sel. Ini akan memakan waktu 45 detik hingga 1 menit untuk dijalankan.

Analisis data Anda

  1. Buat sel kode baru lainnya.

  2. Di sel kode, gunakan kueri SQL untuk mengisi DataFrame Pandas. Jalankan sel ini.

    import pandas as pd
    from pandas import DataFrame
    
    QUERY = "SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c"
    results = container.query_items(
        query=QUERY, enable_cross_partition_query=True
    )
    
    df_cosmos = pd.DataFrame(results)
    
  3. Buat sel kode baru lainnya.

  4. Di sel kode, keluarkan 10 item teratas dari dataframe. Jalankan sel ini.

    df_cosmos.head(10)
    
  5. Amati output menjalankan perintah.

    Perbuatan ItemRevenue Negara Item
    0 Dibeli 19.99 Makedonia Kemeja Tombol-Up
    1 Melihat 12.00 Papua Nugini Kalung
    2 Melihat 25.00 Slowakia (Republik Slowakia) Cardigan Sweater
    3 Dibeli 14.00 Senegal Sepatu Sandal
    4 Melihat 50.00 Panama Celana Pendek Denim
    5 Melihat 14.00 Senegal Sepatu Sandal
    6 Ditambahkan 14.00 Senegal Sepatu Sandal
    7 Ditambahkan 50.00 Panama Celana Pendek Denim
    8 Dibeli 33,00 Wilayah Palestina Atasan merah
    9 Melihat 30.00 Malta Sweater Hijau
  6. Buat sel kode baru lainnya.

  7. Di sel kode, impor paket panda untuk menyesuaikan output dataframe. Jalankan sel ini.

    import pandas as pd    
    df_cosmos.groupby("Item").size().reset_index()
    
  8. Amati output menjalankan perintah.

    Item Uji
    0 Sepatu Sandal 66
    1 Kalung 55
    2 Sepatu Atletik 111
    ... ... ...
    45 Jaket Pemecah Angin 56

Langkah berikutnya