Tutorial: Membuat Jupyter Notebook di Azure Cosmos DB for NoSQL untuk menganalisis dan memvisualisasikan data (pratinjau)

BERLAKU UNTUK: NoSQL

Peringatan

Fitur Jupyter Notebooks dari Azure Cosmos DB akan dihentikan 30 Maret 2024; Anda tidak akan dapat menggunakan notebook Jupyter bawaan dari akun Azure Cosmos DB. Sebaiknya gunakan dukungan Visual Studio Code untuk notebook Jupyter atau klien notebook pilihan Anda.

Tutorial ini menjelaskan cara menggunakan fitur Jupyter Notebooks dari Azure Cosmos DB untuk mengimpor data ritel sampel ke akun Azure Cosmos DB for NoSQL. Anda akan melihat cara menggunakan perintah ajaib Azure Cosmos DB untuk menjalankan kueri, menganalisis data, dan memvisualisasikan hasilnya.

Prasyarat

  • Akun Azure Cosmos DB for NoSQL yang sudah ada.

Buat notebook baru

Di bagian ini, Anda akan membuat database Azure Cosmos, kontainer, dan mengimpor data ritel ke kontainer.

  1. Navigasi ke akun Azure Cosmos DB Anda dan buka Data Explorer.

  2. Pilih Notebook Baru.

    Screenshot of the Data Explorer with the 'New Notebook' option highlighted.

  3. Dalam dialog konfirmasi yang muncul, pilih Buat.

    Catatan

    Ruang kerja sementara akan dibuat untuk memungkinkan Anda bekerja dengan Jupyter Notebooks. Ketika sesi kedaluwarsa, buku catatan apa pun di ruang kerja akan dihapus.

  4. Pilih kernel yang ingin Anda gunakan untuk buku catatan.

Tip

Sekarang setelah buku catatan baru dibuat, Anda dapat mengganti namanya menjadi sesuatu seperti VisualizeRetailData.ipynb.

Membuat database dan kontainer menggunakan SDK

  1. Mulai di sel kode default.

  2. Impor paket apa pun yang Anda butuhkan untuk tutorial ini.

    import azure.cosmos
    from azure.cosmos.partition_key import PartitionKey
    
  3. Buat database bernama RetailIngest menggunakan SDK bawaan.

    database = cosmos_client.create_database_if_not_exists('RetailIngest')
    
  4. Buat kontainer bernama WebsiteMetrics dengan kunci partisi ./CartID

    container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
    
  5. Pilih Jalankan untuk membuat database dan sumber daya kontainer.

    Screenshot of the 'Run' option in the menu.

Mengimpor data menggunakan perintah ajaib

  1. Tambahkan sel kode baru.

  2. Dalam sel kode, tambahkan perintah ajaib berikut untuk diunggah, ke kontainer Yang sudah ada, data JSON dari url ini: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json

    %%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
    
  3. Pilih Jalankan Sel Aktif untuk hanya menjalankan perintah di sel tertentu ini.

    Screenshot of the 'Run Active Cell' option in the menu.

    Catatan

    Perintah impor harus memakan waktu 5-10 detik untuk diselesaikan.

  4. Amati output dari perintah jalankan. Pastikan 2.654 dokumen diimpor.

    Documents successfully uploaded to WebsiteMetrics
    Total number of documents imported:
      Success: 2654
      Failure: 0
    Total time taken : 00:00:04 hours
    Total RUs consumed : 27309.660000001593
    

Memvisualisasikan data Anda

  1. Buat sel kode baru lainnya.

  2. Di sel kode, gunakan kueri SQL untuk mengisi DataFrame Pandas.

    %%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos
    SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
    
  3. Pilih Jalankan Sel Aktif untuk hanya menjalankan perintah di sel tertentu ini.

  4. Buat sel kode baru lainnya.

  5. Di sel kode, keluarkan 10 item teratas dari dataframe.

    df_cosmos.head(10)
    
  6. Pilih Jalankan Sel Aktif untuk hanya menjalankan perintah di sel tertentu ini.

  7. Amati output menjalankan perintah.

    Tindakan ItemRevenue Negara Item
    0 Dibeli 19.99 Makedonia Kemeja Tombol-Up
    1 Dilihat 12.00 Papua Nugini Kalung
    2 Dilihat 25.00 Slowakia (Republik Slowakia) Cardigan Sweater
    3 Dibeli 14.00 Senegal Sepatu Sandal
    4 Dilihat 50.00 Panama Celana Pendek Denim
    5 Dilihat 14.00 Senegal Sepatu Sandal
    6 Ditambah 14.00 Senegal Sepatu Sandal
    7 Ditambah 50.00 Panama Celana Pendek Denim
    8 Dibeli 33,00 Wilayah Palestina Atasan merah
    9 Dilihat 30.00 Malta Sweater Hijau
  8. Buat sel kode baru lainnya.

  9. Di sel kode, impor paket panda untuk menyesuaikan output dataframe.

    import pandas as pd
    pd.options.display.html.table_schema = True
    pd.options.display.max_rows = None
    
    df_cosmos.groupby("Item").size()
    
  10. Pilih Jalankan Sel Aktif untuk hanya menjalankan perintah di sel tertentu ini.

  11. Dalam output, pilih opsi Bagan Garis untuk melihat visualisasi data yang berbeda.

    Screenshot of the Pandas dataframe visualization for the data as a line chart.

Mempertahankan buku catatan Anda

  1. Di bagian Buku Catatan , buka menu konteks untuk buku catatan yang Anda buat untuk tutorial ini dan pilih Unduh.

    Screenshot of the notebook context menu with the 'Download' option.

    Tip

    Untuk menyimpan pekerjaan Anda secara permanen, simpan buku catatan Anda ke repositori GitHub atau unduh buku catatan ke komputer lokal Anda sebelum sesi berakhir.

Langkah berikutnya