Tutorial: Membuat Jupyter Notebook di Azure Cosmos DB for NoSQL untuk menganalisis dan memvisualisasikan data (pratinjau)
BERLAKU UNTUK: NoSQL
Peringatan
Fitur Jupyter Notebooks dari Azure Cosmos DB akan dihentikan 30 Maret 2024; Anda tidak akan dapat menggunakan notebook Jupyter bawaan dari akun Azure Cosmos DB. Sebaiknya gunakan dukungan Visual Studio Code untuk notebook Jupyter atau klien notebook pilihan Anda.
Tutorial ini menjelaskan cara menggunakan fitur Jupyter Notebooks dari Azure Cosmos DB untuk mengimpor data ritel sampel ke akun Azure Cosmos DB for NoSQL. Anda akan melihat cara menggunakan perintah ajaib Azure Cosmos DB untuk menjalankan kueri, menganalisis data, dan memvisualisasikan hasilnya.
Prasyarat
- Akun Azure Cosmos DB for NoSQL yang sudah ada.
- Jika Anda memiliki langganan Azure yang sudah ada, buat akun baru.
- Tidak ada langganan Azure? Anda dapat mencoba Azure Cosmos DB gratis tanpa kartu kredit yang diperlukan.
Buat notebook baru
Di bagian ini, Anda akan membuat database Azure Cosmos, kontainer, dan mengimpor data ritel ke kontainer.
Navigasi ke akun Azure Cosmos DB Anda dan buka Data Explorer.
Pilih Notebook Baru.
Dalam dialog konfirmasi yang muncul, pilih Buat.
Catatan
Ruang kerja sementara akan dibuat untuk memungkinkan Anda bekerja dengan Jupyter Notebooks. Ketika sesi kedaluwarsa, buku catatan apa pun di ruang kerja akan dihapus.
Pilih kernel yang ingin Anda gunakan untuk buku catatan.
Tip
Sekarang setelah buku catatan baru dibuat, Anda dapat mengganti namanya menjadi sesuatu seperti VisualizeRetailData.ipynb.
Membuat database dan kontainer menggunakan SDK
Mulai di sel kode default.
Impor paket apa pun yang Anda butuhkan untuk tutorial ini.
import azure.cosmos from azure.cosmos.partition_key import PartitionKey
Buat database bernama RetailIngest menggunakan SDK bawaan.
database = cosmos_client.create_database_if_not_exists('RetailIngest')
Buat kontainer bernama WebsiteMetrics dengan kunci partisi .
/CartID
container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
Pilih Jalankan untuk membuat database dan sumber daya kontainer.
Mengimpor data menggunakan perintah ajaib
Tambahkan sel kode baru.
Dalam sel kode, tambahkan perintah ajaib berikut untuk diunggah, ke kontainer Yang sudah ada, data JSON dari url ini: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
%%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
Pilih Jalankan Sel Aktif untuk hanya menjalankan perintah di sel tertentu ini.
Catatan
Perintah impor harus memakan waktu 5-10 detik untuk diselesaikan.
Amati output dari perintah jalankan. Pastikan 2.654 dokumen diimpor.
Documents successfully uploaded to WebsiteMetrics Total number of documents imported: Success: 2654 Failure: 0 Total time taken : 00:00:04 hours Total RUs consumed : 27309.660000001593
Memvisualisasikan data Anda
Buat sel kode baru lainnya.
Di sel kode, gunakan kueri SQL untuk mengisi DataFrame Pandas.
%%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
Pilih Jalankan Sel Aktif untuk hanya menjalankan perintah di sel tertentu ini.
Buat sel kode baru lainnya.
Di sel kode, keluarkan 10 item teratas dari dataframe.
df_cosmos.head(10)
Pilih Jalankan Sel Aktif untuk hanya menjalankan perintah di sel tertentu ini.
Amati output menjalankan perintah.
Tindakan ItemRevenue Negara Item 0 Dibeli 19.99 Makedonia Kemeja Tombol-Up 1 Dilihat 12.00 Papua Nugini Kalung 2 Dilihat 25.00 Slowakia (Republik Slowakia) Cardigan Sweater 3 Dibeli 14.00 Senegal Sepatu Sandal 4 Dilihat 50.00 Panama Celana Pendek Denim 5 Dilihat 14.00 Senegal Sepatu Sandal 6 Ditambah 14.00 Senegal Sepatu Sandal 7 Ditambah 50.00 Panama Celana Pendek Denim 8 Dibeli 33,00 Wilayah Palestina Atasan merah 9 Dilihat 30.00 Malta Sweater Hijau Buat sel kode baru lainnya.
Di sel kode, impor paket panda untuk menyesuaikan output dataframe.
import pandas as pd pd.options.display.html.table_schema = True pd.options.display.max_rows = None df_cosmos.groupby("Item").size()
Pilih Jalankan Sel Aktif untuk hanya menjalankan perintah di sel tertentu ini.
Dalam output, pilih opsi Bagan Garis untuk melihat visualisasi data yang berbeda.
Mempertahankan buku catatan Anda
Di bagian Buku Catatan , buka menu konteks untuk buku catatan yang Anda buat untuk tutorial ini dan pilih Unduh.
Tip
Untuk menyimpan pekerjaan Anda secara permanen, simpan buku catatan Anda ke repositori GitHub atau unduh buku catatan ke komputer lokal Anda sebelum sesi berakhir.