Tutorial: Membuat Jupyter Notebook untuk menganalisis data di akun Azure Cosmos DB for NoSQL Anda menggunakan notebook Jupyter Visual Studio Code
BERLAKU UNTUK: NoSQL
Tutorial ini menjelaskan cara menggunakan notebook Visual Studio Code Jupyter untuk berinteraksi dengan akun Azure Cosmos DB for NoSQL Anda. Anda akan melihat cara menyambungkan ke akun, mengimpor data, dan menjalankan kueri.
Prasyarat
- Akun Azure Cosmos DB for NoSQL yang sudah ada.
- Jika Anda memiliki langganan Azure yang sudah ada, buat akun baru.
- Tidak ada langganan Azure? Anda dapat mencoba Azure Cosmos DB gratis tanpa kartu kredit yang diperlukan.
- Instal Visual Studio Code dan siapkan lingkungan Anda untuk menggunakan notebook.
Buat notebook baru
Di bagian ini, Anda akan membuat database Azure Cosmos, kontainer, dan mengimpor data ritel ke kontainer.
- Buka Visual Studio Code.
- Jalankan perintah Buat: Notebook Jupyter Baru dari Palet Perintah (Ctrl+Shift+P) atau buat file .ipynb baru di ruang kerja Anda.
Tip
Sekarang setelah buku catatan baru dibuat, Anda dapat menyimpannya dan menamainya seperti AnalyzeRetailData.ipynb.
Membuat database dan kontainer menggunakan SDK
Mulai di sel kode default.
Instal paket Azure.cosmos. Jalankan sel ini sebelum melanjutkan.
%pip install azure.cosmos
Impor paket apa pun yang Anda butuhkan untuk tutorial ini.
import azure.cosmos from azure.cosmos.partition_key import PartitionKey from azure.cosmos import CosmosClient
Buat instans baru CosmosClient.
endpoint = "<FILL ME>" key = "<FILL ME>" cosmos_client = CosmosClient(url=endpoint, credential=key)
Buat database bernama RetailIngest menggunakan SDK bawaan.
database = cosmos_client.create_database_if_not_exists('RetailIngest')
Buat kontainer bernama WebsiteMetrics dengan kunci partisi .
/CartID
container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
Pilih Jalankan untuk membuat database dan sumber daya kontainer.
Mengimpor data ke dalam kontainer
Menambahkan sel kode baru
Dalam sel kode, tambahkan kode berikut untuk mengunggah data dari url ini:
<https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json>
.import urllib.request import json with urllib.request.urlopen("https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json") as url: docs = json.loads(url.read().decode()) for doc in docs: container.upsert_item(doc)
Jalankan sel. Ini akan memakan waktu 45 detik hingga 1 menit untuk dijalankan.
Analisis data Anda
Buat sel kode baru lainnya.
Di sel kode, gunakan kueri SQL untuk mengisi DataFrame Pandas. Jalankan sel ini.
import pandas as pd from pandas import DataFrame QUERY = "SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c" results = container.query_items( query=QUERY, enable_cross_partition_query=True ) df_cosmos = pd.DataFrame(results)
Buat sel kode baru lainnya.
Di sel kode, keluarkan 10 item teratas dari dataframe. Jalankan sel ini.
df_cosmos.head(10)
Amati output menjalankan perintah.
Perbuatan ItemRevenue Negara Item 0 Dibeli 19.99 Makedonia Kemeja Tombol-Up 1 Melihat 12.00 Papua Nugini Kalung 2 Melihat 25.00 Slowakia (Republik Slowakia) Cardigan Sweater 3 Dibeli 14.00 Senegal Sepatu Sandal 4 Melihat 50.00 Panama Celana Pendek Denim 5 Melihat 14.00 Senegal Sepatu Sandal 6 Ditambahkan 14.00 Senegal Sepatu Sandal 7 Ditambahkan 50.00 Panama Celana Pendek Denim 8 Dibeli 33,00 Wilayah Palestina Atasan merah 9 Melihat 30.00 Malta Sweater Hijau Buat sel kode baru lainnya.
Di sel kode, impor paket panda untuk menyesuaikan output dataframe. Jalankan sel ini.
import pandas as pd df_cosmos.groupby("Item").size().reset_index()
Amati output menjalankan perintah.
Item Uji 0 Sepatu Sandal 66 1 Kalung 55 2 Sepatu Atletik 111 ... ... ... 45 Jaket Pemecah Angin 56