Bagikan melalui


Sampel data di himpunan Cosmos DB pada Microsoft Fabric

Beban kerja database Cosmos DB Microsoft Fabric menyediakan himpunan data sampel bawaan untuk membantu Anda menjelajahi, mempelajari, dan bereksperimen dengan pola database NoSQL. Himpunan data ini mewakili skenario e-niaga dengan produk dan ulasan pelanggan, menunjukkan bagaimana berbagai jenis entitas hidup berdampingan dalam kontainer yang sama.

Dua himpunan data sampel tersedia:

  • Data sampel standar: Data e-niaga inti dengan produk dan ulasan
  • Data sampel vektor: Versi yang ditingkatkan yang mencakup penyematan vektor 1536 dimensi yang dihasilkan menggunakan model text-embedding-ada-002 OpenAI untuk skenario pencarian semantik.

Gambaran umum himpunan data

Kedua himpunan data sampel berisi data e-niaga yang sama dengan dua jenis dokumen.

  • Dokumen produk (docType: "product") - Produk individual dengan nama, deskripsi, persediaan, harga saat ini, dan deret tertanam dari riwayat harga untuk produk tersebut.
  • Tinjau dokumen (docType: "review") - Ulasan dan peringkat pelanggan yang tertaut pada produk melalui productId

Himpunan data sampel vektor didasarkan pada himpunan data sampel standar. Dokumen produk dalam himpunan data vektor menyertakan properti tambahan vectors yang berisi penyematan 1536 dimensi untuk kemampuan pencarian semantik.

Nota

Anda dapat menemukan kedua himpunan data serta himpunan data tambahan dengan vektor yang dihasilkan menggunakan model openai text-embedding-3-large dengan 512 dimensi di folder Himpunan Data Sampel Cosmos DB di Fabric - Samples Repository

Skema dokumen

Skema dokumen produk

Dokumen produk berisi informasi terperinci tentang item individual dalam katalog e-niaga:

Harta benda Tipe Deskripsi
id string Pengidentifikasi unik untuk produk dalam format GUID
docType string Pengidentifikasi jenis dokumen, selalu "product"
productId string Pengidentifikasi produk, sama seperti id untuk dokumen produk
name string Nama tampilan produk
description string Deskripsi produk terperinci
categoryName string Kategori produk (misalnya, "Komputer, Laptop", "Media", "Aksesori")
inventory number Jumlah item yang saat ini dalam stok
firstAvailable string Tanggal saat produk tersedia (format ISO 8601)
currentPrice number Harga jual saat ini
priceHistory array Array dari objek perubahan harga dengan bidang date dan price
priceHistory[].date string Tanggal dan waktu perubahan harga dalam format ISO 8601
priceHistory[].price number Harga pada tanggal yang ditentukan
vectors array Data sampel vektor saja - Representasi vektor dengan 1536 dimensi

Meninjau skema dokumen

Dokumen tinjauan berisi masukan dan peringkat pelanggan untuk produk:

Harta benda Tipe Deskripsi
id string Pengidentifikasi unik untuk tinjauan dalam format GUID
docType string Pengidentifikasi jenis dokumen, selalu "review"
productId string Mengacu pada id dari produk yang sedang ditinjau
categoryName string Kategori produk (diwarisi dari produk yang ditinjau)
customerName string Nama pelanggan yang menulis ulasan
reviewDate string Tanggal ketika ulasan dikirimkan (format ISO 8601)
stars number Peringkat yang diberikan oleh pelanggan (skala 1-5)
reviewText string Konten ulasan tertulis dari pelanggan

Nota

Cosmos DB secara otomatis menghasilkan properti sistem (_rid, , _self, _etag_attachments, _ts) untuk semua dokumen.

Nota

Untuk informasi selengkapnya tentang format ISO 8601, lihat standar tanggal dan waktu internasional. Untuk informasi selengkapnya tentang format GUID, lihat pengidentifikasi unik universal.

Contoh dokumen

Contoh berikut menunjukkan struktur dokumen di kedua himpunan data sampel.

Contoh dokumen produk standar

{
  "id": "ae449848-3f15-4147-8eee-fe76cfcc6bb4",
  "docType": "product",
  "productId": "ae449848-3f15-4147-8eee-fe76cfcc6bb4",
  "name": "EchoSphere Pro ANC-X900 Premium Headphones",
  "description": "EchoSphere Pro ANC-X900 Premium Headphones deliver immersive sound with advanced 40mm drivers and Adaptive Hybrid Active Noise Cancellation. Bluetooth 5.3 ensures seamless connectivity.",
  "categoryName": "Accessories, Premium Headphones",
  "inventory": 772,
  "firstAvailable": "2024-01-01T00:00:00",
  "currentPrice": 454.87,
  "priceHistory": [
    {
      "date": "2024-01-01T00:00:00",
      "price": 349.0
    },
    {
      "date": "2024-08-01T00:00:00",
      "price": 363.0
    },
    {
      "date": "2025-04-01T00:00:00",
      "price": 408.14
    },
    {
      "date": "2025-08-01T00:00:00",
      "price": 454.87
    }
  ]
}

Contoh dokumen produk vektorisasi

{
    "id": "ae449848-3f15-4147-8eee-fe76cfcc6bb4",
    "docType": "product",
    "productId": "ae449848-3f15-4147-8eee-fe76cfcc6bb4",
    "name": "EchoSphere Pro ANC-X900 Premium Headphones",
    "description": "EchoSphere Pro ANC-X900 Premium Headphones deliver immersive sound with advanced 40mm drivers and Adaptive Hybrid Active Noise Cancellation. Bluetooth 5.3 ensures seamless connectivity.",
    "categoryName": "Accessories, Premium Headphones",
    "inventory": 772,
    "firstAvailable": "2024-01-01T00:00:00",
    "currentPrice": 454.87,
    "priceHistory": [
      {
        "date": "2024-01-01T00:00:00",
        "price": 349.0
      },
      {
        "date": "2025-08-01T00:00:00",
        "price": 454.87
      }
    ],
    "vectors": [
      -0.02783808670938015,
      0.011827611364424229,
      -0.04711977392435074,
      // ... (1536 dimensions total)
      0.04251981899142265
    ]
}

Tinjau contoh dokumen

Dokumen ulasan identik dalam kedua himpunan data sampel:

{
  "id": "fa799013-1746-4a7f-bd0f-2a95b2b76481",
  "docType": "review",
  "productId": "e847e069-d0f9-4fec-b42a-d37cd5b2f536",
  "categoryName": "Accessories, Premium Headphones",
  "customerName": "Emily Rodriguez",
  "reviewDate": "2025-03-02T00:00:00",
  "stars": 5,
  "reviewText": "Excellent sound quality! Premium build! This EchoSphere Pro ANC-X900 exceeded hopes."
}

Cara menggunakan data sampel

Kedua himpunan data sampel membantu Anda berlatih mengkueri, memfilter, dan menggabungkan data di Cosmos DB. Jenis dokumen campuran menyediakan skenario realistis untuk berbagai kasus penggunaan.

Skenario Contoh Data Standar

  • Menggabungkan data terkait: Menautkan ulasan ke produk menggunakan productId
  • Analisis kategori: Mengkueri produk dan ulasan berdasarkan categoryName
  • Analisis ulasan: Memeriksa pola dan peringkat umpan balik pelanggan

Pola kueri umum

Dapatkan semua produk dalam kategori:

SELECT *
FROM c
WHERE 
  c.docType = "product" AND 
  c.categoryName = "Computers, Laptops"

Dapatkan ulasan untuk produk tertentu:

SELECT *
FROM c
WHERE 
  c.docType = "review" AND 
  c.productId = "77be013f-4036-4311-9b5a-dab0c3d022be"

Skenario data vektor sampel

  • Pencarian kesamaan semantik: Temukan produk dengan fitur serupa menggunakan penyematan vektor
  • Rekomendasi berbasis konten: Hasilkan saran produk berdasarkan kesamaan deskripsi
  • Kueri hibrid: Menggabungkan filter tradisional dengan kesamaan vektor untuk hasil yang ditingkatkan

Skema JSON

Skema JSON berikut menjelaskan struktur dokumen dalam kedua himpunan data sampel. Gunakan skema ini untuk memvalidasi atau menghasilkan data serupa untuk beban kerja Cosmos DB Anda sendiri.

Skema dokumen produk standar

{
  "type": "object",
  "properties": {
    "id": { "type": "string" },
    "docType": { "type": "string" },
    "productId": { "type": "string" },
    "name": { "type": "string" },
    "description": { "type": "string" },
    "categoryName": { "type": "string" },
    "inventory": { "type": "number" },
    "firstAvailable": { "type": "string" },
    "currentPrice": { "type": "number" },
    "priceHistory": {
      "type": "array",
      "items": {
        "type": "object",
        "properties": {
          "date": { "type": "string" },
          "price": { "type": "number" }
        },
        "required": ["date", "price"]
      }
    }
  },
  "required": [
    "id", "docType", "productId", "name", "description", "categoryName", "inventory", "firstAvailable", "currentPrice", "priceHistory"
  ]
}

Skema dokumen produk dengan dukungan vektor

{
  "type": "object",
  "properties": {
    "id": { "type": "string" },
    "docType": { "type": "string" },
    "productId": { "type": "string" },
    "name": { "type": "string" },
    "description": { "type": "string" },
    "categoryName": { "type": "string" },
    "inventory": { "type": "number" },
    "firstAvailable": { "type": "string" },
    "currentPrice": { "type": "number" },
    "priceHistory": {
      "type": "array",
      "items": {
        "type": "object",
        "properties": {
          "date": { "type": "string" },
          "price": { "type": "number" }
        },
        "required": ["date", "price"]
      }
    },
    "vectors": {
      "type": "array",
      "items": { "type": "number" },
      "minItems": 1536,
      "maxItems": 1536
    }
  },
  "required": [
    "id", "docType", "productId", "name", "description", "categoryName", "inventory", "firstAvailable", "currentPrice", "priceHistory", "vectors"
  ]
}

Meninjau skema dokumen

{
  "type": "object",
  "properties": {
    "id": { "type": "string" },
    "docType": { "type": "string", "const": "review" },
    "productId": { "type": "string" },
    "categoryName": { "type": "string" },
    "customerName": { "type": "string" },
    "reviewDate": { "type": "string" },
    "stars": { "type": "number" },
    "reviewText": { "type": "string" }
  },
  "required": [
    "id", "docType", "productId", "categoryName", "customerName", 
    "reviewDate", "stars"
  ]
}