Gunakan himpunan data sampel TPC-DS untuk mengevaluasi performa sistem

Azure Databricks menyediakan akses ke himpunan data tolok ukur TPC-DS, tolok ukur yang banyak digunakan untuk menguji performa sistem yang dibangun untuk pergudangan dan analitik data. Himpunan data tersedia dalam dua ukuran secara default di setiap ruang kerja yang mendukung Katalog Unity. Himpunan data ini sangat ideal untuk menguji performa Azure Databricks pada tolok ukur standar yang mensimulasikan skenario bisnis ritel dan e-niaga yang realistis. Untuk mempelajari selengkapnya tentang himpunan data ini, lihat dokumentasi tolok ukurTPC-DS .

Apa yang disertakan

Himpunan data TPC-DS tersedia di samples katalog dengan skema berikut:

  • tpcds_sf1 — Himpunan data skala kecil (sekitar 1 GB)
  • tpcds_sf1000 — Himpunan data skala besar (sekitar 1 TB)

Kedua himpunan data berbagi kualitas berikut:

  • Bersifat baca-saja dan dapat di-query oleh semua pengguna di lingkungan kerja
  • Kompatibel dengan gudang SQL dan kluster serbaguna
  • Ikuti spesifikasi TPC-DS untuk tolok ukur standar

Prasyarat

Anda harus memiliki akses ke gudang SQL atau kluster serbaguna.

Pratinjau data

Untuk menjelajahi data di UI Catalog Explorer:

  1. Klik ikon Data.Katalog di bilah samping.
  2. Masukkan tpcds ke bilah pencarian. Kedua skema berada dalam samples katalog. Klik nama skema yang ingin Anda lihat.
  3. Tab Gambaran Umum mencantumkan semua tabel dalam skema. Klik nama tabel untuk membuka gambaran umum kolom dan tipe data dalam tabel tersebut.
  4. Gunakan navigasi atas untuk melihat Sampel Data atau Detail tabel.

Mengkueri data

Kueri berikut menggunakan himpunan data skala yang lebih kecil, tpcds_sf1. Untuk menggunakan himpunan data skala yang lebih besar, ganti nama skema dengan tpcds_sf1000. Klik ikon Editor SQLEditor SQL di bilah samping untuk membuka editor SQL. Kemudian, gunakan kueri berikut untuk mulai menjelajahi data.

Pratinjau tabel

SHOW TABLES IN samples.tpcds_sf1;

Jelajahi tabel

DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

Sampel gabungan dan agregasi

SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

Praktik terbaik

  • Gunakan riwayat kueri dan profil kueri untuk memahami karakteristik performa dan mengidentifikasi peluang pengoptimalan.
  • Mulailah dengan himpunan data yang lebih tpcds_sf1 kecil untuk pengujian awal, lalu tingkatkan ke tpcds_sf1000 untuk evaluasi performa yang komprehensif.
  • Bandingkan performa kueri di berbagai ukuran gudang SQL untuk menentukan konfigurasi optimal untuk beban kerja Anda.
  • Gunakan himpunan data standar ini untuk menetapkan garis besar performa dan melacak peningkatan dari waktu ke waktu.