Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Azure Databricks menyediakan akses ke himpunan data tolok ukur TPC-DS, tolok ukur yang banyak digunakan untuk menguji performa sistem yang dibangun untuk pergudangan dan analitik data. Himpunan data tersedia dalam dua ukuran secara default di setiap ruang kerja yang mendukung Katalog Unity. Himpunan data ini sangat ideal untuk menguji performa Azure Databricks pada tolok ukur standar yang mensimulasikan skenario bisnis ritel dan e-niaga yang realistis. Untuk mempelajari selengkapnya tentang himpunan data ini, lihat dokumentasi tolok ukurTPC-DS .
Apa yang disertakan
Himpunan data TPC-DS tersedia di samples katalog dengan skema berikut:
-
tpcds_sf1— Himpunan data skala kecil (sekitar 1 GB) -
tpcds_sf1000— Himpunan data skala besar (sekitar 1 TB)
Kedua himpunan data berbagi kualitas berikut:
- Bersifat baca-saja dan dapat di-query oleh semua pengguna di lingkungan kerja
- Kompatibel dengan gudang SQL dan kluster serbaguna
- Ikuti spesifikasi TPC-DS untuk tolok ukur standar
Prasyarat
Anda harus memiliki akses ke gudang SQL atau kluster serbaguna.
Pratinjau data
Untuk menjelajahi data di UI Catalog Explorer:
- Klik
Katalog di bilah samping.
- Masukkan tpcds ke bilah pencarian. Kedua skema berada dalam
sampleskatalog. Klik nama skema yang ingin Anda lihat. - Tab Gambaran Umum mencantumkan semua tabel dalam skema. Klik nama tabel untuk membuka gambaran umum kolom dan tipe data dalam tabel tersebut.
- Gunakan navigasi atas untuk melihat Sampel Data atau Detail tabel.
Mengkueri data
Kueri berikut menggunakan himpunan data skala yang lebih kecil, tpcds_sf1. Untuk menggunakan himpunan data skala yang lebih besar, ganti nama skema dengan tpcds_sf1000. Klik ikon
Editor SQL di bilah samping untuk membuka editor SQL. Kemudian, gunakan kueri berikut untuk mulai menjelajahi data.
Pratinjau tabel
SHOW TABLES IN samples.tpcds_sf1;
Jelajahi tabel
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
Sampel gabungan dan agregasi
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
Praktik terbaik
- Gunakan riwayat kueri dan profil kueri untuk memahami karakteristik performa dan mengidentifikasi peluang pengoptimalan.
- Mulailah dengan himpunan data yang lebih
tpcds_sf1kecil untuk pengujian awal, lalu tingkatkan ketpcds_sf1000untuk evaluasi performa yang komprehensif. - Bandingkan performa kueri di berbagai ukuran gudang SQL untuk menentukan konfigurasi optimal untuk beban kerja Anda.
- Gunakan himpunan data standar ini untuk menetapkan garis besar performa dan melacak peningkatan dari waktu ke waktu.