Memulai: Mengkueri dan memvisualisasikan data dari buku catatan
Artikel memulai ini memandu Anda menggunakan buku catatan Azure Databricks untuk mengkueri data sampel yang disimpan di Unity Catalog menggunakan SQL, Python, Scala, dan R lalu memvisualisasikan hasil kueri di buku catatan.
Persyaratan
Untuk menyelesaikan tugas dalam artikel ini, Anda harus memenuhi persyaratan berikut:
- Ruang kerja Anda harus mengaktifkan Katalog Unity. Untuk informasi tentang mulai menggunakan Katalog Unity, lihat Menyiapkan dan mengelola Katalog Unity.
- Anda harus memiliki izin untuk menggunakan sumber daya komputasi yang sudah ada atau membuat sumber daya komputasi baru. Lihat Memulai: Penyiapan akun dan ruang kerja atau lihat administrator Databricks Anda.
Langkah 1: Membuat buku catatan baru
Untuk membuat buku catatan di ruang kerja Anda:
- Klik Baru di bilah samping, lalu klik Buku Catatan.
- Pada halaman Buat Buku Catatan:
- Tentukan nama unik untuk buku catatan Anda.
- Atur bahasa default untuk buku catatan Anda lalu klik Konfirmasi jika diminta.
- Gunakan menu dropdown Koneksi untuk memilih sumber daya komputasi. Untuk membuat sumber daya komputasi baru, lihat Menggunakan komputasi.
Untuk mempelajari selengkapnya tentang membuat dan mengelola buku catatan, lihat Mengelola buku catatan.
Langkah 2: Mengkueri tabel
samples.nyctaxi.trips
Kueri tabel di Unity Catalog menggunakan bahasa pilihan Anda.
SQL
- Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru. Kode ini menampilkan hasil dari mengkueri
samples.nyctaxi.trips
tabel di Katalog Unity.
SELECT * FROM samples.nyctaxi.trips
Python
- Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru. Kode ini menampilkan hasil dari mengkueri
samples.nyctaxi.trips
tabel di Katalog Unity.
display(spark.read.table("samples.nyctaxi.trips"))
Scala
- Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru. Kode ini menampilkan hasil dari mengkueri
samples.nyctaxi.trips
tabel di Katalog Unity.
display(spark.read.table("samples.nyctaxi.trips"))
R
- Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru. Kode ini menampilkan hasil dari mengkueri
samples.nyctaxi.trips
tabel di Katalog Unity.
library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))
Tekan
Shift+Enter
untuk menjalankan sel lalu berpindah ke sel berikutnya.Hasil kueri muncul di buku catatan.
Langkah 3: Menampilkan data
Tampilkan jumlah tarif rata-rata berdasarkan jarak perjalanan, dikelompokkan menurut kode pos penjemputan.
Di samping tab Tabel , klik + lalu klik Visualisasi.
Editor visualisasi ditampilkan.
Di menu drop-down Jenis Visualisasi, verifikasi bahwa Bilah dipilih.
Pilih
fare_amount
untuk kolom X.Pilih
trip_distance
untuk kolom Y.Pilih
Average
sebagai jenis agregasi.Pilih
pickup_zip
sebagai kolom Kelompokkan menurut .Klik Simpan.
Langkah berikutnya
- Untuk mempelajari cara memuat data ke Databricks menggunakan Apache Spark, lihat Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames.
- Untuk mempelajari selengkapnya tentang menyerap data ke Databricks, lihat Menyerap data ke dalam data lakehouse Databricks.
- Untuk mempelajari selengkapnya tentang mengkueri data dengan Databricks, lihat Data kueri.
- Untuk mempelajari selengkapnya tentang visualisasi, lihat Visualisasi di buku catatan Databricks.