Tutorial: Menggunakan buku catatan dengan Apache Spark untuk mengkueri database KQL
Notebook adalah dokumen yang dapat dibaca yang berisi deskripsi dan hasil analisis data serta dokumen yang dapat dieksekusi yang dapat dijalankan untuk melakukan analisis data. Dalam artikel ini, Anda mempelajari cara menggunakan buku catatan Microsoft Fabric untuk membaca dan menulis data ke database KQL menggunakan Apache Spark. Tutorial ini menggunakan himpunan data dan notebook yang dibuat sebelumnya di Real-Time Intelligence dan lingkungan Rekayasa Data di Microsoft Fabric. Untuk informasi selengkapnya tentang notebook, lihat Cara menggunakan notebook Microsoft Fabric.
Secara khusus, Anda mempelajari cara:
- Membuat data base KQL
- Mengimpor buku catatan
- Menulis data ke database KQL menggunakan Apache Spark
- Mengkueri data dari database KQL
Prasyarat
- Ruang kerja dengan kapasitas yang diaktifkan Microsoft Fabric
1- Membuat database KQL
Buka pengalih pengalaman di bagian bawah panel navigasi dan pilih Kecerdasan Real Time.
Pilih petak peta KQL Database .
Di bidang Nama Database KQL, masukkan nycGreenTaxi, lalu pilih Buat.
Database KQL sekarang telah dibuat dalam konteks ruang kerja yang dipilih.
Salin URI Kueri dari kartu detail database di dasbor database dan tempelkan di suatu tempat, seperti notepad, untuk digunakan di langkah selanjutnya.
2- Unduh notebook NYC GreenTaxi
Kami telah membuat contoh notebook yang membawa Anda melalui semua langkah yang diperlukan untuk memuat data ke database Anda menggunakan konektor Spark.
Buka repositori sampel Fabric di GitHub untuk mengunduh notebook NYC GreenTaxi KQL..
Simpan buku catatan secara lokal ke perangkat Anda.
Catatan
Buku catatan harus disimpan dalam
.ipynb
format file.
3- Impor buku catatan
Sisa alur kerja ini terjadi di bagian Rekayasa Data produk, dan menggunakan buku catatan Spark untuk memuat dan mengkueri data dalam database KQL Anda.
Buka pengalih pengalaman di bagian bawah panel navigasi dan pilih Rekayasa Data.
Pilih Impor buku catatan.
Di jendela Status impor, pilih Unggah.
Pilih buku catatan NYC GreenTaxi yang Anda unduh di langkah sebelumnya.
Setelah impor selesai, kembali ke ruang kerja Anda untuk membuka buku catatan ini.
4- Dapatkan data
Untuk mengkueri database Anda menggunakan konektor Spark, Anda perlu memberikan akses baca dan tulis ke kontainer blob GreenTaxi NYC.
Pilih tombol putar untuk menjalankan sel berikut, atau pilih sel dan tekan Shift+ Enter. Ulangi langkah ini untuk setiap sel kode.
Catatan
Tunggu hingga tanda centang penyelesaian muncul sebelum menjalankan sel berikutnya.
Jalankan sel berikut untuk mengaktifkan akses ke kontainer blob NYC GreenTaxi.
Di KustoURI, tempelkan URI Kueri yang Anda salin sebelumnya alih-alih teks tempat penampung.
Ubah nama database tempat penampung menjadi nycGreenTaxi.
Ubah nama tabel tempat penampung menjadi GreenTaxiData.
Jalankan sel.
Jalankan sel berikutnya untuk menulis data ke database Anda. Mungkin perlu beberapa menit agar langkah ini selesai.
Database Anda sekarang memiliki data yang dimuat dalam tabel bernama GreenTaxiData.
5- Jalankan buku catatan
Jalankan dua sel yang tersisa secara berurutan untuk mengkueri data dari tabel Anda. Hasilnya menunjukkan 20 besar tarif dan jarak taksi tertinggi dan terendah yang dicatat berdasarkan tahun.
6- Membersihkan sumber daya
Bersihkan item yang dibuat dengan menavigasi ke ruang kerja tempat item dibuat.
Di ruang kerja Anda, arahkan mouse ke atas buku catatan yang ingin Anda hapus, pilih menu Lainnya [...] >Hapus.
Pilih Hapus. Anda tidak dapat memulihkan buku catatan setelah menghapusnya.