Apa itu arsitektur Azure Synapse SQL?

Tip

Microsoft Fabric Data Warehouse adalah gudang relasional skala perusahaan pada fondasi data lake, dengan arsitektur siap masa depan, AI bawaan, dan fitur baru. Jika Anda baru menggunakan pergudangan data, mulailah dengan Fabric Data Warehouse. Beban kerja kumpulan SQL terdedikasi yang ada dapat ditingkatkan ke Fabric untuk mengakses kemampuan baru di seluruh ilmu data, analitik waktu nyata, dan pelaporan.

Artikel ini menjelaskan komponen arsitektur Synapse SQL. Ini juga menjelaskan bagaimana Azure Synapse SQL menggabungkan kemampuan pemrosesan kueri terdistribusi dengan Azure Storage untuk mencapai performa dan skalabilitas tinggi.

Komponen arsitektur Synapse SQL

Synapse SQL menggunakan arsitektur peluasan skala untuk mendistribusikan pemrosesan data komputasi di beberapa simpul. Komputasi dilakukan terpisah dari penyimpanan, yang memungkinkan Anda menskalakan komputasi secara independen dari data dalam sistem Anda.

Untuk kumpulan SQL khusus, unit skala adalah abstraksi daya komputasi yang dikenal sebagai unit gudang data.

Untuk kumpulan SQL tanpa server, dengan keadaan tanpa server, penskalaan dilakukan secara otomatis untuk mengakomodasi persyaratan sumber daya kueri. Seiring berubahnya topologi dari waktu ke waktu dengan menambahkan, menghapus simpul atau failover, ini beradaptasi dengan perubahan dan memastikan kueri Anda memiliki sumber daya yang cukup dan berhasil diselesaikan. Misalnya, gambar berikut menunjukkan kumpulan SQL tanpa server menggunakan empat simpul komputasi untuk menjalankan kueri.

Synapse SQL menggunakan arsitektur berbasis simpul. Aplikasi menyambungkan dan mengeluarkan perintah T-SQL ke simpul Kontrol, yang merupakan titik masuk tunggal untuk Synapse SQL.

Simpul Kontrol Azure Synapse SQL menggunakan mesin kueri terdistribusi untuk mengoptimalkan kueri untuk pemrosesan paralel, dan kemudian meneruskan operasi ke simpul Komputasi agar pekerjaan dapat dilakukan secara paralel.

Simpul Kontrol kumpulan SQL tanpa server menggunakan mesin Pemrosesan Kueri Terdistribusi (DQP) untuk mengoptimalkan dan mengatur eksekusi kueri pengguna yang didistribusikan dengan membaginya menjadi kueri yang lebih kecil yang akan dieksekusi pada simpul Komputasi. Setiap kueri kecil disebut tugas dan mewakili unit eksekusi terdistribusi. Ini membaca file dari penyimpanan, menggabungkan hasil dari tugas, grup, atau urutan, dan mengelompokkan atau mengurutkan data yang diambil dari tugas lain.

Simpul komputasi menyimpan semua data pengguna pada Azure Storage dan menjalankan kueri paralel. Layanan Pergerakan Data (Data Movement Service/DMS) adalah layanan internal tingkat sistem yang memindahkan data ke seluruh simpul sesuai kebutuhan untuk menjalankan kueri secara paralel dan mengembalikan hasil yang akurat.

Dengan penyimpanan dan komputasi yang dipisahkan, saat menggunakan Synapse SQL seseorang dapat memperoleh keuntungan dari ukuran daya komputasi independen terlepas dari kebutuhan penyimpanan Anda. Untuk kumpulan SQL tanpa server, penskalaan dilakukan secara otomatis, sedangkan untuk kumpulan SQL khusus dapat:

Kembangkan atau kecilkan daya komputasi, di dalam kumpulan SQL khusus, tanpa memindahkan data.
Hentikan sementara kapasitas komputasi tanpa mengubah data, sehingga Anda hanya membayar penyimpanan.
Lanjutkan kapasitas komputasi selama jam operasional.

Azure Storage

Synapse SQL menggunakan Azure Storage untuk menjaga keamanan data pengguna Anda. Karena data Anda disimpan dan dikelola oleh Azure Storage, ada biaya terpisah untuk konsumsi penyimpanan Anda.

Kumpulan SQL tanpa server memungkinkan Anda untuk meminta file data lake, sementara kumpulan SQL khusus memungkinkan Anda untuk membuat kueri dan menelan data dari file data lake. Ketika data tercerna ke dalam kumpulan SQL khusus, data dipecah ke dalam distribusi untuk mengoptimalkan performa sistem. Anda dapat memilih pola pemecahan yang akan digunakan untuk mendistribusikan data saat Anda menentukan tabel. Pola pemecahan ini didukung oleh:

Hash
Round Robin
Mereplikasi

Simpul Kontrol

Simpul Kontrol adalah otak dari arsitektur. Antarmuka inilah yang berinteraksi dengan semua aplikasi dan koneksi.

Di Synapse SQL, mesin kueri terdistribusi berjalan pada simpul Kontrol untuk mengoptimalkan dan mengoordinasikan kueri paralel. Saat Anda mengirimkan kueri T-SQL ke kumpulan SQL khusus, simpul Kontrol mengubahnya menjadi kueri yang berjalan terhadap setiap distribusi secara paralel.

Dalam kumpulan SQL tanpa server, mesin DQP berjalan pada simpul Kontrol untuk mengoptimalkan dan mengoordinasikan eksekusi kueri pengguna yang didistribusikan dengan membaginya menjadi kueri yang lebih kecil yang akan dieksekusi pada simpul Komputasi. Ini juga menetapkan kumpulan berkas yang akan diproses oleh setiap simpul.

Simpul komputasi

Node Komputasi menyediakan daya komputasi.

Dalam kumpulan SQL khusus, distribusi memetakan ke node komputasi untuk diproses. Saat Anda membayar lebih banyak sumber daya komputasi, pool akan memetakan ulang distribusi ke Node Komputasi yang tersedia. Jumlah simpul komputasi berkisar antara 1 hingga 60 dan ditentukan oleh tingkat layanan untuk dedicated SQL pool. Setiap simpul Komputasi memiliki ID simpul yang terlihat dalam tampilan sistem. Anda dapat melihat ID simpul Komputasi dengan mencari kolom simpul_id dalam tampilan sistem dengan nama awal sys.pdw_nodes. Untuk daftar tampilan sistem ini, lihat Tampilan sistem Synapse SQL.

Dalam kumpulan SQL tanpa server, setiap simpul Komputasi diberi tugas dan set file untuk menjalankan tugas. Tugas merupakan unit eksekusi kueri terdistribusi, yang sebenarnya merupakan bagian dari kueri yang dikirimkan pengguna. Pensakalan otomatis berlaku untuk memastikan node komputasi yang cukup digunakan untuk menjalankan kueri pengguna.

Layanan pemindahan data (Data Movement Service)

Data Movement Service (DMS) adalah teknologi pengangkut data dalam kumpulan SQL khusus yang mengoordinasikan pergerakan data di antara simpul Komputasi. Beberapa kueri memerlukan pergerakan data untuk memastikan kueri paralel memberikan hasil yang akurat. Ketika pergerakan data diperlukan, DMS memastikan data yang tepat sampai ke lokasi yang tepat.

Distribusi

Distribusi adalah unit penyimpanan dan pemrosesan dasar untuk kueri paralel yang berjalan pada data terdistribusi dalam kumpulan SQL khusus. Ketika kumpulan SQL khusus menjalankan kueri, pekerjaan dibagi menjadi 60 kueri yang lebih kecil dan berjalan secara paralel.

Setiap 60 kueri yang lebih kecil tersebut berjalan pada salah satu distribusi data. Setiap simpul Komputasi mengelola satu atau sebagian dari 60 distribusi tersebut. Kumpulan SQL khusus dengan sumber daya komputasi maksimum memiliki satu distribusi per simpul Komputasi. Kumpulan SQL khusus dengan sumber daya komputasi minimum memiliki semua distribusi pada satu simpul komputasi.

Tabel terdistribusi hash

Tabel terdistribusi hash dapat menjalankan performa kueri tertinggi untuk gabungan dan agregasi pada tabel besar.

Untuk memecah data ke dalam tabel terdistribusi hash, kumpulan SQL khusus menggunakan fungsi hash untuk menetapkan setiap baris secara deterministik ke satu distribusi. Dalam definisi tabel, salah satu kolom ditetapkan sebagai kolom distribusi. Fungsi hash menggunakan nilai dalam kolom distribusi untuk menetapkan setiap baris ke distribusi.

Diagram berikut mengilustrasikan bagaimana tabel lengkap (tidak didistribusikan) disimpan sebagai tabel terdistribusi hash.

Setiap baris adalah bagian dari satu distribusi.
Algoritma hash deterministik menetapkan setiap baris untuk satu distribusi.
Jumlah baris tabel per distribusi bervariasi seperti yang diperlihatkan oleh berbagai ukuran tabel.

Ada pertimbangan performa untuk pilihan kolom distribusi, seperti perbedaan, kecondongan data, dan tipe kueri yang berjalan pada sistem.

Tabel terdistribusi berkeliling

Tabel round-robin adalah tabel paling sederhana yang mempermudah pembuatannya dan memberikan performa cepat ketika digunakan sebagai tabel penahapan untuk pemuatan.

Tabel Round-robin mendistribusikan data secara merata ke seluruh tabel, tetapi tanpa pengoptimalan lebih lanjut. Sebuah distribusi dipilih secara acak terlebih dahulu, kemudian buffer dari baris-baris ditetapkan ke distribusi secara berurutan. Memuat data ke dalam tabel round-robin dapat dilakukan dengan cepat, tetapi performa kueri seringkali lebih baik dengan tabel terdistribusi hash. Gabungan pada tabel round-robin memerlukan pengaturan ulang data, yang memerlukan waktu lebih.

Tabel yang direplikasi

Tabel yang direplikasi menyediakan performa kueri tercepat untuk tabel kecil.

Tabel yang direplikasi menyimpan salinan lengkap tabel di setiap node komputasi. Sehingga, replikasi tabel akan menghapus kebutuhan untuk mentransfer data di antara simpul komputasi sebelum gabungan atau agregasi. Tabel yang direplikasi paling efektif digunakan untuk tabel berukuran kecil. Penyimpanan tambahan diperlukan dan ada overhead ekstra yang dikeluarkan saat menulis data, yang membuat tabel besar tidak praktis.

Diagram di bawah ini memperlihatkan tabel yang direplikasi dan dilakukan cache pada distribusi pertama di setiap simpul komputasi.

Sekarang setelah Anda tahu sedikit tentang Synapse SQL, pelajari cara cepat membuat kumpulan SQL khusus dan memuat data sampel. Atau mulai menggunakan kumpulan SQL tanpa server. Jika Anda baru menggunakan Azure, Anda mungkin menemukan konsep dasar Azure yang berguna saat Anda menemukan terminologi baru.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-01-21