Memperkenalkan Kluster Big Data SQL Server
Berlaku untuk: SQL Server 2019 (15.x)
Penting
Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk Kluster Big Data SQL Server 2019 akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung penuh pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan opsi Big data di platform Microsoft SQL Server.
Pada SQL Server 2019 (15.x), SQL Server Kluster Big Data memungkinkan Anda untuk menyebarkan kluster kontainer SQL Server, Spark, dan HDFS yang dapat diskalakan yang berjalan di Kubernetes. Komponen-komponen ini berjalan berdampingan untuk memungkinkan Anda membaca, menulis, dan memproses big data dari T-SQL atau Spark, memungkinkan Anda menggabungkan dan menganalisis data hubungan bernilai tinggi dengan big data bervolume tinggi dengan mudah.
Memulai
- Pertama, lihat Mulai menggunakan SQL Server Kluster Big Data
- Untuk fitur baru untuk rilis terbaru, lihat catatan rilis
- Untuk tanya jawab umum, lihat TANYA JAWAB UMUM Kluster Big Data
Arsitektur kluster big data
Diagram berikut menunjukkan komponen kluster big data SQL Server:
Pengontrol
Pengontrol menyediakan manajemen dan keamanan untuk kluster. Ini berisi layanan kontrol, penyimpanan konfigurasi, dan layanan tingkat kluster lainnya seperti Kibana, Grafana, dan Elastic Search.
Kumpulan komputasi
Kumpulan komputasi menyediakan sumber daya komputasi ke kluster. Ini berisi simpul yang berjalan SQL Server pada pod Linux. Pod dalam kumpulan komputasi dibagi menjadi instans SQL Compute untuk tugas pemrosesan tertentu.
Kumpulan data
Kumpulan data digunakan untuk persistensi data. Kumpulan data terdiri dari satu atau beberapa pod yang berjalan SQL Server di Linux. Ini digunakan untuk menyerap data dari kueri SQL atau pekerjaan Spark.
Kumpulan penyimpanan
Kumpulan penyimpanan terdiri dari pod kumpulan penyimpanan yang terdiri dari SQL Server di Linux, Spark, dan HDFS. Semua simpul penyimpanan dalam kluster big data SQL Server adalah anggota kluster HDFS.
Tip
Untuk melihat secara mendalam arsitektur dan penginstalan kluster big data, lihat Lokakarya: Microsoft SQL Server Kluster Big Data Architecture.
Kumpulan aplikasi
Penyebaran aplikasi memungkinkan penyebaran aplikasi pada SQL Server Kluster Big Data dengan menyediakan antarmuka untuk membuat, mengelola, dan menjalankan aplikasi.
Skenario dan Fitur
SQL Server Kluster Big Data memberikan fleksibilitas dalam cara Anda berinteraksi dengan big data Anda. Anda dapat mengkueri sumber data eksternal, menyimpan big data di HDFS yang dikelola oleh SQL Server, atau mengkueri data dari beberapa sumber data eksternal melalui kluster. Anda kemudian dapat menggunakan data untuk AI, pembelajaran mesin, dan tugas analisis lainnya.
Gunakan SQL Server Kluster Big Data untuk:
- Sebarkan kluster yang dapat diskalakan dari kontainer SQL Server, Spark, dan HDFS yang berjalan di Kubernetes.
- Baca, tulis, dan proses big data dari Transact-SQL atau Spark.
- Gabungkan dan analisis data relasional bernilai tinggi dengan big data volume tinggi dengan mudah.
- Mengkueri sumber data eksternal.
- Simpan big data dalam HDFS yang dikelola oleh SQL Server.
- Mengkueri data dari beberapa sumber data eksternal melalui kluster.
- Gunakan data untuk AI, pembelajaran mesin, dan tugas analisis lainnya.
- Menyebarkan dan menjalankan aplikasi di Kluster Big Data.
- Virtualisasikan data dengan PolyBase. Data kueri dari sumber data SQL Server eksternal, Oracle, Teradata, MongoDB, dan ODBC generik dengan tabel eksternal.
- Memberikan ketersediaan tinggi untuk instans master SQL Server dan semua database dengan menggunakan teknologi grup ketersediaan AlwaysOn.
Bagian berikut ini menyediakan informasi selengkapnya tentang skenario ini.
Virtualisasi data
Dengan memanfaatkan PolyBase, SQL Server Kluster Big Data dapat mengkueri sumber data eksternal tanpa memindahkan atau menyalin data. SQL Server 2019 (15.x) memperkenalkan konektor baru ke sumber data, untuk informasi selengkapnya lihat Apa yang baru di PolyBase 2019?.
Data lake
Kluster big data SQL Server mencakup kumpulan penyimpanan HDFS yang dapat diskalakan. Ini dapat digunakan untuk menyimpan big data, berpotensi diserap dari beberapa sumber eksternal. Setelah big data disimpan dalam HDFS di kluster big data, Anda dapat menganalisis dan mengkueri data dan menggabungkannya dengan data relasional Anda.
AI terintegrasi dan Pembelajaran Mesin
SQL Server Kluster Big Data mengaktifkan tugas AI dan pembelajaran mesin pada data yang disimpan di kumpulan penyimpanan HDFS dan kumpulan data. Anda dapat menggunakan Spark serta alat AI bawaan dalam SQL Server menggunakan R, Python, Scala, atau Java.
Manajemen dan Pemantauan
Manajemen dan pemantauan disediakan melalui kombinasi alat baris perintah, API, portal, dan tampilan manajemen dinamis.
Anda dapat menggunakan Azure Data Studio untuk melakukan berbagai tugas pada kluster big data:
- Cuplikan bawaan untuk tugas manajemen umum.
- Kemampuan untuk menelusuri HDFS, mengunggah file, mempratinjau file, dan membuat direktori.
- Kemampuan untuk membuat, membuka, dan menjalankan notebook yang kompatibel dengan Jupyter.
- Wizard virtualisasi data untuk menyederhanakan pembuatan sumber data eksternal (diaktifkan oleh Ekstensi Virtualisasi Data).
Konsep Kubernetes
Kluster big data SQL Server adalah kluster kontainer Linux yang diorkestrasi oleh Kubernetes.
Kubernetes adalah orkestrator kontainer sumber terbuka, yang dapat menskalakan penyebaran kontainer sesuai kebutuhan. Tabel berikut mendefinisikan beberapa terminologi Kubernetes penting:
Istilah | Deskripsi |
---|---|
Kluster | Kluster Kubernetes adalah sekumpulan komputer, yang dikenal sebagai node. Satu simpul mengontrol kluster dan ditunjuk sebagai simpul master; simpul yang tersisa adalah simpul pekerja. Master Kubernetes bertanggung jawab untuk mendistribusikan pekerjaan antara pekerja, dan untuk memantau kesehatan kluster. |
Simpul | Simpul menjalankan aplikasi kontainer. Ini bisa berupa komputer fisik atau komputer virtual. Kluster Kubernetes dapat berisi campuran komputer fisik dan simpul komputer virtual. |
Pod | Pod adalah unit penyebaran atom Kubernetes. Pod adalah grup logis dari satu atau beberapa kontainer dan sumber daya terkait yang diperlukan untuk menjalankan aplikasi. Setiap pod berjalan pada sebuah node; sebuah simpul dapat menjalankan satu atau beberapa pod. Master Kubernetes secara otomatis menetapkan pod ke simpul dalam kluster. |
Dalam SQL Server Kluster Big Data, Kubernetes bertanggung jawab atas status kluster. Kubernetes membangun dan mengonfigurasi node kluster, menetapkan pod ke simpul, dan memantau kesehatan kluster.
Langkah berikutnya
Untuk informasi selengkapnya tentang menyebarkan SQL Server Kluster Big Data, lihat Mulai menggunakan SQL Server Kluster Big Data.
Kemudian, mulailah dengan memuat data dan menjalankan pekerjaan spark.
Pelajari lebih lanjut
- Lokakarya Arsitektur Kluster Big Data
- Kluster Big Data singkatnya
- TONTON: Pengantar Big Data Cluster di SQL Server 2019 | Virtualisasi, Kubernetes, dan Kontainer
Pelajari modul untuk teknologi terkait:
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk