Tanya Jawab Umum SQL Server Kluster Big Data

Artikel ini menjawab pertanyaan umum tentang konsep, kemampuan, penyebaran, dukungan, dan alat Kluster Big Data SQL Server.

Praktik terbaik

Apa saja praktik terbaik yang direkomendasikan mengenai lokasi file?

Ada lebih sedikit fleksibilitas dalam hal ini dibandingkan dengan mengonfigurasi SQL Server pada mesin bare metal di Windows atau Linux. Di lingkungan Kubernetes, artefak ini diabstraksi dan harus portabel. Saat ini, ada 2 volume persisten (PV), untuk data dan log, disediakan per pod yang dapat dikonfigurasi. Untuk informasi selengkapnya, lihat Persistensi data dengan kluster big data SQL Server di Kubernetes.

Apakah saya perlu mengambil cadangan log transaksi di SQL Server Kluster Big Data?

Anda perlu melakukan pencadangan log hanya untuk database pengguna di instans master SQL Server (tergantung pada model pemulihan atau konfigurasi HA). Database kumpulan data hanya menggunakan model pemulihan SIMPLE. Hal yang sama berlaku untuk database DW* yang dibuat untuk PolyBase.

Bagaimana cara memantau apakah kueri terdistribusi benar-benar menggunakan kumpulan komputasi?

Anda dapat menggunakan DMV PolyBase yang ada yang ditingkatkan untuk skenario Kluster Big Data. Untuk informasi selengkapnya, lihat Memantau dan memecahkan masalah PolyBase.

Apakah mungkin untuk mengonfigurasi dan mengelola sumber daya Kluster Big Data secara langsung melalui kubectl ke Kubernetes API Server?

Meskipun Anda dapat mengubah beberapa pengaturan menggunakan API Kubernetes atau kubectl, itu tidak didukung atau disarankan. Anda harus menjalankan semua operasi manajemen Big Data Cluster melalui azdata.

Bagaimana cara mencadangkan data yang disimpan di HDFS?

Anda dapat menggunakan solusi apa pun yang memungkinkan rekam jepret penyimpanan tingkat perangkat keras atau menyalin/menyinkronkan melalui webHDFS. Anda juga dapat menggunakan azdata bdc hdfs cp, untuk informasi selengkapnya lihat azdata bdc hdfs.

Konsep dan kemampuan

Apakah ada cara untuk 'meluaskan skala' proc yang disimpan? Misalnya, menjalankannya pada kumpulan komputasi misalnya?

Tidak untuk saat ini. Salah satu opsinya adalah menyebarkan SQL Server dalam Grup Ketersediaan AlwaysOn. Anda kemudian dapat menggunakan replika sekunder yang dapat dibaca untuk menjalankan beberapa proses (misalnya: pelatihan/penilaian ml, aktivitas pemeliharaan, dll).

Bagaimana cara menskalakan pod secara dinamis dari Kumpulan?

Saat ini, ini bukan skenario yang didukung.

Apakah mungkin untuk mencadangkan tabel eksternal yang disimpan dalam kumpulan data?

Database dalam instans kumpulan data tidak memiliki metadata tentang tabel eksternal - ini seperti database pengguna apa pun. Anda dapat melakukan pencadangan/pemulihan, tetapi untuk menghindari hasil yang tidak konsisten, Anda harus memastikan metadata tabel eksternal dalam database metadata dalam instans SQL Master sinkron.

Apakah kumpulan data menyediakan sharding?

Kumpulan data adalah konsep tabel terdistribusi. Sharding biasanya dirujuk sebagai konsep OLTP - ini saat ini tidak didukung.

Kapan saya harus menggunakan kumpulan data atau kumpulan penyimpanan untuk penyimpanan data mentah?

Kumpulan istilah dicadangkan untuk menggambarkan kumpulan layanan atau aplikasi homogen. Misalnya, kumpulan data adalah sekumpulan komputasi dan penyimpanan SQL Server stateful dan kumpulan penyimpanan adalah sekumpulan layanan HDFS dan Spark. Master SQL Server adalah instans tunggal atau beberapa instans yang dapat dikonfigurasi dalam grup ketersediaan. Instans master SQL Server adalah instans SQL Server reguler di Linux dan Anda dapat menggunakan fitur apa pun yang tersedia di Linux di sana. Anda harus mulai terlebih dahulu dengan model data, entitas dan layanan/aplikasi yang terutama akan beroperasi pada entitas. Semua data tidak harus disimpan di satu tempat seperti SQL Server atau HDFS atau kumpulan data. Berdasarkan analisis data, ada kemungkinan Anda menyimpan sebagian besar data dalam HDFS, memproses data ke format yang lebih efisien, dan mengekspos ke layanan lain. Data yang tersisa akan disimpan dalam instans Master SQL.

Apakah Kluster Big Data SQL Server mendukung pustaka dan komputasi pembelajaran mendalam berbasis GPU (PyTorch, Keras, pustaka gambar tertentu, dll.)?

Saat ini, ini bukan skenario yang didukung.

Apakah ada cara untuk mengonfigurasi beberapa klaim volume untuk kumpulan?

Setiap pod hanya dapat memiliki dua volume (PV) yang bertahan. Anda dapat mengabstraksi volume di tingkat OS dan menggunakannya untuk penyimpanan persisten. Misalnya, Anda dapat membuat partisi RAID 0 OS menggunakan beberapa disk dan menggunakannya untuk volume persisten menggunakan penyedia penyimpanan lokal. Tidak ada cara untuk menggunakan lebih banyak PV per pod hari ini. PV dipetakan ke direktori di dalam kontainer dan ini diperbaiki. Untuk informasi selengkapnya tentang volume yang bertahan, lihat Volume Persisten dalam Dokumentasi Kubernetes.

Jika kita mengonfigurasi beberapa penyedia dan beberapa disk, apakah konfigurasi HDFS akan diperbarui dengan semua klaim volume data?

Anda dapat mengonfigurasi kumpulan penyimpanan untuk menggunakan kelas penyimpanan tertentu pada waktu penyebaran. Lihat Persistensi data dengan kluster big data SQL Server di Kubernetes.

Apa saja opsi untuk mengakses penyimpanan berbasis Ceph?

HDFS Tiering memungkinkan kami untuk berintegrasi secara transparan dengan protokol berbasis S3. Untuk informasi selengkapnya, se Cara memasang S3 untuk penjenjangan HDFS dalam kluster big data.

Apakah data dalam HDFS dipertahankan setelah peningkatan?

Ya, data akan dipertahankan karena didukung oleh volume persisten dan peningkatan hanya menyebarkan pod yang ada dengan gambar baru.

Bagaimana tingkatan HDFS mengontrol cache?

Dengan menggunakan penjenjangan HDFS, data di-cache dengan HDFS lokal yang berjalan di Kluster Big Data untuk memungkinkan pengguna melampirkan ke data lake besar tanpa harus memasukkan semua data. Ada jumlah ruang yang dapat dikonfigurasi yang dialokasikan untuk cache yang default menjadi 2% hari ini. Data dipertahankan dalam cache tetapi akan dihapus jika ambang batas tersebut terlampaui. Keamanan juga dipertahankan dari danau dan semua ACL diterapkan. Untuk informasi selengkapnya, lihat Mengonfigurasi tingkatan HDFS di Kluster Big Data.

Dapatkah kita menggunakan SQL Server 2019 untuk memvisualisasikan Azure Data Lake Store Gen2? Apakah integrasi ini akan mengurus izin tingkat folder?

Ya, Anda dapat memvirtualisasikan data yang disimpan di ADLS Gen2 menggunakan tingkatan HDFS. Setelah HDFS Tiering dipasang ke ADLS Gen2, pengguna mendapatkan kemampuan untuk mengkueri data HDFS dan menjalankan pekerjaan Spark terhadapnya. Penyimpanan yang dipasang akan muncul di HDFS untuk Kluster Big Data di lokasi yang ditentukan oleh --mount-path, dan pengguna dapat bekerja dengan jalur pemasangan tersebut seolah-olah bekerja dengan penyimpanan lokal. Lihat detail selengkapnya di sini: Mengonfigurasi tingkatan HDFS di Kluster Big Data. Untuk informasi selengkapnya tentang izin tingkat HDFS, lihat Mengelola izin HDFS untuk Kluster Big Data SQL Server.

Apa pengaturan ketersediaan tinggi dan/atau redundansi default untuk simpul master di Azure Kubernetes Service (AKS)?

Sarana kontrol AKS mendukung waktu aktif SLA menjamin ketersediaan 99,95%. Simpul kluster AKS (simpul pekerja) menggunakan Zona Ketersediaan, untuk informasi selengkapnya lihat Zona Ketersediaan AKS. Zona Ketersediaan (AZ) adalah penawaran ketersediaan tinggi dari Azure yang melindungi aplikasi dan data dari kegagalan pusat data. AKS mendukung ketersediaan 99,9% untuk kluster yang tidak menggunakan Zona Ketersediaan. Untuk informasi lebih lanjut, silakan merujuk ke SLA untuk Azure Kubernetes Service (AKS).

Apakah ada cara untuk menyimpan log YARN dan Riwayat Pekerjaan Spark?

Memulai ulang sparkhead tidak akan menyebabkan log hilang, log ini berada di HDFS. Anda masih akan melihat log riwayat Spark dari UI /gateway/default/sparkhistory. Untuk log kontainer Yarn, Anda tidak akan melihat aplikasi tersebut di Yarn UI karena yarn RM dimulai ulang, tetapi log yarn tersebut masih dalam HDFS dan Anda dapat menautkannya dari server riwayat Spark. Anda harus selalu menggunakan server riwayat Spark sebagai titik masuk untuk mendiagnosis aplikasi Spark mereka.

Apakah ada cara untuk menonaktifkan fitur penembolokan untuk kumpulan apa pun?

Secara default, 1% dari total penyimpanan HDFS akan dicadangkan untuk penembolokan data yang dipasang. Penembolokan adalah pengaturan global di seluruh pemasangan. Saat ini, tidak ada cara yang terekspos untuk mematikannya, namun, persentase dapat dikonfigurasi melalui pengaturan hdfs-site.dfs.provided.cache.capacity.fraction . Pengaturan ini mengontrol sebagian kecil dari total kapasitas dalam kluster yang dapat digunakan untuk menyimpan data cache dari penyimpanan yang disediakan. Untuk memodifikasi, lihat Cara mengonfigurasi pengaturan Kluster Big Data pasca penyebaran. Untuk informasi selengkapnya, lihat Mengonfigurasi tingkatan HDFS di Kluster Big Data SQL Server.

Bagaimana cara menjadwalkan prosedur tersimpan SQL di Kluster Big Data SQL Server 2019?

Anda dapat menggunakan layanan SQL Server Agent di instans master SQL Server dari kluster big data.

Apakah Kluster Big Data mendukung skenario data rangkaian waktu asli, seperti yang dihasilkan oleh kasus penggunaan IoT?

Saat ini InfluxDB dalam Kluster Big Data hanya digunakan untuk menyimpan data pemantauan yang dikumpulkan dalam Kluster Big Data dan tidak diekspos sebagai titik akhir eksternal.

Dapatkah InfluxDB yang disediakan digunakan sebagai database deret waktu untuk data pelanggan?

Saat ini InfluxDB dalam Kluster Big Data hanya digunakan untuk menyimpan data pemantauan yang dikumpulkan dalam Kluster Big Data dan tidak diekspos sebagai titik akhir eksternal.

Bagaimana cara menambahkan database ke grup ketersediaan?

Di Kluster Big Data, konfigurasi HA membuat grup ketersediaan yang disebut containedag yang juga mencakup database sistem yang direplikasi di seluruh replika. Database yang dibuat sebagai hasil dari alur kerja CREATE DATABASE atau RESTORE secara otomatis ditambahkan ke AG dan seeded yang terkandung. Sebelum SQL Server 2019 (15.0) CU2, Anda harus terhubung ke instans fisik di Kluster Big Data, memulihkan database dan menambahkannya ke containedag. Untuk informasi selengkapnya, lihat Menyebarkan SQL Server Big Data Cluster dengan ketersediaan tinggi.

Dapatkah saya mengonfigurasi sumber daya inti/memori untuk komponen yang berjalan dalam Kluster Big Data?

Saat ini, Anda dapat mengatur memori untuk instans SQL menggunakan sp_configure, seperti di SQL Server. Untuk inti, Anda dapat menggunakan ALTER SERVER CONFIGURATION SET PROCESS AFFINITY. Secara default, kontainer melihat semua CPU pada host dan kami tidak memiliki cara untuk menentukan batas sumber daya menggunakan Kubernetes saat ini. Untuk kumpulan komputasi/kumpulan data/kumpulan penyimpanan, konfigurasi dapat dilakukan menggunakan pernyataan EXECUTE AT DATA_SOURCE dari instans master SQL Server.

Apa yang terjadi ketika salah satu simpul pekerja Kubernetes dimatikan atau mengalami pemadaman?

Pod yang tidak didefinisikan ke node pekerja masing-masing akan dipindahkan ke node lain di kluster Kubernetes asalkan ada sumber daya yang memadai. Jika tidak, pod tidak akan tersedia menyebabkan pemadaman.

Apakah Kluster Big Data menyeimbangkan ulang secara otomatis jika saya menambahkan simpul ke kluster Kubernetes?

Tindakan ini hanya bergantung pada Kubernetes. Selain penempatan pod menggunakan label node, tidak ada mekanisme lain untuk mengontrol penyeimbangan ulang sumber daya Kubernetes dari dalam Kluster Big Data.

Apa konsekuensinya pada sumber daya Kluster Big Data saat saya menghapus simpul dari kluster Kubernetes?

Tindakan ini setara dengan simpul host yang dimatikan. Ada mekanisme untuk mengatur ini di Kubernetes menggunakan proses taint dan ini biasanya diikuti untuk peningkatan atau pemeliharaan simpul. Untuk informasi selengkapnya, lihat dokumentasi Kubernetes untuk Taint dan Toleransi.

Apakah Hadoop dibundel dengan Kluster Big Data menangani replikasi data?

Ya, faktor replikasi adalah salah satu konfigurasi yang tersedia untuk HDFS. Untuk informasi selengkapnya, lihat Mengonfigurasi Volume Persisten.

Apakah Kluster Big Data tumpang tindih dengan Synapse dalam hal fungsionalitas dan integrasi?

Ini tergantung pada kasus dan persyaratan penggunaan Anda. Kluster Big Data menyediakan area permukaan SQL Server lengkap selain Spark dan HDFS yang didukung Microsoft, lokal. Kluster Big Data memungkinkan pelanggan SQL Server untuk dapat berintegrasi ke dalam analitik/big data. Azure Synapse murni platform analitik yang menawarkan pengalaman kelas satu bagi pelanggan sebagai layanan terkelola di cloud, dengan fokus pada analitik peluasan skala. Azure Synapse tidak menargetkan beban kerja operasional sebagai bagian dari itu. Kluster Big Data bertujuan untuk menyediakan dalam skenario analitik database, jauh lebih dekat ke penyimpanan operasional.

Apakah SQL Server menggunakan HDFS sebagai penyimpanannya di SQL Server Kluster Big Data?

File database instans SQL Server tidak disimpan dalam HDFS, namun, SQL Server dapat mengkueri HDFS menggunakan antarmuka tabel eksternal.

Apa saja opsi distribusi yang tersedia untuk menyimpan data dalam tabel terdistribusi di setiap kumpulan data?

ROUND_ROBIN dan DIREPLIKASI. ROUND_ROBIN adalah default. HASH tidak tersedia.

Apakah Kluster Big Data menyertakan Spark Thrift Server? Jika demikian, apakah titik akhir ODBC terekspos untuk menyambungkan ke tabel Apache Hive Metastore?

Saat ini kami mengekspos Metastore Apache Hive (HMS) melalui protokol Thrift. Kami mendokumenkan protokol tetapi belum membuka titik akhir ODBC saat ini.  Anda dapat mengaksesnya melalui protokol HTTP Apache Hive Metastore, untuk informasi selengkapnya lihat Protokol HTTP Apache Hive Metastore.

Pemuatan Data

Apakah mungkin untuk menyerap data dari SnowFlake ke dalam Kluster Big Data?

SQL Server di Linux (berlaku untuk instans Master SQL Server di Kluster Big Data juga) tidak mendukung sumber data ODBC generik yang memungkinkan Anda menginstal driver ODBC pihak ke-3 (SnowFlake, DB2, PostgreSQL dll) dan mengkuerinya. Fitur ini saat ini hanya tersedia di SQL Server 2019 (15.0) di Windows. Di Kluster Big Data, Anda dapat membaca data melalui Spark menggunakan JDBC dan menyerap ke SQL Server menggunakan Koneksi or MSSQL Spark.

Apakah mungkin untuk menyerap data menggunakan sumber data ODBC kustom ke dalam Kluster Big Data?

SQL Server di Linux (berlaku untuk instans Master SQL Server di Kluster Big Data juga) tidak mendukung sumber data ODBC generik yang memungkinkan Anda menginstal driver ODBC pihak ke-3 (SnowFlake, DB2, PostgreSQL dll) dan mengkuerinya.

Bagaimana Anda dapat mengimpor data ke tabel yang sama menggunakan PolyBase CTAS alih-alih membuat tabel BARU setiap kali Anda menjalankan CTAS?

Anda dapat menggunakan INSERT..SELECT pendekatan untuk menghindari kebutuhan tabel baru setiap saat.

Apa keuntungan/pertimbangan untuk memuat data ke dalam Kumpulan data alih-alih langsung ke Instans Master sebagai tabel lokal?

Jika instans Master SQL Server Anda memiliki sumber daya yang cukup untuk memenuhi beban kerja analitik Anda, maka itu selalu merupakan opsi tercepat. Kumpulan data membantu jika Anda ingin membongkar eksekusi ke instans SQL lainnya untuk kueri terdistribusi Anda. Anda juga dapat menggunakan kumpulan data untuk menyerap data dari pelaksana Spark secara paralel dengan instans SQL yang berbeda - sehingga performa beban untuk himpunan data besar yang dihasilkan dari Hadoop Distributed File System (HDFS) biasanya akan lebih baik daripada masuk ke satu instans SQL Server. Namun, ini juga sulit untuk dikatakan karena Anda masih bisa memiliki beberapa tabel di SQL Server dan menyisipkan ke paralel jika Anda mau. Performa tergantung pada banyak faktor dan tidak ada satu panduan atau rekomendasi dalam hal itu.

Bagaimana cara memantau distribusi data dalam tabel kumpulan data?

Anda dapat menggunakan EXECUTE AT untuk mengkueri DMV seperti sys.dm_db_partition_stats untuk mendapatkan data di setiap tabel lokal.

Apakah curl satu-satunya opsi untuk mengunggah file ke HDFS?

Tidak, Anda dapat menggunakan azdata bdc hdfs cp. Jika Anda memberikan direktori akar, perintah akan secara rekursif menyalin seluruh pohon. Anda dapat menyalin masuk/keluar menggunakan perintah ini hanya dengan mengubah apa itu jalur sumber/target.

Bagaimana cara memuat data ke dalam kumpulan data?

Anda dapat menggunakan pustaka konektor MSSQL Spark untuk membantu penyerapan SQL dan kumpulan data. Untuk panduan terpandu, lihat Tutorial: Menyerap data ke dalam kumpulan data SQL Server dengan pekerjaan Spark.

Jika saya memiliki banyak data pada jalur jaringan (Windows), yang berisi banyak folder/sub-folder dan file teks, bagaimana cara mengunggahnya ke HDFS di kluster Big data?

Coba azdata bdc hdfs cp . Jika Anda memberikan direktori akar, perintah akan secara rekursif menyalin seluruh pohon. Anda dapat menyalin masuk/keluar menggunakan perintah ini hanya dengan mengubah apa itu jalur sumber/target.

Apakah mungkin untuk meningkatkan ukuran kumpulan penyimpanan pada kluster yang disebarkan?

Tidak ada azdata antarmuka untuk melakukan operasi ini saat ini. Anda memiliki opsi untuk mengubah ukuran PVC yang diinginkan secara manual. Mengubah ukuran adalah operasi yang kompleks, lihat Volume Persisten dalam Dokumentasi Kubernetes.

Virtualisasi data

Kapan saya harus menggunakan server tertaut vs PolyBase?

Lihat perbedaan utama dan kasus penggunaan di sini: Tanya Jawab Umum PolyBase.

Apa saja sumber virtualisasi data yang didukung?

Kluster Big Data mendukung virtualisasi data dari sumber ODBC – SQL Server, Oracle, MongoDB, Teradata, dll. Ini juga mendukung tingkatan penyimpanan jarak jauh seperti Azure Data Lake Store Gen2 dan penyimpanan yang kompatibel dengan S3, serta AWS S3A dan Azure Blob File System (ABFS).

Bisakah saya menggunakan PolyBase untuk memvirtualisasi data yang disimpan dalam database Azure SQL?

Ya, Anda dapat menggunakan PolyBase di Kluster Big Data untuk mengakses data di Azure SQL Database.

Mengapa pernyataan CREATE TABLE menyertakan kata kunci EXTERNAL? Apa yang dilakukan EXTERNAL secara berbeda dari CREATE TABLE standar?

Secara umum, kata kunci eksternal menyiratkan bahwa data tidak ada dalam instans SQL Server. Misalnya, Anda dapat menentukan tabel kumpulan penyimpanan di atas direktori HDFS. Data disimpan dalam file HDFS, bukan dalam file database Anda, tetapi tabel eksternal memberi Anda antarmuka untuk mengkueri file HDFS sebagai tabel relasional seolah-olah ada di database.
Konsep mengakses data eksternal ini disebut virtualisasi data, untuk informasi selengkapnya lihat Memperkenalkan virtualisasi data dengan PolyBase. Untuk tutorial tentang virtualisasi data dari file CSV di HDFS, lihat [Virtualisasi data CSV dari kumpulan penyimpanan Kluster Big Data.

Apa perbedaan antara virtualisasi data menggunakan SQL Server yang berjalan dalam SQL Server Kluster Big Data vs SQL Server?

Bagaimana cara mudah mengetahui bahwa tabel eksternal menunjuk ke kumpulan data vs kumpulan penyimpanan?

Anda dapat menentukan jenis tabel eksternal dengan melihat awalan lokasi sumber data, misalnya, sqlserver://, oracle://, sqlhdfs://, sqldatapool://.

Penyebaran

Penyebaran Kluster Big Data saya gagal. Bagaimana cara melihat apa yang salah?

Lihat Mengelola Kluster Big Data SQL Server dengan notebook Azure Data Studio. Lihat juga topik pemecahan masalah di Memecahkan Masalah Kubernetes.

Apakah ada daftar pasti dari semua yang dapat diatur dalam konfigurasi Kluster Big Data?

Semua penyesuaian yang dapat dilakukan pada waktu penyebaran didokumentasikan di sini di Mengonfigurasi pengaturan penyebaran untuk sumber daya dan layanan kluster. Untuk Spark, lihat Mengonfigurasi Apache Spark dan Apache Hadoop di Kluster Big Data.

Dapatkah kami menyebarkan SQL Server Analysis Services bersama dengan SQL Server Kluster Big Data?

Tidak. Secara khusus, SQL Server Analysis Services (SSAS) tidak didukung di SQL Server di Linux, jadi Anda harus menginstal instans SQL Server di server Windows untuk menjalankan SSAS.

Apakah Kluster Big Data didukung untuk penyebaran di EKS atau GKS?

Kluster Big Data dapat berjalan pada tumpukan Kubernetes apa pun berdasarkan versi 1.13 dan yang lebih tinggi. Namun, kami belum melakukan validasi spesifik Kluster Big Data pada EKS atau GKS.

Apa versi HDFS dan Spark yang berjalan dalam Kluster Big Data?

Spark adalah 2.4 dan HDFS adalah 3.2.1. Untuk detail lengkap tentang perangkat lunak sumber terbuka yang disertakan dalam Kluster Big Data, lihat Referensi perangkat lunak sumber terbuka.

Bagaimana cara menginstal pustaka dan paket di Spark?

Anda dapat menambahkan paket pada pengiriman pekerjaan menggunakan langkah-langkah dalam buku catatan sampel untuk menginstal paket di Spark.

Apakah saya perlu menggunakan SQL Server 2019 untuk menggunakan R dan Python untuk SQL Server Kluster Big Data?

Pembelajaran Mesin (ML) Services (R dan Python) tersedia mulai SQL Server 2017. Layanan ML juga tersedia di Kluster Big Data SQL Server. Untuk informasi selengkapnya, lihat Apa itu SQL Server Pembelajaran Mesin Services dengan Python dan R?.

Lisensi

Bagaimana cara kerja lisensi SQL Server untuk SQL Server Kluster Big Data?

Silakan merujuk ke panduan lisensi yang masuk ke jauh lebih detail, unduh PDF.
Untuk ringkasan, tonton video Lisensi SQL Server: Kluster Big Data | Data Terekspos.

Keamanan

Apakah Kluster Big Data mendukung ID Microsoft Entra ([sebelumnya Azure Active Directory](/entra/fundamentals/new-name))?

Tidak untuk saat ini.

Dapatkah kita terhubung ke master Kluster Big Data menggunakan autentikasi terintegrasi?

Ya, Anda dapat terhubung ke berbagai layanan Kluster Big Data menggunakan autentikasi terintegrasi (dengan Direktori Aktif). Untuk informasi selengkapnya, lihat Menyebarkan Kluster Big Data SQL Server dalam mode Direktori Aktif. Lihat juga Konsep keamanan untuk Kluster Big Data.

Bagaimana cara menambahkan pengguna baru untuk berbagai layanan dalam Kluster Big Data?

Dalam mode autentikasi dasar (nama pengguna/kata sandi), tidak ada dukungan untuk menambahkan beberapa pengguna untuk pengontrol atau gateway Knox/titik akhir HDFS. Satu-satunya pengguna yang didukung untuk titik akhir ini adalah root. Untuk SQL Server, Anda dapat menambahkan pengguna menggunakan Transact-SQL seperti yang Anda lakukan untuk instans SQL Server lainnya. Jika Anda menyebarkan Kluster Big Data dengan autentikasi AD untuk titik akhirnya, beberapa pengguna didukung. Lihat di sini untuk detail tentang cara mengonfigurasi grup AD pada waktu penyebaran. Untuk informasi selengkapnya, lihat Menyebarkan Kluster Big Data SQL Server dalam mode Direktori Aktif.

Agar Kluster Big Data menarik gambar kontainer terbaru, apakah ada rentang IP keluar yang dapat saya batasi?

Anda dapat meninjau alamat IP yang digunakan oleh berbagai layanan di Rentang IP Azure dan Tag Layanan – Cloud Publik. Perhatikan bahwa alamat IP ini berputar secara berkala.
Agar layanan pengontrol menarik gambar kontainer dari Microsoft Container Registry (MCR) Anda harus memberikan akses ke alamat IP yang ditentukan di bagian MicrosoftContainerRegistry . Opsi lain adalah menyiapkan Azure Container Registry privat dan mengonfigurasi Big Data Cluster untuk menarik dari sana. Dalam hal ini Anda harus mengekspos alamat IP yang ditentukan di bagian AzureContainerRegistry . Petunjuk tentang cara melakukan ini dan skrip disediakan dalam Melakukan penyebaran offline kluster big data SQL Server.

Dapatkah saya menyebarkan Kluster Big Data di lingkungan yang terpasang di udara?

Ya, untuk detail selengkapnya lihat Melakukan penyebaran offline kluster big data SQL Server.

Apakah fitur "enkripsi Azure Storage" secara default juga berlaku untuk kluster big data berbasis AKS?

Ini tergantung pada konfigurasi penyedia penyimpanan dinamis di Azure Kubernetes Service (AKS). Lihat di sini untuk detail selengkapnya: Praktik terbaik untuk penyimpanan dan pencadangan di Azure Kubernetes Service (AKS).

Dapatkah saya memutar kunci untuk enkripsi SQL Server dan HDFS di kluster Big Data?

Ya. Untuk informasi selengkapnya, lihat Versi kunci di Kluster Big Data.

Dapatkah saya memutar kata sandi objek Active Directory yang dibuat secara otomatis?

Ya, Anda dapat dengan mudah memutar kata sandi objek Autogenerated Active Directory dengan fitur baru yang diperkenalkan di SQL Server Kluster Big Data CU13. Untuk informasi selengkapnya, lihat Rotasi kata sandi AD.

Dukungan

Apakah Spark dan HDFS disebarkan dalam SQL Server Kluster Big Data didukung oleh Microsoft?

Ya, Microsoft mendukung semua komponen yang dikirim dalam Kluster Big Data.

Apa model dukungan untuk SparkML dan SQL Server ML Service?

Kebijakan dukungan Layanan ML SQL Server sama dengan SQL Server, kecuali bahwa setiap rilis utama dilengkapi dengan versi runtime baru. Pustaka SparkML sendiri adalah perangkat lunak sumber terbuka (OSS). Kami mengemas banyak komponen OSS di Kluster Big Data dan ini didukung oleh Microsoft.

Apakah platform yang didukung Red Hat Enterprise Linux 8 (RHEL8) untuk SQL Server Kluster Big Data?

Tidak untuk saat ini. Lihat di sini untuk konfigurasi yang diuji.

Alat

Apakah notebook tersedia di Azure Data Studio pada dasarnya jupyter notebook?

Ya, kernel Jupyter yang sama baru saja muncul di Azure Data Studio.

Apakah alat 'azdata' bersumber terbuka?

Tidak, azdata saat ini tidak sumber terbuka d.

Sumber daya pelatihan

Opsi pelatihan Kluster Big Data apa yang tersedia?