Question 1

Apa saja praktik terbaik yang direkomendasikan mengenai lokasi file?

Accepted Answer

Ada lebih sedikit fleksibilitas dalam hal ini dibandingkan dengan mengonfigurasi SQL Server pada mesin bare metal di Windows atau Linux. Di lingkungan Kubernetes, artefak ini diabstraksi dan harus portabel. Saat ini, ada 2 volume persisten (PV), untuk data dan log, disediakan per pod yang dapat dikonfigurasi. Untuk informasi selengkapnya, lihat Persistensi data dengan kluster big data SQL Server di Kubernetes.

Question 2

Apakah saya perlu mengambil cadangan log transaksi di SQL Server Kluster Big Data?

Accepted Answer

Anda perlu melakukan pencadangan log hanya untuk database pengguna di instans master SQL Server (tergantung pada model pemulihan atau konfigurasi HA). Database kumpulan data hanya menggunakan model pemulihan SIMPLE. Hal yang sama berlaku untuk database DW* yang dibuat untuk PolyBase.

Question 3

Bagaimana cara memantau apakah kueri terdistribusi benar-benar menggunakan kumpulan komputasi?

Accepted Answer

Anda dapat menggunakan DMV PolyBase yang ada yang ditingkatkan untuk skenario Kluster Big Data. Untuk informasi selengkapnya, lihat Memantau dan memecahkan masalah PolyBase.

Question 4

Apakah mungkin untuk mengonfigurasi dan mengelola sumber daya Kluster Big Data secara langsung melalui kubectl ke Kubernetes API Server?

Accepted Answer

Meskipun Anda dapat mengubah beberapa pengaturan menggunakan API Kubernetes atau kubectl, itu tidak didukung atau disarankan. Anda harus menjalankan semua operasi manajemen Big Data Cluster melalui azdata.

Question 5

Bagaimana cara mencadangkan data yang disimpan di HDFS?

Accepted Answer

Anda dapat menggunakan solusi apa pun yang memungkinkan rekam jepret penyimpanan tingkat perangkat keras atau menyalin/menyinkronkan melalui webHDFS. Anda juga dapat menggunakan azdata bdc hdfs cp, untuk informasi selengkapnya lihat azdata bdc hdfs.

Question 6

Apakah ada cara untuk 'meluaskan skala' proc yang disimpan? Misalnya, menjalankannya pada kumpulan komputasi misalnya?

Accepted Answer

Tidak untuk saat ini. Salah satu opsinya adalah menyebarkan SQL Server dalam Grup Ketersediaan AlwaysOn. Anda kemudian dapat menggunakan replika sekunder yang dapat dibaca untuk menjalankan beberapa proses (misalnya: pelatihan/penilaian ml, aktivitas pemeliharaan, dll).

Question 7

Bagaimana cara menskalakan pod secara dinamis dari Kumpulan?

Accepted Answer

Saat ini, ini bukan skenario yang didukung.

Question 8

Apakah mungkin untuk mencadangkan tabel eksternal yang disimpan dalam kumpulan data?

Accepted Answer

Database dalam instans kumpulan data tidak memiliki metadata tentang tabel eksternal - ini seperti database pengguna apa pun. Anda dapat melakukan pencadangan/pemulihan, tetapi untuk menghindari hasil yang tidak konsisten, Anda harus memastikan metadata tabel eksternal dalam database metadata dalam instans SQL Master sinkron.

Question 9

Apakah kumpulan data menyediakan sharding?

Accepted Answer

Kumpulan data adalah konsep tabel terdistribusi. Sharding biasanya dirujuk sebagai konsep OLTP - ini saat ini tidak didukung.

Question 10

Kapan saya harus menggunakan kumpulan data atau kumpulan penyimpanan untuk penyimpanan data mentah?

Accepted Answer

Kumpulan istilah dicadangkan untuk menggambarkan kumpulan layanan atau aplikasi homogen. Misalnya, kumpulan data adalah sekumpulan komputasi dan penyimpanan SQL Server stateful dan kumpulan penyimpanan adalah sekumpulan layanan HDFS dan Spark. Master SQL Server adalah instans tunggal atau beberapa instans yang dapat dikonfigurasi dalam grup ketersediaan. Instans master SQL Server adalah instans SQL Server reguler di Linux dan Anda dapat menggunakan fitur apa pun yang tersedia di Linux di sana. Anda harus mulai terlebih dahulu dengan model data, entitas dan layanan/aplikasi yang terutama akan beroperasi pada entitas. Semua data tidak harus disimpan di satu tempat seperti SQL Server atau HDFS atau kumpulan data. Berdasarkan analisis data, ada kemungkinan Anda menyimpan sebagian besar data dalam HDFS, memproses data ke format yang lebih efisien, dan mengekspos ke layanan lain. Data yang tersisa akan disimpan dalam instans Master SQL.

Question 11

Apakah Kluster Big Data SQL Server mendukung pustaka dan komputasi pembelajaran mendalam berbasis GPU (PyTorch, Keras, pustaka gambar tertentu, dll.)?

Accepted Answer

Saat ini, ini bukan skenario yang didukung.

Question 12

Apakah ada cara untuk mengonfigurasi beberapa klaim volume untuk kumpulan?

Accepted Answer

Setiap pod hanya dapat memiliki dua volume (PV) yang bertahan. Anda dapat mengabstraksi volume di tingkat OS dan menggunakannya untuk penyimpanan persisten. Misalnya, Anda dapat membuat partisi RAID 0 OS menggunakan beberapa disk dan menggunakannya untuk volume persisten menggunakan penyedia penyimpanan lokal. Tidak ada cara untuk menggunakan lebih banyak PV per pod hari ini. PV dipetakan ke direktori di dalam kontainer dan ini diperbaiki. Untuk informasi selengkapnya tentang volume yang bertahan, lihat Volume Persisten dalam Dokumentasi Kubernetes.

Question 13

Jika kita mengonfigurasi beberapa penyedia dan beberapa disk, apakah konfigurasi HDFS akan diperbarui dengan semua klaim volume data?

Accepted Answer

Anda dapat mengonfigurasi kumpulan penyimpanan untuk menggunakan kelas penyimpanan tertentu pada waktu penyebaran. Lihat Persistensi data dengan kluster big data SQL Server di Kubernetes.

Question 14

Apa saja opsi untuk mengakses penyimpanan berbasis Ceph?

Accepted Answer

HDFS Tiering memungkinkan kami untuk berintegrasi secara transparan dengan protokol berbasis S3. Untuk informasi selengkapnya, se Cara memasang S3 untuk penjenjangan HDFS dalam kluster big data.

Question 15

Apakah data dalam HDFS dipertahankan setelah peningkatan?

Accepted Answer

Ya, data akan dipertahankan karena didukung oleh volume persisten dan peningkatan hanya menyebarkan pod yang ada dengan gambar baru.

Question 16

Bagaimana tingkatan HDFS mengontrol cache?

Accepted Answer

Dengan menggunakan penjenjangan HDFS, data di-cache dengan HDFS lokal yang berjalan di Kluster Big Data untuk memungkinkan pengguna melampirkan ke data lake besar tanpa harus memasukkan semua data. Ada jumlah ruang yang dapat dikonfigurasi yang dialokasikan untuk cache yang default menjadi 2% hari ini. Data dipertahankan dalam cache tetapi akan dihapus jika ambang batas tersebut terlampaui. Keamanan juga dipertahankan dari danau dan semua ACL diterapkan. Untuk informasi selengkapnya, lihat Mengonfigurasi tingkatan HDFS di Kluster Big Data.

Question 17

Dapatkah kita menggunakan SQL Server 2019 untuk memvisualisasikan Azure Data Lake Store Gen2? Apakah integrasi ini akan mengurus izin tingkat folder?

Accepted Answer

Ya, Anda dapat memvirtualisasikan data yang disimpan di ADLS Gen2 menggunakan tingkatan HDFS. Setelah HDFS Tiering dipasang ke ADLS Gen2, pengguna mendapatkan kemampuan untuk mengkueri data HDFS dan menjalankan pekerjaan Spark terhadapnya. Penyimpanan yang dipasang akan muncul di HDFS untuk Kluster Big Data di lokasi yang ditentukan oleh --mount-path, dan pengguna dapat bekerja dengan jalur pemasangan tersebut seolah-olah bekerja dengan penyimpanan lokal. Lihat detail selengkapnya di sini: Mengonfigurasi tingkatan HDFS di Kluster Big Data. Untuk informasi selengkapnya tentang izin tingkat HDFS, lihat Mengelola izin HDFS untuk Kluster Big Data SQL Server.

Question 18

Apa pengaturan ketersediaan tinggi dan/atau redundansi default untuk simpul master di Azure Kubernetes Service (AKS)?

Accepted Answer

Sarana kontrol AKS mendukung waktu aktif SLA menjamin ketersediaan 99,95%. Simpul kluster AKS (simpul pekerja) menggunakan Zona Ketersediaan, untuk informasi selengkapnya lihat Zona Ketersediaan AKS. Zona Ketersediaan (AZ) adalah penawaran ketersediaan tinggi dari Azure yang melindungi aplikasi dan data dari kegagalan pusat data. AKS mendukung ketersediaan 99,9% untuk kluster yang tidak menggunakan Zona Ketersediaan. Untuk informasi lebih lanjut, silakan merujuk ke SLA untuk Azure Kubernetes Service (AKS).

Question 19

Apakah ada cara untuk menyimpan log YARN dan Riwayat Pekerjaan Spark?

Accepted Answer

Memulai ulang sparkhead tidak akan menyebabkan log hilang, log ini berada di HDFS. Anda masih akan melihat log riwayat Spark dari UI /gateway/default/sparkhistory. Untuk log kontainer Yarn, Anda tidak akan melihat aplikasi tersebut di Yarn UI karena yarn RM dimulai ulang, tetapi log yarn tersebut masih dalam HDFS dan Anda dapat menautkannya dari server riwayat Spark. Anda harus selalu menggunakan server riwayat Spark sebagai titik masuk untuk mendiagnosis aplikasi Spark mereka.

Question 20

Apakah ada cara untuk menonaktifkan fitur penembolokan untuk kumpulan apa pun?

Accepted Answer

Secara default, 1% dari total penyimpanan HDFS akan dicadangkan untuk penembolokan data yang dipasang. Penembolokan adalah pengaturan global di seluruh pemasangan. Saat ini, tidak ada cara yang terekspos untuk mematikannya, namun, persentase dapat dikonfigurasi melalui pengaturan hdfs-site.dfs.provided.cache.capacity.fraction . Pengaturan ini mengontrol sebagian kecil dari total kapasitas dalam kluster yang dapat digunakan untuk menyimpan data cache dari penyimpanan yang disediakan. Untuk memodifikasi, lihat Cara mengonfigurasi pengaturan Kluster Big Data pasca penyebaran. Untuk informasi selengkapnya, lihat Mengonfigurasi tingkatan HDFS di Kluster Big Data SQL Server.

Question 21

Bagaimana cara menjadwalkan prosedur tersimpan SQL di Kluster Big Data SQL Server 2019?

Accepted Answer

Anda dapat menggunakan layanan SQL Server Agent di instans master SQL Server dari kluster big data.

Question 22

Apakah Kluster Big Data mendukung skenario data rangkaian waktu asli, seperti yang dihasilkan oleh kasus penggunaan IoT?

Accepted Answer

Saat ini InfluxDB dalam Kluster Big Data hanya digunakan untuk menyimpan data pemantauan yang dikumpulkan dalam Kluster Big Data dan tidak diekspos sebagai titik akhir eksternal.

Question 23

Dapatkah InfluxDB yang disediakan digunakan sebagai database deret waktu untuk data pelanggan?

Accepted Answer

Saat ini InfluxDB dalam Kluster Big Data hanya digunakan untuk menyimpan data pemantauan yang dikumpulkan dalam Kluster Big Data dan tidak diekspos sebagai titik akhir eksternal.

Question 24

Bagaimana cara menambahkan database ke grup ketersediaan?

Accepted Answer

Di Kluster Big Data, konfigurasi HA membuat grup ketersediaan yang disebut containedag yang juga mencakup database sistem yang direplikasi di seluruh replika. Database yang dibuat sebagai hasil dari alur kerja CREATE DATABASE atau RESTORE secara otomatis ditambahkan ke AG dan seeded yang terkandung. Sebelum SQL Server 2019 (15.0) CU2, Anda harus terhubung ke instans fisik di Kluster Big Data, memulihkan database dan menambahkannya ke containedag. Untuk informasi selengkapnya, lihat Menyebarkan SQL Server Big Data Cluster dengan ketersediaan tinggi.

Question 25

Dapatkah saya mengonfigurasi sumber daya inti/memori untuk komponen yang berjalan dalam Kluster Big Data?

Accepted Answer

Saat ini, Anda dapat mengatur memori untuk instans SQL menggunakan sp_configure, seperti di SQL Server. Untuk inti, Anda dapat menggunakan ALTER SERVER CONFIGURATION SET PROCESS AFFINITY. Secara default, kontainer melihat semua CPU pada host dan kami tidak memiliki cara untuk menentukan batas sumber daya menggunakan Kubernetes saat ini. Untuk kumpulan komputasi/kumpulan data/kumpulan penyimpanan, konfigurasi dapat dilakukan menggunakan pernyataan EXECUTE AT DATA_SOURCE dari instans master SQL Server.

Question 26

Apa yang terjadi ketika salah satu simpul pekerja Kubernetes dimatikan atau mengalami pemadaman?

Accepted Answer

Pod yang tidak didefinisikan ke node pekerja masing-masing akan dipindahkan ke node lain di kluster Kubernetes asalkan ada sumber daya yang memadai. Jika tidak, pod tidak akan tersedia menyebabkan pemadaman.

Question 27

Apakah Kluster Big Data menyeimbangkan ulang secara otomatis jika saya menambahkan simpul ke kluster Kubernetes?

Accepted Answer

Tindakan ini hanya bergantung pada Kubernetes. Selain penempatan pod menggunakan label node, tidak ada mekanisme lain untuk mengontrol penyeimbangan ulang sumber daya Kubernetes dari dalam Kluster Big Data.

Question 28

Apa konsekuensinya pada sumber daya Kluster Big Data saat saya menghapus simpul dari kluster Kubernetes?

Accepted Answer

Tindakan ini setara dengan simpul host yang dimatikan. Ada mekanisme untuk mengatur ini di Kubernetes menggunakan proses taint dan ini biasanya diikuti untuk peningkatan atau pemeliharaan simpul. Untuk informasi selengkapnya, lihat dokumentasi Kubernetes untuk Taint dan Toleransi.

Question 29

Apakah Hadoop dibundel dengan Kluster Big Data menangani replikasi data?

Accepted Answer

Ya, faktor replikasi adalah salah satu konfigurasi yang tersedia untuk HDFS. Untuk informasi selengkapnya, lihat Mengonfigurasi Volume Persisten.

Question 30

Apakah Kluster Big Data tumpang tindih dengan Synapse dalam hal fungsionalitas dan integrasi?

Accepted Answer

Ini tergantung pada kasus dan persyaratan penggunaan Anda. Kluster Big Data menyediakan area permukaan SQL Server lengkap selain Spark dan HDFS yang didukung Microsoft, lokal. Kluster Big Data memungkinkan pelanggan SQL Server untuk dapat berintegrasi ke dalam analitik/big data. Azure Synapse murni platform analitik yang menawarkan pengalaman kelas satu bagi pelanggan sebagai layanan terkelola di cloud, dengan fokus pada analitik peluasan skala. Azure Synapse tidak menargetkan beban kerja operasional sebagai bagian dari itu. Kluster Big Data bertujuan untuk menyediakan dalam skenario analitik database, jauh lebih dekat ke penyimpanan operasional.

Question 31

Apakah SQL Server menggunakan HDFS sebagai penyimpanannya di SQL Server Kluster Big Data?

Accepted Answer

File database instans SQL Server tidak disimpan dalam HDFS, namun, SQL Server dapat mengkueri HDFS menggunakan antarmuka tabel eksternal.

Question 32

Apa saja opsi distribusi yang tersedia untuk menyimpan data dalam tabel terdistribusi di setiap kumpulan data?

Accepted Answer

ROUND_ROBIN dan DIREPLIKASI. ROUND_ROBIN adalah default. HASH tidak tersedia.

Question 33

Apakah Kluster Big Data menyertakan Spark Thrift Server? Jika demikian, apakah titik akhir ODBC terekspos untuk menyambungkan ke tabel Apache Hive Metastore?

Accepted Answer

Saat ini kami mengekspos Metastore Apache Hive (HMS) melalui protokol Thrift. Kami mendokumenkan protokol tetapi belum membuka titik akhir ODBC saat ini. Anda dapat mengaksesnya melalui protokol HTTP Apache Hive Metastore, untuk informasi selengkapnya lihat Protokol HTTP Apache Hive Metastore.

Question 34

Apakah mungkin untuk menyerap data dari SnowFlake ke dalam Kluster Big Data?

Accepted Answer

SQL Server di Linux (berlaku untuk instans Master SQL Server di Kluster Big Data juga) tidak mendukung sumber data ODBC generik yang memungkinkan Anda menginstal driver ODBC pihak ke-3 (SnowFlake, DB2, PostgreSQL dll) dan mengkuerinya. Fitur ini saat ini hanya tersedia di SQL Server 2019 (15.0) di Windows. Di Kluster Big Data, Anda dapat membaca data melalui Spark menggunakan JDBC dan menyerap ke SQL Server menggunakan Koneksi or MSSQL Spark.

Question 35

Apakah mungkin untuk menyerap data menggunakan sumber data ODBC kustom ke dalam Kluster Big Data?

Accepted Answer

SQL Server di Linux (berlaku untuk instans Master SQL Server di Kluster Big Data juga) tidak mendukung sumber data ODBC generik yang memungkinkan Anda menginstal driver ODBC pihak ke-3 (SnowFlake, DB2, PostgreSQL dll) dan mengkuerinya.

Question 36

Bagaimana Anda dapat mengimpor data ke tabel yang sama menggunakan PolyBase CTAS alih-alih membuat tabel BARU setiap kali Anda menjalankan CTAS?

Accepted Answer

Anda dapat menggunakan INSERT..SELECT pendekatan untuk menghindari kebutuhan tabel baru setiap saat.

Question 37

Apa keuntungan/pertimbangan untuk memuat data ke dalam Kumpulan data alih-alih langsung ke Instans Master sebagai tabel lokal?

Accepted Answer

Jika instans Master SQL Server Anda memiliki sumber daya yang cukup untuk memenuhi beban kerja analitik Anda, maka itu selalu merupakan opsi tercepat. Kumpulan data membantu jika Anda ingin membongkar eksekusi ke instans SQL lainnya untuk kueri terdistribusi Anda. Anda juga dapat menggunakan kumpulan data untuk menyerap data dari pelaksana Spark secara paralel dengan instans SQL yang berbeda - sehingga performa beban untuk himpunan data besar yang dihasilkan dari Hadoop Distributed File System (HDFS) biasanya akan lebih baik daripada masuk ke satu instans SQL Server. Namun, ini juga sulit untuk dikatakan karena Anda masih bisa memiliki beberapa tabel di SQL Server dan menyisipkan ke paralel jika Anda mau. Performa tergantung pada banyak faktor dan tidak ada satu panduan atau rekomendasi dalam hal itu.

Question 38

Bagaimana cara memantau distribusi data dalam tabel kumpulan data?

Accepted Answer

Anda dapat menggunakan EXECUTE AT untuk mengkueri DMV seperti sys.dm_db_partition_stats untuk mendapatkan data di setiap tabel lokal.

Question 39

Apakah curl satu-satunya opsi untuk mengunggah file ke HDFS?

Accepted Answer

Tidak, Anda dapat menggunakan azdata bdc hdfs cp. Jika Anda memberikan direktori akar, perintah akan secara rekursif menyalin seluruh pohon. Anda dapat menyalin masuk/keluar menggunakan perintah ini hanya dengan mengubah apa itu jalur sumber/target.

Question 40

Bagaimana cara memuat data ke dalam kumpulan data?

Accepted Answer

Anda dapat menggunakan pustaka konektor MSSQL Spark untuk membantu penyerapan SQL dan kumpulan data. Untuk panduan terpandu, lihat Tutorial: Menyerap data ke dalam kumpulan data SQL Server dengan pekerjaan Spark.

Question 41

Jika saya memiliki banyak data pada jalur jaringan (Windows), yang berisi banyak folder/sub-folder dan file teks, bagaimana cara mengunggahnya ke HDFS di kluster Big data?

Accepted Answer

Coba azdata bdc hdfs cp . Jika Anda memberikan direktori akar, perintah akan secara rekursif menyalin seluruh pohon. Anda dapat menyalin masuk/keluar menggunakan perintah ini hanya dengan mengubah apa itu jalur sumber/target.

Question 42

Apakah mungkin untuk meningkatkan ukuran kumpulan penyimpanan pada kluster yang disebarkan?

Accepted Answer

Tidak ada azdata antarmuka untuk melakukan operasi ini saat ini. Anda memiliki opsi untuk mengubah ukuran PVC yang diinginkan secara manual. Mengubah ukuran adalah operasi yang kompleks, lihat Volume Persisten dalam Dokumentasi Kubernetes.

Question 43

Kapan saya harus menggunakan server tertaut vs PolyBase?

Accepted Answer

Lihat perbedaan utama dan kasus penggunaan di sini: Tanya Jawab Umum PolyBase.

Question 44

Apa saja sumber virtualisasi data yang didukung?

Accepted Answer

Kluster Big Data mendukung virtualisasi data dari sumber ODBC – SQL Server, Oracle, MongoDB, Teradata, dll. Ini juga mendukung tingkatan penyimpanan jarak jauh seperti Azure Data Lake Store Gen2 dan penyimpanan yang kompatibel dengan S3, serta AWS S3A dan Azure Blob File System (ABFS).

Question 45

Bisakah saya menggunakan PolyBase untuk memvirtualisasi data yang disimpan dalam database Azure SQL?

Accepted Answer

Ya, Anda dapat menggunakan PolyBase di Kluster Big Data untuk mengakses data di Azure SQL Database.

Question 46

Mengapa pernyataan CREATE TABLE menyertakan kata kunci EXTERNAL? Apa yang dilakukan EXTERNAL secara berbeda dari CREATE TABLE standar?

Accepted Answer

Secara umum, kata kunci eksternal menyiratkan bahwa data tidak ada dalam instans SQL Server. Misalnya, Anda dapat menentukan tabel kumpulan penyimpanan di atas direktori HDFS. Data disimpan dalam file HDFS, bukan dalam file database Anda, tetapi tabel eksternal memberi Anda antarmuka untuk mengkueri file HDFS sebagai tabel relasional seolah-olah ada di database.
Konsep mengakses data eksternal ini disebut virtualisasi data, untuk informasi selengkapnya lihat Memperkenalkan virtualisasi data dengan PolyBase. Untuk tutorial tentang virtualisasi data dari file CSV di HDFS, lihat [Virtualisasi data CSV dari kumpulan penyimpanan Kluster Big Data.

Question 47

Apa perbedaan antara virtualisasi data menggunakan SQL Server yang berjalan dalam SQL Server Kluster Big Data vs SQL Server?

Accepted Answer

Untuk perbandingan, lihat PolyBase di Kluster Big Data vs. PolyBase dalam instans mandiri.

Question 48

Bagaimana cara mudah mengetahui bahwa tabel eksternal menunjuk ke kumpulan data vs kumpulan penyimpanan?

Accepted Answer

Anda dapat menentukan jenis tabel eksternal dengan melihat awalan lokasi sumber data, misalnya, sqlserver://, oracle://, sqlhdfs://, sqldatapool://.

Question 49

Penyebaran Kluster Big Data saya gagal. Bagaimana cara melihat apa yang salah?

Accepted Answer

Lihat Mengelola Kluster Big Data SQL Server dengan notebook Azure Data Studio. Lihat juga topik pemecahan masalah di Memecahkan Masalah Kubernetes.

Question 50

Apakah ada daftar pasti dari semua yang dapat diatur dalam konfigurasi Kluster Big Data?

Accepted Answer

Semua penyesuaian yang dapat dilakukan pada waktu penyebaran didokumentasikan di sini di Mengonfigurasi pengaturan penyebaran untuk sumber daya dan layanan kluster. Untuk Spark, lihat Mengonfigurasi Apache Spark dan Apache Hadoop di Kluster Big Data.

Question 51

Dapatkah kami menyebarkan SQL Server Analysis Services bersama dengan SQL Server Kluster Big Data?

Accepted Answer

Tidak. Secara khusus, SQL Server Analysis Services (SSAS) tidak didukung di SQL Server di Linux, jadi Anda harus menginstal instans SQL Server di server Windows untuk menjalankan SSAS.

Question 52

Apakah Kluster Big Data didukung untuk penyebaran di EKS atau GKS?

Accepted Answer

Kluster Big Data dapat berjalan pada tumpukan Kubernetes apa pun berdasarkan versi 1.13 dan yang lebih tinggi. Namun, kami belum melakukan validasi spesifik Kluster Big Data pada EKS atau GKS.

Question 53

Apa versi HDFS dan Spark yang berjalan dalam Kluster Big Data?

Accepted Answer

Spark adalah 2.4 dan HDFS adalah 3.2.1. Untuk detail lengkap tentang perangkat lunak sumber terbuka yang disertakan dalam Kluster Big Data, lihat Referensi perangkat lunak sumber terbuka.

Question 54

Bagaimana cara menginstal pustaka dan paket di Spark?

Accepted Answer

Anda dapat menambahkan paket pada pengiriman pekerjaan menggunakan langkah-langkah dalam buku catatan sampel untuk menginstal paket di Spark.

Question 55

Apakah saya perlu menggunakan SQL Server 2019 untuk menggunakan R dan Python untuk SQL Server Kluster Big Data?

Accepted Answer

Pembelajaran Mesin (ML) Services (R dan Python) tersedia mulai SQL Server 2017. Layanan ML juga tersedia di Kluster Big Data SQL Server. Untuk informasi selengkapnya, lihat Apa itu SQL Server Pembelajaran Mesin Services dengan Python dan R?.

Question 56

Bagaimana cara kerja lisensi SQL Server untuk SQL Server Kluster Big Data?

Accepted Answer

Silakan merujuk ke panduan lisensi yang masuk ke jauh lebih detail, unduh PDF.
Untuk ringkasan, tonton video Lisensi SQL Server: Kluster Big Data | Data Terekspos.

Question 57

Apakah Kluster Big Data mendukung ID Microsoft Entra ([sebelumnya Azure Active Directory](/entra/fundamentals/new-name))?

Accepted Answer

Tidak untuk saat ini.

Question 58

Dapatkah kita terhubung ke master Kluster Big Data menggunakan autentikasi terintegrasi?

Accepted Answer

Ya, Anda dapat terhubung ke berbagai layanan Kluster Big Data menggunakan autentikasi terintegrasi (dengan Direktori Aktif). Untuk informasi selengkapnya, lihat Menyebarkan Kluster Big Data SQL Server dalam mode Direktori Aktif. Lihat juga Konsep keamanan untuk Kluster Big Data.

Question 59

Bagaimana cara menambahkan pengguna baru untuk berbagai layanan dalam Kluster Big Data?

Accepted Answer

Dalam mode autentikasi dasar (nama pengguna/kata sandi), tidak ada dukungan untuk menambahkan beberapa pengguna untuk pengontrol atau gateway Knox/titik akhir HDFS. Satu-satunya pengguna yang didukung untuk titik akhir ini adalah root. Untuk SQL Server, Anda dapat menambahkan pengguna menggunakan Transact-SQL seperti yang Anda lakukan untuk instans SQL Server lainnya. Jika Anda menyebarkan Kluster Big Data dengan autentikasi AD untuk titik akhirnya, beberapa pengguna didukung. Lihat di sini untuk detail tentang cara mengonfigurasi grup AD pada waktu penyebaran. Untuk informasi selengkapnya, lihat Menyebarkan Kluster Big Data SQL Server dalam mode Direktori Aktif.

Question 60

Agar Kluster Big Data menarik gambar kontainer terbaru, apakah ada rentang IP keluar yang dapat saya batasi?

Accepted Answer

Anda dapat meninjau alamat IP yang digunakan oleh berbagai layanan di Rentang IP Azure dan Tag Layanan – Cloud Publik. Perhatikan bahwa alamat IP ini berputar secara berkala.
Agar layanan pengontrol menarik gambar kontainer dari Microsoft Container Registry (MCR) Anda harus memberikan akses ke alamat IP yang ditentukan di bagian MicrosoftContainerRegistry . Opsi lain adalah menyiapkan Azure Container Registry privat dan mengonfigurasi Big Data Cluster untuk menarik dari sana. Dalam hal ini Anda harus mengekspos alamat IP yang ditentukan di bagian AzureContainerRegistry . Petunjuk tentang cara melakukan ini dan skrip disediakan dalam Melakukan penyebaran offline kluster big data SQL Server.

Question 61

Dapatkah saya menyebarkan Kluster Big Data di lingkungan yang terpasang di udara?

Accepted Answer

Ya, untuk detail selengkapnya lihat Melakukan penyebaran offline kluster big data SQL Server.

Question 62

Apakah fitur "enkripsi Azure Storage" secara default juga berlaku untuk kluster big data berbasis AKS?

Accepted Answer

Ini tergantung pada konfigurasi penyedia penyimpanan dinamis di Azure Kubernetes Service (AKS). Lihat di sini untuk detail selengkapnya: Praktik terbaik untuk penyimpanan dan pencadangan di Azure Kubernetes Service (AKS).

Question 63

Dapatkah saya memutar kunci untuk enkripsi SQL Server dan HDFS di kluster Big Data?

Accepted Answer

Ya. Untuk informasi selengkapnya, lihat Versi kunci di Kluster Big Data.

Question 64

Dapatkah saya memutar kata sandi objek Active Directory yang dibuat secara otomatis?

Accepted Answer

Ya, Anda dapat dengan mudah memutar kata sandi objek Autogenerated Active Directory dengan fitur baru yang diperkenalkan di SQL Server Kluster Big Data CU13. Untuk informasi selengkapnya, lihat Rotasi kata sandi AD.

Bagikan melalui

Tanya Jawab Umum SQL Server Kluster Big Data

Praktik terbaik