Mengonfigurasi tingkatan HDFS di SQL Server Kluster Big Data

Artikel
07/04/2024

Berlaku untuk: SQL Server 2019 (15.x)

HDFS Tiering menyediakan kemampuan untuk memasang sistem file eksternal yang kompatibel dengan HDFS di HDFS. Artikel ini menjelaskan cara mengonfigurasi tingkatan HDFS untuk Kluster Big Data SQL Server. Saat ini, kami mendukung koneksi ke Azure Data Lake Storage Gen2, dan Amazon S3.

Penting

Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk SQL Server 2019 Kluster Big Data akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung sepenuhnya pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan Opsi big data di platform Microsoft SQL Server.

Gambaran umum penjenjangan HDFS

Dengan penjenjangan, aplikasi dapat mengakses data dengan mulus di berbagai penyimpanan eksternal seolah-olah data berada di HDFS lokal. Pemasangan adalah operasi metadata, di mana metadata yang menjelaskan namespace pada sistem file eksternal disalin ke HDFS lokal Anda. Metadata ini mencakup informasi tentang direktori dan file eksternal bersama dengan izin dan ACL mereka. Data yang sesuai hanya disalin sesuai permintaan, ketika data itu sendiri diakses melalui misalnya kueri. Data sistem file eksternal sekarang dapat diakses dari kluster big data SQL Server. Anda dapat menjalankan pekerjaan Spark dan kueri SQL pada data ini dengan cara yang sama seperti Anda akan menjalankannya pada data lokal apa pun yang disimpan dalam HDFS pada kluster.

Video 7 menit ini memberikan gambaran umum tentang tingkatan HDFS:

penembolokan

Hari ini, secara default, 1% dari total penyimpanan HDFS akan dicadangkan untuk penembolokan data yang dipasang. Penembolokan adalah pengaturan global di seluruh pemasangan.

Catatan

HDFS Tiering adalah fitur yang dikembangkan oleh Microsoft, dan versi sebelumnya telah dirilis sebagai bagian dari distribusi Apache Hadoop 3.1. Untuk informasi selengkapnya, lihat https://issues.apache.org/jira/browse/HDFS-9806 untuk detailnya.

Bagian berikut memberikan contoh cara mengonfigurasi tingkatan HDFS dengan sumber data Azure Data Lake Storage Gen2.

Refresh

Tingkatan HDFS mendukung refresh. Refresh pemasangan yang ada untuk rekam jepret terbaru data jarak jauh.

Prasyarat

Kluster big data yang disebarkan
Alat big data
- azdata
- kubectl

Instruksi pemasangan

Kami mendukung menyambungkan ke Azure Data Lake Storage Gen2 dan Amazon S3. Petunjuk tentang cara memasang terhadap jenis penyimpanan ini dapat ditemukan di artikel berikut:

Masalah dan batasan yang diketahui

Daftar berikut ini menyediakan masalah yang diketahui dan batasan saat ini saat menggunakan tingkatan HDFS di SQL Server Kluster Big Data:

Jika pemasangan terjebak dalam keadaan untuk waktu yang CREATING lama, kemungkinan besar telah gagal. Dalam situasi ini, batalkan perintah dan hapus pemasangan jika perlu. Verifikasi bahwa parameter dan kredensial Anda sudah benar sebelum mencoba kembali.
Pemasangan tidak dapat dibuat pada direktori yang ada.
Pemasangan tidak dapat dibuat dalam pemasangan yang ada.
Jika salah satu leluhur dari titik pemasangan tidak ada, mereka akan dibuat dengan izin default ke r-xr-xr-x (555).
Pembuatan pemasangan dapat memakan waktu tergantung pada jumlah dan ukuran file yang dipasang. Selama proses ini, file di bawah pemasangan tidak terlihat oleh pengguna. Saat pemasangan dibuat, semua file akan ditambahkan ke jalur sementara, yang default ke /_temporary/_mounts/<mount-location>.
Perintah pembuatan pemasangan tidak sinkron. Setelah perintah dijalankan, status pemasangan dapat diperiksa untuk memahami status pemasangan.
Saat membuat pemasangan, argumen yang digunakan untuk --mount-path pada dasarnya adalah pengidentifikasi unik dari pemasangan. String yang sama (termasuk "/" pada akhirnya jika ada) harus digunakan dalam perintah berikutnya.
Dudukan bersifat baca-saja. Anda tidak dapat membuat direktori atau file apa pun di bawah pemasangan.
Kami tidak menyarankan pemasangan direktori dan file yang dapat berubah. Setelah pemasangan dibuat, setiap perubahan atau pembaruan pada lokasi jarak jauh tidak akan tercermin dalam pemasangan di HDFS. Jika perubahan terjadi di lokasi jarak jauh, Anda dapat memilih untuk menghapus dan membuat ulang pemasangan untuk mencerminkan status yang diperbarui.

Langkah berikutnya

Untuk informasi selengkapnya tentang Kluster Big Data SQL Server 2019, lihat Memperkenalkan Kluster Big Data SQL Server 2019.

Bagikan melalui