Bagikan melalui


Cara memasang S3 untuk penjenjangan HDFS dalam kluster big data

Bagian berikut memberikan contoh cara mengonfigurasi tingkatan HDFS dengan sumber data Penyimpanan S3.

Penting

Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk SQL Server 2019 Kluster Big Data akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung sepenuhnya pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan Opsi big data di platform Microsoft SQL Server.

Prasyarat

  • Kluster big data yang disebarkan
  • Alat big data
    • azdata
    • kubectl
  • Membuat dan mengunggah data ke wadah S3
    • Unggah file CSV atau Parquet ke wadah S3 Anda. Ini adalah data HDFS eksternal yang akan dipasang ke HDFS di kluster big data.

Kunci akses

Mengatur variabel lingkungan untuk kredensial kunci akses

Buka perintah pada komputer klien yang dapat mengakses kluster big data Anda. Atur variabel lingkungan menggunakan format berikut. Kredensial harus berada dalam daftar yang dipisahkan koma. Perintah 'set' digunakan pada Windows. Jika Anda menggunakan Linux, gunakan 'ekspor' sebagai gantinya.

 set MOUNT_CREDENTIALS=fs.s3a.access.key=<Access Key ID of the key>,
 fs.s3a.secret.key=<Secret Access Key of the key>

Tip

Untuk informasi selengkapnya tentang cara membuat kunci akses S3, lihat Kunci akses S3.

Memasang penyimpanan HDFS jarak jauh

Sekarang setelah Anda menyiapkan file kredensial dengan kunci akses, Anda dapat mulai memasang. Langkah-langkah berikut memasang penyimpanan HDFS jarak jauh di S3 ke penyimpanan HDFS lokal kluster big data Anda.

  1. Gunakan kubectl untuk menemukan Alamat IP untuk layanan pengontrol-svc-eksternal titik akhir di kluster big data Anda. Cari External-IP.

    kubectl get svc controller-svc-external -n <your-big-data-cluster-name>
    
  2. Masuk dengan azdata menggunakan alamat IP eksternal titik akhir pengontrol dengan nama pengguna dan kata sandi kluster Anda:

    azdata login -e https://<IP-of-controller-svc-external>:30080/
    
  3. Atur variabel lingkungan MOUNT_CREDENTIALS mengikuti instruksi di atas

  4. Pasang penyimpanan HDFS jarak jauh di Azure menggunakan azdata bdc hdfs mount create. Ganti nilai tempat penampung sebelum menjalankan perintah berikut:

    azdata bdc hdfs mount create --remote-uri s3a://<S3 bucket name> --mount-path /mounts/<mount-name>
    

    Catatan

    Perintah mount create bersifat asinkron. Saat ini, tidak ada pesan yang menunjukkan apakah pemasangan berhasil. Lihat bagian status untuk memeriksa status pemasangan Anda.

Jika berhasil dipasang, Anda harus dapat mengkueri data HDFS dan menjalankan pekerjaan Spark terhadapnya. Ini akan muncul di HDFS untuk kluster big data Anda di lokasi yang ditentukan oleh --mount-path.

Mendapatkan status pemasangan

Untuk mencantumkan status semua pemasangan di kluster big data Anda, gunakan perintah berikut:

azdata bdc hdfs mount status

Untuk mencantumkan status pemasangan pada jalur tertentu di HDFS, gunakan perintah berikut:

azdata bdc hdfs mount status --mount-path <mount-path-in-hdfs>

Menyegarkan pemasangan

Contoh berikut me-refresh pemasangan.

azdata bdc hdfs mount refresh --mount-path <mount-path-in-hdfs>

Menghapus pemasangan

Untuk menghapus pemasangan, gunakan azdata bdc hdfs mount delete perintah , dan tentukan jalur pemasangan di HDFS:

azdata bdc hdfs mount delete --mount-path <mount-path-in-hdfs>